277 68 9MB
German Pages 716 Year 2013
Rainer Kuhlen, Wolfgang Semar und Dietmar Strauch (Hrsg.) Grundlagen der praktischen Information und Dokumentation
Grundlagen der praktischen Information und Dokumentation Handbuch zur Einführung in die Informationswissenschaft und -praxis Herausgegeben von Rainer Kuhlen, Wolfgang Semar und Dietmar Strauch Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried
6., völlig neu gefasste Ausgabe
ISBN 978-3-11-025822-6 e-ISBN 978-3-11-025826-4 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2013 Walter de Gruyter GmbH , Berlin/Boston Satz: Lisa Vanovitch, Progris Berlin Druck und Bindung: Hubert GmbH & Co. KG, Göttingen Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com
für Thomas Seeger Mitherausgeber, Informationswissenschaftler, Freund
Vorwort der Herausgeber Die „Grundlagen der praktischen Information und Dokumentation“ erschienen erstmals 1972. Sie wurden von Beginn an das Standardwerk nicht zuletzt für die entsprechenden Ausbildungsgänge in deutschsprachigen Ländern. Die ersten Herausgeber waren Klaus Laisiepen, Ernst Lutterbeck und Karl-Heinrich Meyer-Uhlenried. Ab der dritten Ausgabe haben die Herausgeber in Teilen immer wieder gewechselt. Auch bei der jetzigen Ausgabe hat es einen Wechsel gegeben. Thomas Seeger, seit der 3. Ausgabe dabei, ist 2006 nach langer Krankheit verstorben. Wir widmen ihm in dankbarer Erinnerung diese 6. Ausgabe. Als neuer Herausgeber konnte Wolfgang Semar (HTW Chur) gewonnen werden. Die „Grundlagen“ hießen lange nach den ersten Herausgebern LaiLuMu. Vielleicht bleibt es für viele auch dabei. Wir haben seit der 5. Ausgabe (nach den Initialen der neuen Herausgeber) die Abkürzung KSS vorgeschlagen. 2004 war KSS-5 mit 73 Artikeln erschienen. Natürlich war schon zu dieser Zeit das Internet nicht mehr aus der Informationswelt wegzudenken; aber die elektronische Welt der Fachinformation war noch weitgehend die der Online-Datenbanken. Mit Web 2.0 und den damit verbundenen Diensten kann der Gegenstandsbereich der Informationswissenschaft und -praxis kaum länger als Fachinformation eingegrenzt werden. Information war immer schon ubiquitär – in allen Lebensbereichen allgegenwärtig. Aber dieses „allgegenwärtig“ hat in den elektronischen Räumen des Internet eine ganz neue Dimension gewonnen. Trotzdem beziehen sich die „Grundlagen“ weiterhin in erster Linie auf professionelle, wissenschaftlich fundierte Informationsarbeit. Nicht alles, was Information betrifft, kann und soll hier behandelt werden. Die jetzige 6. Ausgabe ist erneut völlig neu gefasst und trägt der raschen Entwicklung des Internet und des Fachgebiets Rechnung. Nur noch 11 AutorInnen aus KSS-5 sind in der jetzigen Ausgabe vertreten. KSS-6 hat jetzt 54 Artikel. Kontinuität ist dadurch geblieben, dass immerhin 22 Artikeltitel (zum Teil leicht modifiziert) erhalten geblieben sind, wenn sie auch überwiegend von anderen AutorInnen und neu geschrieben wurden. 32 Artikel sind auch vom Titel her gänzlich neu, und viele neue AutorInnen konnten gewonnen werden. Jeder Artikel ist ein genuin neuer Text, keiner ist unverändert oder nur leicht modifiziert abgedruckt worden. Die Gesamtstruktur ist mit den vier Hauptteilen: A Grundlegendes, B Methodisches, C Informationsorganisation und D Informationsinfrastrukturen erhalten geblieben, auch wenn in den Benennungen leicht verändert. Die schwierigste Entscheidung war, klassische Artikel wie „Klassifikation, Klassieren“, „Thesaurus“, „Formale Erfassung“, „Indexieren“, „Referieren“, „Datenbanken“, „Informationsvermittlung“, „Technologietransfer“ etc. nicht wieder neu schreiben zu lassen – vor allem unter der Annahme, dass hier das methodische Wissen relativ stabil geblieben ist. Es konnte aber mit dem Verlag eine Einigung gefunden werden, dass zentrale Artikel aus KSS-5, die nicht mehr in KSS-6 aufgenommen wurden, über ein eArchiv unter einer freien Lizenz zugänglich gemacht werden können. Dies gilt auch für den Bereich E „Information im Kontext“ (Information aus der Sicht verschiedener Disziplinen) aus KSS-5. Gewiss kann auch dieses umfängliche Werk keinen Anspruch auf Vollständigkeit erheben. Das ist zum einen grundsätzlich nicht möglich, zum andern haben es einige wenige AutorInnen, um die wir uns bis zum Schluss bemüht haben, dann doch nicht mehr geschafft, ihre Beiträge fertigzustellen. Das betrifft Artikel wie Informationsgesellschaft, Informations- und Medienkompetenz, Informationsmarkt/Informationswirtschaft und Informationsqualität. Einige Anmerkungen zu formalen Aspekten: Die Herausgeber haben in viele Artikel inhaltlich und redaktionell, oft auch stark kürzend, mit ständiger Rückmeldung an die AutorInnen eingegriffen. Nicht zu leisten war aber eine durchgängig stabile Angleichung der Schreibweisen und Schreibstile. Auch die Umwandlung der rapide angestiegenen Anglizismen in deutsche Entsprechungen ist nur ansatzweise gelungen. Viele AutorInnen beharrten explizit auf dem eingebürgerten englischen Sprachgebrauch und sperrten sich z. B. gegen die Bezeichnung „eBücher“ anstelle von „ebooks“.
VIII
Inhaltsverzeichnis
Die Herausgeber bedanken sich bei den vielen Personen aus der informationswissenschaftlichen Community, die im Vorfeld mit zahlreichen Hinweisen die jetzige Artikelstruktur haben entstehen lassen, und bei allen AutorInnen, deren Artikel in der Gesamtheit den Wissensstand der Informationswissenschaft und -praxis beeindruckend dokumentiert, zum Teil erst ganz neu haben entstehen lassen. Nicht zuletzt sei auch den MitarbeiterInnen des Walter de Gruyter Verlags gedankt, die das anspruchsvolle Vorhaben weiter möglich gemacht und sich auch bezüglich der elektronischen Verfügbarkeit im Rahmen des ihnen Möglichen kooperativ gezeigt haben. Die „Grundlagen“ gänzlich sofort nach Open-Access-Prinzipien zugänglich zu machen, war derzeit noch nicht möglich bzw. haben den Verlag die bisherigen Geschäftsmodelle noch nicht überzeugt. Ob eine nächste Ausgabe noch einmal gedruckt erscheinen kann, steht in den Internet-Sternen. Also mögen jetzt möglichst viele noch einmal die Chance ergreifen, sich für die Grundlagen ein wirkliches Buch zu sichern. Rainer Kuhlen – Wolfgang Semar – Dietmar Strauch Januar 2013
Inhaltsverzeichnis A: Grundlegendes Rainer Kuhlen A 1 Information – Informationswissenschaft 1 A 1.1 Information definieren? 1 A 1.2 Information existiert nicht für sich – Information in der Informationswissenschaft A 1.3 Vielfalt der Bestimmungen der Informationswissenschaft – Gemeinsamkeiten erkennbar? 5 A 1.4 Deutungshoheit für Information? 7 A 1.5 Informationswissenschaft im fachlichen Kontext der Disziplin 8 A 1.6 Diversität der Themen und Bereiche 10 A 1.7 Phasen/Perioden der Informationswissenschaft 12 A 1.8 Rahmenbedingungen der Entwicklung der Informationswissenschaft 14 A 1.9 Pragmatischer Primat – Konsequenzen für Informationserarbeitung in der Informationswissenschaft 17 Ursula Georgy A 2 Professionalisierung in der Informationsarbeit 25 A 2.1 Einleitung 25 A 2.2 Der Bologna-Prozess 27 A 2.3 Der Europäische Qualifikationsrahmen 27 A 2.4 Die Differenzierung der Aus- und Weiterbildung in Deutschland A 2.5 Praxisphasen 35 A 2.6 Qualitätssicherung 36 A 2.7 Fazit 36 Thomas Hoeren A 3 Urheberrecht und Internetrecht A 3.1 Einleitung 39 A 3.2 Urheberrecht 39 A 3.3 Datenschutzrecht 46 A 3.4 Haftung im Internet 50 A 3.5 Ausblick 53
28
39
Stephan Holländer, Rolf A. Tobler A 4 Schweizer Urheberrecht im digitalen Umfeld 56 A 4.1 Der Werkbegriff 56 A 4.2 Die urheberechtlichen Schutzrechte 56 A 4.3 Kauf, Lizenzierung und Ausleihe von urheberrechtlich geschützten Werken A 4.4 Die Vervielfältigung von Medien 57 A 4.5 Kopien aus dem Internet 59 A 4.6 Ausblick 60 Gerhard Reichmann A 5 Urheberrecht und Internetrecht: Österreich A 5.1 Zentrale Begriffe des Urheberrechts 63
63
57
2
X
Inhaltsverzeichnis
A 5.2 Merkmale des Urheberrechts A 5.3 Verletzungen 66
65
Rainer Kuhlen 68 A 6 Wissensökologie – Wissen und Information als Commons (Gemeingüter) A 6.1 Zum Begriff Wissensökologie 68 A 6.2 Warum ist die Benennung Wissensökologie aus traditionell ökologischer Sicht problematisch? 69 A 6.3 Wissen und Information als Commons – Zur Grundlegung der Wissensökologie durch Institutionenökonomik 72 A 6.4 Wissensökologie und Wissensökonomie 78 Rainer Hammwöhner A 7 Hypertext 86 A 7.1 Einleitung 86 A 7.2 Was ist Hypertext? 86 A 7.3 Wie hat sich Hypertext entwickelt? 87 A 7.4 Nicht-lineare Informationsarbeit 88 A 7.5 Hypertextmodelle 90 A 7.6 Neuere Forschung zum Thema Hypertext A 7.7 Ausblick 94 Christa Womser-Hacker, Thomas Mandl A 8 Information Seeking Behaviour (ISB) A 8.1 Kurzer historischer Abriss 97 A 8.2 Methoden 98 A 8.3 Modelle des ISB 99 A 8.4 Aktuelle Forschungsbereiche 103 A 8.5 Fazit 106
91
97
Hans-Christoph Hobohm A 9 Informationsverhalten (Mensch und Information) A 9.1 Entwicklung eines Paradigmas 109 A 9.2 Information und menschlicher Organismus 112 A 9.3 Komponenten des Informationsverhaltens 116 A 9.4 Fazit 122
109
Urs Dahinden A 10 Methoden empirischer Sozialforschung für die Informationspraxis 126 A 10.1 Relevanz der empirischen Sozialforschung für die praktische Information und Dokumentation 126 A 10.2 Ablauf von empirischen Forschungsprojekten 126 A 10.3 Differenzierung von Forschungsmethoden nach drei Dimensionen 127 A 10.4 Methoden der Datenerhebung 128 A 10.5 Art der Messung: Quantitativ oder qualitativ 133 A 10.6 Untersuchungsanordnung: Experimentell oder nicht-experimentell 134 A 10.7 Fazit 134 Michael Seadle A 11 Ethnografische Verfahren der Datenerhebung A 11.1 Beobachtete Datenerhebung 136
136
Inhaltsverzeichnis
A 11.2 Datenerhebung durch Probanden A 11.3 Externe Datenerhebung 137 A 11.4 Fazit 138
137
Hans-Christoph Hobohm A 12 Erhebungsmethoden in der Informationsverhaltensforschung A 12.1 Tests und Skalen – Quantitative Ansätze 139 A 12.2 Qualitative Methoden 140 A 12.3 Information Horizons 140
139
B: Methodisches Bernard Bekavac B 1 Web-Technologien 145 B 1.1 Kernkomponenten der Web-Technologien B 1.2 IW-spezifische Web-Technologien 154
147
Rolf Assfalg B 2 Metadaten 159 B 2.1 Einführung 159 B 2.2 Beispiele für Ausprägungen von Metadaten in Informationssystemen 160 B 2.3 Heterogenität von Forschungsdaten und deren Metadatenebene 169 Ulrich Reimer B 3 Wissensorganisation 172 B 3.1 Rolle und Aufgabe der Wissensorganisation 172 B 3.2 Metadaten 173 B 3.3 Suche vs. Navigation 176 B 3.4 Begriffssysteme zur terminologischen Kontrolle 177 B 3.5 Verwendung von Begriffssystemen für die Wissensorganisation B 3.6 Ausblick 180 Thomas Mandl B 4 Text Mining und Data Mining 183 B 4.1 Begriffsklärung 183 B 4.2 Basisoperationen des Text Mining 184 B 4.3 Anwendungsbeispiele für Text Mining 187 B 4.4 Werkzeuge 189 B 4.5 Problembereiche und Entwicklungstendenzen
189
Harald Reiterer, Hans-Christian Jetter B 5 Informationsvisualisierung 192 B 5.1 Anspruch und Charakteristika der Forschungsdisziplin B 5.2 Referenzmodell der Visualisierung 192 B 5.3 Gängige Arten der Visualisierung 194 B 5.4 InfoVis und Infowiss 199 B 5.5 Aktuelle Entwicklungen in der InfoVis 200
192
179
XI
XII
Inhaltsverzeichnis
Katrin Weller B 6 Ontologien 207 B 6.1 Grundlagen und Definitionen 207 B 6.2 Struktur und Bestandteile von Ontologien im Detail 211 B 6.3 Beispiele für Ontologien im praktischen Einsatz 216 B 6.4 Fazit: Perspektiven und Herausforderungen 217 Stefan Gradmann B 7 Semantic Web und Linked Open Data 219 B 7.1 Was ist das „Semantic Web“? 219 B 7.2 Das Schichtenmodell des Semantic Web 223 B 7.3 Linked Open Data 224 B 7.4 Semantic Web und Anwendungen mit Linked Open Data B 7.5 Das Ende des Semantic Web (?) 227
226
Isabella Peters B 8 Benutzerzentrierte Erschließungsverfahren 229 B 8.1 Folksonomies und Social Tagging: Definition 229 B 8.2 Arten von Folksonomies 230 B 8.3 Tag-Arten 232 B 8.4 Folksonomy-Visualisierungen 233 B 8.5 Strukturierung von Folksonomies (terminologische Kontrolle) B 8.6 Anwendungsfälle von Folksonomies 234
234
Ulrich Reimer B 9 Empfehlungssysteme 238 B 9.1 Motivation und Überblick 238 B 9.2 Inhaltsbasierte Filterung 240 B 9.3 Kollaborative Filterung 243 B 9.4 Gegenüberstellung von inhaltsbasierten und kollaborativen Verfahren B 9.5 Hybride Verfahren 248 B 9.6 Datensicherheit 248 B 9.7 Zusammenfassung und Ausblick 249 Udo Hahn B 10 Methodische Grundlagen der Informationslinguistik B 10.1 Einleitung 252 B 10.2 Linguistische Methoden 252 B 10.3 Statistische und vektorielle Methoden 264 B 10.4 Methoden des Maschinellen Lernens 266 B 10.5 Informationslinguistische Systeme 268
246
252
Klaus Lepsky B 11 Automatische Indexierung 272 B 11.1 Begriffsklärung 272 B 11.2 Das Prinzip Index im Information Retrieval 273 B 11.3 Informationslinguistische Verfahren 273 B 11.4 Textstatistische Verfahren 279 B 11.5 Automatische Indexierung und Informationserschließung 280 B 11.6 Semantik in Automatischer Indexierung und Information Retrieval
282
Inhaltsverzeichnis
XIII
Udo Hahn B 12 Automatisches Abstracting 286 B 12.1 Einleitung 286 B 12.2 Methoden des automatischen Abstractings 287 B 12.3 Bewertung automatischer Abstracting-Systeme 295 B 12.4 Neue Formen des automatischen Abstractings 297 Ulrich Heid B 13 Maschinelle Übersetzung 302 B 13.1 Einleitung 302 B 13.2 Symbolische MÜ-Ansätze 305 B 13.3 Statistische MÜ-Systeme 307 B 13.4 Evaluierung von maschineller Übersetzung B 13.5 Schlussbemerkungen 311
310
Bernd Ludwig B 14 Spracherkennung 313 B 14.1 Aufgabenstellung, Ziele und aktuelle Lösungen 313 B 14.2 Akustische Modelle für gesprochene Sprache 313 B 14.3 Mathematische Modelle für gesprochene Sprache 317 B 14.4 Kontinuierliche und sprecheradaptive Spracherkennung
320
Norbert Fuhr B 15 Modelle im Information Retrieval 322 B 15.1 Einführung 322 B 15.2 Boolesches und Fuzzy-Retrieval 322 B 15.3 Vektorraummodell 323 B 15.4 Probabilistisches Retrieval 326 B 15.5 Modelle für strukturierte Dokumente 332 B 15.6 Modelle für interaktives Retrieval 333 Christa Womser-Hacker B 16 Kognitives Information Retrieval 336 B 16.1 Systemorientierter Ansatz im Information Retrieval B 16.2 Kognitives Information Retrieval 337 B 16.3 Kognitives IR aus heutiger Sicht 344 B 16.4 Fazit 345
336
Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller B 17 Maschinelles Lernen, Mustererkennung in der Bildverarbeitung 348 B 17.1 Einleitung 348 B 17.2 Merkmalsextraktion aus Bildern: Häufigkeiten „visueller Wörter“ 350 B 17.3 Mustererkennung und Maschinelles Lernen 351 B 17.4 Anwendungen von Mustererkennung in der Bildverarbeitung 354 B 17.5 Zusammenfassung 358
XIV
Inhaltsverzeichnis
C: Informationsorganisation Helmut Krcmar C 1 Informations- und Wissensmanagement 365 C 1.1 Informationsmanagement 365 C 1.2 Management der Informationswirtschaft 366 C 1.3 Management der Informationssysteme 368 C 1.4 Management der Informations- und Kommunikationstechnik C 1.5 Führungsaufgaben des Informationsmanagements 370 C 1.6 Wissensmanagement 372 C 1.7 Ausblick 375
369
Eberhard R. Hilf, Thomas Severiens C 2 Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft C 2.1 Anforderungen an das Management wissenschaftlicher Informationen 379 C 2.2 Anforderungen an das Informationsmanagement wissenschaftlicher Dokumente und Daten 380 C 2.3 Was ist Open Access? 380 C 2.4 Entwicklungslinien 381 C 2.5 Realisierungen von Open Access für wissenschaftliche Dokumente 383 C 2.6 (Inter-)nationale Projekte und Initiativen zur Förderung von OA 384 C 2.7 (Inter-)nationale Entwicklung des Urheberrechts für Open Access 386 C 2.8 Finanzierungsmodelle für OA 387 C 2.9 Langzeitarchivierung 388 C 2.10 Open Data 389 C 2.11 Ausblick 390 Christa Womser-Hacker C 3 Evaluierung im Information Retrieval 396 C 3.1 Das Cranfield-Paradigma der Evaluierung und seine moderne Interpretation in TREC 398 C 3.2 Grundlagen der Evaluierung von Information-Retrieval-Systemen C 3.3 Evaluierungsinitiativen 404 C 3.4 Lessons Learnt 406 C 3.5 Fazit 408 Joachim Griesbaum C 4 Online-Marketing 411 C 4.1 Einleitung 411 C 4.2 Einordnung und Bedeutung des Online-Marketings C 4.3 Formen des Online-Marketings 412 C 4.4 Zusammenfassung und Fazit 420
411
Nicola Döring C 5 Modelle der Computervermittelten Kommunikation 424 C 5.1 CvK-Theorien 425 C 5.2 CvK-Theorien der Medienwahl 425 C 5.3 CvK-Theorien zu Medienmerkmalen 426 C 5.4 CvK-Theorien zum medialen Kommunikationsverhalten 428 C 5.5 Fazit 429
379
396
Inhaltsverzeichnis
Harald Reiterer, Florian Geyer C 6 Mensch-Computer-Interaktion 431 C 6.1 Anspruch und Charakteristika des Forschungsgebiets C 6.2 MCI und Infowiss 432 C 6.3 Aktuelle Entwicklungen 434 C 6.4 Fazit 438
431
Steffen Staab C 7 Web Science 441 C 7.1 Einleitung 441 C 7.2 Webregulierung (Web Governance) 443 C 7.3 Benutzerinteraktion und -verhalten 445 C 7.4 Makrostrukturen in sozialen Inhalten und Informationsstrukturen C 7.5 Soziale Maschinen 449 C 7.6 Konklusion 451 Michael Weller, Elena Di Rosa C 8 Lizenzierungsformen 454 C 8.1 Einleitung 454 C 8.2 Gesetzliche Einräumung von Nutzungsrechten 455 C 8.3 Rechtsgeschäftliche Einräumung von Nutzungsrechten C 8.4 Open Access- und Open Content-Modelle 458 C 8.5 Ausblick 463
447
456
Wolfgang Semar, Sascha Beck C 9 Sicherheit von Informationssystemen 466 C 9.1 Anforderungen an die Sicherheit von Informations- und Kommunikationssystemen 468 C 9.2 Angriffsszenarien und Gegenmaßnahmen C 9.3 Kryptografische Verfahren 470 C 9.4 Sicherheit von elektronischen Zahlungssystemen 476 Stefanie Haustein, Dirk Tunger C 10 Sziento- und bibliometrische Verfahren 479 C 10.1 Einführung 479 C 10.2 Begriffsentwicklung und -abgrenzung 479 C 10.3 Die Zitation als Bindeglied zwischen Publikationen 480 C 10.4 Informetrische Gesetzmäßigkeiten 480 C 10.5 Wachstumsprozesse, Veränderungen in der Wissenschaftlichen Kommunikation C 10.6 Indikatorik 483 C 10.7 Alternative Impact-Messung 487 C 10.8 Ausblick 489
D: Informationsinfrastruktur Dirk Lewandowski D 1 Suchmaschinen 495 D 1.1 Einleitung 495 D 1.2 Aufbau algorithmischer Suchmaschinen D 1.3 Ranking 501
497
XV
466
481
XVI
Inhaltsverzeichnis
504 D 1.4 Ergebnispräsentation D 1.5 Bedeutung der Suchmaschinen für die Informationsbeschaffung, Problembereiche 506 D 1.6 Ausblick Ben Kaden 509 D 2 Elektronisches Publizieren D 2.1 Eine kurze Geschichte des elektronischen Publizierens 510 D 2.2 Elektronisches Publizieren heute 512 D 2.3 Merkmale und Bedingungen elektronischer Publikationen 513 D 2.4 Was ist eine (elektronische) Publikation? 513 D 2.5 Hypertextualität und Hybride Publikationen 514 D 2.6 Publikationsregeln 514 D 2.7 Perspektiven 515 D 2.8 Zusammenfassung 518 Jens Olf, Uwe Rosemann D 3 Dokumentlieferung 520 D 3.1 Einleitung 520 D 3.2 Nutzer der Dokumentlieferung 521 D 3.3 Welche Materialien werden angeboten? 521 D 3.4 Welche Dienste gibt es in der Dokumentlieferung? D 3.5 Prozess der Anmeldung – Lieferung – Bezahlung D 3.6 Perspektive für die Dokumentlieferdienste 527
521 523
Reinhard Altenhöner, Sabine Schrimpf D 4 Langzeitarchivierung 529 D 4.1 Digitale Langzeitarchivierung in der Wissenschafts- und Kulturdomäne: Ausgangsbedingungen und Grundelemente 529 D 4.2 Terminologische Klärungen und Abgrenzungen 530 D 4.3 Kooperation und Arbeitsteilung, Strategische und Infrastruktur-Aspekte 531 D 4.4 (Kultur-)Politische Dimension 532 D 4.5 Methoden, Konzepte, Vorgehensmodell der digitalen Langzeitarchivierung 534 D 4.6 Der Weg ins Archiv: Aspekte der Praxis 535 D 4.7 Tools und Werkzeuge, Dienste 536 D 4.8 Berufsbild, Aus-, Fort-, Weiterbildung. Werkzeuge der Kooperation 538 Hermann Huemer D 5 Normung und Standardisierung 541 D 5.1 Einleitung 541 D 5.2 Normung als Wirtschaftsfaktor 541 D 5.3 Prinzipien der Normung 542 D 5.4 Ziele der Normenarbeit 542 D 5.5 Die Organisationen der Internationalen Normung 543 D 5.6 Die Organisationen der Europäischen Normung 544 D 5.7 Nationale Beteiligung an internationaler und europäischer Normung D 5.8 Normung im Bereich Information und Dokumentation 545 D 5.9 Private Standards 547 D 5.10 Zertifizierung 548
545
505
Inhaltsverzeichnis
Ulrike Spree D 6 Wörterbücher und Enzyklopädien 550 D 6.1 Wörterbücher und Enzyklopädien in der Informationspraxis 550 D 6.2 Nachschlagewerke als spezielle Formen des organisierten, strukturierten Wissens D 6.3 Lexikonproduktion 555 D 6.4 Forschungsfeld Lexikographie und Enzyklopädistik 559 Joachim Griesbaum D 7 Social Web 562 D 7.1 Einleitung 562 D 7.2 Begriffliche Einordnung 562 D 7.3 Praxis des Social Web: Anwendungskontexte sozialer Medien 564 D 7.4 Theoretische Perspektiven und Konzepte des Social Web 567 D 7.5 Zusammenfassung und Ausblick 571 Jens Klump, Roland Bertelmann D 8 Forschungsdaten 575 D 8.1 Daten entdecken 576 D 8.2 Daten erhalten 577 D 8.3 Daten beschreiben 577 D 8.4 Forschungsdaten verwalten 578 D 8.5 Umgang mit Forschungsdaten planen 579 D 8.6 Datenintegration und Analyse – Daten-getriebene Forschung D 8.7 Zusammenfassung und Ausblick 580 Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs D 9 Lernen mit Medien 584 D 9.1 Die Rolle von Medien für Lernen und Bildung 584 D 9.2 Mehrwert der digitalen Medien für das Lernen 584 D 9.3 Lernplattformen für didaktisch aufbereitete Lernarrangements D 9.4 Lernen im Web 2.0 591 D 9.5 Fazit 594 Angelika Menne-Haritz D 10 Archive 596 D 10.1 Die Funktionen von Archiven 596 D 10.2 Archivierung und Bereitstellung als Fachaufgabe D 10.3 Die Recherche in den Findmitteln 604 D 10.4 Berufsverbände und Publikationsorgane 606
600
Axel Ermert, Karin Ludewig D 11 Museen 609 D 11.1 Einleitung 609 D 11.2 Wichtige Institutionen, Infrastruktur 610 D 11.3 Mehrwerterzeugende Produkte und Dienstleistungen 610 D 11.4 Museumsdokumentationsverbünde 611 D 11.5 Standardisierung 612 D 11.6 Standards für den Datenaustausch 613 D 11.7 Lokale digitale Dienstleistungen für Besucher 616 D 11.8 Institutions- und bereichsübergreifende Portale 617 D 11.9 Ausblick 618
579
585
XVII
551
XVIII
Inhaltsverzeichnis
Hans-Christoph Hobohm D 12 Bibliothek im Wandel 623 D 12.1 Bibliothek als Informationseinrichtung? 623 D 12.2 Funktion von Bibliotheken 624 D 12.3 Neue Erscheinung(sform)en (in) der Bibliothek
627
Thomas Breyer-Mayländer D 13 Medien, Medienwirtschaft 634 D 13.1 Produkte, Akteure und Strukturen der Medienwirtschaft 634 D 13.2 Zielgruppen, Produktformen, Märkte 636 D 13.3 Was sind redaktionelle Inhalte wert? Kommerzialisierbarkeit von Inhalt als Geschäftsmodell 640 D 13.4 Die Impulsgeber (Gamechanger) im Spielfeld der Massenmedien D 13.5 Crossmediastrategien, neue Geschäftsfelder und Erlösquellen der klassischen Massenmedien 644 D 13.6 Fazit 647 Helmut Wittenzellner D 14 Transformation von Buchhandel, Verlag und Druck D 14.1 Übersicht 648 D 14.2 Aktuelle Lage der Branchen 648 D 14.3 Veränderungsprozesse 651 D 14.4 Synopse 660 Elke Thomä, Heike Schwanbeck D 15 Patentinformation und Patentinformationssysteme D 15.1 Inhalt und Nutzen der Patentinformation 661 D 15.2 Patentinfrastruktur 661 D 15.3 Publikationen im Patenterteilungsverfahren 662 D 15.4 Struktur und Inhalt von Patentdokumenten 664 D 15.5 Internationale Patentklassifikation (IPC) 666 D 15.6 Patentrecherchen 667 D 15.7 Patentdatenbanken 670 D 15.8 Neue Initiativen 674 Index
679
Autoren- und Herausgeberverzeichnis
691
648
661
643
A: Grundlegendes
Rainer Kuhlen A 1 Information – Informationswissenschaft
1
Ursula Georgy A 2 Professionalisierung in der Informationsarbeit Thomas Hoeren A 3 Urheberrecht und Internetrecht
25
39
Stephan Holländer, Rolf A. Tobler A 4 Schweizer Urheberrecht im digitalen Umfeld Gerhard Reichmann A 5 Urheberrecht und Internetrecht: Österreich
56 63
Rainer Kuhlen A 6 Wissensökologie – Wissen und Information als Commons (Gemeingüter) Rainer Hammwöhner A 7 Hypertext 86 Christa Womser-Hacker, Thomas Mandl A 8 Information Seeking Behaviour (ISB)
97
Hans-Christoph Hobohm A 9 Informationsverhalten (Mensch und Information)
109
Urs Dahinden A 10 Methoden empirischer Sozialforschung für die Informationspraxis Michael Seadle A 11 Ethnografische Verfahren der Datenerhebung
126
136
Hans-Christoph Hobohm A 12 Erhebungsmethoden in der Informationsverhaltensforschung
139
68
Rainer Kuhlen
A 1 Information – Informationswissenschaft A 1.1 Information definieren? Anders als in manchem Artikel in diesem Band (z. B. B 9 Empfehlungssysteme) ist es ziemlich aussichtlos, eine Definition des zentralen Begriffs, hier also von Information, an den Anfang zu setzen. Gerade hier gilt die an Ludwig Wittgenstein anschließende Vermutung (Lit. 01), dass man sich nicht von der Sprache verführen lassen solle, aus der Identität der Benennungen auf die Identität des Begriffs zu schließen. Die Alternative, einfach darauf zu vertrauen, dass jeder schon in etwa weiß, was unter Information oder unter dem anderen zentralen Begriff in der Informationswissenschaft, Wissen, zu verstehen ist, ist aber auch nicht angebracht. Gerade die mit diesem Handbuch besonders angesprochenen Auszubildenden haben einen Anspruch darauf vermittelt zu bekommen, was Information in ihrer Wissenschaft zu bedeuten hat. Als Ausgangspunkt hilft hier (wie auch schon in Artikel A 1 in KSS-5 und erneut im Rückgriff auf Wittgenstein (Lit. 01, para 7)) vielleicht der Rückgriff auf die Alltagssprache. Wie gesagt, als Ausgangspunkt – niemand wird behaupten wollen, dass sich eine wissenschaftliche Disziplin durch ein alltagssprachliches Verständnis über ihre Objekte und Vorgänge begründen lässt. Aber Sprachspiele in Situationen begrifflicher Unsicherheit, wie sie Wittgenstein ins Spiel gebracht hat, können weitergehende Reflexionen anstoßen: (1 - 1) Das ist keine Information, das weiß ich schon. (1 - 2) Ich habe eine Information für dich. (1 - 3) Mit dieser Information kann ich nichts anfangen. (1 - 4) Diese Information verstehe ich nicht; dazu fehlt mir das Hintergrundwissen. (1 - 5) Diese Information hätte ich gestern gebraucht – heute ist sie nutzlos. (1 - 6) Ohne weitere Information kann ich nicht handeln und erst recht nicht entscheiden. (1 - 7) Dieser Information vertraue ich, da ich weiß woher sie stammt. (1 - 8) Diese Information bestätigt alle meine Vorurteile. (1 - 9) Ich weiß genug, ich will keine weitere Information. (1 - 10) Diese Information ist mir 500 Euro wert. (1 - 11) Dieser Rechner hat eine Informationsverarbeitungskapazität von 120 MIPS. (1 - 12) Das Universum besteht aus maximal 2n Informationen (was auch immer n sein mag). Aus diesen Beispielen können die folgenden Aussagen abgeleitet werden: (2 - 1) Information ist adressatenbezogen. (2 - 2) Information ist durch einen Neuigkeitswert gekennzeichnet. (2 - 3) Information ist kontextabhängig – zum Kontext gehört auch die Zeit. (2 - 4) Information wird erst verständlich, wenn sie in einen existierenden Wissensbestand eingebunden werden kann. (2 - 5) Der Zuverlässigkeitsgrad von Information hängt von der Verlässlichkeit der Quelle bzw. des übermittelnden Senders ab. (2 - 6) Information ist Vertrauenssache, da Information für sich nichts über den Wahrheitswert der zugrundeliegenden Aussagen aussagt. (2 - 7) Information hat Auswirkungen auf Handeln und Entscheidungen. (2 - 8) Information verringert Unsicherheit. (2 - 9) Zu viel Information kann neue Unsicherheit hervorbringen. (2 - 10) Neue Information wird in einem Zustand von (oft nur vermeintlicher) Sicherheit abgeblockt. (2 - 11) Information hat ökonomische Relevanz.
2
A 1: Rainer Kuhlen
(2 - 12) Information und die Kapazität, sie zu speichern und zu verarbeiten, können quantitativ erfasst und gemessen werden. Diese Aussagen haben gewiss eher indikatorischen Wert, basieren nicht auf einer systematischen Theorie. Unternehmen wir es, dieser sich anzunähern.
A 1.2 Information existiert nicht für sich – Information in der Informationswissenschaft Information existiert nicht für sich. Das ist eine Absage an ein ontologisches Verständnis von Information (Lit. 13), zugunsten eines dynamischen (Lit. 111). Es ist anders mit Wissen. Dieses existiert als Bündel von Aussagen über materielle oder immaterielle Objektbereiche und ist verfügbar, sobald es in irgendeiner medialen Form repräsentiert ist. Auch das mag nicht immer eindeutig sein, denn die medial repräsentierte Form ist ja nicht Wissen, sondern das dahinterliegende immaterielle Substrat, das kognitive Objekt. Und dieses kann, wie jedermann weiß und nicht selten erfährt, sehr unterschiedlich interpretiert werden. Damit sind wir schon nahe an Information – im ersten Zugriff: die subjektive Rezeption von repräsentiertem Wissen. Denn die Interpretation, sozusagen die hermeneutische Leistung des Verstehens (Lit. 02), hängt in hohem Maße von vielen Variablen ab, deren aktuelle Werte bestimmt werden vom jeweiligen Wissensrezipienten und von seinem Kontext, in dem er sich befindet. Bestimmend ist auch der Kontext der Informationsbereitstellung (z. B. welcher Medienkanal) oder der kontextuelle Rahmen des zu Verstehenden (z. B. abhängig vom Layout einer Zeitung mit entsprechenden Signalen auf Grad der Seriosität etc.) und viele Kontexte mehr. Es gibt nicht die reine nackte Information, auch wenn (1 - 2) und (2 - 12) dies nahezulegen scheinen. Die Diskussion im Hin und Her um Wissen und Information scheint einem intellektuellen Eiertanz nahezukommen. Und in der Tat kommt die lange Geschichte der Versuche, Wissen und Information voneinander abzugrenzen oder, zusammen mit Daten und Weisheit, Hierarchien zwischen ihnen aufzubauen, einem solchem Tanz sehr nahe. Es bleibt auch uns, den InformationswissenschaftlerInnen, nichts anderes übrig als mitzutanzen (Lit. 107). Wir können bei Wissen und Information nicht einfach sitzenbleiben und den anderen zuschauen. Schlagen wir als Erstes, noch sehr abstrakt, vor: Das an sich verfügbare, aber aktuell nicht gebrauchte oder aktuell nicht genutzte oder auch nur aktuell nicht interpretierte Wissen ist keine Information, höchstens potenzielle Information. Information ist referenziell. Information macht, in der berühmten, mysteriösen, auf Bateson (wohl zu Unrecht) (Lit. 03) zurückgeführten Formulierung: „a difference which makes a difference“ (was ja nicht anderes meinen könnte, als den subjektiven Charakter von Information zu umschreiben). Information ist nicht, sondern wird erst, wie die Soziologen sagen würden, sozial konstruiert (Lit. 04), die Konstruktion von Aussagen über Wirklichkeit in pragmatischer Absicht bzw. mit pragmatischer Konsequenz, und zwar eine Konstruktion von Subjekten in bestimmten Handlungskontexten: Sozial konstruiert, aber subjektiv realisiert und von vielerlei Kontexten abhängig. Information existiert nicht für sich. Information referenziert immer auf Wissen. Auch Information vermittelt demjenigen, dem sie vermittelt wird bzw. der sie nutzt, Aussagen über materielle oder immaterielle Objektbereiche, also Wissen. Information hat immer einen semantischen Inhaltskern. Information bedeutet etwas. Von Wahrheit ist dabei nicht die Rede. Auch eine Lüge kann eine Information sein. Es kommt zur Semantik noch etwas Entscheidendes hinzu, durch das die an sich vorhandenen und verfügbaren (semantisch repräsentierten) Aussagen über materielle oder immaterielle Objektbereiche gefiltert und zur Information werden. Geben wir ein Beispiel: Wenn ich wissen will, wann ich am frühen Nachmittag mit einem ICE von Berlin, wo ich gerade in Berlin Mitte bin, nach Hamburg komme, dann wäre natürlich eine riesige Menge an Wissen über den hier einschlägigen Objektbereich vorhanden und im Prinzip einschlägig. Z. B.
A 1: Information – Informationswissenschaft
3
dass die ICE-Züge vom Berliner Hauptbahnhof abfahren, dass man sinnvollerweise die S-Bahn nimmt, um zum Bahnhof zu kommen, dass es in ICE-Zügen i. d. R. ein Restaurant gibt, dass die einfache Fahrt in der 2. Klasse 73 Euro kostet, aber als Spartarif nur 39 etc. etc. All das ist an sich einschlägig, also relevant, aber mir bekannt oder interessiert mich derzeit nicht. Ich will ja aktuell nur wissen, zu welcher frühen Nachmittagszeit ich von Berlin nach Hamburg fahren kann. Also die Information wäre: Berlin Hbf ab 14:17, Hamburg Hbf an: 15:56. Diese Information ist für mich im Kontext (vgl. Lit. 05) einer aktuellen Reisesituation das handlungsrelevante Wissen, welches ich bislang nicht hatte, aber benötige, um handeln, also in diesem Fall meine Reise planen zu können. Vermutlich werde ich diese Information nicht dauerhaft speichern/lernen. Information ist (zum Glück) meistens flüchtig. In diesem Fall würde die Information meinen dauerhaften Bestand an Wissen nicht erweitern. Warum auch – ich kann diese Information bei Bedarf jederzeit erneut abrufen. Das kann gewiss auch zu einem informationellen Wegwerfverhalten führen, welches Lernen als Aufbau eines dauerhaften Wissensbestandes nicht gerade begünstigt. Ob diese Aussagen von allen Informationswissenschaftlern geteilt werden? Information: referenziell, medial repräsentiert, subjektiv, flüchtig, bedeutungstragend – also semantisch fundiert, neu, aktuell, kontextbezogen, handlungsrelevant – also pragmatisch ausgerichtet. Entscheide erst einmal jeder für sich. Die Vertreter einer objektiven Informationssicht – theoretisch prominent begründet durch Shannon/Weaver (Lit. 06) und von vielen darauf aufsetzenden Informationstheoretikern (Lit. 114; vgl. E 9 Information in den Naturwissenschaften in KSS-5), aber auch von Vertretern eines evolutionstheoretischen Ansatzes (z. B. Lit. 07, Lit. 08, Lit. 108, Lit. 110) – werden sich schwertun oder aber ganz andere Eigenschaften hinzugefügt wissen wollen. Für die Begründung der Informationswissenschaft ist aus der hier vertretenen Sicht der pragmatische Primat von Information (handlungsrelevant, kontextbezogen) entscheidend (Lit. 09, Lit. 10, Lit. 11). Das kann und soll niemand hindern, einen ganz anderen Weg auch für die Informationswissenschaft zu gehen. Die vielfältige Diskussion um das Verhältnis von oder sogar um eine Hierarchie zwischen Wissen und Information (Lit. 107) soll hier nicht weiter vertieft, auch nicht das in der Literatur oft bevorzugte Modell der DIW-Hierarchie diskutiert werden (Daten, Information, Wissen – oft nach unten durch Zeichen und nach oben durch Weisheit ergänzt) (vgl. A 1.2.6 in KSS-5). Anstelle eines hierarchischen Ansatzes wird hier eine funktionale Unterscheidung zwischen formal-syntaktischen, semantischen und pragmatischen Ebenen von Information vertreten. Mehr muss hier nicht von der allgemeinen Zeichentheorie (Semiotik seit Charles W. Morris) übernommen werden (vgl. aber Lit. 12, Lit. 02). Wenn denn doch so etwas wie eine Ordnung zwischen diesen zentralen Begriffen gefunden werden soll, dann sollte das pragmatische Verständnis die zentrale Rolle spielen. Information nimmt ihren Ausgang nicht von den Daten und produziert auch nicht Wissen, sondern nimmt sozusagen in einem doppelten Transformationsmodell ihren Ausgang von bestehendem Wissen. Wissen ist, so formuliert es Stelzer, „Rohstoff zur Bildung von Information“ (Lit. 117). Durch Informationsarbeit, beeinflusst durch zahlreiche Kontextfaktoren, entsteht Information, die direkt (durch Handeln, Entscheiden) genutzt werden kann und die durch Lernen (Wissenserwerb) zu dauerhaften neuen Wissen des Nutzenden der Information werden kann (oder auch wieder vergessen werden kann) (vgl. Abb. 1). Mit Kontextfaktoren sind die verschiedenen Rahmenbedingungen gemeint, die auf Lernen, aber in unserem Zusammenhang vor allem auf Informationserarbeitung (Informationsarbeit) einwirken, z. B. Kenntnisse und Kompetenzen beim Umgang mit vorhandenen Wissensressourcen; handlungsleitende Interessen; institutionelle Zugehörigkeit; sozialer Status; Zeitdauer, innerhalb derer gehandelt werden muss; Kosten, die für die Informationsarbeit aufgebracht werden können; Aufgabenkomplexität; …
4
A 1: Rainer Kuhlen
Lernen Wissenserwerb (Transformation 2)
potenziell relevantes Wissen
Kontextfaktoren
Information Wissen in Aktion
Informationserarbeitung (Transformation 1)
Handeln, Entscheiden Abb. 1: Modell 1 – Transformationen zwischen Wissen und Information (angepasst aus A 1 KSS-5)
Es sollte an dieser Stelle noch ein weiterer Begriff als Bindeglied zwischen Wissen und Information eingeführt werden, durch den vor allem der in diesem Zusammenhang zentrale Prozess der Informationserarbeitung (Informationsarbeit) gesteuert wird. Letztlich entscheidet das, was in der Philosophie Urteilskraft genannt wird, darüber, zum einen welches Wissen, das ausfindig gemacht oder vermittelt wurde, tatsächlich als relevant erachtet wird und zum andern, in welchem Ausmaß die verschiedenen Kontextfaktoren auf Informationsarbeit einwirken (sollen). Urteilskraft fällt natürlich nicht vom Himmel, und ihr Ausmaß ist nicht quasi angeboren, sondern wird gebildet und fortwährend weiterentwickelt in der Auseinandersetzung mit bestehendem Wissen. Dafür ist fortwährendes Lernen, dauerhafter Wissenserwerb erforderlich – was in einer Umgebung (der Dienste im World Wide Web) informationelles Wegwerfverhalten begünstigt (s. oben), immer mehr als lästig und unnötig angesehen wird. Um die Funktion der Urteilskraft (von Jürgen Mittelstrass auch Orientierungswissen genannt – Lit. 05, S. 41; vgl. URL22) in eine (einfache) Form zu packen: Urteilskraft beruht auf Wissen, das Wissen zur Information macht, und realisiert sich in Informationskompetenz. Das Fach heißt Informationswissenschaft – nicht Datenwissenschaft und auch nicht Wissenswissenschaft. Dennoch hat die Informationswissenschaft sehr viel mit Wissen zu tun, z. B. mit Wissensrepräsentation und Wissensorganisation (vgl. B 3 Wissensorganisation) oder mit Wissensmanagement (vgl. C 1 Informations- und Wissensmanagement), und natürlich auch mit Daten, z. B. mit Metadaten (B 2 Metadaten; B 7 Semantic Web und Linked Open Data) oder mit Organisations- und Regulierungsformen für Open Data (C 2 Open Access/Open Content), aber auch mit dem eben erwähnten Orientierungswissen. Aber im Zentrum der Informationswissenschaft steht Information. Fasst man die bisherige Diskussion zusammen, so kann man als Arbeitsinstrument bei der inzwischen eingebürgerten Formel bleiben: Information ist Wissen in Aktion und Kontext. Das ist keine ontologische Definition (Lit. 13), sondern eine pragmatische (im Sinne des hier verwendeten Gebrauchs von Pragmatik). Es geht jedem Wissenschaftler, auch den InformationswissenschaftlerInnen, um Wissen. Aber InformationswissenschaftlerInnen schaffen spezielles Wissen – Wissen, wie vorhandenes Wissen genutzt werden kann. InformationswissenschaftlerInnen sind keine Philosophen, keine Psychologen oder Paläontologen (um nur diese zu nennen), die Information als Konstituente des Mensch-
A 1: Information – Informationswissenschaft
5
seins oder allen Lebens überhaupt ausloten. Das vielfältige Wissen um Information ist für die Informationswissenschaft nur insofern relevant, als es hilft, das „wie“ – wie aus Wissen aktuell Information zu machen – zu unterstützen. Das hat viel mit Technologie zu tun, aber eben auch mit Kognition, Sozialverhalten, Ökonomie, Recht, Ethik, … Dieses hier skizzierte pragmatische Informationsverständnis ist zugegebenermaßen rigoros und spiegelt auch nicht unbedingt den Sprachgebrauch selbst in der engeren Disziplin (noch nicht einmal durchgehend in diesem Handbuch) wider. So wird (unbekümmert) von Informationssystem(en), Informationsangebot(en) oder von Informationstechnik, Hintergrundinformation(en) gesprochen, obgleich aus der nutzerorientierten pragmatischen Sicht eigentlich nur Daten gemeint sind. Sie können aber in der Nutzung zu Information werden. Man wird das dadurch retten können, dass z. B. Informationssysteme sozusagen virtuelle Information enthalten, dass die Informationstechnik uns erlaubt, Informationen zu erarbeiten. Wir werden den Sprachgebrauch nicht ändern, die Welt nicht davon überzeugen können, besser von der Datengesellschaft oder von Inhaltsgesellschaft (eher noch von Wissensgesellschaft; vgl. A 1.2.1 in KSS-5) zu sprechen, aber die engere Fachwelt sollte durchaus reflektieren, was sie jeweils mit Information meint.
A 1.3 Vielfalt der Bestimmungen der Informationswissenschaft – Gemeinsamkeiten erkennbar? Die vielen Definitionen von Informationswissenschaft, die aus dem Fach selber unternommen wurden, sind weiter nützlich, wenn auch so gut wie keine erschöpfend verbindlich (vgl. allgemeine Einführungen: Lit. 14 bis Lit. 18). Selbst über das kollaborative Verfahren der Wikipedia ist es bislang (Stand Ende 2012) noch nicht gelungen, einen einigermaßen konsistenten Artikel Informationswissenschaft zu erstellen. In ihrer Allgemeinheit bzw. Abstraktheit ist die Uralt-Definition von Borko (Lit. 19, S. 3) durch die Verwendung von Begriffen wie behaviour of information oder accessibility and usability zumindest noch interpretationsoffen und in der Verbindung eines objektiven und subjektiven Verständnisses vielleicht auch attraktiv: „Information science is that discipline that investigates the properties and behaviour of information, the forces governing the flow of information, and the means of processing information for optimal accessibilitiy and usability.“ Ebenfalls einer der Pioniere der Informationswissenschaft, Michael Buckland, machte 1991 die viel zitierte Unterscheidung zwischen Information-as-process, Information-as-knowledge und Information-as-thing (Lit. 20) und schlägt 2012 vor: „If information science is concerned with what people know, then it is a form of cultural engagement, and at most, a science of the artificial.“ (Lit. 21) Der amerikanische Dachverband für die Informationswissenschaft, American Society for Information Science, welcher sich von 1937-1968 noch American Documentation Institute nannte und der sich dann im Jahr 2000 noch Technology im Namen dazugegeben hat, also sich jetzt ASIS&T nennt, bleibt bei einem abstrakten Ansatz und will Personen zusammenbringen „who share a common interest in improving the ways society stores, retrieves, analyzes, manages, archives and disseminates information“ (URL1). Ein angebotsorientierter Ansatz ist nicht zu verkennen, obgleich sich das in den in der Verbandszeitschrift JASIST publizierten Arbeiten so konsequent (zum Glück) nicht wiederfindet. Nutzungsorientierte Ausrichtung gilt auch für die US-amerikanische Informationswissenschaft (s. Abschnitt A 1.5). Auf der Website des Hochschulverbands Informationswissenschaft heißt es recht knapp: „Die Informationswissenschaft berücksichtigt deshalb alle Aspekte des Informationsgeschehens, z. B. kognitive, ökonomische, soziale und politische. Dabei wird kein Gegensatz zur Informatik aufgebaut. Auch die Informationswissenschaft arbeitet experimentell an neuen Verfahren automatisierter Informationssysteme.“ (URL2). Bei all solchen Definitionen ist nicht zu übersehen, dass die Versuche, die Disziplin zu definieren, davon abhängen, welches Verständnis von Information oder noch vager von Informationsgeschehen (Lit. 22) vorausgesetzt wird. Informationswissenschaft ist letztlich dann immer das, welche Theorie von Information ihr zugrundegelegt wird. Das ändert sich natürlich im Verlaufe der Geschichte
6
A 1: Rainer Kuhlen
(Lit. 23), da sich nicht zuletzt auch die Umstände der Konstitution von Information ändern (Lit. 24). Man kann es auch drastischer formulieren: In der Regel enden daher alle spezielleren Versuche der Definition von Informationswissenschaft stark reduktionistisch (Lit. 25). D. h. die Komplexität einer disziplinären Begriffsbestimmung wird, wie könnte es auch anders sein, zugunsten einer präferierten Sicht auf die wissenschaftliche Behandlung von Information reduziert. Das gilt besonders für die oft vorgenommene (direkte oder angedeutete) Gleichsetzung von Informationswissenschaft mit Information Retrieval im weiteren Sinne: „Informationswissenschaft untersucht das Auswerten und Bereitstellen sowie das Suchen und Finden von relevantem (vorwiegend vorliegendem) Wissen.“ (Lit. 26) Niemand wird bestreiten wollen, dass Information Retrieval als Einheit von (automatisierter) Inhaltserschließung und Suche, nicht zuletzt seit den bahnbrechenden Arbeiten von Gerard Salton (Lit. 27), zu den Erfolgsgeschichten der Informationswissenschaft gehört. In Deutschland hatte vor allem Gerhard Lustig und dann seine Schüler, z. B. Gerd Knorz, Norbert Fuhr und auch der Verfasser dieses Beitrags, das Information-Retrieval-Paradigma im Sinn. Diese Sicht hatte dann informationswissenschaftliche Forschung und Lehre an den Universitäten in Konstanz, Saarbrücken, Regensburg, Hildesheim und sicher, nicht zuletzt mit Blick auf die Suchmaschinen des Internet (D 1 Suchmaschinen) und andere Webentwicklungen, auch in Düsseldorf und Berlin an der HumboldtUniversität, ebenso natürlich an den Fachhochschulen, stark beeinflusst (vgl. A 2 Professionalisierung in der Informationsarbeit). Gewiss sind auch in dieser stark experimentellen, quasi objektiven Phase des Information Retrieval nutzerorientierte, also quasi subjektive Momente zu erkennen, z. B. bei der Entwicklung von User-Feedback-Verfahren (Lit. 28), bei denen die subjektive Einschätzung des Wertes der gelieferten Information eine Optimierung der automatischen Verfahren begünstigen soll. Würde man aber heute tatsächlich sagen, dass die Informationswissenschaft die Theorie des Information Retrieval ist bzw. für diese in erster Linie zuständig ist? Ist es nicht tatsächlich so, dass die technische und praktische und wohl auch die theoretische Weiterentwicklung des Information Retrieval seit einiger Zeit vorwiegend von der Informatik vorangetrieben wird bzw. was die Suchmaschinen-Technologie im Internet angeht, von der Informationswirtschaft der Googles? Auch spiegelt die Beschränkung auf das Information Retrieval nicht wirklich real wider, was in dieser Disziplin betrieben und von den Personen im Gebiet reflektiert wird (Lit. 29, Lit. 30) oder das, was eine kritische Öffentlichkeit oder die Informationspraxis von der Informationswissenschaft erwarten kann. Natürlich sind weiter Begriffe wie Auswerten, Bereitstellen, Suchen und Finden bestimmend für die Informationswissenschaft, aber weniger im bloß technisch-methodischen Sinne (auch wenn viel Wissen darüber nicht zuletzt in der Ausbildung vermittelt bzw. angeeignet werden muss), sondern eher unter sozialen, ökonomischen, kommunikativen, kognitiven, rechtlichen, politischen oder ethischen Perspektiven. Nicht umsonst wird immer mehr von kognitiven Retrieval gesprochen (vgl. B 16 Kognitives Information Retrieval). Die Technik – die Hardware, die Software, die Netze, die Systeme, die Apps – wird weitgehend von den Nutzern als gegeben genommen, obschon sie sich natürlich ständig weiterentwickelt und in sie weiter in erster Linie Geld und Intelligenz investiert wird. Aber immer mehr rückt in den Vordergrund das Bedürfnis zu verstehen, was diese Telemediatisierung (das Zusammenspiel von Informatik, Telekommunikation und Hyper-/Multimedia) bedeutet, welche Wirkungen die zumindest elektronisch erzeugte Information hervorruft, welcher Wertewandel, sogar welches Rechtsverständnis und welche politische Öffentlichkeit sich durch die Bereitstellung und Nutzung von Information in elektronischen Räumen entwickelt. Vielleicht auch aus solchen Fragen hat jüngst Stefan Gradmann (Lit. 31) die Zukunft und die Bestimmung der Informationswissenschaft „als eine Wissenschaft vom Verstehen, als ‚Geisteswissenschaft‘ im besten Sinne“ abgeleitet (kritisch dazu Bredemeier, Lit. 32; kritisch wiederum dazu Kaden et al. 2011, Lit. 33). Gradmann geht dann sogar noch einen Schritt weiter, wenn er, mit der Pédauque-Gruppe (Lit. 52), die so bestimmte Informationswissenschaft für unverzichtbar hält – unverzichtbar, damit die vielfältigen Repräsentationen von Wissen (in Dokumenten; vgl. dazu Abschnitt A 1.7) in allen gesellschaftlichen Prozessen methodisch kontrolliert verstanden und ange-
A 1: Information – Informationswissenschaft
7
eignet werden können. Das ist gewiss ein gewaltiger Anspruch (oder auch Ansporn für die Informationswissenschaft).
A 1.4 Deutungshoheit für Information? Trotzdem, auch die eben propagierte Formel Information ist Wissen in Aktion und Kontext hat keinen Monopolanspruch – um Information muss man sich weiter bemühen. Wenn irgendetwas an Information stabil ist, dann sind es die weiter zunehmenden Anstrengungen festzulegen, was denn Information sein soll. Zunehmend deshalb, weil es so gut wie keinen Lebensbereich mehr gibt, der nicht irgendwie etwas mit Information zu tun hat. Informationswissenschaft hat kein Monopol an Information (Lit. 35). Information ist ubiquitär (allgegenwärtig) – man kann nicht leben, ohne beständig Information aufzunehmen, vergleichbar mit Kommunikation – man kann, nach Paul Watzlawick (URL23), nicht nicht kommunizieren. So wie Luft und Wasser (als Beispiel für materielle Ressourcen) unverzichtbar sind, um Leben laufend am Leben zu erhalten, so sind Information und Kommunikation (als immaterielle Ressourcen) erforderlich, um Entwicklung und Anpassungen an veränderte (soziale, natürliche, technische, mediale…) Rahmenbedingungen vornehmen zu können (vgl. A6 Wissensökologie). Das war wohl immer so, aber wird zum grundlegenden Prinzip moderner Gesellschaften. Es spricht bezeichnenderweise heute auch niemand mehr von einer entstehenden Informationsgesellschaft – wir sind mitten drin. Daher hat wohl jeder und jede Disziplin das Recht, den Informationsbegriff zu entwickeln, der aus der jeweiligen Sicht Sinn macht. Es gibt viele disziplinäre Sichten, kaum die eine gültige Sicht. Seit den Interdisciplinary messages von Machlup/Mansfield von 1983 (Lit. 36), also zu Beginn der entstehenden Informationsgesellschaft, hat es immer wieder Versuche gegeben, zumindest einen Überblick über die vielfältigen Informationsverständnisse zu gewinnen. In KSS-5 ist ein eigenes Hauptkapitel mit zehn Artikeln für Bereiche wie Informatik, Neurobiologie, Psychologie, Sprachwissenschaft, Pädagogik/Lernen, Betriebswirtschaft, Politikwissenschaft, Sozialwissenschaften, Naturwissenschaften und Philosophie. Wenn hinter all den Versuchen die Hoffnung stand, aus der Vielfalt doch einen einheitlichen Informationsbegriff abzuleiten, so ist das Vorhaben immer wieder gescheitert. Nach wie vor gilt Wersigs Aussage aus den siebziger Jahren: „Informationsbegriffe gibt es nahezu so viele, wie es Autoren gibt, die darüber schreiben.“ (Lit. 37, S. 28) Auf die 14 Variationen des Informationsbegriffs aus Beats Biblionetz, die damals unter A 1.1.3 in KSS-5 aufgeführt wurden, sei hingewiesen. Heute verzeichnet das Biblionetz 29 Einträge, bis auf wenige Ausnahmen überwiegend mit Zitaten nicht aus der Informationswissenschaft (URL3). Sascha Ott in seiner weit durch die Geschichte und die wissenschaftlichen Disziplinen gehenden Analyse der Genese und Anwendung des Begriffs Information stellt im Anhang 80 Definitionen zusammen (Lit. 106, S. 333-339). Kann diese Vielfalt für eine Begriffsbestimmung von Information in der Informationswissenschaft produktiv gemacht werden? Einerseits kann auch die Informationswissenschaft kaum einfach das als irrrelevant für sie ignorieren, was z. B. die Paläontologie, die anthropologische oder die experimentelle Hirnforschung heute zu Information zu sagen hat (vgl. A 9 Informationsverhalten), andererseits kann auch die Informationswissenschaft wohl kaum eine synthetisierende Informationshoheit für alles beanspruchen, was zu Information gesagt und erforscht wird. Sehr weit scheint die Informationswissenschaft dabei in ihrem Bemühen, ein konsensuales Verständnis von Information für sich selber zu finden, nicht gekommen zu sein. Immer noch nicht ganz von der Hand zu weisen ist die skeptische Bemerkung von Fox „information science is in the rather embarassing position of lacking any clear understanding of its central notion“ (Lit. 38, S. 3). Noch kritischer beklagt Bredemeier, dass es für die Informationswissenschaft (vor allem in Deutschland) keinen „gemeinsamen Bezugsrahmen“ gebe (Lit. 34). Auch Stock/Stock (Lit. 26, S. 389) gehen davon aus, dass es keine allgemein anerkannte Definition von Informationswissenschaft und damit wohl auch nicht von Information gibt. Richtet das Defizit in der Bestimmung von Information Schaden für die ganze Disziplin der Informationswissenschaft an? Aber ist es nicht ähnlich in
8
A 1: Rainer Kuhlen
den meisten Wissenschaftsdisziplinen, dass, zumindest nach der Überwindung einer programmatischen Anfangsphase, nicht unmäßig Energie auf eine Definition des/der Basisbegriffs/e oder der Disziplinenbenennung ver(sch)wendet wird, sondern das zählt, welche Ziele in dem jeweiligen Fach verfolgt, welche Probleme behandelt werden und welche Methoden dabei zum Einsatz kommen? Ganz so agnostizistisch wollen wir nicht sein. Wir wollen hinter die pragmatischen Bestimmungen von Information nicht zurückfallen. Es kommt aber im Folgenden weniger auf eine weitere umfassende Definition von Information an, sondern abzuleiten, welche Konsequenzen der aus den angeführten Prädikaten abgeleitete pragmatische Primat für das wissenschaftliche Arbeiten in der Informationswissenschaft (vgl. Abschnitt A 1.9) bzw. für die Ausbildung in diesem Fach (vgl. Abschnitt A 1.5) und nicht zuletzt auch für die Informationspraxis haben kann.
A 1.5 Informationswissenschaft im fachlichen Kontext der Disziplin Schauen wir kurz (keineswegs mit Anspruch auf Vollständigkeit; vgl. dazu auch A 2 Professionalisierung in der Informationsarbeit), welche Vorstellungen von Information und Informationswissenschaft in ihren institutionellen Einheiten der deutschsprachigen Länder entwickelt werden. –– Im Leitbild des Instituts für Bibliotheks- und Informationswissenschaft an der HU-Berlin heißt es: „Das Zusammenwirken von Menschen und Technologien innerhalb von Informations- und Wissensprozessen und bei der Entwicklung neuer Kommunikationskulturen steht im Mittelpunkt der Forschung und Lehre am Institut.“ (URL4) –– Das Weiterbildungsprogramm Archiv-, Bibliotheks- und Informationswissenschaft der Universität Bern „berücksichtigt den Gesamtkontext von Typologie und Methodologie, von Theorie und Praxis der Produktion, Verwaltung und Nutzung von Informationen und Wissen“ (URL5). –– Der Fachbereich Informationswissenschaft der HTW Chur beschäftigt sich mit „mit Methoden und Konzepten zur Bewältigung der Herausforderungen der Produktion, der Organisation und der Distribution von Information und Wissen in allen Feldern von Wirtschaft, Verwaltung und Gesellschaft unter besonderer Berücksichtigung der Digitalisierung“ (URL6). –– Bei der Darmstädter Hochschule heißt es bei der Charakterisierung des Studiengangs Informationswissenschaft: „Information und Wissen sind die Rohstoffe der Wissensgesellschaft. Der Erfolg eines Unternehmens oder einer Organisation hängt in zunehmendem Maße von einem gekonnten Umgang mit Wissen ab. Entscheidend dafür ist es, die richtige Information zur richtigen Zeit am richtigen Ort zu haben.“ (URL7) –– In den Folien zur Lehrveranstaltung Informationswissenschaft am Institut für Informationswissenschaft und Wirtschaftsinformatik an der Karl-Franzens-Universität in Graz findet sich, neben einigen älteren Definitionen für Information (vor allem mit Rückgriff auf die Bestimmung von Gernot Wersig als Reduktion von Ungewissheit), der pragmatische Primat wieder: „Information ist handlungsrelevantes Wissen.“ (URL8; vgl. Lit. 111) –– Im Department „Information“ der Hochschule für Angewandte Wissenschaften Hamburg heißt es: „Lehre und Forschung haben die nachhaltige Verbesserung der wirtschaftlichen und gesellschaftlichen Versorgung mit Informationsressourcen zum Ziel. Wir haben es uns zum Auftrag gemacht, in allen Bereichen von Bildung, Wissenschaft, Wirtschaft, Kultur und öffentlichem Leben analoge und digitale Inhalte aufzubereiten und für deren Verbreitung zu sorgen.“ (URL9) –– Im Master-Studiengang Internationales Informationsmanagement – Informationswissenschaft an der Universität Hildesheim kann das Fach durch Auflistung der zentralen Studienbereiche bestimmt werden: Information und Gesellschaft, Mensch-Maschine-Interaktion, Mehrsprachige Informationssysteme, Computervermittelte Kommunikation. Sprachtechnologie, Internationales Software-Projektmanagement und E-Learning (URL10). –– In der Informationswissenschaft an der Universität Konstanz stand (seit 1980) der pragmatische Primat von Information und damit Handlungsrelevanz und Validität von Information im
––
––
––
––
––
A 1: Information – Informationswissenschaft
9
Vordergrund. Seit 2010 ist Informationswissenschaft jedoch nur noch sehr beschränkt im Fachbereich Informatik und Informationswissenschaft zu studieren (URL11). Im Qualifikationsprofil der Bibliotheks- und Informationswissenschaft an der FHS Köln werden u. a. die folgenden Aufgabenbereiche genannt: „professionelles Management von Informationseinrichtungen; strategische Konzeption innovativer Informationsdienstleistungen; Wissensmanagement im internationalen Kontext; Entwicklung von technischen Lösungen zur Optimierung von Informationsprozessen; informationspolitische Kompetenz“ (URL12). Als Ziel der (mit WS 2012/2013 beendeten) Informationswissenschaft an der Universität des Saarlandes wird formuliert, „den Zugang zu problemlösungsrelevantem Wissen aus Sicht der Betroffenen (Nutzer) zu ermöglichen oder zu optimieren. … Neben der Konzeption und Entwicklung benutzer- und bedarfsgerechter Informationssysteme gehört die Evaluation vorhandener Informations-Vermittlungslösungen mit Untersuchungen zur Akzeptanz und deren gesellschaftlichen Auswirkungen zum informationswissenschaftlichen Aufgabenbereich.“ (URL13) Im Master-Studiengang Informationswissenschaft an der Fachhochschule Potsdam sollen Fähigkeiten erworben werden, „die Informationen und Informationsflüsse einer Organisation oder Einrichtung (Gebietskörperschaft, Unternehmen etc.) zu analysieren, zu organisieren und entsprechende IT-Lösungen einzuführen, zu konfigurieren und weiterzuentwickeln“ (URL14). „Was ist Informationswissenschaft?“ wird an der Universität Regensburg wie folgt beantwortet: „Im Zentrum der Interessenslage des Faches steht somit das Spannungsdreieck Wissen – Informationstechnik – Mensch. … In diesem Zusammenhang beschäftigt sich Informationswissenschaft mit der angemessenen Weitergabe, Aufbereitung, Erschließung und dauerhaften Archivierung von Information, die ständig in unserer Gesellschaft entsteht.“ (URL16) Im Bachelor-Studiengang Bibliotheks- und Informationsmanagement der Hochschule Medien Stuttgart steht im Zentrum: „Professionelles Recherchieren, Interpretieren und Aufbereiten von Information steht ebenso auf dem Lehrplan wie die Kenntnis des aktuellen Medienmarktes, um eine kundenorientierte Medienauswahl treffen zu können.“ (URL17; vgl. URL18)
Werfen wir einen Blick auf die USA, wo Informations- und Bibliothekswissenschaft sicherlich institutionell am breitesten und sichersten verankert ist. Allein in USA und Canada gibt es 63 offiziell von der American Library Association (ALA) akkreditierte Master-Studiengänge (interessant nebenbei, dass die ALA akkreditiert, nicht die ASIS&T). Nehmen wir nur die drei an der Spitze des Ranking stehenden Schulen für Library and Information Studies als Beispiel (hier entsprechend dem Ranking von U.S. News): –– Library & Information Studies at the University of Illinois-Urbana-Champaign (URL19): In der Beschreibung des Masterprogramms heißt es: „Our graduates are prepared to develop and evaluate resources and programs, and to understand the needs of many different kinds of users … to anticipate social and technological changes, and to promote change that advances the profession, improves technology, and encourages positive social transformation.“ Jüngst wird im Doktorandenprogramm ein weiterer spezieller Schwerpunkt „Information in Society specialization“ entwickelt. –– School of Information and Library Science at the University of North Carolina (UNC): Als eine der wenigen Schulen wird im Bachelor-Programm eine Definition von Information Science versucht: „Information science is the study of cognitive, social, technological, and organizational roles of information in all its forms. It rests on three foundational pillars: Content: the substance of the information being created, communicated, stored, and/or transformed; People who interact with the content; they may be creators of information, recipients of information, or intermediaries in the communication process; Technology used to support the creation, communication, storage, or transformation of the content.“ (URL20) –– School of Information Studies at Syracuse University: „Undergraduate students … understand the importance of knowing how to find information through Internet search engines and di-
10
A 1: Rainer Kuhlen
gital databases, present information through multimedia software or on web sites, and assess and use that information in making decisions.“ Das Master-Programm formuliert auch so etwas wie einen pragmatischen Primat: „is on users and user information needs as a starting point for integrating information and information technology into organizations“ (URL21). Man erkennt deutlich, dass in den führenden US-amerikanischen Schulen klar eine nutzungs-/nutzerorientierte Perspektive eingenommen wird, unter Einschluss der technologischen, aber auch der rechtlichen, politischen und allgemein kulturellen Rahmenbedingungen. Das ist in den Einrichtungen im deutschsprachigen Bereich kaum anders. Auf verbindliche Definitionen von Information und Informationswissenschaft (Library and Information Science – LIS) wird, bis auf wenige Ausnahmen, verzichtet. Bestimmt wird das Fach über die Inhalte, die Bereiche, die Lernziele, die Methoden und die anvisierte Berufspraxis.
A 1.6 Diversität der Themen und Bereiche In erster Linie spiegeln sich auch in der Informationswissenschaft die zentralen Themen in den Artikeln der Fachzeitschriften wider. Zu Anfang des 20. Jahrhunderts hatte es nur eine Zeitschrift, Library Journal, gegeben, welche dem heutigen, im Angelsächsischen üblicherweise als Information Science & Library Science (LIS) bezeichneten Gebiet entspricht. Für die Gegenwart machen Larivière/ Sugimoto/Cronin (Lit. 39) siebzig informationswissenschaftlich einschlägige Organe aus, wobei hier die angelsächsische Sicht dominiert. Diese 70 Organe machen etwa 1,5 % der im Web of Science indexierten Social Sciences & Humanities Journale (SSH) aus, während es 1960 noch etwa 4 % waren. Zentrale Zeitschriften des Fachgebiets sind neben den drei sicherlich führenden, JASIS(T); Information Processing & Management, Journal of Documentation, auch die folgenden (ohne Vollständigkeitsanspruch): Journal of Information Science, Scientometrics, Library & Information Science Research, Library Quarterly, College & Research Libraries, Journal of Academic Librarianship, Reference & User Services Quarterly, RQ, Library Trends, and MIS Quarterly Journal of Education for Library and Information Science; Libri; Journal of Librarianship and Information Science; Malaysian Journal of Library & Information Science; Scientometrics. In Deutschland sind in erster Linie dazuzurechnen Information – Wissenschaft und Praxis (IWP) und Zeitschrift für Bibliothekswesen und Bibliographie (ZfBB). In einer (an der Fachhochschule Köln und der Informationswissenschaft Graz durchgeführten) szientometrischen Analyse (Grazia Colonia) von Juli 2002 (Lit. 40) wurden 50 informationswissenschaftliche (zu einem Teil exklusiv bibliotheksbezogene) Publikationsorgane untersucht. In dieser Studie wurde für diese Fachzeitschriften in Informationswissenschaft/information and library science kein sehr wirkungsträchtiges Ergebnis ermittelt: Weltweit, hatten (2002) informationswissenschaftliche Zeitschriften im Durchschnitt nur einen Impact factor von 0,4. Nur Annual Review of Information Science, Journal of Documentation, JASIS(T) und Library Quarterly hatten 2002 einen Impact Factor von über 1.0. JASIST hat allerdings derzeit, 2012, einen Impact factor von 2.081; das Jahrbuch Annual Review of Information Science and Technology (zuletzt 2010) sogar einen Impact factor von 2.955 und IP/M 2012 einen Faktor von 1,119. Diese letzten Zahlen deuten darauf hin, dass informationswissenschaftliche Zeitschriften doch stärker auch für Fachfremde attraktiv werden (dazu sogleich). Von den deutschen Zeitschriften halten nach Grazia Colonia, mit Blick auf Impact, nur die Zeitschrift für Bibliothekswesen und Bibliographie (ZfBB) und Bibliothek. Forschung und Praxis (mit Rang 13 bzw. Rang 15) einigermaßen Anschluss an die internationalen Journale. Die in Deutschland bevorzugten Publikationsorgane für die engere Informationswissenschaft, Information – Wissenschaft und Praxis (IWP) und die Proceedings der ISI-Tagungen, spielen mit Blick auf Impact (mit Werten von 0,2 bzw. 0.01) derzeit so gut wie keine Rolle. Sicherlich sollte der Maßstab des Impact Factor nicht überschätzt werden; aber Rezeption, auch wenn das nicht nur Zitieren ist, ist nun ein-
A 1: Information – Informationswissenschaft
11
mal wichtiges Kriterium für wissenschaftlichen Erfolg. Möglicherweise ist für die deutschsprachige Informationswissenschaft eine breitere Sichtbarkeit und Nutzung nur über eine europäische Perspektive zu erreichen. Was wird in den Zeitschriften behandelt und welche zentralen Bereiche der Informationswissenschaft zeichnen sich ab? Die Diversität der Themen und Gegenstandsbereiche wird durch eine aktuelle, überwiegend an der Entwicklung in den USA ausgerichtete bibliometrische, oben schon erwähnte Langzeitstudie (Lit. 39) belegt. In dieser Studie wurden 96.000 informationswissenschaftliche Artikel analysiert, die zwischen 1900 und 2010 publiziert wurden. Es wurde dabei, nicht überraschend, eine relativ stabile Einteilung des weiteren Gebiets in die Hauptgebiete Library science, Information science und Scientometrics festgestellt. Zu ähnlichem Ergebnis auf Grund einer Analyse der Titel der Publikationen in 16 LIS-Zeitschriften zwischen 1988 und 2007 kommen Milojević et al. (Lit. 41): „the traditionally recognized library-related and information-related branches, plus an equally distinct bibliometrics/scientometrics branch“. Möglicherweise entwickelt sich Information seeking behaviour (vgl. A 8 Information Seeking Behaviour) als vierter selbständiger Zweig. Ebenso ist zusammen mit der Entwicklung des Internet bzw. der neuen Informations- und Kommunikationstechnologie seit etwa 1992 ein starker Anstieg der kognitiven Themen zu verzeichnen. Nach Lit. 39 sind die zentralen Wörter in den Titeln der 70 Zeitschriften: information, technology, citation, analysis, bibliometric*, impact, journal, scholarly, access, user, use, search, management, knowledge, theory, model, research, data, behavior/ behavior, information seek*, health, clinical, literacy, network, social network*, and academic lib* (* wird als Truncation-Symbol verwendet). Information kommt in den letzten Jahren in ca. 10 % aller Titel vor; 1970 waren es noch ca. 20 %. Wörter wie librar*, librarian, book, university, public, children, archiv*, catalog*, subject head*, index*, classification, and retrieval sind im Gegensatz zum frühen 20. Jahrhundert immer weniger in den Titeln der Artikel vorhanden. Es dominieren derzeit stärker die an IKT und dem Internet orientierten Wörter. Klassische LIS-Wörter wie Retrieval machen derzeit nur noch etwa 1 % aus. Das ist sicher nur ein terminologisches Indiz, keineswegs ein Beleg dafür, dass in Forschung und Entwicklung Information Retrieval keine Rolle mehr spielte. Eher hat sich die Terminologie (in Richtung Suchmaschinen oder Web 2.0-Applikationen) verändert als der Forschungsgegenstand selbst. Dies wird auch durch die Analyse von Zhao/Strotmann (Lit. 42) belegt, in der der Zusammenhang von Information Science und dem Web von acht, den Autoren zentral erscheinenden informationswissenschaftlichen Publikationsorganen wie den oben erwähnten drei zentralen Zeitschriften und den Proceedings of the American Society for Information Science and Technology (and Proceedings of the ASIST Annual Meeting) untersucht wurde. Überschaut man die tatsächlich in den Artikeln, nicht nur in den Titeln behandelten Themen allein in den drei zentralen Zeitschriften der letzten 5 Jahre, so zeichnet sich ab, dass die Gegenstände, also die Objektfelder des Fachs, weiter auch im Umfeld von Wissensorganisation, der Produktion, der Organisation und der Distribution von Information und Wissen, und des (weiteren) Information Retrieval, einschließlich der Suchmaschinen, aber auch der Konzeption und Entwicklung benutzer- und bedarfsgerechter Informationssysteme gesehen werden. Aber auch Themen oder Objektbereiche aus Informationsmanagement, Informationsmärkte, Qualitätsmanagement, Theorien der Informationsgesellschaft oder Informationspolitik, -recht, -ethik sind bestimmend geworden. Deutlich ist für die Informationswissenschaft eine interdisziplinäre Perspektive auszumachen (Lit. 43, Lit. 44, Lit. 45). Informationswissenschaft nimmt weiter starke methodische Anleihen aus anderen Fächern. Das muss aber keine Einbahnstraße sein. Zusammen mit dem Wandel der Informationswissenschaft von einem professionellen Praxisfeld zu einer wissenschaftlichen Disziplin werden die informationswissenschaftlichen Publikationsorgane nach Larivière/Sugimoto/Cronin (Lit. 39) etwa seit 1990 zunehmend für Personen aus anderen Disziplinen (vor allem Informatik und Management bzw. Wirtschaftswissenschaft) attraktiv, während gleichzeitig die Anzahl der publizierenden InformationswissenschaftlerInnen ebenfalls stark zunimmt und diese auch in Organen anderer Dis-
12
A 1: Rainer Kuhlen
ziplinen präsent sind. Sie referenzieren immer mehr auf Quellen außerhalb des engeren Informationsgebiets. Gegenwärtig stammen nur noch 36 % der Referenzen aus dem LIS-Gebiet, während es 1960 noch etwa 80 % waren. LIS-Arbeiten werden zugleich zunehmend von außerhalb zitiert. Die Autoren interpretieren das so: „LIS has come of age and is now attracting attention from its academic near neighbors“, vor allem von Informatik und Wirtschaftswissenschaft. Das gilt zumindest für die USA. Die Studie lässt keine Schlüsse zu, welche thematischen LIS-Arbeiten extern zitiert werden. Sind es eher die technischen oder methodischen Artikel oder sind es Artikel, die von der Sensibilität der Informationswissenschaft für quasi weiche Themen wie Akzeptanz, Relevanz, Wirkung von Information, kognitive, soziale, politische, rechtliche Aspekte der Informationsverarbeitung Nutzen und Anregungen ziehen wollen? Stimmte Letzteres, wäre diese eine gewissen Bestätigung für die obige Vermutung (Gradmann), dass die Informationswissenschaft sich in der Zukunft noch stärker auf geisteswissenschaftliche Kompetenz besinnen sollte (vgl. auch Lit. 46). Die für die Informationswissenschaft festzustellende Multidisziplinarität (Lit. 45) ist auf der einen Seite sicherlich die Attraktivität der Disziplin, da sie einer Vielzahl von WissenschaftlerInnen aus ursprünglich anderen Disziplinen ein attraktives Betätigungsfeld bietet (Lit. 47) und auch den genuinen InformationswissenschaftlerInnen eine breite Spezialisierung entsprechend ihren Interessen ermöglicht. Ob dies auf der anderen Seite im Einzelfall ausreicht, erfolgreich im Bewerbungskampf mit anderen Disziplinen wie Informatik, Linguistik, Psychologie oder Wirtschaftswissenschaft zu bestehen, ist problematisch. Informationswissenschaft hat oft das Problem – das macht sich auch bei Drittmittelanträgen bemerkbar – sozusagen zwischen allen Stühlen zu sitzen. Noch schwieriger mag es sogar in der Ausbildung sein, wo die Curricula eine große Diversität auch an Pflichtkursen vorsehen. Keineswegs kann erwartet werden, dass sich die Studierenden auf all den Spezialthemen, deren primäre Heimat andere Fächer sind, eben dieses vertiefte Spezialwissen aneignen können, die Studierende in den anderen Fächern erwerben. Informationswissenschaftliche Ausbildung vermittelt daher zu einem großen Teil eher Orientierungswissen als Spezialwissen. Das spiegelt sich auch in diesem Handbuch wider.
A 1.7 Phasen/Perioden der Informationswissenschaft Vielleicht noch erhellender als die an Hand von Publikationstiteln bibliometrisch fundierte Einteilung der Informationswissenschaft in einige thematische Hauptgebiete ist der ebenfalls diachronisch angelegte Versuch, die Entwicklung der Informationswissenschaft seit Ende des 19. Jahrhunderts in Hauptphasen einzuteilen (vgl. Lit. 23). Es hat dafür viele Versuche gegeben (vgl. A 2 in KSS5). Hier nur ein (leicht modifizierter) Vorschlag, aus der französischen Tradition von Fidelia Ibekwe-SanJuan (Lit. 48), der aber mit einiger Vorsicht und einer weitergehenden Interpretation einen gewissen Generalisierungsanspruch erheben kann. A 1.7.1 Phase 1: 1895–1950 Eine bibliographische, klassifikatorische, dokumentarische Sicht auf die Erschließung von Dokumenten mit dem Ziel, diese besser verfügbar zu machen als über das traditionelle Bibliothekssystem, von und im Gefolge von Paul Otlet and Henri La Fontaine. A 1.7.2 Phase 2: 1950–1974 Formalisierung, Mathematisierung; eine Verschiebung von der bibliographischen Sicht auf die Automatisierung der Inhaltserschließung (vor allem automatisches Indexing) und anderer dokumen-
A 1: Information – Informationswissenschaft
13
tarischer Prozesse, personifiziert in Frankreich durch Jean-Claude Gardin, weltweit vor allem durch Gerald Salton; Hinwendung von den Büchern zum Inhalt. A 1.7.3 Phase 3: 1975–2000 System-orientierte technologische Sicht auf Information Retrieval im weiteren Sinne, verbunden mit einer kognitiven Sicht auf die menschliche und maschinelle Informationsverarbeitung; Verschiebung des Fokus von Bibliographie, Dokumentation und Wissensorganisation zu angewandter, ingenieurmäßiger Forschung unter dem Einfluss von Künstlicher Intelligenz und Informatik, betrieben von Personen mit stärkerem Hintergrund in Ingenieur- und Naturwissenschaften; eher an direkter praktischer Verwendung orientiert als an theoretischer Forschung zu Information; Konzentration auf wissenschaftlich-technische (Fach-)Information und deren Nutzung. A 1.7.4 Phase 4: 2000 bis zur Gegenwart Pragmatische, (zweite) kognitive, kommunikative Wende; durch Einfluss von Kommunikationsund kognitiven Wissenschaften eine Rückbesinnung auf die sozialen (und geisteswissenschaftlichen) Wurzeln der Theorie der Informationswissenschaft; in Frankreich daher ein (terminologisches und systematisch stark von der französischen Philosophie (Barthes, Foucault) bestimmtes) Zusammengehen mit Kommunikationswissenschaft (Information and Communication Sciences). Natürlich sind das keine fest abgeschlossenen und auch in der Realität keine so eindeutig auszumachenden Perioden. Das in Phase 1 dominierende Thema der Klassifikation wird gerade auch in der Gegenwart, also in Phase 4, wieder als Teil einer historischen Hermeneutik der Kultur aufgenommen (Lit. 24) und, ganz anders auch in den Methoden des Information Retrieval, der Computer-/Informationslinguistik und des maschinellen Lernens. Auch in Phase 2 und dann auch in Phase 3 wurde es z. B. von Gernot Wersig und KollegInnen unternommen, die Informationswissenschaft als Sozialwissenschaft bzw. als Informationssoziologie zu begründen (vgl. auch Lit. 47, Lit. 50). In Phase 3 schon vertraten Informationswissenschaftler wie Rafael Capurro (Lit. 46), entgegen dem Trend, einen geisteswissenschaftlichen hermeneutischen Ansatz (Informationswissenschaft als Verstehenswissenschaft), wie er sich dann stärker in Phase 4 herausbildet (Lit. 51). Und natürlich stehen weiterhin alle Herausforderungen des Information Retrieval (heute oft unter dem Etikett der Suchmaschinen) im Zentrum der Informationswissenschaft, wenn auch die technischen Aspekte zunehmend von der Informatik reklamiert werden, während in der engeren Informationswissenschaft Themen wie Frageformulierung, Akzeptanz und Bewertung der Ergebnisse etc. in den Vordergrund rücken. Und auch in Phase 3, mitten im Information-Retrieval-Paradigma, entwickelt sich schon das, was als pragmatischer Primat mittlerweile einen gewissen Konsens in der deutschsprachigen Informationswissenschaft ausmacht. Ein Programm für die Informationswissenschaft könnte also als eine Symbiose der Gegenstände von Phase 3 und 4 sein. Jedermann sei eingeladen, daraus doch so etwas wie eine (aktuelle) Definition von Information und Informationswissenschaft abzuleiten. Jüngst hat Stefan Gradmann (Lit. 31) unter dem Eindruck der Tagung WWW2012 in Lyon und unter Verwertung einiger Texte aus dem von der Gruppe Roger T. Pédauque herausgegebenen Band Le document à la lumière numérique (Lit. 52) so etwas wie Redocumentarisation in den fachlichen Diskurs der Informationswissenschaft einzubringen versucht. Damit hat er aber keinesfalls eine Rückkehr zu der traditionellen Dokumentation (s. Phase 2 oben) gemeint, sondern eine erneuerte, stärkere „Befassung mit den Kernbegriff Dokument“ (vgl. Lit. 53, Lit. 54). Und das hat eine doppelte Bedeutung für das Informationsverständnis der Informationswissenschaft: 1. Der Dokumentbegriff wird neu gefasst (Lit. 55). Niemand wird heute noch annehmen, dass die Repräsentation von Wissen vorwiegend in gedruckter, materialer Form, wie in Büchern
14
A 1: Rainer Kuhlen
oder Zeitschriftenartikeln bzw. klassischen Dokumenten, geschieht. Entsprechend muss sich Informationsarbeit zunehmend darauf einrichten, dass Objekte jeder medialen Art und vorwiegend in elektronischer Form bearbeitet und als Information, ebenfalls elektronischer Art bereitgestellt werden müssen. Genauso wie der Übergang von Phase 1 zu Phase 2 den Fokus von den Büchern zu den klassischen Dokumenten in gedruckter Form verschob, so befassen sich heute die Informationsprofessionellen, einschließlich der Bibliothekare in den Bibliotheken, immer mehr und in absehbarer Zukunft überwiegend, wenn nicht gänzlich, mit Objekten, die in digitaler und in vielfältig medialer (auch oral – Lit. 56) Form repräsentiert sind. Das ist nicht das Ende des Buches oder der gedruckten Dokumente, aber sicher das Ende ihrer Dominanz als Repräsentanten von Wissen und der Bereitstellung und Nutzung von Information. Hat es entsprechend Zukunft, wenn die Informationswissenschaft über eine universale Ausweitung des Dokumentbegriffs eine Redocumentarisation zu betreiben versucht? 2. Aber Redocumentarisation im Sinne der Pédauque-Gruppe (und so versteht es auch Gradmann) soll mehr und anderes sein als nur eine mediale Universalisierung. Entscheidender ist wohl die Neubestimmung von Dokument (in einer hier allerdings etwas sperrigen Sprache): „Letztlich ist ein Dokument nichts anderes als eine Übereinkunft zwischen Menschen, deren anthropologische (Lesbarkeit, Wahrnehmung), intellektuelle (Verstehen, Aneignung) und soziale (gesellschaftliche Integrierbarkeit) Dimensionen ein Teil ihres Menschseins und ihrer Fähigkeit zum Zusammenleben selbst begründen.“
Redocumentarisation ist dann für Gradmann, wie oben schon erwähnt, der entscheidende Hinweis auf eine mögliche Zukunft der Informationswissenschaft „als eine Wissenschaft vom Verstehen“, als „Geisteswissenschaft im besten Sinne“, die sich aber natürlich auch und immer mehr auf Objekte und Prozesse aus der digitalen und medialen Welt bezieht. Diese Objekte können, neu definiert, als Dokumente bezeichnet werden, aber Dokumente in pragmatischer Hinsicht. Ein Dokument ist in der Informationswissenschaft, wie es Hobohm (D 12 Bibliothek im Wandel) formuliert, „immer nur dann Dokument, wenn es eine soziale Funktion besitzt, z. B. etwas jemandem zu sagen hat“.
A 1.8 Rahmenbedingungen der Entwicklung der Informationswissenschaft Sicherlich fallen die Phaseneinteilungen der Informationswissenschaft oder die Entwicklung ihrer jeweils aktuellen und bevorzugten Themen nicht vom Himmel, sondern werden vom Stand der Informations- und Kommunikationstechnik beeinflusst, spiegeln aber auch die jeweiligen politischen, rechtlichen und sozialen Entwicklungen der Gesellschaft und der Wissenschaften sowie die damit verbundenen Interessen und Erwartungen wider. Kleinefeld (Lit. 24) leitet entsprechend in einem struktur-genetischen bzw. kultur-historischen Ansatz den Bedarf nach einer Historiographie der Information ab. So ist es mehr als deutlich, dass in der oben erwähnten Phase 1 die Informationswissenschaft bzw. das damalige Bibliothekssystem auf die Klassifikationsanstrengungen der Wissenschaft im 19. Jahrhundert reagierte und mit den (universell angelegten) Klassifikationen Ordnung und Orientierung in die um die Jahrhundertwende stark ansteigenden Publikationen und Wissenszuwächse zu bringen versuchte. In das Ende dieser Phase fällt als erste technologische Revolution nach der Entwicklung von Druckverfahren mit bewegten Lettern (Gutenberg) auch die Entwicklung der Kopiermaschinen (1949 war der erste kommerzielle Kopierer auf den Markt), durch die sich der Fokus der Aufmerksamkeit und die Rezeption von Fachliteratur von den Büchern auf einzelne, leichter fotografisch reproduzierbare Artikel allmählich verschob. Diese Tendenz der Rezeption immer kleinerer Informationsobjekte (Chunks of knowledge) setzt sich bis heute in der Internetwelt fort, in der Information oft nur noch über minimale Tweets oder Smart Phone Messages aufgenommen und ver- und erarbeitet wird.
A 1: Information – Informationswissenschaft
15
In Phase 2 durchdringt die damals auf Großrechnern basierende Computertechnologie alle Informationsprozesse. Technologie wurde schon seit den 60er Jahren für quasi intelligente Aufgaben wie automatisches Indexing, Abstracting und Übersetzung eingesetzt, kaum mit intelligenten Verfahren wie dann in Phase 3, aber dennoch mit einigen Erfolgen, vor allem beim Indexing, bei bescheidenen Ansprüchen durchaus auch beim Abstracting/Extracting und der Übersetzung (vgl. B 6, B 8, C 11 in KSS-5 und B 11 Automatische Indexierung; B 12 Automatisches Abstracting und B 13 Maschinelle Übersetzung). Motor der Entwicklung in Phase 2 war nicht zuletzt die politische Situation des Kalten Kriegs, welche nach dem Sputnik-Schock (verursacht durch die im Westen unerwartete erste Entsendung eines Satelliten in den Weltraum durch die Sowjetunion) eine Intensivierung der Informationsarbeit, vor allem unter dem Einfluss des Weinberg-Reports 1963 in den USA (Lit. 57), dann aber auch übergreifend auf Europa zum Gefolge hatte (vgl. A 2 in KSS-5). Auch die rasche Entwicklung von großen Online-Datenbanken (zunächst Referenzdatenbanken, später dann auch Volltext- und Fakten-Datenbanken) wäre ohne die umfassende Informatisierung (vor allem die Anwendung der Datenbanktechnologie auf das Information Retrieval) und die Politisierung des Informationsgeschehens kaum möglich gewesen. Methodische Fortschritte in der intellektuellen und automatischen Inhaltsanalyse (Thesauri anstelle von Klassifikationen; Machbarkeit zumindest eines einfachen automatischen Indexing) erlauben seitdem gezieltes Suchen und die Konzentration auf den Inhalt anstatt auf das Dokument. Informationsarbeit wurde nicht zuletzt auch durch die Politik (und das entsprechende Referat im BMBF) auf Fachinformation und deren Nutzung für Wirtschaft (und Wissenschaft) beschränkt. Phase 3 mit der von Ingwersen/Järvelin so bezeichneten kognitiven Wende (cognitive turn) (Lit. 58, vgl. Lit. 35) auch in der weiteren Informationswissenschaft war bestimmt durch den Optimismus der frühen Phase der Künstlichen Intelligenz und der kognitiven Psychologie mit der Hypothese einer Vergleichbarkeit von maschineller und menschlicher Intelligenz. Informationsverarbeitung wurde dabei immer mehr von einer informationstechnischen und einer mathematisierten algorithmischen Ingenieurssicht bestimmt. Dieses einfache Information processing-Paradigma setzte darauf, dass die kognitiven Prozesse der menschlichen Informationsverarbeitung durch Computer modelliert und simuliert werden könnten (Lit. 58, Lit. 49), erwies sich für die Informationswissenschaft als zu schlicht bzw. unangemessen und wurde auch aus einem kognitiven, aber ganz anders gelagerten Verständnis von führenden Informationswissenschaftlern wie Thomas D. Wilson (Lit. 59), Nick Belkin (Lit. 60), Peter Ingwersen (Lit. 61) oder Tefko Saracevic (Lit. 62, Lit. 63) nicht akzeptiert. Diese hatten durchaus auch die technologische, algorithmische Dimension von Informationsverarbeitung im Blick, wiesen aber darauf hin, dass menschliche Informationsverarbeitung auf weitaus komplexeren kognitiven Prozessen gegründet sei (Verstehen, Interpretieren, Intentionalität), als dass jene von Rechnern, jedenfalls auf absehbare Zeit, simuliert werden können. Saracevic macht es sehr deutlich, dass Informationswissenschaft, zwar „inexorable connected to information technology“ sei, aber „has a strong social and human dimension, above and beyond technology“. Die aktuelle Forderung von John M. Budd bleibt aber weiter bestehen: „Information science should pay close attention to what is occurring in cognitive science in order to investigate the most complex of challenges in information retrieval use, behaviour, and other phenomena.“ (Lit. 64; vgl. Lit. 112)
Ergänzt wurde in Phase 3 der kognitive, aber technisch ausgerichtete Informationsverarbeitungsansatz um die sukzessive globale Vernetzung durch technische Kommunikationssysteme und nicht zuletzt durch die Anwendung der Hypertext-Methodologie bei der Entwicklung und raschen globalen Verbreitung des World Wide Web: komplexe Vernetzung heterogener und multimedialer Objekte und nicht-lineare Endnutzungsstrategien, die eher einem stöbernden Browsing als einem gezielten Suchen entsprechend dem Matching-Paradigma des Information Retrieval in Phase 2 ähnelt. All dies machte das Informationsgeschehen für die Öffnung in die allgemeinen Publikumsmärkte
16
A 1: Rainer Kuhlen
und für die Informationswirtschaft ab Mitte der 90er Jahre interessant und leitete die bis heute andauernde starke Kommodifizierung von Wissen und Information mit all seinen Chancen und Risiken ein (Lit. 65). Seitdem ist die klassische Sicht der Informationswissenschaft – Aufbereitung und Bereitstellung von Wissen für die gezielte Nutzung von Information, bevorzugt in professionellen Umgebungen von Wissenschaft und Wirtschaft – ein nach wie vor wichtiges, aber, angesichts der Ausweitung des Informationsgeschehens in die allgemeinen Publikumsmärkte, doch nur kleines Teilgebiet der Universalisierung von Information in der Informationsgesellschaft. In Phase 4, in der wir uns noch derzeit befinden, scheint sich in theoretischer Hinsicht so etwas wie ein Practice turn (Lit. 66, Lit. 113) und eine Begründung der Informationswissenschaft als Sozialwissenschaft durchzusetzen. Andrew M. Cox (Lit. 67) z. B. greift auf das zurück, was schon immer in der Informationswissenschaft präsent war und womit jetzt viele kognitiv ausgerichtete Disziplinen experimentieren, nämlich „practice theories as a theoretical perspective“ anzunehmen. Dieser Practice turn hat sich vor allem unter dem Konzept der Community of practice im Wissensmanagement durchgesetzt (Lit. 72, Lit. 73). Die Intention dabei ist es nicht zuletzt, den im Kognitivismus bestimmenden individualistischen Ansatz durch die Ausrichtung an situative (im weiteren Sinne soziale) Praxisgegebenheiten zu ergänzen: „A practical understanding is the ability to do some things appropriate to a situation.“
Das kann dann auf das Verständnis von Information übertragen werden als „information in social practice“. Daher deutet es sich an, den bislang dominierenden Begriff Information behaviour durch Information practice zu ersetzen. So wie es Reijo Savolainen in den Kontext rückt: „people seldom think of collecting, processing or using information as something separate from the task or problem at hand“ (Lit. 68)
und Andrew M. Cox: „Escaping a narrow preoccupation with goal-oriented information seeking, we need to first ask within any practice what, for social actors, constitutes information, and then how do they find, use, create and share it.“ Cox kommt daher zu dem Schluss: „Connecting IS to this evolving debate is important to understanding it as a social science.“ (Lit. 67)
In Phase 4 hat allerdings die Informationswirtschaft, längst über die Online-Datenbanken und das Buch- und Zeitschriften-Verlagswesen hinausgehend, die Kommodifizierung von Wissen und Information weiter forciert. Seitdem spricht man von Copyright-Industrien, deren Leistungen in Ländern wie den USA über 10 % des Bruttoinlandsprodukts ausmachen (Lit. 69). Die Bedeutung von Wissen und Information für alle Bereiche von Wirtschaft und Gesellschaft hat eine extreme Politisierung und Verrechtlichung über das Immaterialgüterrecht bewirkt, in erster Linie über das Urheberrecht und das Patentrecht (vgl. A 3, A 4, A 5 Urheberrecht und Internetrecht). Auf der anderen Seite sind angesichts der im Prinzip auf Offenheit und Freiraum angelegten Potenziale des Internet immer mehr Tendenzen auszumachen, in denen stärker auf die Rechte der NutzerInnen am Informationsgeschehen abgehoben wird, auf informationelle Selbstbestimmung, auf das Recht auf Privatheit und Mitwirkung. Zentrale Frage in der Gegenwart ist, wie wir in der Zukunft mit Wissen und Information umgehen wollen, wer Anspruch auf Wissen und Information hat (Lit. 70, vgl. Lit 71), wie frei der Zugriff auf Wissen sein soll, wie weit die kommerzielle Verwertung gehen darf (Lit. 65, URL 21). Die Frage ist allerdings weniger Wem gehört Wissen? Entscheidend ist der Zugriff auf die Wissensressourcen und damit die Möglichkeit der Erarbeitung von Information. Sind Wissen und Information in erster Linie private, kommerziell verwertbare Güter, oder sind sie in erster Linie Ge-
A 1: Information – Informationswissenschaft
17
meingüter (Commons) bzw. Gemeinschaftsgüter (Lit. 74), für die im Prinzip Gemeinfreiheit bestehen soll? (Lit. 75, Lit. 76, Lit. 116; vgl. A 6 Wissensökologie)
A 1.9 Pragmatischer Primat – Konsequenzen für Informationserarbeitung in der Informationswissenschaft Keine wissenschaftliche Disziplin und kein Ausbildungsangebot kann sich angesichts der globalen Ubiquität von Information für diese umfassend zuständig erklären. Für die Informationswissenschaft, will sie weiter ihren Anspruch auf die Wissenschaft von der Information erheben, bedeutet das – aber das ist nicht neu seit Phase 2 –, dass sie ihre Schwerpunkte wird setzen müssen. Natürlich werden auch Informationswissenschaftler weiter experimentell und technisch konstruktiv forschen und entwickeln und Auszubildende sich umfassend das methodische Werkzeug der Informationserarbeitung (sic!) aneignen müssen – aber vielleicht wird doch für die Informationswissenschaft das bestimmend, was oben mit Gradmann Wissenschaft vom Verstehen, also „Geisteswissenschaft im besten Sinne“ bezeichnet wurde bzw. was hier der pragmatische Primat genannt wird. Es spricht einiges dafür (vgl. Abschnitt A 1.4) dass ein Konsens über den Pragmatic turn in der Informationswissenschaft erreicht werden kann. Es geht in der Informationswissenschaft zentral um die Handlungsrelevanz, um die Nutzung und den Nutzen von Information (referenziell auf Wissen bezogen). Die Informationswissenschaft beschäftigt sich mit Information in kommunikativen sozialen Prozessen (vgl. die oben skizzierte französischen Sicht auf Informationswissenschaft; vgl. auch die stark sozial-/geisteswissenschaftliche Ausrichtung in den nordischen Ländern – Lit. 77). Trotzdem wird die informationswissenschaftliche Diskussion um objektive und subjektive Information weitergehen, die ja 1979 mit dem berühmten Artikel von Jason Farradane The nature of information eröffnet wurde (Lit. 78). Farradane, durchaus der informationstheoretischen Position verpflichtet, sah Information als „the written or spoken surrogate of knowledge“. Wissen ist auch für Farradane eine interne kognitive Struktur des Menschen und als solche nicht direkt zugänglich. Für Farradane sollte der Ausgangspunkt für eine wissenschaftliche Beschäftigung mit Information immer die Funktion von Information als Surrogat für Wissen sein. Davon ausgehend sollten – und damit könnte eine Brücke vom informationstheoretischen zum pragmatischen Theorieverständnis geschlagen werden – durchaus die Reaktionen und Verhaltensweisen von Nutzern von Information auch in quantitativer Absicht untersucht werden, auch wenn es nach wie vor schwierig ist, die Beziehung zwischen objektiver Information und subjektiver beobachtbarer Reaktion des Benutzers auszumachen (Lit. 79), zumal eine Reaktion auf eine aufgenommene Information in vielen (vielleicht sogar den meisten) Fällen erst weit zeitverzögert erfolgt. Wie schwierig und problematisch es ist, eine Diskussion um die Reichweite objektiver und subjektiver Information zu führen, zeigt die erbitterte Auseinandersetzung zwischen Bates und Hjørland, welche in den Jahren 2005-2011 überwiegend in JASIST geführt wurde (Lit. 79 bis Lit. 87). Diese Debatte sollte von jedem in der Informationswissenschaft nachvollzogen werden. Niemand kann und soll daran gehindert werden, informations- oder evolutionstheoretische objektive Begründungen für die Informationswissenschaft zu unternehmen. Hjørlands grundlegende Annahmen deuten aber eher auf eine sinnvolle Brauchbarkeit des sozialen, pragmatischen, kommunikativen Ansatzes für die Informationswissenschaft hin. Dieser Ansatz ist durchaus verträglich mit einer eher technischen, experimentellen und konstruktiven (also Informationsleistungen hervorbringenden) informationswissenschaftlichen Sicht. Die pragmatische Einbeziehung des Handlungskontextes des jeweiligen Nutzers hat auch praktische Relevanz für konstruktive Forschungs- und Entwicklungsarbeit, um sozusagen Bedingungen der Möglichkeit für die eigentliche Informationsarbeit zu schaffen. Ein Einblick in die aktuelle informationswissenschaftliche Literatur (und die Beiträge in diesem Band) gibt dafür viele (hier nur exemplarisch angeführte) Hinweise:
18 ––
––
––
––
––
––
–– ––
A 1: Rainer Kuhlen
Weltwissen, ein aus der Künstlichen Intelligenz stammender Begriff, ist sozusagen der kognitive Kontext, durch den bereitgestelltes repräsentiertes Wissen zur Information werden kann, und ist somit als Teil des hermeneutischen Prozesses Bedingung für Verstehen und ein Baustein für Information. Auch für die Informationswissenschaft ist es ein wichtiger, pragmatisch ausgerichteter Forschungsgegenstand, Weltwissen für maschinelle Informationserarbeitung bereitstellen zu können, z. B. durch Ableitung von domänspezifischem Wissen aus den Texten bzw. Textkollektionen selbst (vgl. Lit. 88). Nutzermodellierung (vgl. B 15 in KSS-5) ist nicht nur in der Künstlichen Intelligenz, sondern auch beim Information Retrieval wichtig für die nutzerorientierte Bereitstellung von Information (Lit. 89, Lit. 109). Nutzermodellierung war (und ist noch immer) ein aufwändiger intellektueller Prozess. Dafür können auch Daten aus dem Web genutzt werden, z. B. um aus Yahoo! Answers mit einem riesigen Bestand an Fragen (schon 2008 ca. 23 Millionen) neue Fragen abzuleiten, die für bestimmte Nutzer, die ähnliche Fragen gestellt haben, von Nutzen sein können (Lit. 90 bis Lit. 93). Einflussfaktoren für Suchtaktiken für den Informationserfolg und für Informationsqualität werden intensiv untersucht (z. B. Lit. 94), wie auch die Bedeutung kognitiver Muster für das Retrieval (B 16 Kognitives Information Retrieval). Nicht zuletzt ist das gesamte Gebiet von Mensch-Maschine-Interaktion durch seine Benutzerfokussierung informationswissenschaftlich und pragmatisch ausgerichtet (vgl. C 6 Mensch-Computer-Interaktion) wie auch das Berufsfeld der Informationsvermittlung (C 6 in KSS-5). Ebenso ist die Berücksichtigung von Nutzerspezifika und Anfragetypen im Information Retrieval und bei Suchmaschinen wichtig (Lit. 95, Lit. 96; D 1 Suchmaschinen), da individuelle Nutzerunterschiede (im Vorwissen, in der kognitiven Ausstattung, bei den Zielen und Interessen) auch bei gleichen Aufgaben und gleichen Systemumgebungen zu sehr unterschiedlichen Suchergebnisse führen können. Daher erlebt auch die Informationsverhaltensforschung eine neue Renaissance (vgl. A 9 Informationsverhalten). Informationserarbeitung ist nicht nur ein individueller Prozess, sondern bezieht sich unter dem Stichwort Collaborative information seeking immer mehr in kollaborativ organisierten Umgebungen auch auf Gruppen (Lit. 105; vgl. D 7 Social Web). Dadurch mag sich auch der bislang eher auf das Individuum gerichtete Begriff der Information verändern. Ebenso zeichnet sich bei der aktuellen Forschung zu Information Seeking eine stärkere Kontextualisierung ab (vgl. A 8 Information Seeking Behaviour). Die Funktion von Kontext und Information bei der Kollaboration zwischen zwei Autoren wird untersucht von (Lit. 97): „may potentially imply rich socioeconomic, disciplinary, and institutional information on collaboration“. Die Bedeutung von Kontext für Informationsprozesse insgesamt wird zunehmend gesehen (Lit. 05). Die Relevanz von Kontext für Video-Retrieval z. B. wird untersucht (Lit. 98); ebenso die Bedeutung von Kontext für das Lesen (und Eye movement Experimenten) (Lit. 99, Lit. 100) und erst Recht für computergestützte Lernprozesse (vgl. D 9 Lernen mit Medien). Der Einfluss des Faktors Aufgabenkomplexität auf die Bildung von mentalen Modellen bei der Informationssuche wird am Beispiel von MedlinePlus untersucht (Lit. 101), wie auch die Bedeutung der Bildung von mentalen Modellen auf das Retrieval insgesamt (Lit. 102). Informationserarbeitung in sozialen Interaktionen ist auch in hohem Maße eine emotional gesteuerte Aktivität (Lit. 103). Dabei wird auch an einschlägige Forschungen aus der MenschComputer-Interaktion angeknüpft (vgl. C 5 Modelle der computervermittelten Kommunikation und C 6 Mensch-Computer-Interaktion), um deren Forschungsergebnisse auch für Prozesse beim Information Retrieval und für das Indexieren (Lit. 104) bzw. für das Tagging von Emotions in Bildern (Lit. 115) nutzbar zu machen.
Ein Artikel in einem Handbuch kann der Informationswissenschaft nicht vorschreiben, welche Disziplin sie sein will und erst recht nicht den InformationswissenschaftlerInnen, was sie forschen, entwickeln und lehren wollen. Aber die pragmatische Sicht auf Information, das subjektiv gesteu-
A 1: Information – Informationswissenschaft
19
erte Verstehen von Information als in aktives Handeln gesetztes Wissen in konkreten Kontexten zum Nutzen persönlicher, privater, professioneller und sozialer, politischer Entwicklung, stellt gegenüber den primär technischen und kommerziellen Sichten auf Information ein attraktives Angebot dar, das herausfordernd und schwierig genug ist und das auch nur in Zusammenarbeit (Import und Export) mit vielen anderen wissenschaftlichen Disziplinen wahrgenommen werden kann. Nichts wäre schädlicher als ein sich beschränkendes Abkapseln, nur übertroffen durch einen hypertrophen Anspruch auf universelle Zuständigkeit für Information.
Literatur ARIST = Annual Review of Information Science and Technology IPM = Information Processing&Management IWP = Information Wissenschaft & Praxis JASIST = Journal of the American Society for Information Science and Technology JIS = Journal of Information Science JoD = Journal of Documentation 01 Wittgenstein, Ludwig: Philosophische Untersuchungen. Frankfurt: Suhrkamp-Verlag 1967 (zuerst 1958) 02 Gradmann, Stefan: Signal. Information. Zeichen. Zu den Bedingungen des Verstehens in semantischen Netzen. LIBREAS. Libreas IDEAS #14, 2009 03 Sloman, Aaron: Bateson did not define ‘information’ as ‘a difference that makes a difference’. And he would have been rather silly if he had (http://www.cs.bham.ac.uk/research/projects/cogaff/misc/ information-difference.html); based on Aaron Sloman: What's information, for an organism or intelligent machine? How can a machine or organism mean? Gordana Dodig-Crnkovic and Mark Burgin (eds): Information and Computation. New Jersey: World Scientific Publishers, 2011, 393-438 04 Berger, Peter L.; Luckmann, Thomas: Die gesellschaftliche Konstruktion der Wirklichkeit. Eine Theorie der Wissenssoziologie. 3. Aufl., Frankfurt a.M. 1972 (1970) (engl. Originalausgabe: The social construction of reality: A treatise in the sociology of knowledge. Garden City, New York: Anchor Books 1966) 05 Debes, M.; Lewandowska, A.; Seitz J.: Definition and Implementation of Context Information. Proeccedings of the 2nd Workshop on Positioning, Navigation and Communication (WPNC'05) & 1st Ultra-Widepand Expert Talk (UET'05). 2005 (http://www.wpnc.net/fileadmin/WPNC05/Proceedings/ Definition_and_Implementation_of_Context_Information.pdf) 06 Shannon, Claude E.; Weaver, Warren: The mathematical theory of communication. Univ. of Illinois Press: Urbana 1949 07 Bates, Marcia J.: Information and knowledge: An evolutionary framework for information science. Information Research 10, 2005, 4, Paper No. 239 (http://Informationr.net/ir/10-4/paper239.html) 08 Bates, Marcia J.: Fundamental forms of information. Journal JASIST 57, 2006, 8, 1033-1045, 2006 09 Janich, Peter: Informationsbegriff und methodisch-kulturalistische Philosophie. Ethik und Sozialwissenschaften 9, 1998, 2, 169-182; 252-268; vgl. Janich, Peter: Was ist Information? Kritik einer Legende. Frankfurt a.M.: Suhrkamp 2006 10 Krause, Jürgen: Alles schon da? – Der handlungsorientierte Informationsbegriff als Grundlage informationswissenschaftlicher Theoriebildung und Gestaltungsarbeit. Ethik und Sozialwissenschaften 9, 1998, 2, 223-224 11 Kuhlen, Rainer: Information and pragmatic value-adding: Language games and information science. Computer and the Humanities 25, 1991, 93-101 12 Friedmann, Alon; Thellefsen, Martin: Concept theory and semiotics in knowledge organization. JoD 67, 2011, 4, 644-674 13 Saab, David J.; Riss, Uwe V.: Information as ontologization. JASIST 62, 2011, 11, 2236-2246 14 Raber, Douglas: The problem of information: An introduction to information science. Lanham, Md.: Scarecrow Press, 2003
20
A 1: Rainer Kuhlen
15 Davis, Charles H.; Shaw, Deborah: Introduction to Information Science and Technology. ASIS&T Monograph Series. Medford, NJ: PB – Information Today, Inc. 2011 16 Floridi, Luciano: Information: A Very Short Introduction. Oxford: Oxford University Press, 2010 17 Bawden, David; Robinson, Lyn: Introduction to Information Science 2012. London: Facet Publishing 2012 18 Stock, Wolfgang G.; Stock, Mechtild: Handbook of Information Science. Berlin, Boston, MA: de Gruyter Saur (erscheint 2013) 19 Borko,Harald: Information science: What is it? American Documentation 19, 1968, 3-5 20 Buckland, Michael K.: Information as thing. JASIS 42, 1991, 351-360 21 Buckland, Michael K.: What kind of science can information science be? JASIST 1, 2012, 1-7 22 Ma, Lai: Meanings of information: The assumptions and research consequences of three foundational LIS theories, JASIST 63, 4, 2012, 716-723 23 Gleick, James: The Information: A History, a Theory, a Flood. New York: Pantheon Books, 2011 24 Kleinefeld, Michael: Die elementaren Formen der Klassifikation. Ein strukturgenetischer Beitrag zur Informationsgeschichte. Masterarbeit am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin. Berlin 08/2012 25 Jones, Bonna: Reductionism and library and information science philosophy. JoD 64, 2008, 4, 482-495 26 Stock, Wolfgang G.; Stock, Mechtild: Was ist Informationswissenschaft? Petrovic, O.; Reichman, G.; Schlögl, C. (Hrsg.): Was ist Informationswissenschaft? Begegnungen mit Wolf Rauch. Wien, Köln, Weimar: Böhlau 2012, 389-407 27 Salton, Gerard; McGill, Michael J.: Introduction to modern information retrieval. New York: McGraw-Hill 1963 (deutsch: Information Retrieval – Grundlegendes für Informationswissenschaftler. Hamburg etc.: McGraw Hill 1987) 28 Wu, H.C.; Luk, R.W.P. ; Wong, K.F.; Nie, J.Y.: A split-list approach for relevance feedback in information retrieval. IPM 48, 2012, 5, 969-977 29 Cole, Charles: A theory of information need for information retrieval that connects information to knowledge. JASIST 52, 2011, 7, 1216-1231 30 Leckie, Gloria J.; Given, Lisa M.; Buschman, John E. (eds): Critical Theory for Library and Information Science Exploring the Social from Across the Disciplines. Santa Barbara, CA: Libraries Unlimited 2010 31 Gradmann, Stefan: La Redocumentarisation – ein informationswissenschaftliches Editorial. IWP 63, 2012, 3, 41-43 32 Bredemeier, Willi: Kritik der Informationswissenschaft. Anmerkungen eines interessierten und besorgten Bürgers mit Common Sense. Password 2010, 07/08 und 10 33 Kaden, Ben; Kindling, Maxi; Pampel, Heinz: Stand der Informationswissenschaft 2011. LIBREAS. Library Ideas, Jg. 8, H. 1 (20) (http://libreas.eu/ausgabe20/texte/09kaden_kindling_pampel.htm) 34 Bredemeier, Willi: Willi Bredemeier antwortet seinen informationswissenschaftlichen Kritikern, 15-11-2010 (http://www.password-online.de/pushdienst-news/detail/article/password-pushdienst-15november-2010.html) 35 Capurro, Rafael; Hjørland, Birger: The Concept of Information. ARIST 37, 2003, Chap. 8, 343-411 36 Machlup, Fritz; Mansfield, Una (eds): The study of information. Interdisciplinary messages. New York: John Wiley 1983 37 Wersig, Gernot: Information – Kommunikation – Dokumentation. Ein Beitrag zur Orientierung der Informations- und Dokumentationswissenschaften. München-Pullach, Berlin: Verlag Dokumentation 1972 38 Fox, Chris F.: Information and misinformation. An investigation of the notions of information, misinformation, and misinforming. London: Greenwood Press 1983 39 Larivière, Vincent; Sugimoto, Cassidy R.; Cronin, Blaise: A bibliometric chronicling of library and information science's first hundred years. JASIST 63, 2012, 5, 997-1016 40 Grazia Colonia. Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft. Band 33: Informationswissenschaftliche Zeitschriften in szientometrischer Analyse 2002 41 Milojević, Staša; Sugimoto, Cassidy R.; Yan, Erjia; Ding, Ying: The cognitive structure of Library and Information Science: Analysis of article title words. 1933-1953. JASIST 62, 2011, 10 42 Zhao, Dangzhi; Strotmann, Andreas: Information Science during the first decade of the Web: An enriched
43 44 45 46 47 48 49 50 51
52
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
A 1: Information – Informationswissenschaft
21
author co-citation analysis. Journal of the American Society for Information Science and Technology, 59, 2008, 916-937 Chang, Yu-Wei; Huang, Mu-Hsuan: A study of the evolution of interdisciplinarity in library and information science: Using three bibliometric methods JASIST 1, 2012, 22-33 Holland, George Adam: Information science: an interdisciplinary effort? JoD 64, 2008, 1, 7-23 Stock, Wolfgang G.: Informationswissenschaft interdisziplinar. Themenheft Interdisziplinäre Informationswissenschaft in Düsseldorf. IWP 63, 2012, Heft 4, hier: 215-216 Capurro, Rafael: Hermeneutik der Fachinformation. Freiburg 1986 Cronin, Blaise: The sociological turn in information science. JIS 34, 2008,4, 465-475 Ibekwe-SanJuan, Fidelia: The French Conception of Information Science. „Une Exception Française“? JASIST, Article first published online: 17 Jul 2012 Simon, Herbert A.: Information-processing models of cognition. JASIS 32, 1985, 364-377 Cibangu, Sylvain K.: Toward a sociological theory of information. JoD 66, 2010, 2, 297-299 Treude, Linda: Information, Zeichen, Kompetenz. Fragen an Rafael Capurro zu aktuellen und grundsätzlichen Fragen der Informationswissenschaft. Information Wissenschaft und Praxis, 1, 2011, 37-42 Pédauque, Roger T. (Pseudonym einer Écriture collective): Le document à la lumière numérique. Caen 2006 – Englische Version: Document : form, sign and medium, as reformulated for electronic documents (http://archivesic.ccsd.cnrs.fr/docs/00/06/22/28/PDF/sic_00000594.pdf) Buckland, Michael K.: What is a „document“? JASIS 48, 1997, 9, 804-809 Frohmann, Bernd: Revisiting „what is a document?“ JoD 65, 2009, 2, 291-303 Lund, Niels Windfeld: Document, text and medium: concepts, theories and disciplines. JoD 66, 2010, 5, 734-749 Turner, Deborah A.: Conceptualizing oral documents. Diss. University of Washington 2009 (http://www. taosinstitute.net/Websites/taos/Images/ResourcesNoteworthy/DTurnerThesis.pdf) Krauss, Michael (mit Ergänzungen von Matthias Jentschke): Der Sputnik-Schock und die Entwicklung der (Fach-)Informationspolitik in der Bundesrepublik Deutschland. Virtuelles Handbuch Newell, Allen; Simon, Herbert Alexander: Human problem solving. Prentice Hall 1972. IPM Special Issue Collaborative information seeking. IPM 46, 2010, 629-631 Wilson, Thomas D.: The cognitive approach to information-seeking behaviour and information use. Social Science Information Studies 4, 1984, 197-204 Belkin, Nicholas J.: The cognitive viewpoint in information science. JIS 16, 1990, 1, 169-182 Ingwersen Peter: Cognitive perspectives of information retrieval interaction elements of a cognitive IR theory. JoD, 52, 1996, 3-50 Saracevic, Tefko: Relevance: a review of and a framework for the thinking on the notion in information science. JASIS 26, 1975, 321-346 Saracevic, Tefko: Relevance reconsidered '96. P. Ingwersen; N.O. Pors (eds.): Information science: integration in perspective. Copenhagen: Royal School of Library and Information Science 1996, 201-218 Budd, John M.: Revisiting the importance of cognition in information science. JIS 37, 2011, 4, 360-368 (http://jis.sagepub.com/content/37/4/360) Kuhlen, Rainer: Informationsmarkt. Chancen und Risiken der Kommerzialisierung von Wissen. Schriften zur Informationswissenschaft Vol. 15. Universitätsverlag Konstanz (UVK), Konstanz 1995 Schatzki, T.; Knorr Cetina, K,; von Savigny, E.: The practice turn in contemporary theory. London: Routledge, 2001 Cox, Andrew M.: An exploration of the practice approach and its place in information science. JIS 38, 2012, 2, 176-188 Savolainen Reijo: Everyday information practices: A social phenomenological perspective. Plymouth: Scarecrow Press, 2008 World Intellectual Property Organization (WIPO): WIPO studies on the economic contribution of the copyright industries. 2012 (http://www.wipo.int/ip-development/en/creative_industry/pdf/economic_ contribution_analysis_2012.pdf)
22
A 1: Rainer Kuhlen
70 Branscomb, Anne Wells: Who owns information? From Privacy to public access. New York: Basic Bools/ Perseus Books Group 1994 71 Kuhlen, Rainer: Universal Access – Wem gehört Wissen? A. Poltermann (Hrsg.): Gut zu Wissen. Links zur Wissensgesellschaft. Westfälisches Dampfboot: Münster 2002, 164-197 72 Wasko, McLure, M.; Faraj, Samer: It is what one does: Why people participate and help others in electronic communities of practice. Journal of Strategic Information Systems 9, 2000, 2-3, 155-173 73 Wasko, McLure, M.; Faraj, Samer: Why should I share? Examining social capital and knowledge contribution in electronic networks of practice. MIS Quarterly: Management Information Systems, 29, 2005, 35-57 74 Kuhlen, Rainer: Wissensökonomie und Wissensökologie zusammen denken. Helfrich, Silke und HeinrichBöll-Stiftung (Hrsg.): Commons. Für eine neue Politik jenseits von Markt und Staat. transcript Verlag: Bielefeld 2012, 405-413 75 Hess, Charlotte; Ostrom, Elinor (eds.): Understanding knowledge as a commons: From theory to practice. Cambridge, MA: MIT Press, 2006 76 Peukert, Alexander: Die Gemeinfreiheit. Geistiges Eigentum und Wettbewerbsrecht, Bd. 63. Tübingen: Mohr Siebeck 2012 77 Aström, Frederik: The institutionalization of library and information science research in the Nordic countries. JoD 64, 2008, 5, 721-737 78 Farradane, Jason: The nature of information. JIS 1, 1979, 1, 13-17 79 Hjørland, Birger: Information: Objective or subjective/situational? JASIST 58, 2007, 10, 1448-1456 80 Bates, Marcia J.: Hjørland's critique of Bates' work on defining information. JASIST 59, 2008, 5, 842-844 81 Bates, Marcia J.: Fundamental forms of information. JASIST 57, 2008, 8, 1033–1045 82 Bates, Marcia J.: Hjørland’s critique of Bates’ work on defining information. JASIST 59, 2008, 5, 842-844 83 Bates, Marcia J.: Birger Hjørland’s Manichean misconstruction of Marcia Bates’ work. JASIST 62, 2011, 10, 2038-2044 84 Hjørland, Birger:The controversy over the concept of „Information“: A rejoinder to Professor Bates. JASIST 60, 2009, 3, 643 85 Hjørland, Birger: The foundation of the concept of relevance. JASIST 61, 2010, 217-237 86 Hjørland, Birger: The Importance of Theories of Knowledge: Indexing and Information Retrieval as an Example. JASIST 62, 2011, 1, 72-77 87 Hjørland, Birger: The importance of theories of knowledge: Browsing as an example. JASIST 62, 2011, 3, 594-603 88 Clark, Malcolm et al.: Automatically structuring domain knowledge from text: An overview of current research. IPM 48, 2012, 3, 552-568 89 Joemon M. Jose, Hideo Joho, C.J. van Rijsbergen: Adaptive information retrieval: Introduction to the special topic issue of information processing and management, IPM, 44, 2008, 6, 1819-1821 90 Ni, Xingliang et al.: User interest modeling and its application for question recommendation in user-interactive question answering systems. IPM 48, 2012, 2, 218-233 91 Strohmaier, Markus; Kröll, Mark: Acquiring knowledge about human goals from Search Query Logs. IPM 48, 2012, 1, 63-82 92 Kumaran, Giridhar; Allan, James: Adapting information retrieval systems to user queries. IPM 44, 2008, 6, 1838-1862 93 Bai, Jing; Nie, Jian-Yun: Adapting information retrieval to query contexts. IPM 44, 2008, 6, 1901-1922 94 Xie, Iris; Joo, Soohyung: Factors affecting the selection of search tactics: Tasks, knowledge, process, and systems. IPM 48, 2012, 2, 254-270 95 Al-Maskari, Azzah; Sanderson, Mark: The effect of user characteristics on search effectiveness in information retrieval. IPM 47, 2012, 5, 719-729 96 Broder, Andrei: A taxonomy of web search. ACM Sigir forum 36, 3-10, 2002 97 He, Bing; Ding, Ying; Ni, Chaoqun: Mining enriched contextual information of scientific collaboration: A meso perspective. JASIST 62, 2011, Issue 5, 831-845 98 Bermejo, Pablo et al.: Study of context influence on classifiers trained under different video-document
A 1: Information – Informationswissenschaft
23
representations. IPM 2011, 2, 215-226 99 LaBerge, David; Samuels, S. Jay: Toward a theory of automatic information processing in reading. Cognitive Psychology 6, 1974, 2 100 Rayner, Keith: Eye movements in reading and information processing: 20 years of research. Psychological Bulletin, 124, 1998, 3, 372-422 101 Zhang, Yan: The impact of task complexity on people’s mental models of MedlinePlus. IPM 48, 2012, 107-119 102 Peffers, Ken et al.: A Design Science Research Methodology for Information Systems Research. Journal of Management Information Systems 24, 2007-2008, 3, 45-77 103 Lopatovska, Irene; Arapakis, Ioannis: Theories, methods and current research on emotions in library and information science, information retrieval and human-computer interaction. IPM 47, 2011, 4, 575-592 104 Schmidt, Stefanie; Stock, Wolfgang G.: Collective indexing of emotions in images. A study in emotional information retrieval. JASIST 60, 2009, 5, 863-876 105 Special Issue Collaborative information seeking. IPM 46, 6, November 2010 106 Ott, Sascha: Information. Zur Genese und Anwendung eines Begriffs. Konstanz: UVK Verlagsgesellschaft 2004 107 Hobohm, Hans-Christoph: Information und Wissen. Stefan Gradmann and Konrad Umlauf (Hrsg.): Handbuch Bibliothek (forthcoming). Stuttgart: Metzler 2013 108 Spink, Amanda: Information behavior. An evolutionary instinct. Berlin, New York: Springer 2010 109 Borgman, Christine L.: The user's mental model of an information retrieval system: an experiment on a prototype online catalog. International Journal of Man-Machine Studies Volume 24, 1986, Issue 1, 47-64 110 Bates, Marcia J.: An introduction to metatheories, theories, and models. K.E. Fisher; S. Erdelez & L. McKechnie (Eds.): Theories of information behavior, New York: Medford, NJ 2005, 1-24 111 Rauch, Wolf: Die Dynamisierung des Informationsbegriffes. Hammwöhner, Rainer; Rittberger, Marc; Semar, Wolfgang (Hg.): Wissen in Aktion. Der Primat der Pragmatik als Motto der Konstanzer Informationswissenschaft. Festschrift für Rainer Kuhlen. Konstanz: UVK Verlagsgesellschaft mbH, 2004. S. 109-117 112 Budd, John M.: Meaning, truth, and information: prolegomena to a theory. Journal of Documentation 2011, 67, 56-74 113 Cronin, Blaise; Meho, Lokman: The shifting balance of intellectual trade in information studies. JASIST 59, 2008, 4, 551-564 114 Lyre, Holger: Informationstheorie. Eine philosophisch-naturwissenschaftliche Einführung. Fink: München 2002 (UTB 2289) 115 Knautz, Katrin; Guschauski, Daniel; Miskovic, Daniel; Siebenlist, Tobias; Terliesner, Jens; Stock, Wolfgang G.: Incentives for emotional multimedia tagging. CSCW `12. Proceedings of the ACM Conference on Computer Supported Cooperative Work Companion. New York, NY: ACM, 2012, 53-54 116 Kuhlen, Rainer: Wem gehört Wissen in elektronischen Räumen? Zu den informationsökonomischen und informationsökologischen Konsequenzen der Urheberrechtsregulierung in Deutschland für Bildung und Wissenschaft. Michael Kerres, Reinhard Keil und Rolf Schulmeister (Hrsg.): eUniversity. Update Bologna, Education Quality Forum, Band 3, 2006 117 Stelzer, Dirk: Artikel Wissen. Kurbel, Karl; Becker Jörg; Gronau, Norbert; Sinz, Elmar; Suhl, Leena (Hrsg): Online-Lexikon. Einzyklopädie der Wirtschaftsinformatik (http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/Wissensmanagement/Wissen)
URL-Verzeichnis URL1 URL2 URL3 URL4 URL5 URL6
http://www.asis.org/about.html http://www.informationswissenschaft.org http://beat.doebe.li/bibliothek/w00021.html http://www.ibi.hu-berlin.de/institut/leitbild http://www.archivwissenschaft.ch/ziele.html http://www.htwchur.ch/index.php?id=68
24
A 1: Rainer Kuhlen
URL7 http://www.h-da.de/studieninteressierte/infoveranstaltungen/info-messe/info-messe-homepage/ studienangebot/informatik-und-informationswissenschaften/informationswissenschaft-bsc/ URL8 http://www.uni-graz.at/iwiwww/archiv/kap1.pdf URL9 http://www.bui.haw-hamburg.de/ URL10 http://www.uni-hildesheim.de/index.php?id=iimiw URL11 http://www.kuhlen.name URL12 http://malis.fh-koeln.de/fileadmin/templates/download/FlyerMALISFHKoeln.pdf URL13 http://is.uni-sb.de/info/profil/ URL14 http://informationswissenschaften.fh-potsdam.de/master_iw.html URL15 http://informationswissenschaften.fh-potsdam.de/iw-dokumentationbachelor.html URL16 http://www.uni-regensburg.de/sprache-literatur-kultur/informationswissenschaft/ informationswissenschaft/index.html URL17 http://www.hdm-stuttgart.de/studienangebot/information_und_kommunikation/bachelor/ studiengang_steckbrief?sgang_ID=200005 URL18 http://www.hdm-stuttgart.de/studienangebot/information_und_kommunikation/master/ studiengang_steckbrief?sgang_ID=350014) URL19 http://www.lis.illinois.edu/academics/programs URL20 http://sils.unc.edu/programs/) URL21 http://ischool.syr.edu/ URL22 http://www-a.ibit.uni-oldenburg.de/bisdoc_redirect/publikationen/bisverlag/unireden/ur27/dokument.pdf URL23 http://www.paulwatzlawick.de/axiome.html
Ursula Georgy
A 2 Professionalisierung in der Informationsarbeit
Beruf und Ausbildung in Deutschland, Österreich und der Schweiz
A 2.1 Einleitung Informationsarbeit ist „alles das, was Informationsspezialisten leisten, um Wissenstransfer zu ermöglichen. Dazu gehört v.a. die Beschaffung, Auswahl, Erschließung, Speicherung, Vermittlung, Reproduktion von Dokumenten und die Information über Dokumente aller Art“ (Lit. 42). Dabei richtet sich die Information an interne und externe Öffentlichkeiten. Im Laufe der Zeit hat die Informationsarbeit eine wesentliche Erweiterung hin zum Informationsmanagement vollzogen, das u. a. „die effektive und effiziente Bewirtschaftung des Produktionsfaktors Information in Organisationen“ (Lit. 22) umfasst. Beruf und Ausbildung des Berufsfeldes Informationsarbeit haben in den letzten Jahren einen starken Wandel erfahren. So werden heute zwar noch die Tätigkeitsfelder in Archiv, Bibliothek sowie Information und Dokumentation (ABD) bzw. Bibliothek, Information und Dokumentation (BID) unterteilt, doch sind die Tätigkeitsfelder der Informationsspezialisten immer vielfältiger geworden, sodass eine Reduktion auf diese Bereiche heute zu kurz greifen würde. Der Beruf des Dokumentars existiert noch, doch ihm haftet inzwischen ein eher altmodisches Image an – zumindest vom Namen her, nicht von den Aufgaben – und er scheint fast aus der Mode gekommen zu sein. Zudem sind neue Funktionsbereiche hinzugekommen, die auch nicht mehr streng den Einrichtungen wie Archiv, Bibliothek, Information und Dokumentation oder den entsprechenden Abteilungen z. B. Fachinformationsabteilungen von Unternehmen zugeordnet werden können. Hinzu kommt, dass potenzielle Informationen im Internet durch Suchmaschinen für jeden Internetnutzer verfügbar und über sehr komfortable Suchoberflächen der kommerziellen Informationsanbieter einfacher als früher zu recherchieren sind. Damit ist in den letzten Jahren ein großer Bereich der Output-Funktionen der Informationsspezialisten weggefallen bzw. er hat sich gänzlich verändert: z. B. die klassische (professionelle) Informationsvermittlung, das Informations-Brokerage, das sich erst in den 1980er Jahren mit der Entwicklung der ersten digital verfügbaren (Online-)Datenbanken als eigenständiges Berufsbild entwickelt hatte, ist nur noch in wenigen Bereichen existent, und zwar dort, wo die Thematik so komplex ist, dass die Recherche nur begrenzt von Endnutzern durchgeführt werden kann. Verbunden mit dem damaligen Beruf des Informationsvermittlers war häufig ein – aus heutiger Sicht – eingeschränktes Verständnis von Informationsarbeit. Es reduzierte sich in weiten Teilen auf die Zurverfügungstellung, Recherche und Aufbereitung insbesondere von wissenschaftlich-technischer, medizinischer und wirtschaftlich relevanter Literatur. Und Informationsspezialisten waren überwiegend in speziellen Einrichtungen oder Abteilungen, wie z. B. Informationsvermittlungsstellen, tätig. Seit den 1990er Jahren hat eine starke Entinstitutionalisierung der Informationsarbeit stattgefunden, was u. a. zur Folge hat, dass Informationsspezialisten seitdem in ganz unterschiedlichen Geschäftsbereichen einer öffentlichen Einrichtung oder eines Unternehmens eingesetzt und benötigt werden, weshalb es auch schwer fällt, den Informationsmarkt noch zu definieren bzw. zu bestimmen. Vielmehr ist es heute Aufgabe der Informationsspezialisten, Informationsbedarf zu erkennen und zu decken sowie auch Informationsflüsse z. B. in Unternehmen zu gestalten. Bedarf an Informationsmanagement haben in Unternehmen z. B. Abteilungen, die sich mit Competitive Intelligence, Intellectual Capital, Knowledge Management, Marketing aber auch Entscheidungs- und Risikomanagement befassen. Die Konsequenz der Weiterentwicklung war und ist, dass das Feld der Informationsarbeit inzwischen Bereiche wie Competitive Intelligence, Computerlinguistik, (Enterprise) Content Management, Intelligente Informationssysteme, Informationstechnik, Journalistik und Redaktion, Kommunikationswissenschaft, Management, Medienrecht, Medienwissenschaft,
26
A 2: Ursula Georgy
Social Media Management, Sprachwissenschaft, Web-Design sowie Wissensmanagement etc. umfasst, wobei die Grenzen auch zwischen diesen Fächern oft fließend und nicht mehr trennscharf sind. Je nach Tätigkeit werden einzelne Kompetenzen mehr oder weniger in unterschiedlicher Kombination benötigt, doch ist es inzwischen unerlässlich, zumindest ein Grundverständnis für die verschiedenen Bereiche zu entwickeln bzw. zu besitzen. Heute steht beim Informationsmanagement die wirtschaftliche Bedeutung von Information im Vordergrund (Lit. 20). Hierdurch kommt dem Informationsmanagement eine stärkere strategische Ausrichtung zu, die auch die Informationsarbeit und somit das Berufsbild der Informationsspezialisten maßgeblich mit beeinflusst. Und unabhängig davon, ob es sich um interne oder externe Öffentlichkeit als Zielgruppe handelt, geht es darum, durch Informationsressourcen Wertschöpfung zu generieren bzw. sie für den Wertschöpfungsprozess zu nutzen. Insbesondere neue Informations-, Internet-, Kommunikations- und Telekommunikationstechnologien, Kommunikationsformen wie Social Media und weitere externe Informationsressourcen durch Commons-based Peer Production, Crowd Sourcing und Open Innovation haben die Aufgaben und Funktionen von Informationsspezialisten in den letzten Jahren stark verändert. Letztendlich hat dies sogar dazu geführt, dass eine Differenzierung zwischen klassischen und neu entstandenen Berufsrollen und Berufsgruppen immer weniger möglich ist bzw. dass es immer mehr und neue Einsatzbereiche für diese Berufsgruppen gibt. Dies ist eine Entwicklung, die nicht nur auf die Informationsarbeit beschränkt ist. Gesucht wird z. B. in Stellenanzeigen immer weniger nach Berufsbezeichnungen sondern vielmehr nach Kompetenzen oder Tätigkeitsbezeichnungen. Zum einen bedeutet diese Entwicklung für die Bewerber, sich auch auf Anzeigen zu bewerben, die nach der Betitelung ggf. nur wenig mit dem gelernten Beruf oder der Bezeichnung ihres Studiums zu tun haben. Auf der anderen Seite heißt es für die Arbeitgeber, dass sie sich Bewerbern mit einer Vielzahl von verschiedenen Berufsausbildungen und Studiengängen konfrontiert sehen und diese Bewerbungen gezielt nach ihren individuellen Anforderungen sichten müssen. Das Diploma Supplement liefert dabei Unterstützung (Lit. 26). Es gibt nicht mehr das Berufsbild und die Studiengänge, die für Tätigkeiten in den genannten Bereichen qualifizieren. Eine Analyse von Stellenausschreibungen in verschiedenen Jobportalen mit dem Titel Informationsmanager hat u. a. folgendes Spektrum an Aufgaben und Kompetenzen ergeben, die nur ein Schlaglicht darstellt und keine Vollständigkeit impliziert: –– Konzeption und Entwicklung von IT-Lösungen, –– Erarbeitung von CMS-Konzepten sowie Design und Entwicklung von CMS-Komponenten, –– Konzeption und kontinuierliche Verbesserung der Informationsarchitektur von Portal-Produkten und -Services, –– Konzeption und Erstellung von innovativen e-Commerce-Lösungen, –– Entwicklung und Umsetzung von Design-Konzepten für Webauftritte, –– Grafische Gestaltung von Bildschirmoberflächen bei multimedialen Anwendungen entwerfen, Benutzungsschnittstellen konzipieren und auf Usability testen, –– Optimierung des Suchmaschinen-Marketings (SEM) und der Online-Marketing-Prozesse, –– Administration und Weiterentwicklung von Redaktionssystemen, –– Koordination von digitalen Medien und des Content Managements, –– Durchführung von Recherchen und Erarbeitung informationsrelevanter Lösungen, –– Unterstützung der Entwicklungsabteilung durch Patentrecherchen und andere Schutzrechtsrecherchen, –– Erschließen von Dokumenten (inhaltlich und formal); Aufbau, Aktualisierung und Modifizierung von Thesauri und Klassifikationen, –– Kommunikations- und Marketingstrategien von Wettbewerbern analysieren und eigene Marketingstrategien aufbauen, –– Bewertung, Entwicklung und Dokumentation von Workflow-Praktiken z. B. für die Erstellung und Verbreitung elektronischer Publikationen, insbesondere seiner Korpora und Spezialdossiers,
–– –– ––
A 2: Professionalisierung in der Informationsarbeit
27
Erstellung von Marktanalysen; Branchentrends recherchieren; Unternehmensprofile im Rahmen von Strategieprojekten· analysieren, Primärerhebungen durchführen, Langzeitarchivierung konzipieren und sicher stellen, Organisation des Wissenstransfers und Sicherstellung des Wissensmanagements.
Fast parallel zu dieser Entwicklung erfuhren Ausbildung und Qualifizierung durch den BolognaProzess in Europa völlig neue Strukturen.
A 2.2 Der Bologna-Prozess Die Bologna-Erklärung (Lit. 25), die im Juni 1999 von den Bildungsministern aus zunächst 29 Ländern unterzeichnet wurde, war für die europäischen Hochschulen der Start eines einmaligen Bildungsreformprozesses. Inzwischen wirken am Bologna-Prozess 47 Staaten, die EU-Kommission und acht weitere Organisationen aus dem Hochschulbereich mit, dessen Ziel die Schaffung eines gesamteuropäischen Hochschulraums European Higher Education Area (EHEA) ist. Formulierte Ziele der Bologna-Erklärung sowie der Kommuniqués der Ministerkonferenzen waren u. a. Einführung eines Systems von verständlichen und vergleichbaren Abschlüssen (Bachelor und Master); Transparenz über Studieninhalte durch Kreditpunkte und Diploma Supplement (Text mit einheitlichen Angaben zur Beschreibung des Hochschulabschlusses und damit verbundenen Qualifikationen) (Lit. 26, Lit. 06); Förderung des lebenslangen Lernens. Ein wesentliches Ziel der Hochschulen war es, den Bachelor als berufsqualifizierenden Hochschulabschluss zu sichern sowie eine deutliche Abgrenzung gegenüber anderen Bildungsabschlüssen, z. B. einer Berufsausbildung vorzunehmen. Den Hochschulen ist es im Rahmen der Reorganisation ihrer Studiengänge vom Diplom auf den Bachelor gelungen, diesen weiterhin deutlich von Berufsausbildungen z. B. zum Fachangestellten für Medien- und Informationsdienste (FaMI) abzugrenzen. Eines der zentralen Ziele des Bologna-Prozesses ist auch die gegenseitige Anerkennung von Studienabschlüssen. So ist in Deutschland z. B. das Portal zur Anerkennung ausländischer Studienabschlüsse (Lit. 09) eingerichtet worden, auf dem sich Absolventen und Arbeitgeber informieren können, welche Abschlüsse wo anerkannt werden. Zwischen Deutschland und Österreich gibt es ein Gleichwertigkeitsabkommen im Hochschulbereich seit 2003 (Lit. 37), zwischen Deutschland und der Schweiz seit 1995 (Lit. 04). Folgende Hochschulen in Deutschland, Österreich und der Schweiz bieten Studiengänge für die klassische Informationsarbeit an: –– Deutschland: Humboldt Universität zu Berlin, Hochschule Darmstadt, Universität Düsseldorf, HAW Hamburg, Hochschule Hannover, Stiftung Universität Hildesheim, Fachhochschule Köln, HTWK Leipzig, Fachhochschule Potsdam, Universität Regensburg, HdM Stuttgart –– Österreich: Fachhochschule Burgenland, Universität Graz, Donau-Universität Krems, Universität Wien/Universität Innsbruck –– Schweiz: Universität Bern, HTW Chur, Haute école des gestion des Genève HEG.
A 2.3 Der Europäische Qualifikationsrahmen Einher mit dem Bologna-Prozess geht der 2002 verabschiedete Brügge-Kopenhagen-Prozess zur Implementierung eines europäischen Berufsbildungsraums, der u. a. vorsieht, dass beruflich erworbene Kompetenzen auf ein Hochschulstudium angerechnet werden können (Lit. 07). Man spricht auch von „beruflich qualifizierten Studierenden“ (Lit. 36). Inzwischen ermöglichen zahlreiche Hochschulen sogar Zugänge zu einem Master-Studium ohne Abitur und Erststudium, wobei die Berufstätigkeit üblicherweise fachbezogen sein muss. Im Mittelpunkt der Entwicklungen stehen der europäische Qualifikationsrahmen (European Qualifica-
28
A 2: Ursula Georgy
tion Framework EQF) (Lit. 13) sowie ein europäisches Leistungspunktesystem im Bereich der beruflichen Bildung (European Credit Transfer System in Vocational Education and Training ECVET) (Lit. 12) – analog zur Hochschulausbildung. Insbesondere für Länder mit einer dualen Berufsausbildung wie Deutschland werden diese Elemente langfristig massive Auswirkungen auf die Ausbildungsstruktur haben, z. B. werden sowohl Inputzeugnisse (erfolgreiches Absolvieren z. B. eines Bildungsgangs) als auch Outputzeugnisse (Erwerb von Kompetenzen) Berücksichtigung finden (müssen). Die Ausführungen sowohl zum Bologna-Prozess als auch zum Europäischen Qualifikationsrahmen zeigen deutlich, dass die bisherige Ausbildungsstruktur keinesfalls mehr als monolithischer Block verstanden werden darf und sowohl Hochschulen als auch Arbeitgeber – insbesondere auch von Informationsspezialisten - vor neue Herausforderungen stellen wird (Lit. 35). Die Hochschulen werden durch die Vorgabe Aufstieg durch Bildung zur offenen Hochschule (Lit. 08). Im Bereich der Informationsarbeit wird an der Hochschule Hannover erstmalig ein Studiengang für Fachangestellte für Medien und Informationsdienste angeboten, der in einem Bachelor Informationsmanagement mündet. Auch die Fachhochschule Potsdam bietet eine Weiterbildung mit zusätzlicher Externenprüfung an, um den Bachelorabschluss Bibliotheksmanagement zu erlangen. Und es ist in den nächsten Jahren mit einer Ausweitung der Angebote zu rechnen.
A 2.4 Die Differenzierung der Aus- und Weiterbildung in Deutschland Die Ausbildung gliedert sich in Deutschland und in weiten Teilen Europas in vier Ebenen und wird inzwischen wesentlich ergänzt durch die wissenschaftliche Weiterbildung. A 2.4.1 Fachangestellter für Medien- und Informationsdienste (FaMI) Es handelt sich in Deutschland um eine duale dreijährige Berufsausbildung, die grundsätzlich für den mittleren Dienst bzw. die adäquaten Entgeltgruppen des öffentlichen Dienstes im Angestelltenverhältnis qualifiziert. Der Abschluss kann in fünf verschiedenen Fachrichtungen erreicht werden: Archiv, Bibliothek, Information und Dokumentation, Bildagentur sowie medizinische Dokumentation. „[Die Fachangestellten] üben Tätigkeiten in den Arbeitsbereichen der Beschaffung, Erschließung, Vermittlung und Bereitstellung von Medien, Informationen und Daten sowie bei der Beratung und Betreuung von Kunden und Nutzern aus.“ (Lit. 32) Einem Fachangestellten werden somit eher operative und unterstützende (Standard-)Tätigkeiten zugeordnet, wobei die Eigenständigkeit der Arbeit im Allgemeinen mit abnehmender Größe der Einrichtung steigt. So werden Fachangestellten in z. B. kleinen Öffentlichen Bibliotheken durchaus Tätigkeiten wie das Bestandsmanagement zugeteilt, die in größeren Bibliotheken Bibliothekare mit Studienabschluss übernehmen (Lit. 21, Lit. 44). Im Ausland gibt es vergleichbare Ausbildungen. In Österreich ist es die Ausbildung zum Archiv-, Bibliotheks- und Informationsassistenten (ABI-Assistent), in der Schweiz die Ausbildung zum Fachmann Information und Dokumentation (Fachmann I+D). A 2.4.2 Bachelor-Studium Der Bachelor ist seit der Bologna-Reform der erste berufsqualifizierende Hochschulabschluss und qualifiziert für den gehobenen Dienst. und ersetzt das Fachhochschul-Diplom. Bachelorstudiengänge werden sowohl von Fachhochschulen (Hochschulen für angewandte Wissenschaften) als auch von Universitäten angeboten. Das Studium umfasst üblicherweise sechs, sieben und in Ausnahmefällen acht Semester und bereitet auf verantwortungsvolle Aufgaben in den verschiedensten Informationseinrichtungen bzw. Abteilungen in Unternehmen vor. In vielen (kleineren) Einrichtungen sind auch die Leitungs-
A 2: Professionalisierung in der Informationsarbeit
29
positionen mit Absolventen eines Fachhochschuldiplom- bzw. jetzt Bachelorstudiums besetzt. In Deutschland, Österreich und der Schweiz wird mit einer Ausnahme (Humboldt-Universität zu Berlin) das bibliothekarische Studium, das unter Bezeichnungen wie Bibliothekswissenschaft, Bibliotheks- und Informationsmanagement, Bibliotheks- und Informationswissenschaft, Informationsmanagement, Information Science etc. angeboten wird, von Fachhochschulen angeboten. Im Bereich Informationswissenschaft bieten sowohl Fachhochschulen als auch Universitäten entsprechende Studiengänge an, die Bezeichnungen tragen wie Information Science, Informationsmanagement und Informationswissenschaft, Informationswissenschaft und Sprachtechnologie, Informationswirtschaft oder Internationales Informationsmanagement. An einigen Standorten wird die Informationswissenschaft in einen Kombinationsstudiengang integriert, z. B. an der Universität Regensburg, sodass die Studierenden die Informationswissenschaft in Kombinationen z. B. mit Medieninformatik, Allgemeine und vergleichende Sprachwissenschaft, Medienwissenschaft, Vergleichende Kulturwissenschaft oder auch Wirtschaftsinformatik studieren können. Dieser Auszug an Studiengängen und -schwerpunkten macht deutlich, wie heterogen die Studienstruktur geworden ist. A 2.4.3 Konsekutives Master-Studium Die Master-Abschlüsse sind für viele Hochschulen in Europa noch relativ neu. Sie bauen i. A. auf einem Bachelorabschluss auf. In Deutschland berechtigt in Deutschland jeder Masterabschluss zum höheren Dienst (Lit. 43). Der Abschluss eines Masterstudiums entspricht gemäß Bologna-Prozess dem früheren Abschluss eines Universitätsstudiums (Diplom oder Magister), wobei die Master-Abschlüsse einer Fachhochschule und Universität gleichwertig sind und prinzipiell auch für eine Promotion an einer Universität qualifizieren. Speziell das Angebot der Masterstudiengänge (mit oder ohne vorausgegangenem einschlägigen Bachelorstudium) und „ihre quantitative und inhaltliche Ausgestaltung ist ein wesentlicher Faktor der Profilbildung der Hochschulen“ (Lit. 30). Hochschulseitig wurden für die Zulassung zu einem Masterstudium von den Hochschulen unterschiedliche Voraussetzungen eingeführt, die neben einem qualifizierten ersten Hochschulabschluss u. a. auch Aspekte wie besondere Kenntnisse oder Fähigkeiten für das Masterstudium, die Festlegung von besonderen Eigenschaften für das Masterstudium (Auswahlverfahren, Testverfahren, Portfolio) und spezielle Sprachkenntnisse umfassen (Lit. 45). Master-Studiengänge können konsekutiv oder weiterbildend sein, wobei ein konsekutiver Studiengang inhaltlich auf dem Bachelorstudium aufbaut und somit eine inhaltliche und fachliche Fortführung bzw. Vertiefung eines Erststudiums darstellt. Ein Weiterbildungs-Master erfordert üblicherweise mindestens ein Jahr Berufserfahrung und kann auch ein anderes Fach in den Mittelpunkt stellen und somit zu einer Kreuzqualifikation führen. Zudem unterscheidet man bei Master-Studiengängen zwischen anwendungs- und forschungsorientierter Ausrichtung, wobei anwendungsorientierte Studiengänge vor allem für den Arbeitsmarkt qualifizieren und forschungsorientierte Studiengänge primär auf die Ausbildung des wissenschaftlichen Nachwuchses ausgerichtet sind. Trotz des teilweise stark durch (hochschul)politische Rahmenbedingungen geprägten Prozesses erfolgte die Einführung von Bachelor- und Masterstudiengängen inzwischen in den meisten beteiligten Ländern flächendeckend, was auch die aktuellen Zahlen der Bachelor- und Master-Studiengänge z. B. in Deutschland belegen:
30
A 2: Ursula Georgy
Bachelor-Studiengänge an Unis
3.954
Bachelor-Studiengänge an FHs
3.035
Master-Studiengänge an Unis
4.636
Master-Studiengänge an FHs
1.724
Abb. 1: Gesamtzahl Bachelor-/Master-Studiengänge an deutschen Hochschulen (eigene Darstellung nach Lit. 24)
Die Abbildung zeigt eindrucksvoll, dass die Universitäten eine sehr hohe Übergangsquote von Bachelor zu Master anstreben, und diese für eine akademische Qualifizierung auch für unerlässlich halten. Die Übergangsquote liegt bei den Fachhochschulen deutlich niedriger und dürfte dies auch bleiben. Die in Abb. 1 genannten Zahlen erhalten noch eine besondere Bedeutung, wenn man bei den Master-Studiengängen die Zahl der konsekutiven Studiengänge betrachtet: –– Konsekutive Master-Studiengänge an Unis 3.516 –– Konsekutive Master-Studiengänge an FHs 1.034 (Lit. 24). Fachhochschulen scheinen davon auszugehen, dass ein Großteil der Bachelorabsolventen sich zunächst für eine Berufstätigkeit entscheidet, nach einigen Jahren an eine Hochschule zurückkehrt und sich über einen Weiterbildungs-Masterstudiengang weiter qualifiziert, der dann z. B. berufsbegleitend absolviert werden möchte (Lit. 14). Eine Besonderheit stellt weiterhin die Ausbildung zum höheren Archiv- und Bibliotheksdienst dar, die früher ausschließlich als zweijähriges Referendariat, das einen universitären Abschluss idealerweise mit Promotion in Form eines Diploms oder Magisters erforderte, angeboten wurde. Bedingt durch den Bologna-Prozess haben sich die Rahmenbedingungen in einigen Bundesländern geändert, so dass Masterstudiengänge das Referendariat teilweise ersetzt haben, wobei die Kreuzqualifikation weiterhin eine wesentliche Voraussetzung darstellt. Die Kreuzqualifikation der Absolventen eines Masterstudiums bzw. des Bibliotheksreferendariats qualifiziert vor allem für ein Fachreferat in einer wissenschaftlichen Bibliothek (Lit. 21). Eine Besonderheit in Deutschland stellt die bibliothekarische Ausbildung in Bayern dar. Die Bibliotheksakademie (vormals Bibliotheksschule) Bayern ist für die bibliothekarische Ausbildung in Bayern zuständig und zwar für die drei Qualifikationsebenen mittlerer, gehobener und höherer Bibliotheksdienst. Es nehmen auch Teilnehmer aus anderen Bundesländern teil, sofern Abkommen mit diesen existieren (Lit. 03). Inzwischen bieten alle Universitäten und Fachhochschulen mit bibliotheks- und informationswissenschaftlichem Studienangebot Masterstudiengänge an. Diese tragen Bezeichnungen wie Information – Medien – Bibliothek, Information Science, Informationswissenschaft und Sprachtechnologie, Internationales Informationsmanagement – Informationswissenschaft, Markt- und Medienforschung etc. Über konsekutive Masterstudiengänge versuchen Hochschulen zunehmend, Alleinstellungsmerkmale zu erlangen. Eine solche Nische belegt z. B. die Fachhochschule Köln mit ihrem konsekutiven Studiengang Markt- und Medienforschung, wobei dieser nicht nur konsekutiv für Absolventen der informationswissenschaftlichen Studiengänge ist, sondern z. B. auch für Absolventen eines BWL-Studiengangs mit spezifizierter Schwerpunktwahl.
A 2: Professionalisierung in der Informationsarbeit
31
Andererseits bieten Hochschulen, die nicht originär im Bereich der Informationswissenschaft ausbilden, Studiengänge an, die in die Tätigkeitsbereiche von Informationsspezialisten hinein reichen. Dazu gehören z. B. Studiengänge zum Wissensmanagement, die z. B. von betriebswirtschaftlichen Fakultäten angeboten werden, Studiengänge des Informationsmanagements, die z. B. in Fakultäten für Informatik angesiedelt sind und dort auch Schwerpunkte setzen, oder auch das Masterstudium des Information Engineering an der Universität Konstanz. Für Bachelorabsolventen von informationswissenschaftlichen Studiengängen sind diese dann konsekutiv, wenn die Bachelorstudiengänge entsprechend hohe Anteile der im Masterstudiengang gesetzten Schwerpunktthemen enthalten. A 2.4.4 Doktorat Im Rahmen des Bologna-Prozesses wird die dritte Stufe der Hochschulausbildung als Doktorat bezeichnet (Lit. 11, Lit. 15). Dabei wird nicht zwischen Doktor und Ph. D. unterschieden, wobei letzterer insbesondere international sehr verbreitet ist. In Deutschland hat man sich entschieden, den Doktortitel beizubehalten, der primär nicht als die dritte Stufe des Bologna-Prozesses angesehen wird, sondern als erste Stufe einer wissenschaftlichen Laufbahn (Promotion – Habilitation – Professur). Das Promotionsrecht ist weiterhin ausschließlich den Universitäten vorbehalten. Im Sinne der Stärkung der Forschung an Fachhochschulen sind jedoch verschiedene Förderprogramme für kooperative Promotionen initiiert worden (Lit. 34). Damit sollen zum einen die Kooperationen zwischen Universitäten und Fachhochschulen gestärkt werden, zum anderen soll mehr Fachhochschul-Absolventen die Gelegenheit zur Promotion und damit zu einer akademischen Karriere gegeben werden. Im Bereich der Bibliothekswissenschaft ist eine Promotion nur an der HumboldtUniversität zu Berlin möglich. Im Bereich der Informationswissenschaft sind es vor allem, neben Berlin, die Universitäten Düsseldorf, Hildesheim und Regensburg, aber auch Konstanz, die eine Promotion im Bereich der Informationswissenschaft ermöglichen. Für die Schweiz gilt, dass die HW Chur eine Promotion in Zusammenarbeit mit der Universität Zürich anbieten wird. A 2.4.5 Wissenschaftliche Weiterbildung Wissenschaftliche Weiterbildung gehört neben Lehre und Forschung inzwischen zu den Kernaufgaben der Hochschulen (Lit. 25). Damit sprechen sie mehr und mehr auch Berufseinsteiger, Berufstätige, Berufsrückkehrer, Führungskräfte und Individualkunden mit sehr unterschiedlicher beruflicher Qualifikation sowohl in wissenschaftlichen als auch öffentlichen Einrichtungen und Unternehmen an, die Bedarf an Aktualisierung, Erweiterung, Vertiefung oder Vervollständigung ihrer Kenntnisse und Kompetenzen haben. Für die Wahl eines weiterbildenden Masterstudiengangs – einer formellen Form der wissenschaftlichen Weiterbildung – kann es verschiedene Gründe geben: –– Spezialisierung auf das aktuelle oder geplante Aufgabengebiet/den Tätigkeitsbereich, –– Erlangung von Fachkenntnissen in einem weiteren Fach, –– Wechsel oder Aufstieg in den Managementbereich (MBA-Studium), –– Management von Kultur- und Bildungseinrichtungen oder Non-Profit-Einrichtungen & Governance, –– die Denkweise und Logik und Methodenlehre in einem anderen Fach kennenlernen. Wie bereits oben ausgeführt, gewinnen Weiterbildungs-Masterstudiengänge mehr und mehr an Bedeutung, sie werden aber auch eine neue Kultur befördern, da sie üblicherweise kostenpflichtig sind (Lit. 33). Hat die wissenschaftliche Weiterbildung z. B. in der Schweiz bereits eine lange Tradition, so ist sie in Deutschland noch ein junger Bereich. Befördert worden mag diese Entwicklung
32
A 2: Ursula Georgy
zum einen durch den Bologna-Prozess, zum anderen durch den demographischen Wandel sein. Alle Studiengänge, die nicht konsekutiv sind, werden gemäß Bologna-Prozess als Weiterbildungsstudiengänge bezeichnet. Viele dieser Studiengänge werden berufsbegleitend angeboten. Für die weiterbildenden Masterstudiengänge werden für die Zulassung die berufliche Vorerfahrung (sowohl formal als auch fachlich), die Orientierung an den Arbeitsmarkterfordernissen des primären Arbeitsmarktsegmentes, die Klärung der persönlichen und fachlichen Motivation sowie die Klärung der organisatorischen und formalen bzw. strukturellen Unterstützung durch den Arbeitgeber herangezogen (Lit. 40). Weiterbildungsstudiengänge stellen die Hochschulen aber auch vor neue Herausforderungen: So ist das Durchschnittsalter der Studierenden deutlich höher als bei konsekutiven Studiengängen (Lit. 14). An der Donau-Universität Krems beispielsweise liegt es bei ca. 40 Jahren, in Köln beim Master Library and Information Science der Fachhochschule Köln bei 38,5 Jahren (Lit. 23, Lit. 39). Dies erfordert von den Lehrenden andere Lehrformen, aber von den Hochschulen auch andere Organisationsformen des Studiums, da die Vereinbarkeit von Familie, Beruf und Studium für diese Zielgruppe ein wichtiger Aspekt sein dürfte. In Deutschland sind diese Studiengangsmodelle zumindest in der Breite ebenfalls noch relativ neu. Die Altersstruktur der Teilnehmer unterstreicht aber auch, dass es immer mehr Berufstätigen wichtig ist, das eigene Kompetenzportfolio im Laufe des Berufslebens (eigenständig) systematisch zu planen. Damit werden auch Grenzen zwischen formaler Aus- und Weiterbildung und berufsund lebensbegleitenden Weiterbildung immer mehr verschwimmen (Lit. 23). Zentraler Grund für die Wahl und die Attraktivität eines solchen Studiengangs dürften die unmittelbare Praxisverwertbarkeit der Studieninhalte sein, gleichzeitig wird aber auch die Zertifizierung der Weiterbildung an Relevanz gewinnen. Die Frage, ob Weiterbildung vom Arbeitgeber immer bezahlt wird, kann eindeutig mit nein beantwortet werden. Zwar erhalten zahlreiche Studierende Unterstützung, in Krems beispielsweise erhalten aber nur rund ein Viertel der Studierenden eine vollständige Finanzierung der Weiterbildung. Für Informationsspezialisten eröffnen sich durch Weiterbildungs-Studiengänge folgende Möglichkeiten: –– eine Weiterqualifizierung in ihrem originären, fachaffinen Bereich, –– eine Qualifikation in benachbarten Berufsfeldern oder gänzlich neuen, fachfremden Bereichen. A 2.4.5.1 Fachaffiner Masterstudiengang Fachaffine Masterstudiengänge in den Bereichen ABD oder BID richten sich an Informationsspezialisten mit einem vergleichbarem Studienabschluss (Bachelor oder FH-Diplom) und oft „nach einer längeren Praxisphase“ (Lit. 16). In Österreich wird z. B. der Universitätslehrgang Library and Information Studies angeboten, der mit einem Master of Science abschließt und in Wien und Innsbruck angeboten wird. In der Schweiz wird der Master of Advanced Studies in Information Science an der HTW Chur, der Master of Advanced Studies in Bibliotheks- und Informationswissenschaft an der Universität Zürich sowie der Master of Advanced Studies in Archival, Library and Information Science (MAS ALIS) in Bern angeboten. Einzelne Studiengänge widmen sich auch aktuellen Themen. Ein Beispiel ist der zweijährige internationale Weiterbildungsstudiengang Digital Library Learning – DILL der Universitäten Oslo, Tallin und Parma (Lit. 38), der sich ausschließlich mit allen Themen beschäftigt, die den Bereich digitale Bibliothek berühren. Die Donau-Universität Krems bietet z. B. Studiengänge wie Strategisches Informationsmanagement oder Angewandtes Wissensmanagement an, die ebenfalls als fachaffine Masterstudiengänge angesehen werden können.
A 2: Professionalisierung in der Informationsarbeit
33
A 2.4.5.2 Fachfremder Masterstudiengang Alternativ bietet der Bologna-Prozess die Möglichkeit, auf einen Bachelor im Bereich Archiv, Bibliothek, Information einen fachfremden Masterstudiengang aufzubauen, um Einblick in ein anderes Fach zu erlangen und eine Spezialisierung zu erlangen. Dabei sollte sich die gewählte Spezialisierung in das gegenwärtige bzw. geplante Berufsbild eingliedern (Lit. 27). Für die Übernahme von Leitungspositionen bietet sich als berufsbegleitender Studiengang auch ein MBA-Studiengang an, da er Aspekte wie Managementkompetenzen, Projektmanagement, interkulturelle Kommunikation aber auch Themen wie Krisenmanagement und moderne Managementtechniken behandelt. In Deutschland gibt es bzgl. der Laufbahnverordnung Einschränkungen, was diese Form der Kreuzqualifikation betrifft. So berechtigt ein grundständiges z. B. bibliothekarisches Studium in Kombination mit einem fachfremden Masterstudiengang zwar für den höheren Dienst, aber nicht automatisch für den höheren Bibliotheksdienst. Das heißt, dass die Absolventen nicht oder nur selten als Fachreferenten eingesetzt werden (können). Im Zuge des Fachkräftemangels bleibt jedoch abzuwarten, ob es zu einem Umdenken kommt, da es Fächer gibt, die systematisch Mangelfächer sind, z. B. die Naturwissenschaften oder auch die Rechtswissenschaften. In der Privatwirtschaft sollten Absolventen dieser Master-Studiengänge aber sehr gute Karrierechancen haben. Folgende Abbildung zeigt im Überblick die Aus- und Weiterbildungsmöglichkeiten im Rahmen des BolognaProzesses. Beruf
Bachelor – Vollzeit
Bachelor – dual Ausbildung
Bachelor – berufsbegleitend Beruf
Master – Vollzeit
Beruf
Beruf
Master – Vollzeit
Beruf
Beruf
WeiterbildungsMaster
Master – Beruf berufsbegleitend
Beruf
Abb. 2: Karrierewege an Hochschulen (Lit. 17; eigene Darstellung)
A 2.4.5.3 Wissenschaftlicher Dokumentar/Information Specialist Neben den Weiterbildungsstudiengängen, die sich unmittelbar in die Bologna-Struktur eingliedern, gibt es weiterhin eine Vielzahl anderer Weiterbildungsmöglichkeiten. Seit 1992 gibt es die Ausbildung zum wissenschaftlichen Dokumentar (allerdings außerhalb der Hochschulen schon am Lehrinstitut für Dokumentation – LID in Frankfurt seit den 80er Jahren), basierend auf einem abgeschlossenen Hochschulstudium (Lit. 18). „Die Hauptaufgaben des Bereichs Information und Dokumentation sind: die Entwicklung und Pflege von Datenbanken unter Berücksichtigung der fachwissenschaftlichen Besonderheiten; hierzu gehören solche Aktivitäten wie Analysieren, Auswählen, Indexieren, Referieren; in Datenbanken zu recherchieren, die Ergebnisse für den Nutzer aufzubereiten und zur Verfügung stellen.“ (Lit. 10)
34
A 2: Ursula Georgy
Somit lässt sich der wissenschaftliche Dokumentar, der über das Institut für Information und Dokumentation – IID (seit 2010 Teil des Fachbereichs für Informationswissenschaften der Fachhochschule Potsdam) angeboten wird, eindeutig der wissenschaftlichen Weiterbildung zuordnen. A 2.4.5.4 Weitere Disziplinen Neben den klassischen Studiengängen der Informationswissenschaft ohne fachliche Zusatzqualifikation existieren Studiengänge mit einer fachlichen Spezifikation, z. B. die Studiengänge Medizinische Dokumentation und Technische Dokumentation. Heute tragen die Studiengänge Namen wie Medizinisches Informationsmanagement (Hochschule Hannover) oder Medizinische Dokumentation und Informatik (Hochschule Ulm) bzw. Kommunikation und Dokumentation (Hochschule Aschaffenburg) oder Technische Redaktion (Hochschule Hannover) (Lit. 28). Diese Studiengänge haben eine Zwitterstellung: Sie sind teilweise grundständig bzw. konsekutiv, teilweise aber auch weiterbildend. A 2.4.5.5 Fachwirt Eine in Deutschland recht neue Fortbildung für den Bereich ABD ist die zum geprüften Fachwirt für Medien- und Informationsdienste, die sich an Beschäftigte in Archiven, Bibliotheken und anderen Informationseinrichtungen richtet, die eine Aufstiegsfortbildung und berufliche Weiterbildung anstreben. Die Fortbildung wird berufsbegleitend durchgeführt. Sie baut auf den Ausbildungsinhalten der Fachangestellten für Medien- und Informationsdienste aller Fachrichtungen auf, ist also eine Aufstiegsmöglichkeit unterhalb der Hochschulebene. Die Einstellung der Berufsverbände, aber teilweise auch der Arbeitgeber zu der Fortbildung, ist bislang noch kritisch. Es muss jedoch festgestellt werden, dass der Fachwirt in anderen Branchen, z. B. Groß- und Einzelhandel, Recht, Sozial- und Gesundheitswesen sowie Versicherungswirtschaft, etabliert ist und in diesen Bereichen für das mittlere Management qualifiziert (Lit. 05). Damit kann der Fachwirt als eine weitere Möglichkeit angesehen werden, eine Höherqualifikation auch im Bereich ABD zu erreichen. A 2.4.5.6 Nicht-formale Weiterbildung Eine besondere Form der nicht-formalen Weiterbildung findet man in den Themenfeldern Biotechnologie, Chemie, Gentechnologie, Patente und Pharmazie etc., in denen die Weiterbildung zum Informationsspezialisten traditionell berufsbegleitend als Training on the Job erfolgt. Grundvoraussetzung für hochspezifische Recherchen ist üblicherweise ein Fachstudium in den o. g. Fächern ergänzt durch eine Promotion. Die Unternehmen bilden ihre Informationsspezialisten hausintern aus und weiter, sodass sich die Weiterqualifikation an besuchte Seminare anschließt und auf diese Weise den Transfer am Arbeitsplatz sichert bzw. additiv oder anstelle eines Seminars kompakt und zeitsparend den individuellen Qualifizierungsbedarf direkt am Arbeitsplatz abdeckt. Kreuzqualifikationen mit einem bibliotheks- bzw. informationsspezifischen Basisstudium und einem fachfremden Master werden den hochspezifischen Anforderungen der Unternehmen kaum gerecht werden können. Daran haben auch die immer komfortabler werdenden Recherchemöglichkeiten z. B. von Chemie- und Patentdatenbanken nichts geändert. Neben den genannten Weiterbildungsangeboten, die zu einem formalen, anerkannten Abschluss führen, gibt es eine Reihe von Fortbildungsangeboten, denen unter der Forderung des lebensumspannenden und lebenslangen Lernens eine immer größere Bedeutung zukommen wird, die sich aber nicht streng in Strukturen verankern lassen. Es handelt sich um Zertifikatskurse, Seminare etc. Nur bedingt können alle heute geforderten Fächer und Kompetenzen in einem Studium vermittelt werden. Im Rahmen immer kürzer werdender Berufszyklen und der Tendenz zur Übernahme mehrerer neuer Rollen und Aufgaben im Laufe eines Berufslebens, wird es Aufgabe der Hochschulen und Weiterbildungseinrichtungen werden, die Informationsspezialisten und Ar-
A 2: Professionalisierung in der Informationsarbeit
35
beitgeber in der Planung der Kompetenzportfolios zu unterstützen und das nicht nur über Studiengänge, sondern auch über „formelle und anerkannte Zertifikate“ (Lit. 23). Das lebensbegleitende Lernen kann und muss somit als systematischer Prozess verstanden und beschrieben werden. Und inzwischen wird Weiterbildung auch von vielen Personen so verstanden. Eine Befragung der Alumni an der Weiterbildungsuniversität Krems hat ergeben, dass die persönliche Weiterentwicklung in der Wichtigkeit noch vor der fachlichen Kompetenzsteigerung rangiert. Darüber hinaus bietet die Differenziertheit und Internationalisierung der heutigen Weiterbildung die Möglichkeit individueller Lern- und Unterstützungsprozesse (Kommunikation, Rhetorik, Wissensorganisation etc.) (Lit. 23). Von daher erscheint die Entwicklung, dass Hochschulen mehr und mehr die Weiterbildung als zentrale weitere Aufgabe neben Forschung und Lehre verstehen, nur konsequent. Für Informationsspezialisten gibt es in Deutschland drei an bibliotheks- und informationswissenschaftliche Ausbildung in Hochschulen angeschlossene Weiterbildungseinrichtungen: das IID an der Fachhochschule Potsdam (Lit. 18) sowie das ZBIW an der Fachhochschule Köln (Lit. 46). Die Bibliotheksweiterbildung an der Freien Universität Berlin weist eine hohe Affinität zur bibliothekarischen Ausbildung an der Humboldt-Universität zu Berlin und der Fachhochschule Potsdam auf, ist jedoch nicht unmittelbar an eine Hochschule mit bibliotheks- und informationswissenschaftlichen Studiengängen angegliedert (Lit. 19).
A 2.5 Praxisphasen Da das Studium im Bereich BID traditionell an Fachhochschulen angesiedelt war und ist, ist auch das Studium schon immer stark praxisorientiert ausgerichtet gewesen. Ein Praxissemester oder mehrere längere Praktika sind zumindest in allen Bachelorstudiengängen obligatorisch. Teilweise mussten die Praxisphasen wegen der Verkürzung der Studienzeiten im Rahmen des Bologna-Prozesses verkürzt werden. Im Rahmen der Reakkreditierung gehen aber die meisten Hochschulen auf eine Studiendauer von sieben Semestern, sodass die frühere Praxisphasendauer fast an allen Hochschulen wieder realisiert ist. In den Masterstudiengängen findet man in vielen Fällen eine klassische Praxisphase nicht mehr (Lit. 29). Vielmehr geht es darum, im Rahmen des Studiums anspruchsvolle Projekte teilweise selbst zu akquirieren oder – bei berufsbegleitenden Studiengängen – zusammen mit seinem Arbeitgeber eigenständig oder in kleinen Teams durchzuführen. Dies hat im Sinne der Informationsarbeit auch zu einer neuen Form der Kooperation zwischen Ausbildungseinrichtung und Arbeitgebern bzw. Unternehmen und öffentlichen Einrichtungen geführt. Ziele sind u. a.: –– relevante Forschungs- und Praxisprojekte selbstständig durchzuführen, –– sich mit konzeptionellen, aber auch rechtlichen und organisatorischen Rahmenbedingungen auseinander zu setzen, –– den Transfer von Wissenschaft in die Praxis zu realisieren, –– Handlungskompetenzen zu erarbeiten sowie –– Allianzen und Kooperationen zwischen Hochschule und Praxis zu knüpfen (Lit. 29). In berufsbegleitenden Studiengängen besteht der Vorteil, dass sich Praxis durch Projekte in den eigenen Einrichtungen realisieren lassen. Dies bedeutet möglicherweise eine Reduktion auf aktuelle Themen der eigenen Einrichtung. Insbesondere in den USA setzt sich inzwischen eine neue Form von Internships auch im Bereich der bibliotheks- und informationswissenschaftlichen Ausbildung durch: Virtual Internships (Lit. 41). Diese ermöglichen eine Praxisphase außerhalb des eigenen Bereichs, z. B. dort, wo keine Praxisphase in einer Einrichtung vor Ort realisierbar ist. Das könnte auch für deutsche, österreichische und schweizer Hochschulen und (potenzielle) Arbeitgeber eine attraktive Form sein, auch international tätig zu werden.
36
A 2: Ursula Georgy
A 2.6 Qualitätssicherung Nach Beschluss der Kultusministerkonferenz – KMK sind alle Studiengänge, die zu den Abschlüssen Bachelor und Master führen, in Deutschland nach den Vorgaben des Akkreditierungsrates (Lit. 01) durch eine anerkannte Akkreditierungsagentur zu akkreditieren (Lit. 31). Das österreichische Akkreditierungssystem ist dem deutschen System ähnlich. In der Schweiz werden Studiengänge an Fachhochschulen durch den Bund akkreditiert, wobei die Prüfung der Akkreditierungsgesuche an Agenturen übertragen werden kann. Im Gegensatz zu anderen Ländern wie Großbritannien oder den USA erfolgt die Akkreditierung nicht durch eine Fachgesellschaft, sondern durch fachlich unabhängige zentrale Akkreditierungsagenturen bzw. den Akkreditierungsrat, sodass die Ausgestaltung eines Faches der jeweiligen Lehreinheit innerhalb der Hochschule überlassen bleibt. Eine Vergleichbarkeit des Faches mit Ländern, in denen Fachgesellschaften wie in den USA z. B. die American Library Organization – ALA die Akkreditierung übernehmen, ist daher nur bedingt möglich, wohlgleich auch in Deutschland üblicherweise die Praxis in die Gestaltung von Studiengängen unmittelbar mit einbezogen wird. Zudem sind Wissenschaftsvertreter anderer Hochschulen oder Forschungseinrichtungen, ggf. auch aus dem Ausland, sowie Praktiker Gutachter der Akkreditierungsverfahren, so dass auch darüber eine inhaltliche Überprüfung der einzelnen Fächer erfolgen kann. Diese Akkreditierung bezieht sich bislang im Wesentlichen auf einzelne Studiengänge (Programmakkreditierung) oder mehrere Studiengänge des gleichen Faches (Clusterakkreditierung) (Lit. 02). Für üblicherweise fünf oder maximal sieben Jahre erhält der erfolgreich akkreditierte Studiengang das Qualitätssiegel (Lit. 02). Damit wurde in Deutschland, Österreich und der Schweiz ein flächendeckendes, systematisches Qualitätsmanagement eingeführt. Im Rahmen der Akkreditierung werden u. a. folgende Kriterien überprüft: –– „Wissenschaftliche oder künstlerische Befähigung, –– Befähigung, eine qualifizierte Erwerbstätigkeit aufzunehmen, –– Befähigung zum zivilgesellschaftlichen Engagement –– und Persönlichkeitsentwicklung.“ (Lit. 02) Grundlagen dafür sind u. a. die folgenden Kriterien: die Konzeptionelle Einordnung des Studiengangs in das Studiensystem (Qualifikationsrahmen), das Studiengangskonzept, das die Vermittlung von dem zu erlangenden Fachwissen, fachübergreifenden Wissen sowie von fachlich, methodischen und generischen Kompetenzen beschreibt, die Studierbarkeit, das Prüfungssystem, die Ausstattung, die Transparenz und Dokumentation sowie die Qualitätssicherung und Weiterentwicklung (Lit. 02). Die Programmakkreditierung ist ein wichtiger Schritt für die Hochschulen zu systematischen Qualitätssicherungssystemen, die es noch weiter zu entwickeln gilt.
A 2.7 Fazit Die Ausbildung der Informationsspezialisten hat sich in den letzten Jahren zu einem äußerst dynamischen Bereich entwickelt. Allein die Akkreditierungszeiträume von fünf bzw. maximal sieben Jahren tragen mit zu der Entwicklung bei, denn diese Zeiträume werden von den Hochschulen auch genutzt, ihre Studiengänge zu reformieren, bisherige einzustellen oder neue zu generieren. Auf der einen Seite bedeutet dies, dass die Hochschulen schnell und flexibel auf neue Entwicklungen reagieren können, auf der anderen Seite ist es in weiten Teilen eine Abkehr von alten Hochschul- und Studienstrukturen mit einer großen Langfristigkeit. Aber eines scheint sicher: Die Arbeit der Informationspezialisten wird in Zukunft weiter an Bedeutung gewinnen.
A 2: Professionalisierung in der Informationsarbeit
37
Literatur 01 Akkreditierungsrat: Aufgabe des Akkreditierungsrates, 2012 (http://www.akkreditierungsrat.de; Abruf: 10.10.2012) 02 Akkreditierungsrat: Regeln für die Akkreditierung von Studiengängen und für die Systemakkreditierung, Beschluss des Akkreditierungsrates vom 08.12.2009, geändert am 10.12.2010, 07.12.2011 und am 23.02.2012. Drs. AR 25/2012 03 Bayerische StaatsBibliothek: Bibliothekarische Ausbildung in Bayern (http://www.bsb-muenchen.de/ Bibliothekarische-Ausbildung-in-Bayern.1938.0.html; Abruf: 10.10.2012) 04 Bundesamt für Berufsbildung und Technologie: Internationale Diplomanerkennung, 2000, 40 S. 05 Bundesministerium für Bildung und Forschung: Berufsbildungsbericht 2012, 123 S. 06 Bundesministerium für Bildung und Forschung: Der Bologna-Prozess, eine europäische Erfolgsgeschichte, 08.08.2012 (http://www.bmbf.de/de/3336.php; Abruf: 23.09.2012) 07 Bundesministerium für Bildung und Forschung: Der Kopenhagen-Prozess in der beruflichen Bildung, 13.08.2012 (http://www.bmbf.de/de/3322.php; Abruf: 20.09.2012) 08 Bundesministerium für Bildung und Forschung: Wettbewerb: Aufstieg durch Bildung: offene Hochschulen 2012 (http://www.wettbewerb-offene-hochschulen-bmbf.de/; Abruf: 10.10.2012) 09 Bundesinstitut für Berufsbildung: Anerkennung in Deutschland, 2012 (http://www.anerkennung-indeutschland.de/html/de; Abruf 10.10.2012) 10 DIPF: Wissenschaftliche/r Dokumentar/in, o.J. (http://www.dipf.de/de/institut/nachwuchsfoerderung/ berufsbild-wissenschaftliche-r-dokumentar-in; Abruf: 10.10.2012) 11 Europäische Bildungsminister: Der Europäische Hochschulraum, Gemeinsame Erklärung der Europäischen Bildungsminister, 19. Juni 1999, Bologna (http://www.bmbf.de/pubRD/bologna_deu.pdf; Abruf: 23.09.2012) 12 European Commission: The European Credit system for Vocational Education and Training (ECVET), 2012 (http://ec.europa.eu/education/lifelong-learning-policy/ecvet_en.htm; Abruf: 20.09.2012) 13 European Commission: European Qualifications Framework, 2011 (http://ec.europa.eu/eqf/home_ en.htm; Abruf: 10.10.2012) 14 European Commission: The Bologna Process in Higher Education in Europe – Key indicators on the social dimension and mobility. Eurostat Statistical books, 2009 15 European Ministers of Education: The Bologna Declaration of 19 June 1999 16 Fachhochschule Köln – Institut für Informationswissenschaft: Masterstudiengang Bibliotheks- und Informationswissenschaft – Qualifikation für Leitungs- und Führungsaufgaben, 2012 (http://malis. fh-koeln.de/; Abruf: 20.09.2012) 17 Fachhochschule Münster: Die Abschlüsse Bachelor und Master, 2012 (https://www.fh-muenster.de/ studium/studiengaenge/bachelor-master.php?p=0,2; Abruf: 10.09.2012) 18 Fachhochschule Potsdam – Institut für Information und Dokumentation: Die Fortbildung zum/zur Wissenschaftlichen Dokumentar/in/Information Specialist, 2010 (http://www.iid.fh-potsdam.de/fortbildung. html; Abruf: 12.10.2012) 19 FU Berlin: Weiterbildungszentrum, Berufsbezogene Weiterbildung Bibliotheken und Archive (http://www. fu-berlin.de/sites/weiterbildung/weiterbildungsprogramm/bib/index.html; Abruf: 10.10.2012) 20 Gabler Wirtschaftslexikon, Stichwort: Informationsmanagement, online im Internet. (http://wirtschaftslexikon.gabler.de/Archiv/12506/informationsmanagement-v8.html; Aufruf: 10.10.2012) 21 Georgy, Ursula: Handlungsfelder und Qualifikationen. Handbuch Bibliotheksmanagement in Öffentlichen Bibliotheken. Umlauf, Konrad; Schade, Frauke (Hrsg.). Berlin: De Gruyter Saur, 2012, 103-116 22 Herget, Josef: Informationsmanagement. Buder et al. (Hrsg.), Grundlagen der praktischen Information und Dokumentation. 4. Auflage, Saur, München 1997, 781-795 23 Herget, Josef; Mader, Isabella: Weiterbildungsstudiengänge für die Karriereplanung aus Hochschul- und Studierendensicht. Herausforderungen und Trends. Information, Wissenschaft & Praxis, 03/2010, 187-191 24 HRK Hochschulrektorenkonferenz: Hochschulkompass – Studieren an Deutschen Hochschule, 2012
38
A 2: Ursula Georgy
(http://www.hochschulkompass.de/studium.html; Abruf: 19.09.2012) 25 HRK Hochschulrektorenkonferenz: HRK-Positionspapier zur wissenschaftlichen Weiterbildung, Entschließung des 588. HRK-Präsidiums am 7.7.2008 (http://www.hrk.de/positionen/gesamtlistebeschluesse/position/convention/hrk-positionspapier-zur-wissenschaftlichen-weiterbildung/; Abruf: 20.09.2012) 26 HRK Hochschulrektorenkonferenz: Diploma Supplement, o.J. (http://www.hrk-bologna.de/bologna/de/ home/1997.php; Abruf: 20.09.2012) 27 Jacobs, Anne: Wahl eines fachfremden Master-Studiengangs für Informationsspezialisten: Motivation, Herausforderungen und Karrierechancen. Information, Wissenschaft & Praxis, 03/2010, 194-196 28 Jaenecke, Joachim: Musikinformation und Musikdokumentation, Deutsches Musikinformationszentrum, 2011 29 Krauß-Leichert, Ute: Praxisphasen in den neuen konsekutiven Master-Studiengängen: neue Konzepte – neue Herausforderungen. Information, Wissenschaft & Praxis, 03/2010, 169-171 30 Kultusministerkonferenz: Situation im Masterbereich und statistische Erfassung von Masterstudiengängen – Eine Diskussionsgrundlage. Beschluss der KMK vom 29.04.2011 31 Kultusministerkonferenz: Künftige Entwicklung der länder- und hochschulübergreifenden Qualitätssicherung in Deutschland. Beschluss der KMK vom 01.03.2002 32 Kultusministerkonferenz: Rahmenlehrplan für den Ausbildungsberuf Fachangestellter/Fachangestellte für Medien- und Informationsdienste, 1999, 21 S. 33 Metzner, Joachim: Quo vadis, Master? Entwicklung und Zukunft der Masterstudiengänge aus hochschulpolitischer Sicht. Information, Wissenschaft & Praxis, 3/2010, 159-161 34 Ministerium für Innovation, Wissenschaft und Forschung des Landes Nordrhein-Westfalen: Forschungsprogramm „NRW.Forschungskooperationen“ 2012 (http://www.wissenschaft.nrw.de/ forschung_technologiefoerderung/weitere_foerderungen/NRW_Forschungskooperationen/index.php; Abruf: 20.09.2012) 35 Nickel, Sigrun; Duong, Sindy: Studieren ohne Abitur: Monitoring der Entwicklung in Bund, Ländern und Hochschulen. CHE Arbeitspapier Nr. 157. Gütersloh, 2012, 145 S. 36 Nickel, Sigrun; Leusing, Brita: Studieren ohne Abitur: Entwicklungspotenziale in Bund und Ländern. Eine empirische Analyse. CHE Arbeitspapier Nr. 123. Gütersloh, 2009, 148 S. 37 Österreich – Deutschland: Abkommen über Gleichwertigkeiten im Hochschulbereich – Abkommen zwischen der Regierung der Republik Österreich und der Regierung der Bundesrepublik Deutschland über Gleichwertigkeiten im Hochschulbereich, 2002 38 Oslo University College: DILL – Digital Library Learning, 2012 (http://dill.hioa.no/; Abruf: 10.10.2012) 39 Oßwald, Achim: MALIS: Der berufsbegleitende Masterstudiengang Bibliotheks- und Informationswissenschaft der FH Köln. Vortrag Bibliothekartag Hamburg, 22.05.2012 40 Oßwald, Achim: Von Punkten, Rankings und Assessment-Verfahren. Information, Wissenschaft & Praxis, 03/2010, 162-166 41 San José State University – School of Library & Information Science: Virtual Internships, 2012 (http:// slisweb.sjsu.edu/current-students/courses/internships/virtual-internships; Abruf: 13.10.2012) 42 Seeger, Thomas: Information als Tätigkeit und System. Buder, M.; W. Rehfeld; Th. Seeger, D. Strauch (Hrsg.), Grundlagen der praktischen Information und Dokumentation. München et al.: K.G. Saur, 1997, 13-15 43 Ständige Konferenz der Innenminister und -senatoren der Länder: Vereinbarung: „Zugang zu den Laufbahnen des höheren Dienstes durch Masterabschluss an Fachhochschulen“, 2002 44 Umlauf, Konrad: Organisation der Lektoratsarbeit in Öffentlichen Bibliotheken, ihre Stärken und Schwächen. Berlin: Institut für Bibliotheks- und Informationswissenschaft 2011 (Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft, 306) (http://edoc.hu-berlin.de/series/berliner-handreichungen/2011-306/PDF/306.pdf; Abruf 30.09.2011) 45 Wex, Peter: Wer darf zum Master-Studium? Zulässige und unzulässige Zugangsvoraussetzungen, evanetPosition, 1/2007 46 ZBIW: Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung – Institut für Informationswissenschaft der Fachhochschule Köln (http://www.fbi.fh-koeln.de/zbiw/zbiw.htm; Abruf: 29.10.2012)
Thomas Hoeren
A 3 Urheberrecht und Internetrecht A 3.1 Einleitung Das Informationsrecht ist eine neue Rechtsdisziplin, die auf die technischen Entwicklungen der letzten Jahrzehnte reagiert hat. Entsprechend gibt es keine traditionelle Bestimmung des Begriffs Information aus juristischer Sicht (vgl. Beitrag A 1 Information – Informationswissenschaft). Zurückzugreifen wäre hier wohl auf die semantische Beschreibung „Information ist jede Kenntnisbezeichnung zu jedem realen und irrealen Gegenstand der Welt“ (Lit. 01). Unabhängig davon, wie sich die Information in diesem eher konturen- und grenzenlosen Bereich definieren lässt, kann jede Information auch einen ökonomischen Wert innehaben. Informationsrecht beschreibt den Querschnittsbereich, in dem sich das Internet, Soft- und Hardware, Kunsthandel, Rundfunk, Fernsehen und andere Medien jeder Couleur sowie Kommunikation über verschiedenste Netze befinden. Trotzdem dient das Informationsrecht nicht als Oberbegriff für eine lose Sammlung von Themen, vielmehr stellt es eine zentrale Leitfrage: Wie werden wem, wann und warum Ausschließlichkeitsrechte an Informationen zugeordnet? Weiterführende Problemfelder wären u. a., welche Ausschließlichkeitsrechte bestehen, wie sie sich voneinander abgrenzen lassen, wie der Zugang zu Informationen für die Allgemeinheit gesichert bleibt und welche öffentlichen Interessen verschiedene Maßnahmen rechtfertigen.
A 3.2 Urheberrecht Insbesondere für den Bereich der Information und Dokumentation ist das Immaterialgüterrecht von großer Bedeutung. Entsprechend sind Kenntnisse im Urheberrecht unabkömmlich. Das Urheberrecht schützt künstlerische oder wissenschaftlich-technische Leistungen unabhängig von Registrierungen und Vermerken, während das Patentrecht den Schutz innovativer Erfindungen regelt, die einer besonderen Anmeldung bedürfen. Weiterhin wichtig sind das Geschmacks- und Gebrauchsmusterrecht, der ergänzende Leistungsschutz über § 3 UWG (Gesetz gegen den unlauteren Wettbewerb) und der Geheimnisschutz nach § 17 UWG, die hier aber allenfalls am Rande erwähnt werden. Im Folgenden werden Grundlagen und besondere Rechtsprobleme des Urheberrechts behandelt. A 3.2.1 Schutzfähige Werke Zunächst stellt sich die Frage, welche Werke eigentlich schutzfähig sind. Nach § 1 UrhG (Urheberrechtsgesetz) erstreckt sich der Schutz auf Werke der Literatur, Wissenschaft und Kunst. Software fällt in den Bereich der Werke der Literatur. Bei multimedialen Werken ist im Einzelfall zu klären, welche der Kategorien einschlägig ist. § 2 UrhG enthält einen nicht abschließenden Beispielskatalog schutzfähiger Werke. Darüber hinaus muss es sich gem. § 2 Abs. 2 UrhG um Werke handeln, die als persönlich geistige Schöpfungen angesehen werden können. Das macht insbesondere Werke problematisch, die durch Computer generiert wurden. Gleichzeitig weist die Formulierung der Schöpfung auf die Gestaltungshöhe hin, die für jedes Werk im Einzelfall nachgewiesen sein muss. Nicht jedes Werk ist geschützt, sondern nur solche, deren Formgestaltung ein hinreichendes Maß an Kreativität beinhalten. Unterschieden wird hier nach Werken der schönen Künste und nach solchen der angewandten Künste. Schöne Künste wie Literatur oder Musik gehören zu den traditionellen Schutzgütern des Urheberrechts. Hier reicht es, wenn die sog. „kleine Münze“ vorliegt. Nach der Theorie von der kleinen Münze begründen bereits kleinere Eigenarten im Bereich der schönen Künste die Schutzfähigkeit des Werkes. Für Werke der
40
A 3: Thomas Hoeren
angewandten Kunst, insbesondere der Gebrauchskunst, liegt die Hürde zur Schutzfähigkeit höher. Die Anforderungen an die Gestaltungshöhe können bei einzelnen Werken unterschiedlich sein, sodass für zweckfreie Kunst andere Hürden gelten als bei gebrauchsbezogenen, gewerblichen Werken (Lit. 02). Die Form letzterer Werke muss die Durchschnittsgestaltung deutlich übersteigen und die individuellen Eigenarten müssen auf überdurchschnittliches Können verweisen. Diese Unterscheidung dient dazu, die Abgrenzung zwischen dem Urheberrecht und dem Geschmacksmusterrecht aufrechtzuerhalten und den monopolartigen Schutz des Urheberrechts, der bis 70 Jahre nach Tod des Urhebers besteht, nicht grenzenlos ausufern zu lassen. Ferner ist nur die konkrete Form schutzfähig, nicht aber die bloße Idee. Die Grenzziehung erweist sich als problematisch. Nicht schutzfähig sind deshalb in der Regel Werbemethoden und TVFormate, bei literarischen Werken kommt schon eher ein Schutz des Inhalts, insbesondere der Fabel, in Betracht. A 3.2.2 Verwertungsrechte Das UrhG billigt dem Urheber eine Reihe von Verwertungsrechten zu, insbesondere hat er gem. § 15 Abs. 1 UrhG das ausschließliche Recht, sein Werk in körperlicher Form zu verwenden. Dieses Recht umfasst das Vervielfältigungsrecht aus § 16 UrhG, das Verbreitungsrecht aus § 17 UrhG, das Recht, Bearbeitungen des Werkes zu verwerten aus § 23 UrhG, sowie das Werk in unkörperlicher Form öffentlich wiederzugeben nach § 15 Abs. 2 UrhG. Auf diese Paragraphen wird im Folgenden eingegangen. A 3.2.2.1 Vervielfältigungsrecht, § 16 UrhG Vervielfältigung i.S.d. §§ 15 Abs. 1 Nr. 1, 16 Abs. 1 UrhG ist jede körperliche Festlegung des Werkes, die dazu geeignet ist, das Werk menschlichen Sinnen auf irgendeine Art wahrnehmbar zu machen (Lit. 03). Sofern sich aus den Schrankenregelungen der §§ 45 ff. UrhG nichts anderes ergibt, kann der Urheber jede Zustimmung zu einer Vervielfältigung verweigern. Auch die Digitalisierung von Material z. B. durch Scannen und Speicherung auf einem Server stellt eine Vervielfältigung dar. Hyperlinks stellen keinen Eingriff in das Vervielfältigungsrecht dar (R1). Eine Vervielfältigung kann weiterhin beim Abruf der Daten vom Server vorliegen. Neben dem Download ist auch das Ausdrucken in Form einer Hardcopy als solche zu bewerten. Das Zwischenspeichern im Arbeitsspeicher oder Cache des Computers zum Sichtbarmachen auf dem Bildschirm, z. B. beim Browsing, stellt zwar ebenfalls eine Vervielfältigung dar, ist aber nach § 44a UrhG zulässig, wenn es dem technischen Prozess immanent ist, für keinen anderen Zweck getätigt wird, den rechtmäßigen Gebrauch erst ermöglicht und keine eigenständige wirtschaftliche Bedeutung hat. A 3.2.2.2 Verbreitungsrecht, § 17 UrhG Das Verbreitungsrecht aus § 17 bzw. § 69c Nr. 3 UrhG ist das Recht, das Original oder Vervielfältigungsstücke des Werkes der Öffentlichkeit anzubieten oder in Verkehr zu bringen. Es geht hierbei ausschließlich um die körperliche Verbreitung, sodass die Norm z. B. bei einer reinen Datenübermittlung nicht eingreift (Lit. 04). Darüber hinaus ist anzumerken, dass das Verbreitungsrecht nur bei einer Eigentumsübertragung tangiert wird, nicht aber bei einer bloßen Besitzüberlassung (R2). A 3.2.2.3 Bearbeitung, § 23 UrhG Nach § 23 UrhG darf ein Werk, mit Ausnahme der Software (§ 69c Nr. 2 UrhG), auch ohne Zustimmung des Urhebers bearbeitet werden. Zustimmungspflichtig ist an dieser Stelle nur die Veröffentlichung oder Verwertung. Hiernach ist es möglich, Texte und Bildmaterial zum Zwecke der optischen
A 3: Urheberrecht und Internetrecht
41
Speicherung oder Digitalisierung umzugestalten. Ausnahmen hiervon sind in § 23 S. 2 UrhG normiert. Bei ihnen ist bereits die Bearbeitung von der Zustimmung des Urhebers abhängig. Weiterhin ist die Bearbeitung nach § 23 UrhG von der freien Benutzung nach § 24 UrhG abzugrenzen. Ein selbstständiges Werk, das in freier Benutzung eines anderen Werks geschaffen worden ist, darf ohne Zustimmung des Urhebers des benutzten Werkes veröffentlicht und verwertet werden, es sei denn es handelt sich gem. § 24 Abs. 2 UrhG um eine Übernahme einer Melodie. Damit eine freie Benutzung gegeben ist, darf das fremde Werk nicht in identischer oder umgestalteter Form übernommen worden sein. Zur Konkretisierung werden die beiden Verblassungsformeln des BGH hinzugezogen (R3). Eine freie Benutzung liegt zum einen dann vor, wenn angesichts des neuen Werkes die entlehnten eigenpersönlichen Züge des alten Werkes dahinter zurücktreten. Zum anderen reicht es nach Maßgabe der zweiten Verblassungsformel aus, wenn eine inhaltliche und kritische Auseinandersetzung mit dem früheren Werk stattgefunden hat. Umstritten war im Bereich der Bearbeitung lange Zeit auch die Verwendung von Thumbnails, Miniaturen eingestellter Bilder, die u. a. zur Vorschau in Galerien verwendet werden. Der BGH verneinte zwar, dass eine Bearbeitung oder freie Benutzung vorliegt, vertrat jedoch auch die Ansicht, dass derjenige, der Abbildungen von Werken ohne entsprechende Sicherung gegen das Auffinden in Suchmaschinen in das Internet einstelle, ein Einverständnis in die Wiedergabe der Werke in Vorschaubildern innerhalb der Suchmaschine erkläre (R4). A 3.2.2.4 Recht der öffentlichen Zugänglichmachung, § 19a UrhG § 19a UrhG beschreibt das Recht, das Werk drahtgebunden oder drahtlos der Öffentlichkeit in einer Weise zugänglich zu machen, dass es den Mitgliedern der Öffentlichkeit an Orten und Zeiten ihrer Wahl zugänglich ist. Nach § 69c Nr. 4 UrhG gilt dies auch für Software. Das Veröffentlichen eines geschützten Werkes im Internet stellt einen Eingriff in das Recht der öffentlichen Zugänglichmachung nach § 19a UrhG dar. Bei Intranets wird es regelmäßig auf den Einzelfall ankommen, wobei auf das Kriterium der öffentlichen Verbindung abzustellen sein wird, wenn es darum geht zu beurteilen, ob es sich um einen öffentlichen oder privaten Bereich handelt. A 3.2.3 Urheberpersönlichkeitsrechte Bei den Urheberpersönlichkeitsrechten handelt es sich um das ideelle Gegenstück zu den wirtschaftlichen Verwertungsrechten. Hier wird die Beziehung des Urhebers zu seinem Werk geschützt (Lit. 05). Umfasst sind die Befugnisse des Veröffentlichungsrechts aus § 12 UrhG, das Recht auf Anerkennung der Urheberschaft aus § 13 UrhG sowie das Recht auf Schutz gegen Entstellung oder Beeinträchtigung des Werkes aus § 14 UrhG. Bei dem Entstellungsverbot ist zu beachten, dass eine reine Digitalisierung des Werkes an sich noch keine Entstellung darstellt. Je nachdem, wie sich diese auf die Qualität des Werkes auswirkt, kann das aber der Fall sein. Die Urheberpersönlichkeitsrechte können im deutschen Urheberrecht nicht übertragen werden. Vertragliche Verzichte sind im Einzelfall zu prüfen. A 3.2.4 Rechteübertragung Das Urheberrecht ist gem. § 29 UrhG nicht übertragbar. Das basiert auf dem Gedanken, Kreativität sei ein unveräußerliches Menschenrecht, das insbesondere in den Vereinigten Staaten und Großbritannien in dieser Form nicht existiert. Nach § 31 Abs. 1 UrhG kann der Rechteinhaber allerdings Nutzungsrechte einräumen. Diese Rechte umfassen die Befugnis, das Werk auf einzelne oder alle Nutzungsarten zu nutzen. Sie beinhalten allerdings nicht das Urheberrecht, Urheberpersönlichkeitsrechte oder das Verwertungs-
42
A 3: Thomas Hoeren
recht als solches. Darüber hinaus ist mittlerweile anerkannt, dass Nutzungsrechte dinglichen Charakter haben (R5). Zu unterscheiden ist zwischen einfachen und ausschließlichen Nutzungsrechten, § 31 Abs. 1 S. 2 UrhG. Der Inhaber eines einfachen Nutzungsrechts kann das Werk neben anderen Berechtigten nutzen, ohne dass ihm diesen gegenüber ein Verbotsrecht zustünde. Es wäre allenfalls möglich, dass er sich vom Rechteinhaber zur Prozessstandschaft ermächtigen lässt. Das ausschließliche Nutzungsrecht berechtigt den Inhaber dazu, jeden Dritten und sogar den Urheber oder Leistungsschutzberechtigten selbst von der eingeräumten Nutzungsmöglichkeit auszuschließen sowie eigene Nutzungsrechte im Wege einer Unterlizenz einzuräumen. Gem. § 34 Abs. 1 S. 1 UrhG darf ein Nutzungsrecht nur mit Zustimmung des Rechteinhabers übertragen werden. Diese Zustimmung darf er nicht wider Treu und Glauben verweigern. Möglich ist, dass er auf das Zustimmungsrecht ganz oder teilweise verzichtet, dies kann allerdings nicht pauschal im Wege von AGB geschehen (R6). Eine stillschweigende Einwilligung zur Übertragung von Nutzungsrechten gem. § 34 Abs. 1 UrhG innerhalb eines Arbeitsverhältnisses ist nur dann anzunehmen, wenn die Weitergabe der Nutzungsrechte an Dritte vom Betriebszweck selbst erfasst wird, insbesondere dann, wenn es für dieses Unternehmen oder diese Branche üblich ist (R7). Zu beachten ist, dass das Nutzungsrecht räumlich, zeitlich und inhaltlich beschränkt werden kann. Daneben gilt gem. § 31 Abs. 5 UrhG die sog. Zweckübertragungsregel. Sie besagt, dass der Umfang des Nutzungsrechts sich bei unklarer Formulierung des Vertrages nach dem mit seiner Einräumung verfolgten Zweck richtet. Entsprechend bieten sich katalogartige Formulierungen an, die konkret beschreiben, welche Rechte insbesondere und explizit übertragen werden sollen. Nach § 41 Abs. 1 UrhG kann der Rechteinhaber im Falle eines ausschließlichen Nutzungsrechtes dieses wieder zurückrufen, wenn der Berechtigte das Recht nicht oder nur unzureichend ausübt und dadurch berechtigte Interessen des Urhebers erheblich verletzt werden. Hierfür müssen allerdings gem. § 41 Abs. 2 S. 1 UrhG zwei Jahre seit der Rechteübertragung vergangen sein, wozu im Falle eines Ausübungsverzichts nach § 41 Abs. 4 S. 2 UrhG noch bis zu fünf weitere Jahre kommen könnten. Weiterhin ist zu beachten, dass dem Urheber in bestimmten Fällen ein Anspruch auf Nachvergütung zusteht. Aus § 32a UrhG kann sich diese Pflicht ergeben, wenn bei späteren unerwartet hohen Erträgen ein auffälliges Missverhältnis zum gezahlten Entgelt entsteht, z. B. nachdem ein Werk unerwartet erfolgreich war. Sollte der Urheber jedoch nur einen untergeordneten Beitrag geleistet haben, gilt dies nicht (R8). Wie und unter welchen Voraussetzungen Nutzungsrechte für noch unbekannte Nutzungsarten übertragen werden können, bemisst sich nach § 31a UrhG. A 3.2.5 Gesetzliche Schranken Urheber und Leistungsschutzberechtigte können die ihnen zustehenden ausschließlichen Verwertungsrechte nicht unbeschränkt geltend machen. Da eine solche Monopolstellung mit den Vorgaben des Grundgesetzes unvereinbar wäre, bestehen zum Schutz anderer Güter wie z. B. Presse- oder Meinungsfreiheit eine Reihe von Schranken für die Ausübung dieser Rechte. Hierzu gibt es im UrhG einen enumerativen Katalog abschließender Schranken (§§ 44a-63a UrhG). Diese Schranken gelten nicht nur im Verhältnis zum Urheber, sondern über gesetzliche Verweise auch für Leistungsschutzberechtigte, wie Lichtbildner, ausübende Künstler, Tonträger- und Filmhersteller. A 3.2.5.1 Ablauf der Schutzfrist Die Rechte der Urheber erlöschen gem. § 64 UrhG nach Ablauf von 70 Jahren nach ihrem Tod (pma = post mortem auctoris), und somit wird das Werk danach gemeinfrei. Bei Werken, die von mehreren Urhebern geschaffen sind, berechnet sich die Frist nach dem Tod des Längstlebenden, § 65 Abs. 1 UrhG. Bei Filmwerken kommt es gem. § 65 Abs. 2 UrhG auf den Tod des Hauptregisseurs, Dreh-
A 3: Urheberrecht und Internetrecht
43
buchautors und des Filmkomponisten an. Darüber hinaus bestehen auch Fristen für die Leistungsschutzberechtigten. Deren Schutzrechte bestehen grundsätzlich für 50 Jahre ab jeweiliger Leistung, bei Datenbanken 15 Jahre ab der Investition. A 3.2.5.2 Erschöpfungsgrundsatz Ferner ist der Erschöpfungsgrundsatz nach §§ 17 Abs. 2 UrhG, 69c Nr. 3 S. 2 UrhG, 87b Abs. 2 UrhG zu beachten. Stimmt der Urheber einer Veräußerung von Vervielfältigungsstücken zu, erschöpft sich daran sein Verbreitungsrecht mit Ausnahme des Vermietrechts. Die Erschöpfung erstreckt sich nur auf körperliche Werkexemplare, die mit Zustimmung des Berechtigten zur Verbreitung im Wege der Veräußerung in den Verkehr gebracht worden sind. Von der Erschöpfung erfasst sind auch Daten, die auf Werkstücken enthalten sind, wie z. B. die Marktdaten eines Marktforschungsunternehmens. Gleiches gilt für den Weiterverkauf von Standardsoftware auf CD-ROM. Wie der EuGH entschieden hat, gilt der Grundsatz trotz fehlender Verkörperung auch bei Software oder Musik, die man über das Internet herunterladen konnte (R9). Fraglich ist nach wie vor, ob im Online-Bereich eine Erschöpfung angenommen werden kann. Zum einen wird angeführt, die Weitergabe von Nutzungsrechten verstoße gegen die urheberrechtlichen Befugnisse des Verwertungsberechtigten, da sich der Erschöpfungsgrundsatz sowohl nach deutschem als auch nach europäischem Recht nur auf verkörperte Werke beziehe (R10). Nach dieser Meinung könne weder direkt noch analog der Erschöpfungsgrundsatz zur Anwendung kommen. Zum anderen wird von anderen Gerichten angeführt, es mache keinen Unterschied, ob Software über das Netz oder via DVD vertrieben werde, in beiden Fällen müsse bzgl. der Erschöpfung gleich argumentiert werden (R11, R12).
A 3.2.5.3 Zeitungsartikel Unter dem Gesichtspunkt des freien Informationszugangs regelt § 49 UrhG den uneingeschränkten Zugriff auf Beiträge vor allem aus der Tagespresse. Hiernach ist die Vervielfältigung und Verbreitung einzelner Artikel und Abbildungen aus Zeitungen in anderen Zeitungen und Informationsblättern, sowie deren öffentliche Wiedergabe, zulässig, soweit sich die Artikel und Abbildungen mit politischen, wirtschaftlichen oder religiösen Tagesfragen beschäftigen und nicht mit einem Vorbehalt der Rechte versehen sind. Texte einer gesamten Ausgabe und Texte mit wissenschaftlichem oder kulturellem Inhalt fallen nicht unter die Vorschrift. Elektronische Pressespiegel sind nur dann zulässig, wenn keine Datenbank entsteht, bei der das Erfordernis der Tagesinteressen zurücktreten würde (Lit. 06). A 3.2.5.4 Zitierfreiheit Das Zitatrecht des § 51 UrhG erstreckt sich ohne Differenzierung zwischen Werkarten auf alle Nutzungen, bei denen das Zitat durch den besonderen Zweck gerechtfertigt ist. § 51 Nr. 1 UrhG erlaubt die Vervielfältigung, Verbreitung und öffentliche Wiedergabe einzelner bereits veröffentlichter Werke auch ohne Zustimmung des Urhebers, sofern diese in ein selbstständiges wissenschaftliches Werk zur Erläuterung des Inhalts aufgenommen werden und die Nutzung im Umfang durch den besonderen Zweck gerechtfertigt ist. Das Werk, für das das Zitat herangezogen wird, muss den Anforderungen wissenschaftlicher Erkenntnis oder Belehrung genügen (R13). Es muss selbstständig sein, lediglich fremde Werke zu sammeln reicht nicht aus (R14). Möglich ist auch das sog. Großzitat, die Eingliederung ganzer Werke als Zitat. Das ist möglich, sofern dies zur Untermauerung der eigenen Aussage erforderlich ist und nicht auf das gesamte Werkrepertoire des Urhebers zurückgegriffen wird. § 51 Nr. 2 UrhG erlaubt das Kleinzitat in selbstständigen Sprachwerken. Über den Wortlaut hinaus wird diese Regelung auch auf Filme und
44
A 3: Thomas Hoeren
sonstige Werkgattungen ausgedehnt. Hier ist nur die Verwendung kleinerer Ausschnitte erlaubt, wenn es sich nicht um Bildzitate handelt, bei denen es aus rein praktischen Gründen anders teilweise gar nicht möglich ist. Zuletzt ist auch ein Musikzitat gem. § 51 Nr. 3 UrhG möglich. In allen Fällen ist gem. § 63 UrhG die Quelle deutlich anzugeben. A 3.2.5.5 Öffentliche Zugänglichmachung für Unterricht und Forschung Zugunsten von Unterricht, Wissenschaft und Forschung soll die Nutzung von Werken im Rahmen kleiner Forschungs- und Lehrintranets verbotsfrei gegen eine Pauschalvergütung zulässig sein. Die Vorschrift § 52a UrhG erlaubt das zustimmungsfreie öffentliche Zugänglichmachen veröffentlichter kleiner Teile eines Werks, Werke geringen Umfangs sowie einzelner Zeitungs- und Zeitschriftenbeiträge für den Schul- und Hochschulunterricht, sowie für kleine Personengruppen für deren eigenen Forschungszweck. Für letztere gilt, dass die Personen dem Kreis eindeutig zuzuordnen sein müssen, anders als z. B. bei einer offenen Forschungsgruppe mit ständig wechselnden Mitgliedern. Problematisch ist allerdings das Einstellen ganzer oder wesentlicher Teile einer Datenbank i.S.d. §§ 87a ff. UrhG oder von Computerprogrammen i.S.d. §§ 69a ff. UrhG. Diese Schutzgegenstände unterliegen eigenen engen Schrankenbestimmungen, so dass § 52a UrhG auf sie keine Anwendung findet. A 3.2.5.6 Nutzung von Werken über Bibliotheksarbeitsplätze Im Rahmen des § 52b UrhG ist es zulässig, veröffentlichte Werke aus den Beständen ausschließlich in den Räumen der genannten Einrichtungen und nur an eigens dafür eingerichteten elektronischen Leseplätzen zur Forschung und für private Studien zugänglich zu machen, soweit dem nicht vertragliche Regelungen entgegenstehen. Die Zahl der an den elektronischen Leseplätzen zugänglich gemachten Exemplare darf dabei die Anzahl der sich im Bestand der Einrichtung befindlichen Exemplare nicht übersteigen (sog. doppelte Bestandsakzessorietät). Darüber hinaus ist für die Zugänglichmachung eine angemessene Vergütung an eine Verwertungsgesellschaft zu zahlen. A 3.2.5.7 Vervielfältigungen zum eigenen Gebrauch Unter welchen Voraussetzungen Vervielfältigungen zum privaten Gebrauch zulässig sind, bestimmt sich nach § 53 UrhG. Im Folgenden werden beispielhaft einige der Bestimmungen beleuchtet. Nach § 53 Abs. 1 S. 1 UrhG ist es, unabhängig von der verwendeten Technik, zulässig, einzelne Vervielfältigungsstücke eines Werkes zum privaten Gebrauch herzustellen oder herstellen zu lassen. Die Vorlage darf lediglich nicht offensichtlich rechtswidrig öffentlich zugänglich gemacht worden sein. Für Datenbanken und Datenbankwerke gelten abweichende Schrankenbestimmungen – nach § 53 Abs. 5 UrhG ist die Vervielfältigung aus elektronisch zugänglichen Datenbanken zum privaten Gebrauch nicht mehr zulässig. Kompensatorisch für den mit § 53 UrhG verbundenen Rechtsverlust erhält der Urheber einen Anspruch auf Vergütung aus §§ 54, 54a UrhG, der hauptsächlich auf einen Anteil an der sog. Geräte- und Leerkassettenabgabe gerichtet ist. Gem. § 54h UrhG kann dieser Verwertungsanspruch nur durch eine Verwertungsgesellschaft geltend gemacht werden. A 3.2.6 Leistungsschutzrechte Neben den Rechten des Urhebers bestehen noch die Leistungsschutzrechte, §§ 70-94 UrhG. Hiernach genießen gewisse Leistungen auch dann einen Schutz durch das UrhG, wenn sie keinerlei persönlich-geistige Schöpfung beinhalten. Allerdings ist dieser Schutz weiter eingeschränkt, z. B. in der Länge der Schutzdauer, als es bei den Rechten des Urhebers der Fall ist.
A 3: Urheberrecht und Internetrecht
45
Von besonderer Bedeutung sind vor allem die Leistungsschutzrechte der Lichtbildner (§ 72 UrhG), der ausübenden Künstler (§§ 73-84 UrhG), der Tonträgerhersteller (§§ 85, 86 UrhG), der Filmhersteller (§§ 88-94 UrhG) und der Datenbankhersteller (§§ 87a–87e UrhG). Ein Schutz für Verleger besteht nicht, wird aber zunehmend diskutiert. Darüber hinaus genießen die erwähnten Leistungsschutzberechtigten einen spezialgesetzlich verankerten und wettbewerbsrechtlich begründeten Schutz ihrer Leistungen. A 3.2.6.1 Lichtbildner § 72 UrhG schützt die Tätigkeit des Lichtbildners. Lichtbildner ist derjenige, der das Foto herstellt. Hervorzuheben ist hierbei, dass es nicht darauf ankommt, ob das Foto Werkqualität hat, über § 72 UrhG sind alle Fotos geschützt. A 3.2.6.2 Tonträgerhersteller Problematisch ist die Rechtsstellung des Tonträgerherstellers in Hinblick auf neue Verwertungstechnologien. Werden seine Tonträger widerrechtlich ganz oder teilweise kopiert, kann der Tonträgerhersteller sich zwar auf sein Leistungsschutzrecht aus § 85 Abs. 1 UrhG berufen. Umstritten ist allerdings, ob dies auch dann gilt, wenn kleinste Teile kopiert werden, die an sich nicht einmal Werkqualität hätten. Dies wird mittlerweile bejaht, weil die reine Investition des Tonträgerherstellers geschützt wird und sich diese auf jeden noch so kleinen Teil bezieht (R15). Darüber hinaus ist entschieden, dass § 24 UrhG auch auf Tonträger anwendbar ist. Die freie Benutzung nach § 24 ist aber dann ausgeschlossen, wenn derjenige, der kleinste Sequenzen einspielt, selbst befugt und befähigt ist, diese im eigenen Tonstudio einzuspielen. Die freie Benutzung entfällt zudem, soweit es sich bei dem entnommenen Teil um eine Melodie i.S.v. § 24 Abs. 2 UrhG handelt. A 3.2.6.3 Datenbankhersteller Websites sind häufig als Datenbankwerke nach § 4 Abs. 2 UrhG geschützt. Nach § 4 Abs. 1 UrhG werden Sammlungen von Werken oder Beiträgen, die durch Auslese oder Anordnung eine persönlichgeistige Schöpfung sind, als Werke geschützt. Schwierigkeiten bereitet das Merkmal der persönlich-geistigen Schöpfung. Das Material muss nach eigenständigen Kriterien oder individuellen Ordnungsgesichtspunkten zusammengestellt werden. Eine rein schematische oder routinemäßige Anordnung reicht nicht aus (R16). Nach §§ 87a-87e UrhG werden explizit die Hersteller der Datenbanken geschützt. Hersteller ist hierbei allerdings nicht derjenige, der z. B. die Auswahl vorgenommen hat, sondern derjenige, der die entsprechende Investition getätigt hat. Entsprechend kommt es hier auf eine persönlich-geistige Schöpfung nicht an, geschützt ist jede Sammlung von Werken, Daten oder anderen Elementen, sofern deren Beschaffung, Überprüfung oder Darstellung eine wesentliche Investition erfordert. Aufwendungen für den Erwerb einer bereits fertigen Datenbank fallen nicht hierunter. Nach Auffassung der Rechtsprechung ist entscheidend, dass die Investition, die nicht unerheblich sein darf, für die Datenaufbereitung, nicht jedoch für die Datenerzeugung, getätigt worden sein muss (R17). A 3.2.7 Digital Rights Management Der Bereich des Digital Rights Managements umfasst diejenigen Verfahren, mit denen Nutzung und Verbreitung von digitalen Medien kontrolliert werden. Wirksame technische Maßnahmen zum Schutz eines urheberrechtlich geschützten Gegenstands dürfen gem. § 95a Abs. 1 UrhG ohne Zustimmung des Rechteinhabers nicht umgangen werden. § 95a Abs. 3 UrhG verbietet u. a. die Herstellung, Einfuhr, Verbreitung, Vermietung und den
46
A 3: Thomas Hoeren
Verkauf von Vorrichtungen, Erzeugnissen oder Bestandteilen sowie die Erbringung von Dienstleistungen, die dazu gedacht sind, technische Schutzmaßnahmen zu umgehen oder zu gefährden. Erfasst werden zudem die Werbung dafür oder auch Verkaufsangebote bei eBay (R18). Nicht einschlägig ist § 95a UrhG, wenn zwar für die digitalisierte Form des Werkes ein Schutzmechanismus besteht, ein Nutzer aber eine Kopie von einem analogen Pendant zieht, da der digitale Kopierschutz nicht für die Redigitalisierung analoger Kopien greift (R19). A 3.2.8 Rechtsfolgen von Urheberrechtsverletzungen Die §§ 106-111 UrhG legen fest, welches Verhalten strafrechtlich sanktioniert ist. Daneben bestehen eine ganze Reihe zivilrechtlicher Ansprüche. Die zentrale Norm hierbei ist § 97 Abs. 1 UrhG. Nach § 97 Abs. 1 UrhG steht dem Verletzten ein verschuldensabhängiger Anspruch auf Beseitigung, bei Wiederholungsgefahr ein Anspruch auf Unterlassung, sowie bei Vorsatz und Fahrlässigkeit auch Schadensersatz zu. Voraussetzung der Grundprüfung nach § 97 UrhG ist eine widerrechtliche – und bei Schadensersatzansprüchen schuldhafte – Verletzung eines Urheber- oder Leistungsschutzrechts. Geschützt sind dabei nur absolute Rechte, also solche, die gegenüber jedem nichtberechtigten Dritten wirken. Die Verletzung rein vertraglicher Ansprüche reicht nicht aus. Widerrechtlich ist hier jeder Eingriff, der nicht von einer der gesetzlichen Schranken oder der Einwilligung des Rechteinhabers gedeckt ist. Sofern dem Verletzten Schadensersatz zusteht, stehen drei verschiedene Berechnungsarten zur Wahl: Ersatz der erlittenen Vermögenseinbuße einschließlich des entgangenen Gewinns, Zahlung einer angemessenen Lizenz und die Herausgabe des vom Schädiger erlangten Gewinns. Im Falle der Verletzung von Urheberpersönlichkeitsrechten kann nach § 97 Abs. 2 UrhG eine Entschädigung wegen immaterieller Schäden nach Maßgabe der Billigkeit verlangt werden. Gem. § 97 Abs. 1 UrhG i.V.m. § 242 BGB analog hat der Verletzte außerdem einen Auskunftsanspruch auf Darlegung des erzielten Gewinns und den Auskunftsanspruch aus § 101 Abs. 1 UrhG, der die Verfolgung des Anspruchs erleichtern soll. Hier ist allerdings Voraussetzung, dass der Verletzte nur auf unzumutbare Weise selbst an die Informationen gelangen kann. Auskunftsansprüche gegen den Access Provider richten sich nach § 101 Abs. 2 UrhG. Dort wird vorausgesetzt, dass sowohl der auskunftspflichtige Access Provider als auch der Rechtsverletzer in gewerblichem Ausmaß handeln. Streitig ist noch immer, wann das vorliegt (R20). Hinzu kommt gem. § 98 UrhG, dass der Verletzte die Herausgabe des störenden Gegenstands zwecks Vernichtung verlangen kann und nach ständiger Rechtsprechung einen Anspruch auf Ersatz der Aufwendungen, insbesondere der Anwaltskosten, nach den Grundsätzen der Geschäftsführung ohne Auftrag hat.
A 3.3 Datenschutzrecht Das Kapitel über das Datenschutzrecht gibt zuerst einen groben Überblick über die Grundzüge. Für ein besseres Verständnis der Grundgedanken werden hier zunächst die verfassungsrechtlichen Erwägungen illustriert, um einen Eindruck davon zu verschaffen, welche Bedeutung der Umgang mit Daten im Einzelnen haben kann und auf welchen öffentlichen Interessen die später konkretisierten Normen fußen. Im Anschluss daran wird auf den Onlinebereich eingegangen, wobei kurze Hinweise auf gängige Dokumentations- und Datenmodelle und deren Sonderprobleme gegeben werden.
A 3: Urheberrecht und Internetrecht
47
A 3.3.1 Allgemeines Persönlichkeitsrecht und Recht auf informationelle Selbstbestimmung Das allgemeine Persönlichkeitsrecht (APR) ist im Wesentlichen von der Rechtsprechung aus Art. 2 Abs. 1 i. V. m. Art. 1 Abs. 1 GG entwickelt worden. Geschützt wird zunächst die „engere persönliche Lebenssphäre und Erhaltung ihrer Grundbedingungen“ (R21). Es wurzelt in der allgemeinen Handlungsfreiheit aus Art. 2 Abs. 1 GG, da es wie jene nicht auf bestimmte Lebensbereiche beschränkt, sondern in praktisch allen Lebensbereichen relevant werden kann (Lit. 07). Das Bundesverfassungsgericht (BVerfG) hat in seiner Rechtsprechung verschiedene Fallgruppen des allgemeinen Persönlichkeitsrechts hervorgebracht. Zunächst ist hier das Recht auf informationelle Selbstbestimmung zu nennen, welches im Anschluss noch intensiver beleuchtet werden soll. Eine zweite Fallgruppe stellt das Recht der Darstellung der Person in der Öffentlichkeit dar. Dem Einzelnen soll laut BVerfG die Möglichkeit gegeben werden, selbst darüber befinden zu dürfen, „wie er sich gegenüber Dritten oder der Öffentlichkeit darstellen will“ (Lit. 08). Daneben besteht eine Fallgruppe des Rechts auf Selbstwahrung, welches es dem Einzelnen zuspricht, sich von der Öffentlichkeit abzuschirmen, zurückzuziehen oder für sich und allein zu bleiben (Lit. 09). Das Recht auf informationelle Selbstbestimmung ist das Recht des Einzelnen, selbst über die Preisgabe und Verwendung seiner personenbezogenen Daten bestimmen zu können. Es wurde vom BVerfG als spezielle Ausprägung oder Fallgruppe des Allgemeinen Persönlichkeitsrechts im sogenannten Volkszählungsurteil (R22) entwickelt. Durch die Bedingungen der modernen Datenverarbeitung werde die freie Entfaltung der Persönlichkeit gefährdet. Wenn der Bürger nicht mehr wisse oder beeinflussen könne, wer was wann und bei welcher Gelegenheit über ihn weiß, bestehe die Gefahr, dass der Bürger sein Verhalten dementsprechend aus Vorsicht anpasse. Das BVerfG sah hier eine Beeinträchtigung in den Entfaltungschancen des Einzelnen, die darauf basieren konnten, dass der Bürger aus Angst vor Konsequenzen, da ja vielerlei über ihn erfasst und nachverfolgbar sei, auf die Betätigung bestimmter Rechte verzichte. Ferner würde sich aber genau dies auch negativ für das Gemeinwohl niederschlagen, da Selbstbestimmung für ein freiheitliches demokratisches Gemeinwesen elementar sei. A 3.3.2 Grundstruktur des BDSG Im Folgenden soll auf die Grundstruktur des Bundesdatenschutzgesetzes (BDSG) eingegangen werden, insbesondere in Hinblick auf eine kurze Erläuterung der wichtigsten Begriffe. A 3.3.2.1 Abgrenzung von BDSG und TMG Um auf eine Anwendbarkeit des BDSG einzugehen, muss zunächst eine Abgrenzung zum Telemediengesetz (TMG) stattfinden. Das TMG ist spezieller als das BDSG und erfasst ausschließlich Daten, die zur Durchführung eines Telemediendienstes verwendet werden. Wann entweder das BDSG oder das TMG anwendbar ist, entscheidet sich danach, welche Stufe der Internetnutzung vorliegt. Liegt nur eine Aufforderung zu einem Vertragsangebot vor, handelt es sich um einen Telemediendienst, der zu einer Anwendung des TMG führt. Gibt jedoch der Nutzer tatsächlich ein Angebot ab, werden Inhaltsdaten ausgetauscht, die in den Bereich des BDSG fallen. A 3.3.2.2 Personenbezogene Daten Das BDSG ist nur dann uneingeschränkt anwendbar, wenn es sich um personenbezogene Daten natürlicher Personen handelt, die gem. § 1 Abs. 2 Nr. 3 BDSG unter Einsatz von Datenverarbeitungsanlagen verarbeitet werden. Personenbezogene Angaben sind gem. § 3 Abs. 1 BDSG Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person. Hierbei handelt
48
A 3: Thomas Hoeren
es sich um Informationen über den einzelnen Menschen. Es wird klar herausgestellt, dass es sich um eine natürliche, nicht um eine juristische Person handeln muss. Juristische Personen sind allenfalls über § 17 UWG bei Betriebsgeheimnissen und über § 823 Abs. 1 BGB sowohl im eingerichteten und ausgeübten Gewerbebetrieb als auch im allgemeinen Persönlichkeitsrecht des Unternehmens geschützt (R23). Das BDSG ist im Hinblick auf juristische Personen nur dann einschlägig, wenn die Unternehmensdaten in Beziehung zu konkreten einzelnen Mitgliedern des Unternehmens gesetzt werden (R24). Das BDSG schützt alle Angaben, die etwas über die natürliche Person aussagen, unabhängig davon, wie schutzwürdig oder sensibel diese Daten sind oder ob sie einem im Zweifelsfall belanglos erscheinen. Anerkannt ist auch, dass ebenso Werturteile geschützt werden (Lit. 10). Prognose- und Planungsdaten sind vom BDSG geschützt, sofern sie nicht nur künftige, sondern auch gegenwärtige Verhältnisse des Betroffenen berühren (Lit. 11). Inwieweit anonymisierte oder zusammenfassende Daten und Datensammlungen dem Schutz des BDSG unterliegen, bemisst sich danach mit welchem wirtschaftlichen und technischen Aufwand Rückschlüsse auf die Person weiterhin möglich sind oder inwiefern die Angaben noch auf die Einzelperson durchschlagen (Lit. 12). A 3.3.2.3 Erhebung und Verarbeitung von Daten In § 3 Abs. 3 BDSG ist der Begriff der Erhebung als das Beschaffen von Daten über den Betroffenen definiert. Was alles als Verarbeitung im Sinne des BDSG angesehen wird, steht in § 3 Abs. 4 BDSG, inklusive katalogartiger Erläuterungen zu den aufgezählten Handlungen. A 3.3.2.4 Gesetzliche Ermächtigung Gem. § 4 Abs. 1 BDSG ist die Erhebung, Verarbeitung und Nutzung von personenbezogenen Daten nur zulässig, soweit das BDSG oder eine andere Rechtsvorschrift dies erlaubt oder anordnet oder der Betroffene eingewilligt hat. Eine solche gesetzliche Ausnahmeregelung stellt § 28 BDSG dar. Hiernach ist die Benutzung von Daten als Mittel für die Erfüllung eigener Geschäftszwecke zulässig, im Rahmen dessen, was der Grundsatz der Zweckbindung hergibt. So dürfen die Kundendaten zwar zur Abwicklung des Geschäfts genutzt, nicht aber auf Vorrat gesammelt werden. Aus Art. 8 Abs. 1 EGDatenschutz-Richtlinie ergibt sich, dass es gewisse personenbezogene Daten gibt, deren Verwendung untersagt wird. Diese werden als besondere personenbezogene Daten in § 3 Abs. 9 BDSG erwähnt, deren Benutzung in gewissen Ausnahmefällen nach § 28 Abs. 6 BDSG zulässig ist. Eine weitere Besonderheit ergibt sich bei Minderjährigen, bei denen es der Zustimmung der Eltern bedarf, sofern es um die Erhebung personenbezogener Daten geht (R25). A 3.3.3 Sonderbestimmungen im Onlinebereich A 3.3.3.1 Das TKG Das Telekommunikationsgesetz (TKG) enthält in den §§ 88 und 91 ff. TKG einige datenschutzrechtliche Vorschriften. In § 88 TKG ist das grundrechtlich garantierte Fernmeldegeheimnis aus Art. 10 GG normiert. Hierunter fallen der Inhalt der Telekommunikation und ihre näheren Umstände, insbesondere die Tatsache, ob jemand an einem Telekommunikationsvorgang beteiligt ist oder war. Gem. § 3 Nr. 22 TKG ist Telekommunikation der technische Vorgang des Aussendens, Übermittelns und Empfangens von Signalen mittels Telekommunikationsanlagen. Das umfasst nicht nur traditionelle Anlagen wie bei der Telefonie, sondern auch moderne Kommunikationsmittel wie E-Mails. Ebenso wie im BDSG werden im TKG Erhebung, Verarbeitung und Nutzung personenbezogener Daten umfasst. Allerdings stellt das TKG in § 91 Abs. 1 S. 2 TKG Einzelangaben über juristische Personen, sofern sie fähig sind, Rechte zu erwerben, mit personenbezogenen Daten gleich. Eine abschließende Aufzählung möglicher Erlaubnistatbestände für die Erhebung, Verarbeitung und Nutzung sowohl von Verkehrs- als auch von Bestandsdaten findet sich in den §§ 95 ff. TKG.
A 3: Urheberrecht und Internetrecht
49
A 3.3.3.2 Das TMG Die datenschutzrechtlichen Regelungen aus BDSG und TMG gehen einheitlich von den Grundsätzen der Zweckbindung, des Systemdatenschutzes und der Datensparsamkeit aus. Erhebung, Verarbeitung und Nutzung von Daten sind gem. § 12 Abs. 1 TMG ebenso nur dann zulässig, soweit sie gesetzlich gestattet sind oder eine Einwilligung des Betroffenen vorliegt. Wann eine wirksame Einwilligung in die Nutzung vorliegt, ist in § 13 Abs. 2 TMG geregelt. Darüber hinaus haben Betroffene gem. § 13 Abs. 7 TMG ein Recht darauf, die zu ihrer Person gespeicherten Daten unentgeltlich einzusehen. Die Regelungen von Bestands- und Nutzungsdaten sind getrennt in den §§ 14, 15 TMG aufgeführt. Die Regelungen des TMG gelten nur für die Verarbeitung von Nutzerdaten. Das sind die Daten, die über diejenige Person anfallen, die einen Telekommunikations- oder Telemediendienst nachfragt. Die Nutzung von Daten Dritter richtet sich dann entweder nach dem jeweiligen Landesdatenschutzgesetz oder dem BDSG. A 3.3.3.3 Sonderprobleme im Onlinebereich Cookies: Cookies sind ein von einem Webserver erzeugter Datensatz, der an den Webbrowser gesendet und von dort aus in einer Cookie-Datei auf der Festplatte abgelegt wird (Lit. 13). Dort gespeicherte Cookie-Einträge werden umgekehrt aber auch an den Webserver zurückübermittelt. Beides geschieht normalerweise so, dass der Nutzer es nicht wahrnimmt. Der Vorteil von Cookies ist, dass gesammelte Daten beim Nutzer abgelegt werden können und der Anbieter so darauf verzichten kann, mit großem finanziellen Aufwand eigene Datenbanken hochzuziehen und zu unterhalten. Von besonderer praktischer Bedeutung sind sie bei virtuellen Warenkörben. Personenbezogene Daten sind über Cookies recht schwer zu ermitteln. Möglich ist zunächst, kundenspezifische Nutzerprofile zu erstellen, die jedenfalls dann personenbezogen sind, wenn Rückschlüsse auf die Identität des Nutzers möglich sind oder er mit Namen oder E-Mail-Adresse bei dem Online-Dienst angemeldet ist. Sollten die Cookies personenbezogene Daten enthalten, ist ihre Verwendung in Hinblick auf das TMG problematisch. § 12 Abs. 1 TMG stellt klar, dass diese Daten nur dann erhoben, verarbeitet und genutzt werden dürfen, wenn entweder eine wirksame Einwilligung oder eine gesetzliche Erlaubnis vorliegt. Darüber besagt § 15 Abs. 3 S. 1 TMG, dass Nutzerprofile nur dann erstellt werden dürfen, wenn Pseudonyme verwendet werden. Eine Verwendung von Cookies kommt insbesondere nach § 14 Abs. 1 TMG in Betracht, allerdings sind sie zu löschen, wenn sie nicht mehr für die Nutzung eines Telemediendienstes benötigt werden (Lit. 14). Nutzung von Daten zur Missbrauchsbekämpfung: Wenn der Verdacht besteht, dass jemand missbräuchlich Dienste genutzt oder sich Leistungen erschlichen hat, gibt es wenige Möglichkeiten, Daten rechtmäßig zu nutzen, um den Sachverhalt aufzuklären. Zunächst ist bei Leistungserschleichung möglich, nach § 15 Abs. 8 TMG Daten zur Rechtsverfolgung noch über den eigentlichen Nutzungszeitraum hinaus zu verwenden. Darüber hinaus trifft das TMG allerdings keine weiteren Aussagen über Erlaubnistatbestände. Da das TMG aber auch eigens Regelungen zum Online-Datenschutz hat, geht es dem BDSG als lex specialis vor und verhindert so, dass § 28 Abs. 1 Nr. 2 BDSG zur Anwendung kommen kann. Zuletzt bliebe hier nur die Möglichkeit des Telekommunikationsanbieters nach § 100 Abs. 3 S. 2 TKG vorzugehen. Danach könnten aus dem Gesamtbestand aller Verkehrsdaten, die nicht älter als sechs Monate sind, diejenigen Verbindungen herausgesucht werden, bei denen der Verdacht einer Leistungserschleichung besteht. Outsourcing: Im Bereich des E-Commerce wird Outsourcing in der Regel so betrieben, dass die Datenverarbeitung an andere Unternehmen ausgegliedert wird. Zu unterscheiden ist zunächst zwischen Auftragsdatenverarbeitung und Funktionsübertragung. Abgrenzen lassen diese beiden Bereiche sich durch die Frage, wie viel Handlungsspielraum der Dritte hat, der tätig werden soll. Sofern dieser eigenverantwortlich handeln kann und z. B. eine übergeordnete Aufgabe mit weiteren Funktionen hat, zu deren Erfüllung die überlassenen Daten als Hilfsmittel dienen, liegt keine Auftrags- sondern eine Funktionsübertragung vor (Lit. 15). Bei einem Auftragsverhältnis hingegen stehen Kontrolle und Verarbeitung des Datenbestandes an sich im Vordergrund. Die Auftragsdatenver-
50
A 3: Thomas Hoeren
arbeitung ist in § 11 BDSG geregelt, inklusive eines Kataloges an notwendigen Vertragsinhalten in § 11 Abs. 2 BDSG. Die Funktionsübertragung hingegen muss allen Anforderungen des BDSG genügen. Zu beachten ist des weiteren § 203 StGB, in dessen Fällen Outsourcing auch nur mit Einwilligung des Kunden zulässig ist. Abhilfe kann jedenfalls dadurch geschafft werden, dass das Personal funktionell zur Muttergesellschaft gehört, wonach es als Gehilfen anzusehen wäre. Data Mining: Beliebtes Mittel zur Sammlung und Auswertung von Daten ist Data Mining. Datenschutzrechtlich sind diese Mittel nicht unbedenklich. Das Datenschutzrecht beherbergt die Gedanken der Zweckbindung und der Datenvermeidung. Es soll nicht nur möglichst darauf verzichtet werden, personenbezogene Daten zu erheben; wenn sie schon erhoben werden, dann auch nur für konkrete Zwecke. Zu diesen Zwecken gehört aber nicht, Daten einfach auf Vorrat zu sammeln, um z. B. Profile zu erstellen, so dass Data Mining schlicht rechtswidrig ist, wenn nicht eine Einwilligung des Betroffenen vorliegt. Hierbei reicht allerdings nicht aus, dass Pauschaleinwilligungen für jegliches Data Mining eingeholt werden. Gem. § 4a BDSG müssen die Betroffenen auf alle näheren Umstände hingewiesen werden, wie den Zweck und die Erhebung. Wirksam ist die Einwilligung nur, wenn sie auf einer freien Entscheidung beruht.
A 3.4 Haftung im Internet Zu unterscheiden ist im TMG nach vier Angeboten. Zum einen gibt es nach § 7 TMG Dienstanbieter, die eigene Informationen zum Abruf bereithalten, auch bekannt als sog. Content-Provider. Daneben gibt es Access-Provider, die im TMG in zwei Varianten genannt werden: § 8 TMG richtet sich an diejenigen Access-Provider, die fremde Informationen übermitteln oder zugänglich machen, sowie nach § 9 TMG diejenigen, die fremde Informationen automatisch zeitlich begrenzt zwischenspeichern, damit die Übermittlung fremder Informationen effizienter gestaltet werden kann. Zuletzt gibt es auch noch den sog. Host-Provider, der fremde Informationen für den Nutzer speichert, und den § 10 TMG behandelt. Im Folgenden soll die Haftung der einzelnen Provider kurz erläutert werden. A 3.4.1 Der Content-Provider Der Content-Provider ist ein Informationsanbieter. Bietet er eine Homepage an, muss er für deren Inhalt gem. § 7 Abs. 1 TMG nach den allgemeinen Gesetzen einstehen. Bei fremden Informationen auf der eigenen Online-Plattform handelt es sich nach Auffassung der Rechtsprechung um eigene Informationen des Betreibers dieser Plattform, da dieser seinen eigenen Internetauftritt hierfür zur Verfügung stellt, auch wenn nicht er selbst, sondern ein Dritter die konkrete Information eingestellt hat (R26). Etwas anderes gilt nur, wenn der Betreiber der Internetseite sich von der betreffenden Äußerung nicht pauschal, sondern konkret und ausdrücklich distanziert. Darüber hinaus liegt ein Zueigenmachen der Information vor, wenn der Diensteanbieter sich mit den fremden Inhalten derart identifiziert, dass er die Verantwortung insgesamt oder für Teile der Information übernimmt (R27). Bei der deliktischen Haftung sind insbesondere die spezialgesetzlichen Vorschriften aus UrhG, MarkenG, BDSG und UWG von Bedeutung, die für den Content-Provider besondere Sorgfaltspflichten begründen. Für falsche Informationen kommt eine Haftung nach dem ProdHaftG oder im Rahmen von § 823 Abs. 1 BGB in Betracht, wobei hier abseits vertraglicher Vereinbarungen schon absolute Rechtsgüter verletzt sein müssen. Entsprechend empfiehlt es sich, deutliche Warnhinweise anzubringen, dass für Richtigkeit und Vollständigkeit keine Gewähr übernommen werde. Im Rahmen der vertraglichen Haftung eines Content-Providers, die nicht durch das TMG modifiziert wird, kann auf die allgemeinen Grundsätze des Zivilrechts zurückgegriffen werden. Damit werden der Bereich der Sachmängelhaftung und der Haftung wegen Pflichtverletzung abgesichert. Ausgedehnt wird die Verantwortlichkeit an dieser Stelle durch eine BGH-Entscheidung, nach der für Beratungs- und Auskunftsverträge keine besonderen oder schriftlichen Verträge notwendig sind,
A 3: Urheberrecht und Internetrecht
51
sondern diese stillschweigend abgeschlossen werden können, sofern die Auskunft von erkennbarer, erheblicher Bedeutung ist und als Grundlage wichtiger Entscheidungen dienen soll (R28). Die BGH-Entscheidungen waren in diesem Bereich allerdings durch das vorherige Bestehen eines vertraglichen Verhältnisses gekennzeichnet. Insofern lässt sich diese Rechtsprechung nur auf das Verhältnis eines Nutzers zu einem entgeltlichen Online-Dienst anwenden. Denkbar ist darüber hinaus eine Verletzung vorvertraglicher Pflichten nach § 280 BGB. Entgeltliche Informationsdienste schulden immer vollständige und richtige Informationen, ohne dass eine Haftung hierfür ausgeschlossen werden könnte. Des weiteren bestehen Nebenpflichten, die die IT-Sicherheit betreffen. So muss der Content-Provider einen Mindestschutz vor Phishing, Hacking und Malware sowie andere schwerwiegende und unerlaubte Eingriffe anbieten (R29). A 3.4.2 Der Access-Provider Für die Access-Provider gelten die §§ 8, 9 TMG. Sie setzen die Vorgaben der Richtlinie 2000/31/EG um. Der Access-Provider ist für die bloße Durchleitung von Informationen von der Verantwortlichkeit freigestellt. Eine Durchleitung liegt nur in den Fällen vor, in denen es um die reine Weiterleitung von Nutzerinformationen oder die Zugangsvermittlung zu einem Kommunikationsnetz geht. Sobald jedoch die Übermittlung vom Diensteanbieter selbst veranlasst wurde, liegt keine bloße Durchleitung vor. Nur passive, automatische Verfahren werden von den Vorschriften privilegiert. Problematisch ist hier § 7 Abs. 2 S. 2 TMG, wonach Verpflichtungen zur Sperrung oder Löschung nach den allgemeinen Gesetzen auch dann unberührt bleiben, wenn der Access-Provider nicht für die in Frage stehenden Inhalte verantwortlich gemacht werden kann. Den Access-Providern kommt jedoch der Grundsatz „impossibilium nemo obligatur“ zu Hilfe. Es gibt Formen der Sperre, z. B. sog. DNS-Sperren, die dadurch ins Leere laufen, dass sie einfach zu umgehen sind. Der Access-Provider hat de facto in diesen Fällen gar keine Chance, die Inhalte wirksam zu sperren. Auch die Rechtsprechung lehnt größtenteils eine Sperrungspflicht ab (R30, 31). Weder seien die Provider Täter oder Teilnehmer bei den rechtswidrigen Handlungen, noch bestünde eine Haftung als mittelbarer Störer. Letzteres käme nur dann in Betracht, wenn neben der eigenverantwortlich handelnden Person auch der Provider willentlich und kausal an der rechtswidrigen Handlung mitwirkt. In Hinblick darauf, dass es oft keine wirksamen Maßnahmen gibt, ist das aber abzulehnen. Da die Sperrung auch entsprechend nicht zumutbar ist, können Provider nicht auf Unterlassung in Anspruch genommen werden (R32). Im Übrigen gibt es Auskunftsansprüche gegen die Access-Provider, wie in § 101 Abs. 2 UrhG, um die Rechtsverfolgung durch die Betroffenen zu erleichtern. A 3.4.3 Der Host-Provider § 10 TMG benennt zwei Fälle in denen der Host-Provider für fremde Informationen, die er für einen Nutzer speichert, nicht verantwortlich ist. Zum einen entfällt nach § 10 Abs. 1 TMG die Verantwortlichkeit, wenn der Host-Provider keine Kenntnis von der rechtswidrigen Handlung oder der Information hat oder ihm im Falle von Schadensersatzansprüchen auch keine Tatsachen oder Umstände bekannt sind, aus denen die rechtswidrige Handlung oder die Information offensichtlich wird. Zum anderen entfällt die Verantwortlichkeit nach § 10 Abs. 2 TMG alternativ, wenn er unverzüglich tätig geworden ist, um die Information zu entfernen oder den Zugang zu ihr zu sperren, sobald er diese Kenntnis erlangt hat.
52
A 3: Thomas Hoeren
A 3.4.4 Haftung für Links Das Setzen eines Hyperlinks als solches löst nie eine Haftung aus. Entscheidend ist grundsätzlich, mit welcher inhaltlichen Aussage das Setzen verbunden ist. Solidarisiert jemand sich mit rechtswidrigen Inhalten, zu denen er den Link gesetzt hat, ist er wie ein Content-Provider zu behandeln. Setzt sich jedoch jemand mit dem Inhalt auseinander, ohne sich damit zu solidarisieren, z. B. im Zuge wissenschaftlicher Auswertungen, ist er wie ein Access-Provider zu behandeln. Je nach dem in welchem Kontext der Link gesetzt wird, kann das Ergebnis ganz unterschiedlich ausfallen. Auch für Suchdienste gibt es keine einschlägigen Normen. Die §§ 7-10 TMG sind nicht anwendbar. § 7 TMG ist nicht einschlägig, da es sich um einen rein technischen Verweis ohne jeglichen Inhalt handelt. Das gilt jedenfalls dann, wenn die kurzen Textausschnitte aus der Website, die teilweise mit angezeigt werden, sog. Snippets, der Suchmaschine haftungsrechtlich nicht zugerechnet werden können. § 8 TMG ist nicht anwendbar, da der Dienst nicht auf die Zugangsvermittlung von Informationen ausgerichtet ist. Und bei § 9 TMG scheitert es daran, dass keine Zwischenspeicherung zur schnelleren Übermittlung von Informationen vorliegt. Auch analog sind die Regelungen nicht anwendbar, da es an einer planwidrigen Regelungslücke fehlt (Lit. 16). Daher ist der Suchmaschinenbetreiber nach den allgemeinen Gesetzen verantwortlich. So kann er im Zuge der Störerhaftung belangt werden, da ihn besondere Garanten- und Verkehrssicherungspflichten treffen. Allerdings ist eine ständige Überprüfung der Inhalte hier nicht zumutbar (R33). Eine vollständige Haftungsbefreiung der Suchmaschinenbetreiber kommt nur dann in Betracht, wenn diese sofort nach Erlangung der Kenntnis der Rechtsverletzung tätig werden, indem sie dann entsprechend den Fehler durch Sperrung oder Löschung beseitigen. Allerdings müssen die Rechtsverletzungen offensichtlich sein und ohne weitere Nachforschungen nachvollziehbar sein, wie z. B. bei Vorliegen eines rechtskräftigen Titels (Lit. 17). A 3.4.5 Haftung sonstiger Onlineakteure Auch andere Intermediäre können haften. So ist z. B. auf die Verantwortlichkeit von Anbietern bei Online-Auktionen für markenrechtliche Verstöße zu verweisen (R34). Ebenso soll der Anbieter der Auktionsplattform mit in die Pflicht genommen werden (R35). Werden bei einer solchen Plattform Plagiate angeboten, kann der Inhaber auf Unterlassung in Anspruch genommen werden (R36). Das Haftungsprivileg für Host-Provider gelte in diesem Fall nur für den Schadensersatz, nicht aber für den Unterlassungsanspruch. Zwar ist dem Betreiber auch hier nicht zumutbar, alle Inhalte der Plattform auf ihre Rechtmäßigkeit hin zu prüfen. Erlangt er jedoch Kenntnis von der Rechtsverletzung, muss er unverzüglich tätig werden und auch künftige Handlungen dieser Art unterbinden. Darüber hinaus haftet auch der Account-Inhaber für das Verhalten Dritter, wenn er seine Account-Daten an diese weitergibt und nicht überprüft, welche Handlungen unter seinem Account vorgenommen werden (R37). Ein Domain-Provider kann darüber hinaus auch nach § 4 Nr. 10 UWG wegen der gezielten Behinderung eines Mitbewerbers durch Registrierung einer bestimmten Domain haften (R38). Als Konsequenzen kämen sowohl die Verpflichtung zur Einwilligung in die Löschung der Domain in Frage, als auch eine Verpflichtung zur Unterlassung. Der Diensteanbieter ist auch für Inhalte in den dem Nutzer verborgen bleibenden Subdomains verantwortlich, selbst wenn er bei der Vergabestelle nicht als Domaininhaber registriert ist (R39). Ebenso haftet der Vermieter von Subdomains für Spam, der von der Subdomain aus versandt wird (R40). Eine Haftung besteht weiterhin für die Betreiber von Online-Gästebüchern (R41). Wer aufgrund der Thematik mit ehrverletzenden Beiträgen in seinem Gästebuch rechnen muss, ist dazu verpflichtet, regelmäßig die Einträge zu kontrollieren, um zu verhindern, dass die fremden Inhalte ihm zugerechnet werden können. In diesem Fall würde er dann wie ein Content-Provider haften und müsste für die Inhalte einstehen.
A 3: Urheberrecht und Internetrecht
53
Ähnliches gilt für Forenbetreiber. Eine grundsätzliche Pflicht zur Überprüfung besteht nicht, allerdings kann eine solche sich daraus ergeben, dass der Forenbetreiber durch sein eigenes Verhalten vorhersehbar rechtswidrige Beiträge durch Dritte provoziert hat oder bereits mindestens ein Rechtsverstoß von einigem Gewicht vorliegt, durch den die Gefahr weiterer Rechtverstöße sich konkretisiert (R42). Auch hier ist der Betreiber nach Kenntniserlangung zur sofortigen Löschung verpflichtet (R43). Im Bereich der AdWords haftet Google nicht für die eventuelle Verletzung von Markenrechten, unter anderem deshalb, weil Google weder selbstständig eine Markenrechtsverletzung begeht noch vorsätzlich daran mitwirkt (R44). Wann ein Händler im Affiliate-Bereich als Mitstörer angesehen wird, ist noch nicht abschließend geklärt. Affiliate Marketing liegt vor, wenn ein Unternehmen, das im Internet werben will, dies nicht alleine tut, sondern sich einer Art Netzwerk anschließt, in dem sich Partner finden lassen, die Interesse daran haben, Werbung zu übernehmen. Nach Ansicht des OLG Köln haftet der Händler bei Verstößen seines Affiliate-Partners auch als Mitstörer, und zwar unabhängig davon, ob die Markenverletzung auf einer Website geschieht, die beim Partnerprogramm angemeldet ist oder nicht (R45). Dies gilt nach Auffassung des LG Berlin auch dann, wenn der Affiliate von den vorgeschriebenen Werbemitteln eigenmächtig entgegen der Anweisungen des Betreibers abweicht (R46). Zuletzt haften auch die Inhaber von Internetanschlüssen für jede missbräuchliche Nutzung nach den Grundsätzen der Störerhaftung (R47). Darüber hinaus hat er die Pflicht, Schutzvorkehrungen zu treffen, um die missbräuchliche Nutzung zu verhindern (R48).
A 3.5 Ausblick In dem hier vorliegenden Text können natürlich nicht alle aktuellen rechtspolitischen Entwicklungen im Bereich des Wissenschaftsurheberrechts und ähnlicher Sektoren perspektivisch vorgestellt werden. Daher soll nur am Ende darauf hingewiesen werden, dass gerade auch das Urheberrecht Gegenstand vieler rechtspolitischer Überlegungen und Änderungswünsche ist. Für eine kleinere Form sprechen sich zumindest diejenigen aus, die eine zeitliche Verlängerung der Schutzschranke von § 52a UrhG im Hinblick auf die elektronischen Seminarapparate fordern. Eine kleine gesetzgeberische Änderung würde dann bewirken, dass diese entsprechende Schranke, die gerade für die Digitalisierung von Materialien im Hochschulkontext wichtig ist, über den 31. Dezember 2012 hinausläuft. Weiter werden insbesondere auch Vorlagen des BGH an den europäischen Gerichtshof seitens der Wissenschaft beobachtet, in denen die Frage der Schranke für elektronische Leseplätze (§ 52b UrhG) neu überdacht werden könnte. Große Reformen zu Gunsten der Wissenschaft würde insbesondere auch eine allgemeine Wissenschaftsschranke applizieren. Dabei könnte man zum Beispiel die Durchsetzung von urheberrechtlichen Ansprüchen auf den Bereich der gewerblichen Internetnutzung beschränken und sowohl den privaten wie auch den wissenschaftlichen Bereich ausnehmen. Denkbar wäre auch eine Verknüpfung mit einem allgemeinen Fair-Use-Modell, wie es in Ansätzen in den USA üblich ist. Andere denken über eine Wissenschaftsflatrate nach, die es erlauben würde, dass zum Beispiel Studierende im Rahmen ihrer Hochschulaktivitäten gegen Zahlung einer Art Studiengebühr freien Zugang zu wissenschaftlicher Literatur haben (wie zum Beispiel in den Niederlanden). Formvorschläge sind auch eine Verbesserung des Schutzes von Wissenschaftlern gegen die übermächtigen Verleger. Hier wird in verschiedenen Konstellationen angedacht, den Wissenschaftlern wenigstens die Zweitverwertungsrechte an ihren Beiträgen zu belassen oder rückzuübertragen, um auf diese Art und Weise die Nutzung für Open-Access-Bereiche zu ermöglichen. Die wissenschaftliche Nutzung von Materialien könnte sich im Übrigen auch dann verbessern, wenn in den nächsten zwei Jahren die neue EU-Richtlinie für verwaiste Werke umgesetzt wird. Durch diese Richtlinie soll es ermöglicht werden, rechtlich geschützte Inhalte nicht gewerblich
54
A 3: Thomas Hoeren
freier nutzen zu können, wenn die Urheber oder sonstige Berechtigte nicht auffindbar sind. Ob und wie sich diese Entwicklungen auswirken, ist noch unklar. Das Justizministerium hat jedenfalls erklärt, bis zur nächsten Bundestagswahl keine große Reform anzustreben. Auch in Brüssel ist in absehbarer Zeit – abseits der bereits verabschiedeten Richtlinien über verwaiste Werke – keine weitere Reform insbesondere mit Auswirkungen für den Wissenschaftsbereich in Sicht. Insofern werden die nächsten Jahre noch durch spannende Auseinandersetzungen zwischen Wissenschaftlern und Verwertern gekennzeichnet sein.
Literatur 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17
Welp, IuR 1988, 443, 445 FS von Gamm, S. 389 Schricker/Loewenheim, Urheberrecht, § 16 Rn. 5 Schricker/Loewenheim, Urheberrecht, § 17 Rn. 5 Decker, Hoeren/Sieber (Hrsg.), Handbuch Multimediarecht, Teil 7.2 Rn.1 Dreier/Schulze, UrhG, § 49 Rn. 20 Pieroth/Schlink, Grundrechte, Rn. 391 Dreier, Grundgesetz, Art. 2 I Rn. 53 Pieroth/Schlink, Grundrechte, Rn. 394 Gola/Schomerus, BDSG, § 3 Rn. 2.6 Gola/Schomerus, BDSG, § 3 Rn. 2.9 Gola/Schomerus, BDSG, § 3 Rn. 2.2, 15.2 Wichert, DuD 1998, 273 Voigt, MMR 2009, 377 Bergmann/Möhrle/Herb, BDSG, § 11 Rn. 11 Rath, Recht der Internet-Suchmaschinen, S. 275 Rath, Recht der Internet-Suchmaschinen, S. 367
Rechtsprechung R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17 R18 R19
BGH, MMR 2003, 719 EuGH, EuZW 2008, 346 BGH, GRUR 1994, 191 BGH, GRUR 2010, 628 BGH, ZUM 2009, 852 BGH, GRUR 1984, 45 OLG Düsseldorf, ZUM-RD 2009, 63 BGH, NJW-RR 2002, 255 EuGH, MMR 2012, 586 OLG München, MMR 2008, 601 LG Hamburg, MMR 2006, 827 OLG Hamburg, MMR 2007, 317 LG Berlin, GRUR 1978, 108 BGH, GRUR 1973, 216 BGH, GRUR 2009, 403 BGH, GRUR 1954, 129 OLG Düsseldorf, BeckRS 2008, 20245 LG Köln, MMR 2006, 412 LG Frankfurt a. M., ZUM 2006, 881
R20 R21 R22 R23 R24 R25 R26 R27 R28 R29 R30 R31 R32 R33 R34 R35 R36 R37 R38 R39 R40 R41 R42 R43 R44 R45 R46 R47 R48
LG Köln, MMR 2009, 645 BVerfGE 54, 148 BVerfGE 65, 1 BGH, NJW 1994, 1281 BGH, NJW 1986, 2505 OLG Frankfurt a.M., MMR 2005, 696 LG Hamburg, MMR 2007, 450 KG Berlin, GRUR-RR 2010, 7 BGH, NJW 1986, 180 OLG Brandenburg, MMR 2006, 107 LG Frankfurt, MMR 2008, 121 LG Kiel, MMR 2008, 123 LG Hamburg, ZUM 2009, 587 LG Frankenthal, CR 2006, 698 LG Berlin, CR 2002, 371 LG Köln, CR 2001, 417 BGH, MMR 2004, 668 OLG Frankfurt a.M., CR 2005, 655 BGH, MMR 2005, 374 OLG Hamburg, MMR 2005, 322 AG Leipzig, MMR 2003, 610 LG Düsseldorf, MMR 2003, 61 OLG Hamburg, ZUM 2006, 754 LG Düsseldorf, CR 2006, 563 OLG Hamburg, MMR 2006, 754 OLG Köln, MMR 2006, 622 LG Berlin, MMR 2006, 118 LG Hamburg, CR 2006, 780 LG Hamburg, MMR 2006, 763
A 3: Urheberrecht und Internetrecht
55
Stephan Holländer, Rolf A. Tobler
A 4 Schweizer Urheberrecht im digitalen Umfeld Dieser Beitrag greift einige Aspekte des schweizerischen Urheberrechtes im Zuge zunehmender Digitalisierung von Information und Dokumentation auf. Als Teil der in der schweizerischen Bundesverfassung garantierten Eigentumsordnung konkretisiert das Urheberrechtsgesetz (URG) (G1) den Schutz geistigen Schaffens, das durch ein Werk verkörpert wird. Darüber hinaus gelten auch für die Schweiz verschiedene völkerrechtliche Verträge zum Urheberrecht (Lit. 15, S. 29, N.12, Lit. 11, Lit. 03, S. 3ff).
A 4.1 Der Werkbegriff Noch im analogen Zeitalter geschaffen, definiert Art. 2 URG, dass das Werk als eine geistige Schöpfung der Literatur und Kunst mit individuellem Charakter gilt, unabhängig von dessen Wert oder Zweck (Lit. 05, S. 50, N.230-241). Der geistige Inhalt muss einen sinnlich erkennbaren Ausdruck gefunden haben. Die typischen Kategorien künstlerischer Ausdrucksformen sind gesetzlich nicht abschliessend aufgeführt. Neu werden auch Computerprogramme ausdrücklich als Werke anerkannt. Der blosse Gedanke ist nicht schutzfähig, vielmehr braucht es eine Darstellung des Werkes in einer bestimmten Form, die mit Hilfe eines Ausdruckmittels, wie Sprache Ton, Bild oder Mimik, erreicht wird. Erst die konkrete Verkörperung macht das Werk aus (R1, R2). Nach dem schweizerischen Rechtsverständnis fällt nur ein von menschlichem Willen geschaffenes Werk unter den urheberrechtlichen Schutz (R3), was in Art. 6 URG ausdrücklich festgehalten wird. Das Bundesgericht beschäftigte sich u. a. mit der Schutzwürdigkeit von Fotografien und Bauwerken mit der geforderten Werkindividualität. Nicht unter den gesetzlichen Schutz fallen Rechtsnormen aller Art und Stufen, Zahlungsmittel sowie Entscheide, Protokolle und Berichte von Behörden oder Patentschriften und veröffentlichte Patentgesuche. Das Merkmal des individuellen Charakters des Werks wurde durch die höchstrichterliche Rechtsprechung in zahlreichen Entscheiden konkretisiert. Das Bundesgericht beschäftigte sich in seiner Rechtsprechung mit der Schutzwürdigkeit der geforderten Werkindividualität, u. a. von Fotografien und Bauwerken (R5, N.230ff). Bei Sprachwerken wie etwa bei Gebrauchsanweisungen, Kochbüchern, Formularen, gelten weniger hohe Anforderungen an die Individualität, selbst wenn ihnen ein geringes Mass an Individualität zukommt, die über das rein Handwerkliche hinausgeht (Lit. 13, R8).
A 4.2 Die urheberechtlichen Schutzrechte Nach dem Gesetz hat der Urheber das ausschliessliche Recht am eigenen Werk. Diese Ausschliesslichkeit beinhaltet einerseits die Urheberpersönlichkeitsrechte und andererseits die Verwendungsrechte. Alle Werke gemäss der Legaldefinition von Art. 2 URG sind ab deren Entstehung geschützt, insbesondere braucht es keine Fixierung auf ein beliebiges Speichermedium. Die Schutzfrist endet 70 Jahre nach dem Tod des Schöpfers bzw. bereits nach 50 Jahren bei Computerprogrammen. Nach Ablauf werden die Werke gemeinfrei, das heisst sie können von jedermann benutzt werden. Die Urheberpersönlichkeitsrechte und die Verwendungsrechte Als Urheberpersönlichkeitsrechte (Lit. 06, D. 1., Lit. 02, N-1-26 zu Art. 9 URG) nennt das Urhebergesetz das Recht: –– auf Anerkennung der Urheberschaft (Art. 9. Abs. 1 URG), –– auf Erstveröffentlichung (Art 9 Abs. 2 URG),
–– ––
A 4: Schweizer Urheberrecht im digitalen Umfeld
57
auf Werkintegrität (Art. 11 lit. a URG), sich gegen eine persönlichkeitsverletzende Entstellung des Werks zu wehren (Art. 11 Abs. 2 URG).
Die Anerkennung der Urheberschaft und das Recht auf Veröffentlichung sind untrennbar an die Person des Urhebers gebunden und als Persönlichkeitsrechte nicht übertragbar. Allein der Urheber bestimmt, wann und wie sein Werk veröffentlicht wird und ebenso, wann und wie sein Werk geändert werden darf. Zulässig ist aber die vertragliche Selbstbeschränkung, indem der Urheber auf die Ausübung verzichtet, z. B. beim Ghostwriting. Das Urhebergesetz führt mit einer nicht abschliessenden Aufzählung die exklusiven Verwendungsrechte des Schöpfers auf: –– das Verwertungsrecht (Art. 10 Abs. 2 lit. a URG), –– das Verbreitungsrecht (Art. 10 Abs. 2 lit. b URG), –– das Vortrags-, Aufführungs- und Vorführrecht (Art. 10 Abs. 2 lit. c URG).
A 4.3 Kauf, Lizenzierung und Ausleihe von urheberrechtlich geschützten Werken Der Erwerb einer Sache (z. B. Druckmedien) erfolgt nach den Bestimmungen des Kaufrechts. Der Käufer erhält gegen Bezahlung des Preises die gekaufte Sache zu vollem Eigentum. Er kann im Rahmen der Rechtsordnung frei darüber verfügen. Für digitale und digitalisierte Werke braucht das Eigentum dagegen nicht übertragen zu werden. Es steht im Belieben des Urhebers über die ihm zustehenden Verwendungsrechte, die Nutzung seines Werks durch eine Lizenz zu gestatten. Wie das Beispiel von E-Books veranschaulicht, wird dem Nutzer die vertragliche Berechtigung zum bestimmungsgemässen Gebrauch eines urheberrechtlich geschützten Werks gegen Bezahlung einer Gebühr für eine bestimmte Zeit eingeräumt. Dabei werden im Unterschied zum Sachkauf an urheberrechtlich geschützten Werken keine Eigentumsrechte übertragen. Die Regeln der Nutzungseinräumung an Werken haben sich massgeblich in der Praxis entwickelt, denn das Schweizer Recht kennt den Lizenzvertrag als gesetzlich normierten Vertragstyp nicht. Die Ausleihe von Werken hat keine Aufnahme in das Urhebergesetz gefunden. Art. 13 URG regelt aber die entgeltliche Vermietung von Werken (Lit. 02, S. 95, N. 2). Aufgrund dieses gesetzgeberischen Entscheides hat sich in der Schweiz eine Praxis eingebürgert, wonach die Ausleihe in Bibliotheken und Archiven auch dann unentgeltlich erfolgt, wenn vom Nutzer die Bezahlung einer „kleinen“ Einschreibe- oder Mitgliedergebühr verlangt wird. Anders verhält es sich jedoch, wenn Werke vermietet oder sonst wie entgeltlich zur Verfügung gestellt werden. In diesem Fall ist dem Urheber eine Vergütung geschuldet. Nach der hier vertretenen Auffassung ist die Ausleihe von digitalen Medien als Vermietung i.S.v. Art. 13 URG zu verstehen. Darum räumt der E-Book-Verlag der Bibliothek die Berechtigung ein, das Werk durch das Publikum nach Massgabe der getroffenen Lizenzvereinbarung zu nutzen. Bei der Ausleihe von Computerprogrammen und filmischen Werken ist besonders zu beachten, dass dieser Vorgang einer Vermietung gleichzusetzen ist und folglich ein Anspruch auf eine Vergütung in jedem Fall besteht (Lit. 07, Lit. 12), da hier Art. 11 TRIPS (Trade-related aspects of intellectual property rights) (G2) der Welthandelsorganisation (WTO) greift, welches die Schweiz ratifiziert hat. Art. 40 URG bildet die Rechtsgrundlage für die diesbezüglichen Gemeinsamen Tarife (GT) wie GT 6a (G3), GT 6b (G4) und GT 9 II (G5) für die Verwertungsgesellschaften.
A 4.4 Die Vervielfältigung von Medien Herstellen von Kopien durch die Nutzer Oft stellen Informationseinrichtungen wie Bibliotheken ihren Nutzern Fotokopierer zur Verfügung. Der Nutzer kann so Privatkopien aus dem Bestand erstellen. Diese Kopien sind nach Art. 19 Abs. 1 lit. a URG zum Eigengebrauch gestattet und unter Vorbehalt der sog. Leerträgergebühr vergütungs-
58
A 4: Stephan Holländer, Rolf A. Tobler
frei. Als Verwendung zum Eigengebrauch im Sinne von Art. 19 Abs. 1 lit. a URG – auch als Privatgebrauch bezeichnet – gelten der persönliche Bereich eines Nutzers sowie der Kreis seiner Verwandten und Freunde. Nach Art. 19 Abs. 1 lit. b und lit. c URG ist die Werkverwendung in der Schule oder in Betrieben sowie in öffentlichen Einrichtungen als Eigengebrauch gestattet und in jedem Fall vergütungspflichtig. Ein Werk im Eigengebrauch darf nicht in seiner Gesamtheit kopiert werden. Das Bundesgericht hat entschieden, dass ein urheberrechtlich geschütztes Werk nur insoweit kopiert werden darf, dass der Erwerb des Werks für den Durchschnittskonsumenten dadurch nicht uninteressant wird (R9, Lit 02, S.139, N. 23). Die integrale Vervielfältigung von Werkexemplaren für Betriebe und öffentliche Einrichtungen gilt ebenfalls als Erscheinungsform des Eigengebrauchs und ist gegen Bezahlung einer Kopiervergütung an eine Verwertungsgesellschaft gestattet. Unter dem Begriff des Werkexemplars fallen etwa die jeweilige Zeitung oder Zeitschrift, jedoch nicht der enthaltene Presseartikel (Lit. 02, S. 139, N 23, Lit. 03, S. 277f). Eine weitgehend vollständige Kopie ist dann anzunehmen, wenn in Anbetracht des Umfangs der Kopie für den Durchschnittskonsumenten der Kauf des vollständigen Exemplars uninteressant wird (R10, Lit. 02, S. 139, N 23). Die Informationseinrichtungen dürfen den Nutzern Kopierer zur Verfügung stellen. Der Gesetzgeber erblickt darin aber eine Mitwirkung der Informationseinrichtung nach Art. 20 Abs. 2 URG, die vergütungspflichtig ist. Die sogenannte „Pro-Litteris-Vergütung“ richtet sich, so Art. 20 Abs. 4 URG und Art. 46 URG, nach den Gemeinsamen Tarifen (GT). Bei Fotokopien findet die Abgabe nach GT 8 IV (G7) Anwendung. Anfertigen von Kopien durch Dritte Werden die Kopien für den Eigengebrauch hergestellt, so dürfen die Kopien auch durch Dritte, wie Angestellte einer Bibliothek oder eines Copy Shops hergestellt werden. Diese Dritten werden dann gegenüber den Verwertungsgesellschaften vergütungspflichtig (Art. 20 Abs. 2 URG). Digitales Kopieren Die Bestimmungen über die Verwendung zum Eigengebrauch (Art. 19 URG) und die sich daraus ergebende Vergütung (Art. 20 URG) sind technologieunabhängig ausgestaltet. Darunter fallen deshalb sämtliche Technologien, insbesondere die digitalen Kopiertechnologien. Für die Leerdatenträger, wie beispielsweise DVD-Rohlinge, Festplatten oder USB-Sticks, wird eine Gebühr erhoben. Diese wird entweder beim Hersteller oder beim Händler eingezogen, die sie dem Konsumenten weiterverrechnen. Die Umgehung wirksamer technischen Massnahmen zum Schutz von Werken und verwandten Schutzobjekten bei Download und Gebrauch ist nicht gestattet (Art. 39a URG). Das Gesetz definiert indessen nicht, welche Technologien unter diese Vorschrift fallen (Lit. 02, S. 265, N7). Zweitpublikation auf Open Access Datenbanken Wie bereits zu Art. 10 URG ausgeführt, entscheidet allein der Urheber, wo, wann und durch wen sein Werk veröffentlicht wird. In jüngster Zeit werden in der Schweiz Wissenschaftler und Hochschulangehörige vermehrt durch die Hochschule verpflichtet, ihre Veröffentlichungen auf einem Server unter Open Access zu veröffentlichen (Lit. 10). Diesen Trend sehen auch Verlage und bieten den Urhebern entsprechende Zweitveröffentlichungen an. Diese sind aber nicht im Urhebergesetz geregelt, sondern sind Gegenstand des zwischen Autor und Verlag zu schliessenden Verlagsvertrags (Art. 380 ff OR). Das dispositive Gesetzesrecht schränkt den Urheber in seiner Verfügungsfreiheit über das verlegte Werk ein. Anderslautende vertragliche Absprachen vorbehalten, ist es dem Urheber untersagt, das Werk oder Teile davon zu veröffentlichen, solange die Publikation nicht vergriffen ist (Art. 382 Abs. 1 OR). Beiträge an Sammelwerken oder grössere Beiträge an Zeitschriften kann der Urheber nicht vor Ablauf von drei Monaten nach dem vollständigen Erscheinen des Beitrages weiter veröffentlichen (Art. 382 Abs. 3 OR). Zeitungsartikel und einzelne kleinere Aufsätze in Zeitschriften darf der Urheber jederzeit weiter veröffentlichen (Art. 382 Abs. 2 OR).
A 4: Schweizer Urheberrecht im digitalen Umfeld
59
Ausgesuchte Beispiele der digitalen und digitalisierten Kopie Eigengebrauch: Der nach Art. 19 URG zulässige Eigengebrauch regelt auch das Kopieren durch Einscannen eines gedruckten Buchkapitels und auch dessen Übermittlung per E-Mail innerhalb der Schweiz. Die Regelung gemäss Art. 19 URG ist auf die Schweiz beschränkt (Territorialitätsprinzip). Sobald jedoch ein Auslandbezug besteht, sei es durch nicht schweizerische IP-Adresse oder E-MailAccount oder Kopiervorgang auf einen im Ausland betriebenen Server, wie auch bei Aufenthalt der kopierenden Person im Ausland, kann bezüglich des in der Schweiz zulässigen Eigengebrauchs eine Urheberrechtsverletzung im Ausland eintreten, da dort andere Rechtsnormen gelten, wie dies das Lugano-Übereinkommen (LugÜ) vorschreibt (G8), das die Schweiz ratifiziert hat (Lit. 01, S. 239241, N 600-611). Gemeinfreies Werk: Ein Werk darf frei kopiert oder digitalisiert werden, sobald der Urheberrechtsschutz erloschen ist. Die Schutzfrist beträgt für Computerprogramme 50 Jahre und für alle anderen Werke 70 Jahre nach dem Todes des Urhebers (Art. 29 URG). Archiv: Die Anfertigung eines digitalen Archivexemplars zur Erhaltung des Werkes durch Bibliotheken, Bildungseinrichtungen, Museen und Archive lässt das Urhebergesetz ausdrücklich zu (Art. 24. Abs. 1 URG). Vorrausetzung ist aber, dass die angefertigte Kopie in einem der Allgemeinheit nicht zugänglichen Archiv aufbewahrt und als Archivexemplar gekennzeichnet wird (Lit. 02, S. 177, N. 2). Sicherungskopie: Nutzungsberechtigte von Computerprogrammen sind nach dem Gesetz berechtigt, vergütungslos eine Sicherungskopie herstellen. Dieses Recht darf innerhalb der Schweiz vertraglich nicht eingeschränkt werden (Art. 24 Abs. 3 URG). Anders sieht die Regelung aus, wenn die Lizenzbestimmungen eines anderen Staates Geltung haben. Kataloganreicherung: Kataloganreicherungen durch Inhaltsverzeichnisse, Buchumschlag und Abstracts oder Klappentexte sind Teile von urheberrechtlich geschützten Werken nach Art 2 Abs. 2 und Abs. 4 URG. Sie dürfen nicht ohne Zustimmung der Rechteinhaber eingescannt und verwendet werden. Der Börsenverein des Deutschen Buchhandels hat der Deutschen Nationalbibliothek und dem Deutschen Bibliotheksverbund eine Unbedenklichkeitserklärung für die Kataloganreicherung mit Inhaltsverzeichnissen ausgestellt. Zwischenzeitlich haben einige Schweizer Bibliotheken ebenfalls damit begonnen, Inhaltsverzeichnisse in ihre Online Public Access Catalogue (OPAC) beizufügen. Dieses Vorgehen scheint nach der hier vertretenen Auffassung nicht durch die Bestimmungen des Urhebergesetzes gedeckt zu sein (Lit. 15, S. 119, N2 und 5 zu Art. 24 URG). Ergänzend sei darauf hingewiesen, dass sich Informationseinrichtungen zur Kataloganreicherung auch nicht auf die Zitierfreiheit (Art 25 URG) oder auf den Eigengebrauch (Art. 19 URG) stützen können. Unterricht: Zum ausschliesslichen Gebrauch im Unterricht ist der Dozent berechtigt, Kapitel, Zeitschriftenartikel und Auszüge aus Lehrbüchern zusammenzustellen. Dies gilt als Eigengebrauch (Art 19 Abs. 1 lit. b URG). Er kann diese Zusammenstellung auch seinen Studierenden zugänglich machen, beispielsweise das Zurverfügungstellen eines digitalen Semesterapparats auf einer passwortgeschützten Webseite. Die Studierenden dürfen ihrerseits eine Privatkopie anfertigen.
A 4.5 Kopien aus dem Internet Im Unterschied zu anderen Ländern ist in der Schweiz das Kopieren zum Eigengebrauch zugunsten von Privaten bzw. im Unterricht und im betrieblichen Bereich für interne Information oder Dokumentation geregelt. Dies gilt auch für den Gebrauch des Internets (Art. 10 URG und Art. 19 URG): Download aus dem Internet: Nach der vorherrschenden Meinung ist in der Schweiz der Download von urheberrechtlich geschützten Text-, Bild- oder Musikdateien zum persönlichen Gebrauch erlaubt und zwar selbst dann, wenn das in Anspruch genommene Angebot unerlaubterweise ins Internet geladen wurde. Der Download ist für die private Nutzung grundsätzlich vergütungsfrei bzw. unterliegt den Bedingungen des Anbieters. Gesetzlich vorgesehen ist eine Vergütung auf den Leerträgern.
60
A 4: Stephan Holländer, Rolf A. Tobler
Uploading ins Internet: Das Hochladen („Uploading“) von geschützten Musikdateien oder Texten, Bilddateien usw. ist nicht gestattet. Ein Hochladen in einen (z. B. mit einem Passwort) geschützten Internet-Bereich ist nur zu Privatgebrauch oder zu Schulungs- oder betrieblichen Dokumentationszwecken gestattet und ist vergütungsfrei. Der Stream im Internet: Das Streaming, d. h. das Übertragen von Video- oder Audioinhalten von einem Server zum Rechner eines beliebigen Nutzers fällt auch unter den Schutzbereich des Urheberrechtsgesetzes. Damit ein Stream auf dem Rechner des Nutzers unterbrechungsfrei wiedergegeben werden kann, entstehen im Zwischen- oder Arbeitsspeicher des verwendeten Geräts vorübergehend Kopien der übertragenen Daten. Mittels entsprechender Programme kann aber jeder beliebige Nutzer auf seinem Rechner auch eine dauerhafte Kopie des Streams in Form einer Datei abspeichern. Die Nutzung dieser Technologie ist funktional als Wahrnehmung im Sinne des Urheberrechtsgesetzes (Art. 10 Abs. 2 lit. c URG) zu qualifizieren (Lit. 02, S. 68, N 26a, Lit. 04, S.215 f). Das Gesetz setzt eine rechtmässige Nutzung voraus. Darunter fällt der Eigengebrauch nach Massgabe der in Art. 19 URG aufgeführten Erscheinungsarten. Es sei daran erinnert, dass nur die Aufzeichnung des Streams als Privatkopie zum Eigengebrauch vergütungsfrei ist (Art. 20 Abs. 1 URG). Informationsrecherche im Internet: Private, Unternehmen, Institutionen und auch Behörden nehmen immer mehr Recherchedienstleistungen in Anspruch. Dazu nutzen Informationseinrichtungen auch Datenbanken kommerzieller Anbieter (Hosts). Für die Nutzung der Datenbanken räumt der Host der Informationseinrichtung eine entgeltliche Lizenz ein. Der Regelungsinhalt dieses Vertragsverhältnisses wird durch den Grundsatz der Vertragsfreiheit bestimmt. Die vertragstypische Leistung – vorliegend die Nutzung einer Datenbank – bestimmt das ergänzend anwendbare Privatrecht. Darum kann es durchaus vorkommen, dass auf eine mit einer schweizerischen Informationseinrichtung abgeschlossene Lizenz gar nicht Schweizerisches Urheberrecht (ergänzend) Anwendung findet. Der Lizenzvertrag regelt insbesondere den Umfang der vereinbarten Nutzung (z. B. Zugang, Suche, Speicherung, Bearbeitung und Weitergabe von Informationen) der Datenbanken des Hosts, Dauer der Lizenz und die einmalige oder wiederkehrende Lizenzgebühr. Der Host muss vertraglich eine Weiterverarbeitung und Zitierung der Resultate durch die Nutzer einräumen. Werden allgemein zur Informationsbeschaffung im Internet frei zugängliche Webseiten aufgerufen, gelten etwaige Nutzungsbestimmungen dieser Seite. Besteht indessen keine diesbezügliche Regelung, so gilt das Recht des Orts des Abrufs. Es kann die paradoxe Situation entstehen, dass aus dem Ausland aufgerufene Schweizer Webseiten mit urheberrechtlich geschützten Inhalten aufgrund des Schutzlandprinzips im Land des Nutzers widerrechtlich sind bzw. sein können (Lit. 04, S. 392 f).
A 4.6 Ausblick Das Urheberrechtgesetz mit seiner traditionellen landesspezifischen Ausrichtung zum Schutze geistigen Schaffens, das durch ein Werk verkörpert wird, steht in einem augenscheinlichen Spannungsfeld zu den sich im rasanten Tempo weiterentwickelnden digitalen Technologien und die Verbreitung über das Internet. Cloud Computing ist ein momentaner Trend (Lit. 16). Immer mehr Stimmen werden laut, wonach das Gesetz überlebt ist und den Bedürfnissen unserer Informationsgesellschaft nicht mehr entspricht und daher das Dogma vom „geistigen Eigentum“ aufgegeben werden soll (Lit. 17). Das Internet und die digitalen Technologien kennen keine Landesgrenzen mehr. Es wäre wünschenswert, dass die Urheberechtsgesetzgebung, die in wenigen Jahren im Zuge der Globalisierung tiefgreifende Änderungen erfahren hat, fortan als Kopierrechtsgesetzgebung (copy right) im Zentrum eines künftigen, länderübergreifenden Urheberrechts stehen wird.
A 4: Schweizer Urheberrecht im digitalen Umfeld
61
Gesetze, internationale Verträge und tarifliche Bestimmungen G1 Bundesgesetz vom 9.10.1992 über das Urheberrecht und verwandte Schutzrechte (URG) in seiner überarbeiteten Fassung vom 1.1.2011 (Link: www.admin.ch/ch/d/sr/2/231.1.de.pdf)) G2 Trade-related aspects of intellectual property rights (TRIPS) der WTO vom 15.04.1994 G3 Gemeinsamer Tarif (GT) zur Vermietung von Werksexemplaren von Bibliotheken G4 Verleih von Werksbibliotheken von Bibliotheken für Liechtenstein G5 Gemeinsamer Tarif (GT) zur Nutzung von geschützten Werken und geschützten Leistungen in elektronischen Formen G6 Gemeinsamer Tarif (GT) zum Eigengebrauch mittels betriebsinternen Netzwerken in Bibliotheken G7 Gemeinsamer Tarif (GT) 8 IV, Reprografie in Reprografie- und Kopierbetrieben G8 Das Lugano-Übereinkommen (LugÜ) 2007 vom 1. Januar 2010
Literatur Neue Zürcher Zeitung, AG für die Neue Zürcher Zeitung., Zürich. 1780SIC! - Zeitschrift für Immaterialgüter-, Informations- und Wettbewerbsrecht, Schulthess Verlag, Zürich 1997Zeitschrift für Urheber- und Medienrecht (ZUM), Nomos Verlag, Baden-Baden, 195701 Basler Kommentar (BSK)/begründet von Heinrich Honsell [et al.]. Dieter A. Hofmann/Oliver M. Kunz (Hsg.): Lugano-Übereinkommen. Basel 2011 02 Barrelet Denis; Egloff Willi; Künzi Sandra (Mitarb.): Das neue Urheberrecht. Kommentar zum Bundesgesetz über das Urheberrecht und verwandte Schutzrechte. Stämpfli Bern, 2008, 3., vollständig überarbeitete und ergänzte Auflage 03 Yanshi Bu: Die Schranken des Urheberrechts im Internet: Eine rechtsvergleichende Untersuchung des schweizerischen und chinesischen Urheberrechts. Diss. Stämpfli Verlag, Bern 2004 04 Lukas Bühler: Schweizerisches und internationales Urheberrecht im Internet. Diss. Universitätsverlag Freiburg Schweiz, 1999 05 Büren von, Roland; Marbach, Marbach, Eugen; Ducrey Patrik: Der Werkbegriff. Büren von, Roland; Marbach, Eugen Marbach; Ducrey Patrik, Schweizerisches Immaterialgüter- und Wettbewerbsrecht, Stämpfli Verlag, Bern 2008 06 David Rüetschi: Die Bedeutung des Urheberrechts im Bibliothekswesens. Cherbuin Anne, Dengg Bernhard, Regamey (Hrsg), Digitale Bibliotheken und Recht. Dike Verlag, Zürich/St. Gallen, 2011 07 Thomas Cottier: Die völkerrechtlichen Rahmenbedingungen der Filmförderung in der neuen Welthandelsorganisation GATT-WTO. ZUM 1994 (Sonderheft), 749ff und Catherine Mettraux Kauthien, La qualité d’artiste interprète: de la théorie à la pratique. SIC!2006 S.912ff 08 Willi Egloff: Rundfunk im Internet? Zur urheberrechtlichen Qualifikation von Simulcasting und Webcasting in SIC! 2005, S.96 ff 09 Reto M. Hilty: Urheberrecht. Stämpfli Verlag, Bern, 2011 10 Reto M Hilty; Matthias Seemann: Open Access: Zugang zu wissenschaftlichen Publikationen im schweizerischen Recht, Gutachten für die Universität Zürich, Zürich 2011 (siehe Link http://www.zora.uzh. ch/30945/1/oa_rechtsgutachten_hiltyV.pdf; zuletzt aufgerufen am 30.02012) 11 Thomas Hören: Was können wir von der Schweiz lernen? Das URG und die Verwertung digitaler Rechte aus deutscher Sicht. SIC! 1998, S.447f 12 Catherine Mettraux Kauthien: La qualité d’artiste interprète: de la théorie à la pratique. SIC! 2006 S.912ff 13 Ivan Mijatovic: Ein Werk erfüllt die Schutzvoraussetzungen, wenn es vogelig genug ist. SIC! 2006, S.435ff 14 Andrea F. G. Rascher; Mischa Senn (Hrsg.): Kulturrecht – Kulturmarkt. Dike Verlag, Zürich/St. Gallen, 2012 15 Manfred Rehbinder; Adriano Vigano: URG Kommentar Urheberrechtsgesetz. Schulthess Verlag, Zürich, 2008
62
A 4: Stephan Holländer, Rolf A. Tobler
16 Vincent Salvadé : Le droit d’auteur dans le nuage ou dans le brouillard? Aspects juridiques concernant le „cloud computing“. SIC! 2012 S. 161f 17 Florent Thouvenin: Urheberrecht statt „geistiges Eigentum“ in Neue Zürcher Zeitung, Nr. 193 vom 21.8.2012, 19 (siehe Link http://www.nzz.ch/meinung/debatte/urheberrecht-statt-geistigeseigentum-1.17503146; zuletzt aufgerufen am 30.09.2012)
Rechtsprechung R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11
BGE 70 II 57 „Habla“ BGE 77 II 377 „Mickey Mouse“ BGE 74 II 106 „Suisa/Koch“ BGE 130 III 714 „Meili“ BGE 130 III 168 „Bob Marley“ BGE vom 19.8.2002 „X. AG“ in sic! 2003, S. 28ff BGE 100 II 167 „Späti Kiosk“ BGE 110 IV 102 „Harlekin“ BGE 133 III 473 E. 3.1 BGE 133 III 478 Urteil des deutschen Bundesgerichtshofes in Sachen RapidShare gegen Atari Europe vom 14.07.2012 (Az. I-20 U 59/10)
Gerhard Reichmann
A 5 Urheberrecht und Internetrecht: Österreich Das österreichische Urheberrecht ist dem deutschen sehr ähnlich. Gegenstand der folgenden Ausführungen ist allerdings kein Rechtsvergleich, sondern eine kompakte Darstellung der österreichischen Rechtslage. Das österreichische Urheberrecht (öUrhR) dient in erster Linie dem Schutz der Rechte von Urhebern an deren Schöpfungen. Die erste diesbezügliche gesetzliche Regelung war ein Kaiserliches Patent „zum Schutze des literarischen und artistischen Eigentums gegen unbefugte Veröffentlichung, Nachdruck und Nachbildung“ aus dem Jahr 1846, das im Jahr 1895 durch ein für damalige Verhältnisse überaus modernes Urheberrechtsgesetz abgelöst wurde. Das heute in Österreich gültige Urheberrechtsgesetz stammt aus dem Jahr 1936 (Bundesgesetz über das Urheberrecht an Werken der Literatur und der Kunst und über verwandte Schutzrechte; BGBl. 1936/111) und wurde seitdem mehrfach umfassend novelliert, so dass es durchaus den aktuellen Anforderungen sowie den Richtlinienvorgaben der EU entspricht. Das öUrhG enthält Bestimmungen zum Schutz von Werken – auf dieses Urheberrecht im engeren Sinn bleiben die nachfolgenden Erläuterungen beschränkt – und Bestimmungen bezüglich der sogenannten Leistungsschutzrechte (z. B. Rechte von Sängern an ihren Aufführungen von fremden Werken). Im Gegensatz zu anderen Teilbereichen des Informationsrechts, wie etwa dem Datenschutzgesetz, kommt dem Urheberrecht in der Praxis erhebliche wirtschaftliche Bedeutung zu: Zahlreiche Prozesse werden auch in Österreich geführt und oftmals monetär empfindliche Sanktionen verhängt.
A 5.1 Zentrale Begriffe des Urheberrechts Die beiden zentralen Begriffe des öUrhG sind jener des Werkes mit all seinen Erscheinungsformen und jener des Urhebers (Hinweis: Das öUrhG wurde noch nicht geschlechtergerecht umformuliert, so dass ausschließlich die männliche Form Verwendung findet) unter Berücksichtigung verschiedener Sonderfälle der Urheberschaft. Gemäß § 1 öUrhG sind Werke „eigentümliche geistige Schöpfungen auf den Gebieten der Literatur, der Tonkunst, der bildenden Künste und der Filmkunst“. Damit das Kriterium der Eigentümlichkeit erfüllt ist, hat ein Werk eine individuelle Eigenart aufzuweisen, indem persönliche Züge des Urhebers zur Geltung kommen. Durch diese persönlichen Züge muss das Werk von anderen, eventuell sehr ähnlichen Werken unterscheidbar sein. Dagegen spielen künstlerischer, ästhetischer, wissenschaftlicher oder auch kommerzieller Wert sowie Zweck der Werkschaffung keine Rolle für die Beurteilung einer Schöpfung als Werk. Zweckneutralität bedeutet, dass es für die Beurteilung des Werkcharakters unerheblich ist, ob eine Schöpfung für idealistische oder kommerzielle Zwecke geschaffen wurde. Das Kriterium der geistigen Schöpfung verlangt eine auf einem menschlichen Denkprozess basierende (geistige) Gestaltung und eine sinnliche Wahrnehmbarkeit dieses gedanklichen Inhaltes. Eine körperliche Fixierung der Schöpfung ist dagegen nicht nötig. Reine Gedanken und Ideen genießen noch keinen urheberrechtlichen Schutz, sondern erst deren jeweilige Umsetzung. Ob nun eine Schöpfung die eben besprochenen Kriterien ausreichend erfüllt und damit Werkcharakter hat, entscheidet im Zweifelsfall das Gericht. Die in Österreich möglichen Werkarten werden, wie oben dargelegt, in § 1 öUrhG zwar taxativ aufgezählt, allerdings erlauben die zum Teil eher offenen Formulierungen eine laufende Anpassung. Die vier vorgesehenen Werkarten sind: 1. Werke der Literatur: Diese werden in § 2 öUrhG näher erläutert, wonach zu den Werken der Literatur Sprachwerke aller Art (Beispiele: In Büchern enthaltene Romane oder Gedichte, Liedtexte, politische Reden, wissenschaftliche Vorträge, aber auch komplexe Verträge und Bedienungsanleitungen, sofern diese das Kriterium der Eigentümlichkeit erfüllen), Bühnenwerke
64
A 5: Gerhard Reichmann
in Form von choreographischen oder pantomimischen Schöpfungen sowie Werke wissenschaftlicher oder belehrender Art in Form von zwei- oder dreidimensionalen bildlichen Darstellungen. Die Anpassungsfähigkeit des öUrhG zeigt sich etwa dadurch, dass Computerprogramme zu den Sprachwerken gezählt werden, indem an den Quellcode als Text angeknüpft wird. 2. Werke der Tonkunst: Für sie finden sich im öUrhG keine näheren Bestimmungen, wobei nach herrschender Meinung die Summe der individuellen Tongestaltung (Aufbau der Tonfolge, Rhythmus, Instrumentierung, usw.) Schutzgegenstand ist (Beispiele: Popmusikhits, Opernarien, Volksmusikschlager, aber auch komplexere Mobiltelefon-Klingeltöne oder Werbemusik). 3. Werke der bildenden Künste: Nach herrschender Meinung sind Werke der bildenden Künste aus urheberrechtlicher Sicht v.a. zum Ansehen bestimmt, ein praktischer Gebrauchswert ist für die Qualifikation als Werk unerheblich. Im § 3 öUrhG erfolgt eine demonstrative Aufzählung spezieller Erscheinungsformen von Werken der bildenden Künste, die Lichtbildwerke wie künstlerische Fotos, Werke der Baukunst wie Repräsentativbauten oder Museen und Werke der angewandten Kunst umfasst. 4. Werke der Filmkunst: Darunter werden gemäß § 4 öUrhG Laufbildwerke verstanden, die aus einer Abfolge von Lichtbildern bestehen (Beispiele: Stummfilme, Tonfilme). In der Praxis führt diese Unterteilung in verschiedene Werkarten häufig zu Einordnungsschwierigkeiten. Beispielsweise sind Multimediawerke häufig nicht eindeutig einer oder auch mehreren Werkart(en) zuordenbar. Insgesamt stellt sich die Frage, ob es nicht überlegenswert wäre, eine Gliederung in Werkarten aufzugeben. Im Zusammenhang mit dem Werkbegriff erscheinen auch noch mehrere besondere Erscheinungsformen von Werken erwähnenswert: –– Bearbeitungen (§ 5 öUrhG): Diese genießen einen eigenen urheberrechtlichen Schutz, soweit es sich dabei um eigentümliche geistige Schöpfungen des Bearbeiters handelt. Sämtliche Rechte des Originalurhebers bleiben unangetastet. Auch eine Verwertung von Bearbeitungen kann nur mit dessen Zustimmung erfolgen. Häufigstes Beispiel für Bearbeitungen mit Werkcharakter sind Übersetzungen. Automatische Übersetzungen können dagegen niemals Werkcharakter erlangen. –– Sammelwerke (§ 6 öUrhG): Eine Zusammenstellung einzelner Beiträge (die nicht unbedingt Werkcharakter haben müssen) zu einem gesammelten Ganzen genießt urheberrechtlichen Schutz, sofern die Zusammenstellung eine eigentümliche geistige Schöpfung darstellt. –– Freie Werke (§ 7 öUrhG): Gesetze, Verordnungen und ähnliche Materialien genießen im Sinne einer ungehinderten Zugänglichkeit und damit aus öffentlichem Interesse keinen urheberrechtlichen Schutz. Gemäß § 10 öUrhG gilt als Urheber eines Werkes jene Person, die es geschaffen hat. Es muss sich dabei um eine natürliche Person handeln, die rechtsfähig ist. Nachdem die Rechtsfähigkeit per Gesetz mit der Lebendgeburt beginnt und mit dem Tod endet, können auch Minderjährige und Personen, für die ein Sachwalter bestellt ist, Urheber sein. Reine Gehilfen, die keinen eigenen schöpferischen Beitrag leisten, erlangen keinen urheberrechtlichen Schutz. Von Miturhebern spricht man allerdings, wenn mehrere Personen gemeinsam ein Werk geschaffen haben, das eine untrennbare Einheit darstellt. In diesem Fall üben alle Miturheber das Urheberrecht gemeinschaftlich aus. Ist das Gemeinschaftswerk teilbar, handelt es sich bei den Schöpfern des Werkes um Teilurheber. Teilurheberschaft liegt auch im Falle von Sammelwerken, deren Teile Werkcharakter aufweisen, vor.
A 5: Urheberrecht und Internetrecht: Österreich
65
A 5.2 Merkmale des Urheberrechts Wichtige Merkmale des öUrhR, auf die nachfolgend eingegangen wird, sind Entstehung, Inhalt, Übertragung und Dauer. Die Entstehung des Urheberrechts erfolgt automatisch mit der Schaffung eines Werkes, ein eigenständiger Formalakt ist nicht nötig. Eine Bezeichnung des Urhebers auf dem (den) Werkstück(en) ist keinesfalls nötig, um urheberrechtlichen Schutz zu erlangen. Dennoch ist es in der Praxis durchaus sinnvoll (wenn auch ohne rechtliche Folgen), auf Werkstücken einen sogenannten Urheberrechtsvermerk anzubringen, der das Copyrightzeichen © (in Ermangelung eines eigenen Urheberrechtszeichens), auf jeden Fall aber Jahr der Erstveröffentlichung und Namen des Urhebers umfassen sollte. Inhaltlich umfasst das Urheberrecht einerseits die Verwertungsrechte, bei denen es um die wirtschaftliche Nutzung eines Werkes geht, und andererseits das Urheberpersönlichkeitsrecht, das dem Schutz der geistigen Interessen von Urhebern dient. Somit werden vom öUrhG sowohl materielle als auch ideelle Interessen der Urheber geschützt. Das öUrhG kennt eine Vielzahl von Verwertungsrechten (§§ 14-18a öUrhG), die wie das Vervielfältigungsrecht, das Verbreitungsrecht und das Zurverfügungstellungsrecht ähnlich wie im deutschen Urheberrecht festgelegt sind. Das Zurverfügungstellungsrecht (das Recht auf öffentliche Zugänglichmachung im deutschen UrhG) ist ein weiteres Beispiel für die laufende Anpassung des öUrhR an den technologischen Fortschritt. Im öffentlichen Interesse bzw. aufgrund sonstiger rechtspolitischer Überlegungen gibt es mehrere Ausnahmen vom ausschließlichen Verwertungsrecht der Urheber, d. h. es existieren verschiedene Beschränkungen der Verwertungsrechte. Zu diesen zählen u. a.: –– Freie Werknutzungen im Interesse der Rechtspflege und der Verwaltung (§ 41 öUrhG): Diese Ausnahme erstreckt sich auf alle Werkarten und beinahe alle Verwertungsarten und soll Gerichten und Behörden eine möglichst ungehinderte Aufgabenerfüllung ermöglichen. –– Vorübergehende Vervielfältigungshandlungen (§ 41a öUrhG): Demnach sind vorübergehende, technisch notwendige Vervielfältigungen, wie etwa das Zwischenspeichern (Caching) von Internetseiten, erlaubt. –– Vervielfältigung zum eigenen und zum privaten Gebrauch (§ 42 öUrhG): Dabei handelt es sich um die in der Praxis bedeutendste Beschränkung der Verwertungsrechte. Die Regelung ist relativ komplex und unterscheidet zwischen verschiedenen Trägermedien und Verwendungszwecken. Das Anfertigen einzelner Vervielfältigungsstücke auf Papier und ähnlichen Trägermedien (z. B. Overheadfolie) ist beispielsweise jedermann, also natürlichen und juristischen Personen, zum eigenen Gebrauch, der auch den beruflichen Gebrauch umfasst, gestattet. Handelt es sich beim Trägermedium dagegen um ein digitales Medium (Beispiel: USB-Stick), so erfolgt bereits eine Einschränkung dieser Zulässigkeit auf natürliche Personen sowie den rein privaten Gebrauch. Schulen und Universitäten dürfen wiederum eine größere (für den Unterricht notwendige) Anzahl von Vervielfältigungsstücken anfertigen, allerdings gilt dies nicht für Kopien aus Lehrbüchern. Generell verboten bleibt die Vervielfältigung ganzer Bücher und Zeitschriften, sofern diese nicht bereits vergriffen sind oder die Vervielfältigung durch händisches Abschreiben erfolgt. Als Ausgleich für diese zum Teil doch recht massiven Eingriffe in das Vervielfältigungsrecht des Urhebers gibt es eine Reihe von Vergütungsansprüchen (z. B. Reprographievergütung, Gerätevergütung), die u. a. beim Kauf von Trägermedien sowie beim Betrieb von Kopiergeräten anfallen, von sogenannten Verwertungsgesellschaften (Beispiele: AKM, Literar-Mechana) eingehoben und anschließend an die Urheber ausgeschüttet werden. –– Berichterstattung über Tagesereignisse (§ 42c öUrhG): Für diesen Zweck dürfen Werke, die bei den berichteten Vorgängen öffentlich wahrnehmbar werden, vergütungsfrei verwertet werden (Beispiel: Fotos einer Ausstellungseröffnung enthalten urheberrechtlich geschützte Ausstellungsobjekte).
66 ––
A 5: Gerhard Reichmann
Freie Werknutzungen an Werken der Literatur (§§ 43-50 öUrhG): Zu den hier genannten freien Werknutzungen zählen beispielsweise bestimmte Verwertungsarten von öffentlichen und politischen Reden (Beispiel: Reden vor Gericht) und von Beiträgen in Zeitungen (Beispiel: Verbreitung von Zeitungsbeiträgen in anderen Zeitungen) sowie das Zitatrecht, das v.a. im Bereich der Forschung eine große Rolle spielt. Das Zitatrecht differenziert zwischen dem Kleinzitat, worunter die Aufnahme einzelner Stellen eines veröffentlichten fremden Sprachwerkes in ein eigenes Werk verstanden wird, und dem Großzitat, bei dem unter bestimmten Voraussetzungen ganze fremde Werke in ein eigenes wissenschaftliches Werk integriert werden dürfen. In beiden Fällen muss das Zitat als fremdes geistiges Eigentum erkennbar sein, andernfalls liegt ein sogenanntes Plagiat vor (Plagiieren kann vereinfacht als das Ausgeben fremder geistiger Leistungen als eigene bezeichnet werden).
Den zweiten inhaltlichen Schwerpunkt des öUrhR bildet das Urheberpersönlichkeitsrecht, das im öUrhG unter dem Titel „Schutz geistiger Interessen“ geregelt ist (§§ 19-21 öUrhG). Das Urheberpersönlichkeitsrecht gewährt, vergleichbar dem deutschen UrhG, dreifachen Schutz, und zwar 1. den unverzichtbaren, d. h. auch durch vertragliche Vereinbarungen nicht wirksam einschränkbaren Schutz der Urheberschaft; 2. den Schutz der Urheberbezeichnung, z. B. Veröffentlichung unter eigenem Namen, unter Pseudonym oder in anonymer Form; 3. den Werkschutz, d. h. urheberrechtlich geschützte Werke dürfen ohne Zustimmung des Urhebers nicht in veränderter Form der Öffentlichkeit zugänglich gemacht werden, sofern das Urheberrechtsgesetz keine Ausnahme vorsieht. Zur Übertragung des Urheberrechts ist festzuhalten, dass dieses zwar vererblich, unter Lebenden jedoch unübertragbar ist (§ 23 öUrhG). Übertragen werden kann lediglich das Recht zur Benutzung des Werkes im Hinblick auf einzelne oder auch alle Verwertungsarten. Je nachdem, ob diese i. d. R. entgeltliche Übertragung mit ausschließlicher Wirkung erfolgt oder nicht, lässt sich zwischen Werknutzungsrecht (dessen ausschließliche Wirkung trifft auch den Urheber selbst) und Werknutzungsbewilligung unterscheiden (§§ 24 und 26-38 öUrhG). Die Übertragung wird in sogenannten Urheberrechtsverträgen geregelt, die oftmals als Lizenzverträge tituliert werden. Beispiele für häufig vorkommende Typen von Urheberrechtsverträgen sind Verlagsverträge zwischen Autoren und Verlegern und Wahrnehmungsverträge zwischen Urhebern und Verwertungsgesellschaften. Urheberrechtsverträge können sich in Österreich – im Gegensatz zu Deutschland – auch auf erst künftig zu schaffende bzw. geschaffene Werke beziehen. Die Schutzdauer des Urheberrechts reicht über den Tod des Urhebers hinaus und endet für alle Werkarten 70 Jahre nach dem Tod des Schöpfers, wobei die Zählung erst mit Ablauf des Kalenderjahres beginnt, in dem der Tod eingetreten ist (§§ 60-65 öUrhG).
A 5.3 Verletzungen Verletzungen des Urheberrechts können zivilrechtliche und strafrechtliche Folgen haben. Während zivilrechtliche Verfahren große praktische Bedeutung haben und oftmals empfindliche finanzielle Sanktionen nach sich ziehen, kommt es selten zu strafrechtlichen Verurteilungen aufgrund von Urheberechtsverletzungen. Zu den möglichen zivilrechtlichen Sanktionen (§§ 81ff. öUrhG) zählen der Unterlassungsanspruch, welcher der Verhinderung künftiger Rechtsverletzungen dient, der Beseitigungsanspruch, der zur Beseitigung des rechtswidrigen Zustandes führen soll, sowie die Ansprüche auf Schadenersatz, angemessenes Entgelt (für die rechtswidrige Nutzung) und Herausgabe des Gewinns (durch die rechtswidrige Nutzung). Zudem droht im Falle eines Prozessverlustes auch noch eine Verpflichtung zur Urteilsveröffentlichung, die erhebliche Kosten zur Folge haben kann.
A 5: Urheberrecht und Internetrecht: Österreich
67
Weniger geläufig sind die möglichen strafrechtlichen Sanktionen bei Verletzungen des öUrhR (§§ 91ff. öUrhG), die im Extremfall eine Verurteilung zu einer Freiheitsstrafe von bis zu sechs Monaten vorsehen. Im Falle einer gewerbsmäßigen Begehung kann sogar eine zweijährige Freiheitsstrafe verhängt werden.
Literatur 01 Blocher, W.: Gewerblicher Rechtsschutz und Urheberrecht. Jahnel, D.; Schramm, A.; Staudegger, E. (Hrsg.): Informatikrecht, 2. Auflage, Wien/New York: Springer 2003, 121-158 02 Dittrich, R. (Hrsg.): Österreichisches und internationales Urheberrecht, 6. Auflage, Wien: Manz 2012 03 Höhne, T. et al.: Urheberrecht für die Praxis – Alles, was Sie wissen müssen, Wien: Verlag Österreich 2011 04 Kucsko, G.: Urheberrecht – Systematischer Kommentar zum Urheberrechtsgesetz, Wien: Manz 2008 05 Wiebe, A. (Hrsg.): Wettbewerbs- und Immaterialgüterrecht, Wien: Facultas.WUV 2010
Rainer Kuhlen
A 6 Wissensökologie
Wissen und Information als Commons (Gemeingüter)
A 6.1 Zum Begriff Wissensökologie Wissensökologie (knowledge ecology) ist ein noch ungewöhnlicher Begriff bzw. eine in der Kombination von Wissen und Ökologie für problematisch gehaltene Benennung (Lit. 01). Der dem Begriff zu Grunde liegende Anspruch dürfte unumstritten sein. Es geht um eine vernünftige, individuelle, soziale und kulturelle Entwicklung sowie politische Mitbestimmung und ökonomisches Wohlergehen sichernden und nachhaltigen Umgang mit den Ressourcen Wissen und Information. Umstritten allerdings sind die Wege, wie dieses Entwicklungsziel erreicht werden kann, und, weniger wichtig, umstritten, wie die Hinweisschilder auf diese Wege bezeichnet werden sollen, z. B. mit Wissensökologie oder Informationsökologie; auch Wissensallmende ist dafür ins Spiel gebracht worden (URL21). Es gibt keinen Konsens über eine Definition von Wissensökologie. Einige in die Nähe des Wissensmanagements gerückte Beispiele werden in den Beiträgen zu dem Band Knowledge Ecology Studies gegeben (URL11): „Knowledge ecology is an interdisciplinary field of management theory and practice …“ (URL12; vgl. Lit. 02). Malhotra stellt Information ecology ebenfalls in den Zusammenhang von Knowledge management (URL13), andere zum Begriff der Innovation (URL 16). Auf diesen Strang der Wissensökologie gehen wir im Weiteren nicht ein. Knowledge ecology wird auch im Zusammenhang mit Open Source-Software verwendet (URL15). Die breiteste Definition stammt von Knowledge Ecology International (URL14): Dazu gehören „the social aspects of the creation, management and control of and access to knowledge resources“, auch im Zusammenhang von intellectual „property rules“ und „mechanisms to enhance access to knowledge, incentives and systems for the transfer of technology to developed countries“, „efforts to protect privacy“ und sogar „discourage nuclear proliferation“, vor allem aber „issues as diverse as freedom of speech, authors' rights, access to public sector information, new models for publishing, organizing and sharing information“, etc. etc. So breit angelegt, verschwimmt ein Begriff leicht ins Unverbindliche. Wissensökologie ist verwandt mit dem Begriff der Kommunikationsökologie (Lit. 03), der schon Ende der 80er Jahre im Zusammenhang der Technikfolgenabschätzung entstanden ist. Angesichts weitgehender Eingriffe technisierter Kommunikation in alle individuellen und gesellschaftlichen Lebensbereiche/Umwelten sollen deren Auswirkungen auf Mensch, Natur und Gesellschaft untersucht und Vorschläge zur Entwicklung eines nachhaltigen und humanen Austauschs von technologieabhängiger Information entwickelt werden. Eine kommunikationsökologische Übertragung von Umweltverschmutzung in natürlichen Umgebungen auf solche in elektronischen Räumen (Spam, Datenmissbrauch, Orientierungslosigkeit, Verletzung von Privatheit) liegt nahe. Wissensökologie kann auch unter einer ökosozialen Perspektive diskutiert werden (URL24). Vertreter der ökosozialen Marktwirtschaft sehen Chancen für eine nachhaltige Wissensökologie nur durch eine neue Weltordnung, jenseits der ressourcenverbrauchenden gegenwärtigen Weltwirtschaft. Wenn auch hier in erster Linie die materiellen Ressourcen gemeint sind und dafür nicht zuletzt das Mittel der Verknappung empfohlen wird, so lässt sich der Ansatz der ökosozialen Marktwirtschaft zu einer umfassenden Wissensökologie weiterentwickeln. Dazu müsste berücksichtigt werden, dass das Marktgeschehen immer mehr von immateriellen Wissens- und Informationsprozessen bestimmt wird, die aber, obgleich auch nach nachhaltigen Prinzipien zu steuern, gerade nicht dem Verknappungs- oder Begrenzungsprinzip unterliegen. Wir gehen im Folgenden auch auf diese beiden (durchaus wichtigen) kommunikationsökologischen und ökosozialen Perspektiven nicht weiter ein und konzentrieren uns auf die engere wissens ökologische Perspektive, wie also der Umgang mit Wissen und Information, nicht zuletzt in elek-
A 6: Wissensökologie
69
tronischen Räumen, nachhaltig gesichert und gesteuert werden kann. Wissensökologie mit diesem Fokus kann bestimmt werden als der Bereich von Wissenschaft und Praxis, in dem aus gleichermaßen ethischer, ökonomischer und politisch-rechtlicher Perspektive die Bedingungen und Konsequenzen eines nachhaltigen Umgangs mit Wissen und Information und entsprechende Organisationsmodelle untersucht werden (Lit. 30). Ob dafür der Begriff der Wissensökologie geeignet ist bzw. welche Widerstände dagegen auszumachen sind, wollen wir im Folgenden kurz diskutieren.
A 6.2 Warum ist die Benennung Wissensökologie aus traditionell ökologischer Sicht problematisch? Die Kompositabildung ist es wohl: Wissen und Ökologie scheinen inkompatibel miteinander zu sein. Wissen ist auf exemplarische Weise eine immaterielle Ressource. Ökologie begründete sich aus dem Bemühen, einen nachhaltigen Umgang mit den natürlichen materiellen Ressourcen zu sichern. Oikos (altgr. οἶκος) steckt in Ökologie; aber – und das wird zum Schluss zu der Hypothese der Verträglichkeit von Wissensökologie und Wissensökonomie führen (vgl. Abschnitt A 8.4) – Oikos steckt auch in Ökonomie. Oikos, zunächst die Wohngemeinschaft, ist auch die kleinste Wirtschaftsgemeinschaft. Auf jeden Fall ist Oikos der Ort, der für die ihn bewohnenden Menschen den lebenserhaltenden Mittelpunkt darstellt. Längst hat der Begriff Wirtschaft, Ökonomie, eine universale Dimension gewonnen – von der Haus-/Wirtschaftsgemeinschaft, den Organisationen, den Firmen und öffentlichen Einrichtungen hin zur Weltgemeinschaft, der Weltwirtschaft. In der Gegenwart wird als unumkehrbar empfunden, dass das Schicksal der kleinen, auf das Haus, die Familie bezogenen Wirtschaftsgemeinschaften immer mehr von der Situation der globalen Weltwirtschaft abhängt. Diese Karriere vom Lokalen zum Globalen hat auch die Ökologie im Zusammenhang mit dem Nachhaltigkeitsbegriff gemacht. Der Nachhaltigkeitsbegriff geht auf das 18. Jahrhundert zurück und stammt aus der Forstwirtschaft. Er meint das Prinzip, nicht mehr Holz zu schlagen, als nachwachsen kann (Lit. 06). „Der Ausdruck Nachhaltigkeit bezieht sich also ursprünglich auf Ressourcen, deren optimale langfristige Nutzung nur dann gewährleistet ist, wenn ihr Bestand gegen kurzfristige Interessen normativ abgeschirmt wird.“ (Lit. 07) Längst geht es bei der Nachhaltigkeit nicht mehr alleine um den lokalen Waldbestand eines lokalen Forsts. Waldsterben, eines der die Ökologie begründenden zentralen Begriffe, ist kein lokales oder nur regionales Problem, sondern führte direkt zu den Debatten um die globalen Ressourcen wie Luft, das Klima, Wasser oder die Fische in den Meeren. Es ist erst gut 25 Jahre her, dass mit dem Brundtland-Report (Unsere gemeinsame Zukunft – Our Common Future; URL1) Nachhaltigkeit breiter (und dann gleich in der globalen Dimension) bekannt wurde: „a process of change in which the exploitation of resources, the direction of investments, the orientation of technological development, and institutional change are all in harmony and enhance both current and future potential to meet human needs and aspirations.“ (Lit. 08, S. 46) Mögen in dem Brundtland-Report mit „exploitation of resources“ in erster Linie noch die materiellen Ressourcen angesprochen sein, so weitete sich der Ressourcenbegriff im Gefolge der UN Conference on Environment and Development in Rio 1992 ab Mitte der 90er Jahre sehr rasch aus. Dem trug das Drei-Säulen-Modell der sozialen, ökonomischen und ökologischen Nachhaltigkeit Rechnung (Lit. 09). Auch die EU machte sich 1997 im Vertrag von Amsterdam das Drei-Säulen-Modell der Nachhaltigkeit (Naturerbe, wirtschaftliche Errungenschaften und soziale und gesellschaftliche Leistungen) zu Eigen. Auf dem Weltgipfel für nachhaltige Entwicklung in Johannesburg 2002 wurde auf Betreiben Frankreichs die dreifache Sicht um die kulturelle Dimension der Nachhaltigkeit erweitert und damit auch sozusagen die Tür zur Nachhaltigkeit immaterieller Ressourcen geöffnet. Wissen und Information gehören zweifellos zu den kulturellen Gemeingütern (Lit. 10). Entsprechend kann die Aufgabe
70
A 6: Rainer Kuhlen
der Wissensökologie auch in dem gesehen werden, was Lewis Hyde „defending the cultural commons“ genannt hat (Lit. 11, vgl. URL20). Der Versuch, Commons mit Gemeingüter zu übersetzen (Lit. 24, Lit. 26), hat noch keine breite Zustimmung erfahren. Daher bleiben wir im Folgenden bei der englischen Bezeichnung Commons. Die Deutsche UNESCO-Kommission begrüßte 2002 die Ergebnisse von Johannesburg mit dem Satz „Nachhaltigkeit braucht und schafft Kultur“ (URL3; vgl. URL4) und fügte die bemerkenswerte Forderung an, „dass sich die UNESCO dafür einsetzt, Wissen und Information als öffentliches Gut zu bewahren, zu dem allen der freie Zugriff zu fairen Bedingungen ermöglicht werden muss, vor allem als wichtiger Beitrag zur Überwindung der digitalen Kluft (digital divide). Die Sicherung des öffentlichen Guts ‚Wissen‘ ist die zentrale Zielsetzung einer modernen Wissensökologie. Dazu gehört auch die Langzeitbewahrung des Wissens in elektronischer Form. Angesichts der fortschreitenden Digitalisierung von Wissen und Information gilt es, eine vernünftige, faire und nachhaltig wirksam werdende Balance zwischen kommerzieller Verwertung und öffentlicher freier Nutzung zu finden.“
Wissensökologie hat Eingang in ein UNESCO-Dokument gefunden. Allerdings wurde in den offiziellen Dokumenten des UN-World Summit on Information Society (WSIS I 2003 in Genf und WSIS II 2005 in Tunis) (URL5) Wissens- bzw. Informationsökologie nicht explizit erwähnt. Aber verschiedene zivilgesellschaftliche Gruppierungen im Umfeld der Heinrich-Böll-Stiftung hatten für WSIS I mit der Einigung auf eine Charta der Bürgerrechte für eine nachhaltige Wissensgesellschaft (URL6) einen auf Wissensökologie ausgerichteten Beitrag für die Zielvorstellung eines nachhaltigen Umgangs mit Wissen und Information geleistet (Lit. 12): „The information society needs to become a sustainable knowledge society where the objectives of inclusiveness, fairness and justice can be achieved. A knowledge society calls for the unhampered and non-discriminatory use of knowledge and information based on the principle of sustainability.“ (URL7) Warum tut man sich trotzdem nach wie vor schwer mit der Begriff Wissensökologie, wo man sich in der Sache ziemlich einig ist. Abgesehen von der auf Hermann Daly zurückgehende Kritik der Ausweitung von Nachhaltigkeit in die Beliebigkeit: „Jede Definition, die nichts ausschließt, ist wertlos“ (Lit. 13, S. 27), war es die von Konrad Ott geäußerte Skepsis, „ob und inwieweit die Ausweitungen der Nachhaltigkeitsidee auf Fragen der Bewahrung, Erzeugung und Verwendung von Wissen sinnvoll ist“ (URL 8), die viele, auch und gerade aus der grünen Bewegung, daran zweifeln ließ, ob sich die Attribute für Nachhaltigkeit auf Wissen übertragen ließen. Wissen sei nicht rivalisierend im Gebrauch und Wissen nutze sich, anders als die natürlichen Ressourcen, im Gebrauch nicht ab bzw. verbrauche sich nicht. Das ist zweifellos richtig. Ergänzt wird das von Ott durch die Annahme, dass wir in unserer Gegenwart zumindest das „positive deskriptive Wissen“ diskontieren dürfen (uns also, anders als bei den natürlichen Ressourcen, keine Sorgen um die Zukunft dieses Wissens machen müssen, weil wir in der Zukunft über besseres, fortgeschrittenes, richtigeres Wissen verfügen werden – den Status quo von Wissen immer wieder zu überwinden, sei der Wissenschaft immanent). Ott warnt davor, vorschnell Nachhaltigkeit als das Grundkonzept der Ökologie auf Wissen (oder gar auf Wissensökologie) zu übertragen, nicht zuletzt auch deshalb, weil die Ausweitung der Nachhaltigkeit (wie ja schon im Drei- oder dann Vier-Säulen-Modell geschehen), vom Kernproblem der Ökologie, nämlich Sicherung der natürlichen Ressourcen, nur ablenke. Das Einbeziehen von Wissen aus ökologischem Interesse sollte nach Ott auf das beschränkt werden, was in Lit. 14 die „funktionale Perspektive der Wissensökologie – Produktion und (freier) Transfer von Wissen unter der Nachhaltigkeitssicht“ genannt wurde. Wissen sollte zur Sicherung von starker Nachhaltigkeit für die nicht zu diskontierenden, also nicht zu ersetzenden natürlichen Ressourcen eingesetzt werden. Alle Bereiche von Wissenschaft, Technik und Wirtschaft sollten aus sich heraus, aber auch gefördert über politische Maßnahmen (Programme, Normen, Richtlinien, finanzielle Anreize etc.), das Postulat der starken Nachhaltigkeit stärker als bisher in den Fokus ihres Interesses und ihrer Maßnahmen stellen. Der Wissenschaftliche Beirat der Bundesregierung Glo-
A 6: Wissensökologie
71
bale Umweltveränderungen (BWGU) stellte 2012 diese funktionale Perspektive der Wissensökologie (Schaffen von Wissen, um die Chancen der Energiewende zur Nachhaltigkeit zu befördern) ins Zentrum der Klimapolitik (URL25). Dem ist als Ziel und Forderung gewiss nicht zu widersprechen, auch nicht die Aufforderung an die Informationswissenschaft, daran mitzuwirken, dass ökologisch einschlägige Daten aufbereitet und frei zugänglich gemacht werden. Aber ist es alles, was Wissens ökologie angeht? Wir haben die Kritik an der Benennung, aber dann wohl auch an dem Begriff der Wissensökologie so ausführlich hier dargestellt, weil ein neues Konzept sich nur durchsetzen kann, wenn es für es stärkere Argumente gibt als die stärkste Kritik an ihm. Ein starkes Argument leitet sich gerade aus der skizzierten funktionalen Perspektive der Wissensökologie ab: Wirksam werden kann erarbeitetes Wissen über ökologische Zusammenhänge nur dann, wenn der Zugriff auf dieses Wissen für jedermann möglich ist. Nachhaltig wirksames Wissen ist daher in bevorzugter Weise als öffentliches, alle Menschen angehendes Wissen anzusehen, das nicht aus privaten Interessen verknappt werden darf. Diese Aussage kann verallgemeinert werden. Für die Nutzung von Wissen gilt die gleiche ethische, politische und ökonomische Begründung wie für die grundlegenden materiellen Ressourcen (vgl. Abschnitt A 6.3.3). Z. B. Wasser – Wasser ist zwar seit Juli 2010 von der UN-Vollversammlung in den Grundrechtskatalog aufgenommen worden. Wie die anderen Grundrechte ist auch dieses neue nicht völkerrechtlich verbindlich. Der tatsächliche Zugriff auf Wasser kann nicht eingeklagt werden. So ist es auch mit Wissen, genauer mit Information. Informationsfreiheit (Artikel 19 der Allgemeinen Erklärung der Menschenrechte) ist das Recht auf Meinungsfreiheit und freie Meinungsäußerung. Dazu gehört auch die Freiheit/das Recht, „über Medien jeder Art und ohne Rücksicht auf Grenzen Informationen und Gedankengut zu suchen, zu empfangen und zu verbreiten“ (URL17). Dieses Menschenrecht ist aber auch genauso wie die Entsprechung in Artikel 5 des deutschen Grundgesetzes („sich aus allgemein zugänglichen Quellen ungehindert zu unterrichten“) (URL18) nicht direkt einklagbar. Weder der Weltwasserrat noch die oben erwähnten WSIS-Konferenzen haben sich bis heute darauf verständigen können, dass der Zugang zu Wasser oder der Zugriff auf Wissen globale Rechtsverbindlichkeit haben sollen. Einklagbar sind allerdings die Bestimmungen der gesetzten (positiven) Gesetze, die, wie zentral das Urheberrecht oder das Patentrecht, den Umgang mit Wissen und Information, regeln. Und da sehen Grundrechte auf einmal ganz anders aus. Unumstritten ist, dass Ideen, Fakten, Theorien, Gedanken grundsätzlich frei sind (sozusagen das Thomas-Jefferson-Postulat von 1813; URL19) – sie sind nicht geschützt, solange jedenfalls ein Schutz über eine technische Erfindung nicht als Patent angemeldet bzw. anerkannt ist. Nicht Wissen ist daher für Wissensökologie das Problem, sondern der Zugriff auf Information bzw. die Nutzung von Wissen als Information ist das Problem. Entsprechend dem hier vertretenen informationswissenschaftlichen Verständnis (vgl. A 1 Information – Informationswissenschaft) ist Wissen nur über medial repräsentierte Objekte (Wissens objekte) zugänglich. Um aus diesen Objekten oder aus größeren Objektsammlungen (Wissensressourcen) wie Datenbanken Information zu erarbeiten und zu nutzen, muss der Zugang zu diesen Wissensobjekten oder Wissensressourcen auch gegeben sein. Nach dem gegenwärtigen Rechtsverständnis werden jedoch öffentlich gemachte (publizierte) Wissensobjekte und Wissensressourcen (in Übertragung der in Art. 14 GG verankerten Eigentumsgarantie auf immaterielle Werke) als geistiges Eigentum ihrer Schöpfer angesehen. Und Eigentum bedeutet zunächst nichts anderes, als exklusiv über das Recht zu verfügen, Andere von der Nutzung dieser Objekte und Ressourcen auszuschließen. Das geschieht, unterstützt durch das Urheberrecht und technische Schutzmaßnahmen sowie über eine rigide Preispolitik, im Interesse einer weitgehenden Kommerzialisierung und damit Verknappung dieser Werke. Verknappung von Wissen über die Verknappung des Zugriffs und der Nutzung ist kein wissens ökologisch geeignetes Mittel, wenn auch bislang in der Ökonomie ein nicht in Zweifel gezogenes Prinzip. In der theoretischen Diskussion um eine Commons-based economy (vgl. Abschnitt A 6.4) wird aber entgegen dem ökonomischen Verknappungsprinzip darauf hingewiesen, dass nicht nur
72
A 6: Rainer Kuhlen
die immaterielle Welt des Internet durch die Eigenschaft des Plenty gekennzeichnet ist, sondern dass dies bei entsprechender (commons-based) Organisation auch für die natürlichen Ressourcen gelten kann – das geläufige Argument der „scarcity of the physical world“ bei nachhaltiger Nutzung und Verteilungsgerechtigkeit auch für diese nicht gelten muss (Lit. 42). Auch wenn für die kommerzielle Verknappung auch der immateriellen Objekte von den jeweiligen Gesetzgebern einige Gründe (Anreize für neue Schöpfungen, Stimulierung von Innovation, Erhalt der Wettbewerbsfähigkeit, Sicherung von Arbeitsplätzen etc.) angeführt werden, ist dies aus Sicht der Wissensökologie nicht angemessen, jedenfalls nicht in dem exklusiven Anspruch. Verknappung verkehrt die Eigenschaften von Wissen (nicht-rivalisierend und nicht verbrauchend im Gebrauch) auf künstliche Weise in ihr Gegenteil. Wissensökologie stellt keineswegs die kommerzielle Nutzung von Wissen und Information in Frage (vgl. Abschnitt A 6.4), will aber ein Gegengewicht zu der umfassenden Wissenskommerzialisierung setzen, um offene, faire und nachhaltige Bedingungen für die Nutzung von Wissen und Information zu schaffen. Wissensökologie will sozusagen eine Kopernikanische Wende einleiten: Nicht exklusive Eigentumsrechte und kommerzielle Verwertung sollen die Norm sein und freie offene Nutzung nur die Ausnahme, sondern genau umgekehrt: freie, offene Nutzung der Default-Wert und kommerzielle Verwertung die zu rechtfertigende Ausnahme. Man kann es auch juristisch formulieren: Wissensressourcen sind gemeinfrei und der immaterialgüterrechtliche Schutz die Ausnahme (Lit. 35). Halten wir als Zwischenergebnis fest: Auch auf die Gefahr hin, dass Kritiker eine Begriffsinflation befürchten, wird vorgeschlagen, am Konzept der Nachhaltigkeit für die Begründung der Wissensökologie festzuhalten. In diesem Kontext muss aber Nachhaltigkeit grundlegend neu bestimmt werden: Freizügigkeit und gerade nicht Verknappung ist dann das entscheidende Merkmal für Nachhaltigkeit. Entsprechend der oben angedeuteten Diskussion um die Unterscheidung von Freiheit von Wissen und Freiheit des Zugriffs auf Wissen für die Erarbeitung von Information könnte es nahelegen, anstelle von Wissensökologie die Bezeichnung Informationsökologie zu verwenden. Genau das hat die European Green Party, anlässlich ihrer Gründung (23.2.2004 in Rom), in ihrer Resolution getan (zudem auch noch den hier im Weiteren zentralen Begriff der Commons verwendet): „Whereas the European Greens work towards an ‘information ecology’ as we do for the environment and promote a sustainable information society with access for all to information and communication technologies and with the creation of a public domain as the Commons of the Information Society“ (URL 10). Informationsökologie könnte dann bestimmt werden als der nachhaltige Umgang mit Wissensobjekten und Wissensressourcen, um daraus Information in aktuellen Handlungskontexten erarbeiten und nutzen zu können. Bei Benennungen steht nicht alles auf dem Spiel. Aber auch aus systematischen Gründen wollen wir in diesem Artikel bei Wissensökologie bleiben. Spätestens seit dem Sammelband von Hess/Ostrom ist anerkannt, dass auch Formen der Organisation von Wissen zu den Commons gerechnet werden können (Lit. 31). Wissensökologie kann unter Rückgriff auf die Methodologie der nicht zuletzt von Elinor Ostrom ausgearbeiteten Institutionenökonomik und unter Verwendung des Commons-Begriffs begründet werden (Lit. 17).
A 6.3 Wissen und Information als Commons – Zur Grundlegung der Wissensökologie durch Institutionenökonomik A 6.3.1 Was sind Commons? Bei den Commons kann man, entsprechend den oben erwähnten Säulen der Nachhaltigkeit, zwischen natürlichen, sozialen und immateriellen Commons bzw. den ihnen zugrundeliegenden Ressourcen unterscheiden (Lit. 34). Zu den immateriellen Commons sind allgemein die kulturellen zu rechnen, spezieller auch Wissen und Information. Die Extension von Commons kann reichen von sehr kleinen Objekten in kleinen Gruppen (z. B. der Kühlschrank als Commons in einer Familie
A 6: Wissensökologie
73
oder, mit sicher etwas anderen Nutzungsregeln, in einer Wohngemeinschaft) über Fragen der Regionalplanung (Lit. 37) bis hin zu den globalen Commons wie das Klima oder die Luft, aber auch zu den Wissens-Commons in einer zunehmend globalen Informationsgesellschaft und -wirtschaft. So wichtig es ist, dass sich Commons in kleinen oder regionalen Gemeinschaften bilden (z. B. Public gardening; URL27) – Commons als nachhaltige Organisation von Ressourcen allgemein wird nur dann zu einem allgemeinen Prinzip moderner Gesellschaften werden (jenseits von Staat und Markt; Lit. 36), wenn auch gesellschaftliche Großbereiche wie Finanzen, Gesundheit, Kunst und eben auch Wissen und Information als Commons organisiert werden können. Das schließt die Beteiligung der Wirtschaft nicht aus. Skepsis gegenüber den Theorien der Commons und damit auch gegenüber Wissensökologie ist nicht zuletzt auf ein Missverständnis zurückzuführen, was denn Commons seien. Sie wurden in der Literatur oft (so auch in der folgenreichen Tragedy of the commons-These von Hardin; Lit. 18) als sozusagen vogelfreie Güter angesehen, deren sich jeder frei bedienen könne, weil niemand darauf Rechtsansprüche habe. Das führte zu der Einschätzung, dass Commons bei unregulierter Steuerung durch Übernutzung unvermeidbar zerstört würden. Da war es dann nicht weit von der Polemik, diejenigen, die sich für die Bewahrung und Förderer der Commons einsetzen, die Commoners (Lit. 20), als Communists und die ganze Bewegung als „new face of communism“ (URL22) zu diskreditieren. Der Versuch, sich dem mit terminologischen Vorschlägen wie Commonists bzw. Commonism zu widersetzen, ist wohl eher gut gemeint als erfolgreich (URL26). Wichtiger für die Grundlegung der Wissensökologie ist eine systematische Auseinandersetzung darüber, wie Commons theoretisch begründet und praktisch bewahrt und befördert werden können. Dazu ist es nützlich zu erinnern, dass erst ab etwa dem 17. Jahrhundert die Regelungen der privaten Güter (res privatae) gegenüber den bis dahin in Politik und Recht sehr differenziert behandelten Gegenständen im öffentlichen Bereich (public domain) Vorrang gewonnen haben. So wurde z. B. im römischen Recht bzw. im frühen Mittelalter (Codex Justinianus) unterschieden nach res nullius, res communes, res publicae, res universitatis (mit weiteren Differenzierungen) (Lit. 19). An den res nullius hat niemand Rechte; sie sind gemeinfrei; niemand, auch nicht der Staat, hat sie sich angeeignet. Res communes sind sozusagen von der Natur allen zur Verfügung gestellt, für die aber, da nicht vogelfrei, Zugriffs- und Nutzungsrechte von denjenigen formuliert und durchgesetzt werden müssen, die davon betroffen sind oder davon leben müssen. Hingegen sind res publicae in die Fürsorge des Staates genommen. Jedermann hat Zugriff darauf bzw. kann Nutzen daraus ziehen, solange die für sie entwickelten sozialen Normen und Gesetze eingehalten werden. Commons sind offensichtlich am ehesten den res communes zuzuordnen, also deutlich von den res nullius, aber auch von den res publicae zu unterscheiden. Zu den res communes sind aber nicht nur die Dinge der Natur zu rechnen, sondern auch, wie bei Nachhaltigkeit, die sozialen, kulturellen und immateriellen. Sie können alle unter dem Begriff der gemeinschaftlichen Ressourcen zusammengefasst werden. Es ist aber nicht zu verkennen, dass mit der Entwicklung von modernen Wirtschaftsformen der Produktion und Distribution von Gütern immer mehr ursprünglich als gemeinschaftlich angesehene Dinge in die rechtlich geschützte Verfügung als res privatae überführt, eingezäunt wurden. Betraf diese Einzäunung zunächst überwiegend die natürlichen materiellen Ressourcen, so kann mit James Boyle seit der fortschreitenden Reklamierung von Eigentumsansprüchen an immateriellen Ressourcen auch von einer „second enclosure of the mind“, einer privaten Aneignung der gemeinschaftlichen Ressourcen von Wissen und Information gesprochen werden (Lit. 21, Lit. 22). Das setzt sich gegenwärtig auch über einige höchstrichterliche Entscheidungen in den USA fort (Lit. 39). In diesen wurde begründet, dass Einschränkungen der freien Nutzung von Wissensobjekten, die eigentlich schon als gemeinfrei gegolten haben, nicht als unzulässiger Eingriff in die Public domain zu werten seien und damit auch nicht gegen den Zweck des Copyrights verstößen, der in der USA Verfassung unveränderlich festgelegt ist, nämlich „to promote the Progress of Science and Useful Arts“ (Lit. 38).
74
A 6: Rainer Kuhlen
A 6.3.2 Commons sind nicht da, sondern werden sozial konstruiert Die Entstehung von Commons kann theoretisch über einige Prinzipien der nicht zuletzt von Elinor Ostrom (Lit. 17) begründeten und mit dem Nobelpreis für Wirtschaftswissenschaft 2009 ausgezeichneten Arbeiten beschrieben werden. Wir können hier nicht auf die Einzelheiten dieser Theorie eingehen, wollen aber vor allem die grundlegende Unterscheidung von Common Pool Resources (CPR) und den Commons aufgreifen und in Abb. 1 verdeutlichen, um sie dann in Abb. 2 auf Wissensressourcen und damit auf Wissensökologie anwenden.
Common Pool Resources
Prinzipien/Werte
Institutionalisierung
Commons
Verfahren
Abb. 1: Institutionenökonomik – Common Pool Resources – Commons
Nach dieser Unterscheidung sind Commons nicht einfach da, auch nicht die natürlichen Commons, erst recht nicht als res nullius, sondern werden in sozialen Prozessen konstruiert. D. h. CPR werden erst über entsprechende (und je nach Commons-Typ sehr vielfältige) Institutionalisierungsformen zu den Commons gemacht, die real genutzt werden können. Es kann nach Ostrom also keine Rede davon sein, dass Commons sozusagen vogelfrei sind und daher aus Egoismus oder ansteigendem Bedarf bei wachsender Bevölkerung zwangsläufig übernutzt werden. Das macht bei den immateriellen Commons ohnehin keinen Sinn, da sie sich in ihrem Gebrauch nicht abnutzen. Private Aneignung oder Verstaatlichung bzw. durch staatliche Regulierung unterstützte Privatisierung sind keineswegs der zwingende Ausweg aus der Hardin'schen Tragedy. Vielmehr können Commons durch Selbstorganisationsformen der von den jeweiligen Gütern betroffenen Menschen nachhaltig bewahrt werden. Das macht sie zu Commoners. Dass solche Selbstorganisationsformen (mit der entsprechenden ökonomischen Theorie wollen wir sie Institutionalisierungsformen nennen) erfolgreich die vermeintliche Zwangsläufigkeit der Tragödie/Tragik gar nicht erst eintreten lassen, hat in vielen weltweiten Studien Elinor Ostrom (Lit. 17) empirisch nachgewiesen und daraus auch verallgemeinerte Prinzipien für das Entstehen und den Erhalt von Commons abgeleitet (Lit. 31, S. 7; vgl. Lit. 24, S. 20): –– Clearly defined boundaries should be in place. –– Rules in use are well matched to local needs and conditions. –– Individuals affected by these rules can usually participate in modifying the rules. –– The right of community members to devise their own rules is respected by external authorities. –– A system for self-monitoring members’ behaviour has been established. –– A graduated system of sanctions is available. –– Community members have access to low-cost conflict-resolution mechanisms. –– Nested enterprises – that is, appropriation, provision, monitoring and sanctioning, conflict resolution, and other governance activities – are organized in a nested structure with multiple layers of activities. Und es sind gerade die Selbstorganisationsformen, also die Fähigkeit von Gemeinschaften, „ihre eigenen Regeln und Normen“ zu entwickeln, „mit deren Hilfe sie ihre Ressourcen nachhaltig nutzen können“ (Lit. 27, S. 100), die die Commons von den öffentlichen Gütern (z. B. Infrastrukturen, Sicherheit, Bildung, Verkehrssysteme) unterscheiden. Öffentliche Güter werden durch die Legitimität und Autorität der Staaten für alle bereitgestellt – nicht zwangsläufig kostenlos. Aber auch sie wurden in den letzten Jahren immer mehr ganz oder
A 6: Wissensökologie
75
teilweise der kommerziellen privaten Fürsorge anvertraut, sei es unter der Annahme, diese geschehe mit größerer Effizienz, oder sei es durch intensiv reklamierte Interessen privater Gruppen. Sie werden damit, zumindest partiell, in private Güter verwandelt. Das reicht von der Wasserwirtschaft bis zur rechtlichen Absicherung der kommerziellen Verwertung auch von mit öffentlichen Mitteln produziertem Wissen. Auf der anderen Seite wird angesichts der zunehmenden Krisen in für das Überleben und für die Entwicklung zentralen Bereichen (Klima, Wasser, Luft, Wälder, Fische, Handel, Gesundheit, Finanzen, Technologien, Forschung, Bildung, aber eben auch Wissen und Information) von immer mehr Menschen bezweifelt, ob das auf Privatisierung und Verknappung abzielende Zusammenwirken von Staat und Wirtschaft das gute und sichere Leben der Menschen nachhaltig in der Gegenwart und für nachfolgende Generationen gewährleisten kann. Entsprechend entwickeln sich in der Zivilgesellschaft vielfältige Formen eben dieser Selbstorganisation und -verantwortung (Lit. 17, Lit. 18, Lit. 23, Lit. 24, Lit. 25, Lit. 36). Und damit vielfältige theoretische und praktische Modelle für Commons. Allerdings können CPR über andere Verfahren und andere Prinzipien/Werte auch zu privaten oder auch zu öffentlichen Gütern werden. Und in der Tat ist es so, dass nicht alle Ressourcen am besten durch Selbstorganisationsformen der Commoners bewahrt und befördert werden, sondern dass dafür staatliche und überstaatliche Institutionalisierungsformen gefunden werden müssen (z. B. beim Klimaschutz). Auch sind in manchen Fällen private Institutionalisierungsformen geeignete Mittel zur Sicherung und nachhaltigen Entwicklung von Ressourcen (z. B. in der Forstwirtschaft). Aber das sollte, um den Charakter der Commons als gemeinschaftliche Nutzungsform zu erhalten (Commons sind keine Reservate), mit Kompensationsleistungen für die davon betroffene Gemeinschaft verbunden sein. Mischformen kommen vor. So wurde lange Zeit auch die private Verlagswirtschaft in Zusammenspiel mit Bibliotheken und mit Unterstützung staatlicher Regulierungsformen (Urheberrecht) als Garant für die Wissensversorgung in Bildung und Wissenschaft angesehen. Das wurde lange als ausreichende Kompensation für den kommerziellen privaten Ertrag an dem gemeinschaftlichen Commons Wissen angesehen. Wenden wir den Institutionalisierungsansatz auf Wissensressourcen und den Möglichkeiten des Zugriffs auf sie an, der erforderlich ist, um dadurch aktuell benötigte Information ableiten zu können. Information als privates Eigentum Kommerzielle Verwertung Verknappung
Prinzipien/ Werte Wissensressourcen
Gerechtigkeit, Fairness Inklusion Nachhaltigkeit, Offenheit, Teilen
Institutionalisierung Verfahren
Private Güter
Eingeschränkte/r Zugriff und Nutzung
Commons
Freie/r, offene/ r Zugriff und Nutzung
Kommunikation, Konsens Verpflichtungen, Verträge Regeln, Gesetze, Trusts Kontrollmechanismen, Sanktionen Abb. 2: Institutionalisierungsformen für die Common Pool Ressource Wissen
76
A 6: Rainer Kuhlen
Beispiele für die Institutionalisierung von CPR, auch der Ressource Wissen, finden sich zahlreich in Lit. 31, S. 7 und Lit. 24, S. 20. Wissensökologie ist machbar. Es soll hier nur ein Beispiel für Regeln gegeben werden, durch die aus der Ressource Wissen das frei verfügbare Commons Zugriff auf und Nutzung von Wissen gemacht werden kann. Gemeint sind die in der Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities von 2003 (Lit. 33) vereinbarten Prinzipien für den Umgang mit nach Open Access publizierten Objekten (vgl. C 3 Open Access – Open Data – Open Content):
Open access contributions must satisfy two conditions: 1.
The author(s) and right holder(s) of such contributions grant(s) to all users a free, irrevocable, worldwide, right of access to, and a license to copy, use, distribute, transmit and display the work publicly and to make and distribute derivative works, in any digital medium for any responsible purpose, subject to proper attribution of authorship (community standards, will continue to provide the mechanism for enforcement of proper attribution and responsible use of the published work, as they do now), as well as the right to make small numbers of printed copies for their personal use.
2.
A complete version of the work and all supplemental materials, including a copy of the permissions stated above, in an appropriate standard electronic format is deposited (and thus published) in at least one online repository using suitable technical standards (such as the Open Archive definitions) that is supported and maintained by an academic institution, scholarly society, government agency, or other well established organization that seeks to enable open access, unrestricted distribution, inter operability, and longterm archiving.
Abb. 3: Institutionalisierungsverfahren für Open Access (hervorgehoben vom Autor) (Lit. 33, URL9)
A 6.3.3 Informationsethische Begründungen für das Commons Wissen und Information Institutionalisierungsformen für die Transformation von CPR in Commons werden in erster Linie unter dem diskutiert, was in Abbildung 2 unter Verfahren etwas näher spezifiziert wird, also z. B. Konsensbildung, aber auch Gesetze (wie Urheberrecht/Copyright). Nicht minder wichtig sind die in Abbildung 2 oben rechts angedeuteten Werte bzw. normativen Einstellungen bezüglich des Umgangs mit Wissen und Information. Darauf soll kurz eingegangen werden, weil die ethischen Begründungen für die Bildung von Commons die gleichen sind, die wissensökologisches Handeln begründen und vorantreiben. Ethische Werte und Prinzipien fallen nicht quasi vom Himmel und sollten nach dem hier vertretenen Verständnis (Lit. 40, Lit. 41, Lit. 30; vgl. A 5 in KSS-5) auch nicht naturrechtlich oder metaphysisch begründet werden. Vielmehr wird, eine alte Aristotelische Tradition aufgreifend, davon ausgegangen, dass sich in den Räumen, den Umgebungen, in denen wir leben und handeln, Gepflogenheiten herausbilden, die sich zu Werten, Prinzipien verdichten, welche in ihrer Gesamtheit moralisches Bewusstsein prägen und sich über Ethik verallgemeinernd begründen lassen (Lit. 40, Lit. 41). Räume und Umgebungen sind aber ständigem Wandel unterworfen, nicht zuletzt auch durch die technologischen und medialen Entwicklungen. Für unseren Zusammenhang sind es zunehmend die elektronischen Räume, in denen sich neue Verhaltensformen für den Umgang mit Wissen und Information, neue Wertvorstellungen, neues Moralverhalten und vielleicht auch neue ethische Begründungen bilden. Das ist kein eindeutiger Prozess. Die bisherigen, aus traditionellen, analogen Umgebungen stammenden Verhaltensformen und moralischen Ansprüche lösen sich nicht einfach auf, sondern sind für viele weiter gültig und werden auch weiter zur Wahrung von Ansprüchen an Wissen und Information verwendet. Das zeigt sich deutlich z. B. in den sogenannten Copy-
A 6: Wissensökologie
77
right wars (Lit. 43), in denen Ansprüche auf private, persönliche Eigentumsansprüche an Wissen mit einem offenen, teilenden, eher auf das Gemeinwohl abzielenden Informationsverhalten konfligieren. Hier gibt es keine eindeutigen Gewinner oder Verlierer. Jede Zeit muss – und in demokratischen Gesellschaften im öffentlichen Diskurs – aushandeln, welche Verhaltensformen, welches normative moralische Bewusstsein konsensfähig sind. Informationsethik als die Reflexion über das beim Umgang mit Wissen und Information sich entwickelnde moralische Verhalten soll und kann solche Diskurse mit Argumenten anreichern, theoretisch begründen und divergierende Interessen gegenseitig abwägen. Die entscheidende ethische Begründung für eine offene unter Commons-Prinzipien organisierte Nutzung von Ressourcen wie Luft und Wasser ist, dass die schiere Existenz und die Entwicklung jedes menschlichen Wesens von ihnen abhängen. (Für das Folgende vgl. Lit. 29 und die Texte in Lit. 30) Das Leben der Menschen hängt jedoch nicht nur von einer permanenten Versorgung mit materiellen Gütern ab, sondern auch von einer Versorgung mit immateriellen Gütern. So wie Wasser – um nur das als Prototyp für die ersteren zu nennen – „unabdingbar ist für die menschliche Existenz, so ist Wissen unabdingbar für soziale und individuelle Entwicklung“ (Lit. 15), entscheidend für Mitbestimmung im politischen Geschehen und nicht zuletzt auch entscheidender Faktor für den ökonomischen Erfolg. Dennoch – genauso wie bei vielen natürlichen und sozialen Ressourcen ist Wissen, genauer: der Zugang zur Information, in der Realität immer wieder von privater Aneignung mit dem Anspruch auf privates geistiges Eigentum bzw. des Rechts auf Ausschluss Anderer betroffen gewesen. Dies hat oft genug, wie beim Wasser aus globaler Perspektive überdeutlich, aber in der Gegenwart auch für den Umgang mit Wissen und Information immer mehr erkennbar, eher zu negativen Folgen geführt als die Nutzung dieser gemeinschaftlichen Ressourcen befördert. Es zeigt sich deutlich, dass Privatisierung mit exklusiven Nutzungs-/Verwertungsansprüchen kaum eine Lösung für Bewahrung und Fortentwicklung von Gemeingütern sein kann. Was für natürliche Ressourcen wie Wasser gilt, gilt auch für Wissen: Niemand darf von seiner Nutzung ausgeschlossen sein. Dies ist ein fundamentales ethisches Postulat. Aus diesem Postulat können dann weitere Werte und Prinzipien wie Nachhaltigkeit, Inklusion (also das Recht aller), Gerechtigkeit (Verteilungsgerechtigkeit, intergenerationelle Gerechtigkeit) abgeleitet werden (vgl. Abbildung 2). Diese informationsethischen Überlegungen liegen letztlich auch der Entwicklung von Publikationsformen nach dem Open-Access-Prinzip zugrunde. Open Access (im Folgenden OA) ist, zumindest für die Bereiche Bildung und Wissenschaft, aber auch für Kulturobjekte jeder Art, eine zunehmend Realität werdende Institutionalisierungsform für das Commons Wissen und damit ein zentraler Bestandteil der Wissensökologie, vergleichbar mit den ebenfalls weltweit umfassend realisierten Formen von Open Software (Free Software Foundation: „free from restriction, free to share and copy, free to learn and adapt, free to work with others“ – URL23). OA (und Wissensökologie allgemein) steht nicht im Widerspruch zu geltendem Recht. Aber anders als das geltende Urheberrecht, das exklusive Rechte der UrheberInnen auf Ausschluss Anderer an der Nutzung ihrer Werke schützt, erlauben OA-Institutionalisierungsregeln eine in jeder Hinsicht freie Nutzung publizierter Werke („licence to copy, use …“; vgl. Abbildung 3), mit der einzigen Einschränkung, dass die ursprüngliche Autorschaft bei jeder Nutzung anerkannt und ausdrücklich referenziert wird („attribution of authorship“). Diese nicht gegen, aber unabhängig vom Recht spezifizierten Nutzungsformen können wiederum über freie Lizenzierungsformen rechtlich verbindlich gemacht werden (vgl. C 8 Lizenzierungsformen). Zudem verschließt OA den nach diesen Prinzipien publizierenden AutorInnen keineswegs eine ergänzende kommerzielle Verwertung, sei es durch sie selbst oder, wie bislang die Regel, durch vertragliche Übertragung ihrer Verwertungsrechte als Nutzungsrechte an Verwerter wie Verlage (vgl. A 3, A 4, A 5 Urheberrecht und Internetrecht). Dass OA gleichbedeutend ist mit freiem Zugriff und freier Nutzung, auch für Weiterentwicklung der genutzten Werke, ist das eine – das andere sind die Wege, wie das erreicht, und noch wieder etwas anderes ist, inwieweit Wissensökonomie dabei beteiligt werden kann, diese wissensökologischen Ziele zu erreichen. OA kann nach dem grünen und dem goldenen Ansatz realisiert werden (ausführlich C 2 Open Access/Open Content).
78
A 6: Rainer Kuhlen
Publikationsmärkte der Wissensökonomie
Publikationsmärkte der Wissensökologie
2.000 wissenschaftliche Zeitschriftenverlage
Sekundärpublikation In OA-Repositories green
mehr als 25,400 scholarly peer-reviewed journals (2009)
2211 Repositories eingerichtet (10/2012)
96% of STM online
ca. 80% Institutional OAR
Directory of OA Journals
http://www.opendoar.org/
etwa 1,5 Millionen peer review validierte Beiträge
über 40 Millionen Artikel elektronisch recherchierund downloadbar
OA-Zeitschriften Primärpublikation golden
OpenDOAR Database Worldwide
50 % englischsprachig
mehr als 3 Millionen Artikel verarbeitet
ansteigend durch das OpenAccess-Paradigma bestimmt
Widerstand der Verlagswirtschaft (STM) gegen „green“ und Zweitveröffentlichungsrecht
7183 (8127) journals 650572 (890676) articles (19.10.2011) (8.9.2012) 1,62 % des komm. Marktes http://www.doaj.org/doaj
Interesse für kommerzielle Anbieter, z.B. SpringerOpen IEEE, STM
The stm report . September 2009 http://www.iata.csic.es/~bibrem/NECOBELAC/STM-report.pdf/
Abb. 4: Publikationsmärkte der Wissensökonomie und Wissensökologie
proprietäre kommerzielle Informationsmärkte
Commons-basierte Informationsmärkte
Private Eigentumsrechte
Commons-basierte Eigentumsrechte
kontrollierte verknappende Verwertung über
freie, offene Nutzung für/über
Preispolitik Technik (DRM) Urheberrecht vertragliche Vereinbarungen
Entwicklung Inklusion Nachhaltigkeit (intergenerationelle) Verantwortung
Abb. 5: Eigentumsrechte kommerzieller und commons-basierter Informationsmärkte
A 6.4 Wissensökologie und Wissensökonomie A 6.4.1 Der grüne OA-Weg als Kombination von Wissensökonomie und Wissensökologie Der grüne Weg ist per se eine Kombination von Wissensökonomie und Wissensökologie (vgl. Abbildung 4). Die Erstpublikation geschieht hierbei nach den traditionellen Regeln kommerzieller Märkte, dominiert auf den wissenschaftlichen Zeitschriftenmärkten von vier großen Verlagskonsortien: Elsevier, Thompson, Wiley, Springer. Die Zweitpublikation geschieht nach wissensökologi-
A 6: Wissensökologie
79
schen OA-Regeln. Die gegenwärtige Auseinandersetzung geht vor allem darum, ob es ausreichend ist, dass die kommerziellen Verwerter quasi per good will diese Zweitpublikation erlauben (wenn auch in der Regel nicht im Format der Erstpublikation) oder ob dies als Zweitverwertungsrecht der AutorInnen im Urheberrecht verankert werden soll (Lit. 05). Weitergehend und bislang höchst kontrovers ist die daraus folgende Auseinandersetzung, ob ein erworbenes Zweitverwertungsrecht zwingend von den AutorInnen für eine Veröffentlichung nach OA-Prinzipien verwendet werden muss, also mandatiert werden soll, oder ob damit gegen die positive Publikationsfreiheit als ein Prinzip der Wissenschaftsfreiheit verstoßen würde. Unumstritten ist die Freiheit, entscheiden zu können, ob, wann und wie publiziert werden kann. Umstritten ist nur das wo, ob also AutorInnen verpflichtet werden sollen, das Zweitverwertungsrecht (nicht das Erstverwertungsrecht) für eine öffentliche Zugänglichmachung über ein fachliches oder institutionelles OA-Repository (Institutional mandate) zu nutzen oder ob dies gegen Wissenschaftsfreiheit qua Publikationsfreiheit verstoßen würde. A 6.4.2 Finanzierungs-/Geschäftsmodelle des goldenen OA-Wegs Der goldene Weg, also die Erstpublikation nach OA, in der Regel organisiert von Institutionen oder Personen der öffentlich finanzierten Wissenschaft selbst, schien zunächst der exklusiv wissensökologische Weg zu sein, gänzlich unabhängig von der Wissensökonomie. Derzeit beginnt sich das zu ändern, und es spricht einiges dafür, dass OA zunehmend Primärpublikationsmodell auch für kommerzielle Anbieter auf den wissenschaftlichen (Zeitschriften) Publikationsmärkten sein wird. Das liest sich zunächst wie ein Paradox. Wie soll in der Wissensökonomie verdient werden, wenn ihre Produkte entsprechend OA von jedermann frei genutzt werden können? Aber es wurde auch lange Zeit als paradox angesehen, Ökonomie und Ökologie für miteinander verträglich zu halten. Heute ist das Paradox zur selbstverständlichen Praxis geworden. Lässt sich das auf Wissensökonomie und Wissensökologie übertragen? Es soll zum Abschluss skizziert werden, in welche Richtung sich das Verhältnis zwischen proprietären und offenen Informationsmärkten, hier in erster Linie mit Blick auf Bildung und Wissenschaft, derzeit entwickelt (vgl. Abschnitt A 6.4.2.1) und in längerer Perspektive entwickeln könnte (vgl. A 6.4.2.2). In Abbildung 4 ist zu erkennen, dass die proprietären elektronischen Zeitschriftenmärkte nach wie vor deutlich gegenüber den offenen dominieren. Bei den Buchpublikationen ist der Anteil sicherlich noch weitaus höher. Das betrifft aber in erster Linie die Gesamtbestände aus Vergangenheit und Gegenwart. Unverkennbar ist, dass OA-Zeitschriften stark zunehmen, nicht zuletzt auch deshalb, weil OA-Journale nach einigen Jahren ihres Bestehens hohe Impact-Werte erzielen und daher immer mehr WissenschaftlerInnen erkennen, dass hohe Reputationsgewinne auch und vielleicht gerade durch OA-Publikationen zu erzielen sind. Die These, dass OA in der Zukunft die dominierende, bis auf wenige Ausnahmen wohl auch die einzige Publikationsform sein wird, ist nicht zu gewagt. Grund hierfür ist die deutlich sich abzeichnende Tendenz, dass kommerzielle Verlage nicht nur erkennen, dass ihnen die AutorInnen abhandenkommen, wenn sie weiter auf exklusiven Nutzungsrechten beharren, sondern auch erkennen, dass es für sie attraktive Geschäftsmodelle im OA-Paradigma gibt. Das Paradox beginnt sich aufzulösen, einmal, schon in der Gegenwart durch Subventionsmodelle, und zum andern, noch weit und unbestimmt in der Zukunft liegend, durch ein Commons-based-Modell der Informationsmärkte. A 6.4.2.1 OA-Subventionsmodelle – wissensökologisch oder wissensökonomisch? Beim ersten Modell setzt die Verlagswirtschaft darauf, dass die Öffentlichkeit bereit ist, die OA-Publikation durch Verlage zu finanzieren – nicht nur den gesamten Publikationsprozess, sondern, für die Wirtschaft essenziell, auch der entsprechenden Gewinnerwartung Rechnung zu tragen. Damit wäre ein tragfähiges Geschäftsmodell für die Wissensökonomie gegeben.
80
A 6: Rainer Kuhlen
Die für den goldenen OA-Weg erforderliche Subvention/Finanzierung kann auf verschiedenen Wegen bzw. unterschiedlichen Geschäftsmodellen für die Informationswirtschaft erfolgen (Nachweise dazu weitgehend auf der Informationsplattform open-access.net – URL28): 1. über die sogenannte Autorengebühr (Article Processing Charges – APC), die aber faktisch 2. über Mittel der Institutionen der Autoren oder 3. über Bibliotheken, Wissenschaftsorganisationen erfolgt, z. B. Pauschal-Vereinbarung der Universitätsbibliothek Göttingen mit dem Springer Verlag zur OA-Anzeige aller nach dem Peer Review angenommenen Artikel der AutorInnen der Universität Göttingen; Einrichten von Förderfonds an den Universitäten vgl. Pilotprojekt der Universität Bielefeld; vertragliche Vereinbarungen zwischen außeruniversitären Forschungsgemeinschaften wie Helmholtz-Gemeinschaft oder Max-Planck-Gesellschaft 4. über wissenschaftliche Fachgesellschaften 5. über private Förderorganisationen, z. B. WellcomeTrust in England 6. über staatliche bzw. überstaatliche Organisationen, z. B. DFG in Deutschland, Fonds zur Förderung der wissenschaftlichen Forschung (FWF) in Österreich, Schweizerischer Nationalfonds (SNF), die EU im Rahmen des aktuellen Förderprogramms (FP7) und dann im Rahmen von HORIZON 2020, das National Institute of Health (NIH) in den USA 7. über Wissenschaftskonsortien für gesamte Wissenschaftsteilgebiete, z. B. im Rahmen von SCOAP für High-Energy Physics (HEP) 8. über die nationale Informationspolitik, z. B. in England über die Umsetzung des Finch Report of the Working Group on Expanding Access to Published Research Findings durch die englische Regierung (URL21). Richteten sich anfänglich die OA-Finanzierungsmodelle in erster Linie auf die nicht-kommerziell betriebenen Fachzeitschriften, so zeigten sich offensichtlich die öffentlich finanzierten Einrichtungen und dann gewissermaßen als (mögliche) Vorreiter der Entwicklung Regierungen wie in England bereit, Verlage mit dem OA-Publikationsgeschäft zu betrauen. Ob das als Erfolg des Lobbying der Verlagswirtschaft gewertet werden soll oder auf eine Erwartung der öffentlichen Einrichtungen zurückgeführt werden kann, dass kommerzielle Betreiber mit langer Publikationserfahrung effizienter arbeiten als öffentliche Einrichtungen, oder ob dafür verantwortlich ist, dass WissenschaftlerInnen sich eher auf ihre wissenschaftliche Arbeit konzentrieren als sich noch zusätzlich um das Publikationsgeschehen selbst kümmern wollen, sei dahin gestellt. Deutlich erkennbar ist jedoch, dass in diesem Modell eine erhebliche Umschichtung der Finanzmittel zu erwarten ist, die angesichts der nicht wahrscheinlichen Aufstockung der öffentlichen Budgets für Forschung und Bildung zu Lasten der bisherigen Infrastruktur für die Informationsversorgung und -vermittlung an den Forschungs- und Bildungseinrichtungen gehen dürfte: „cost of the transition … must be covered by the existing science budget and that no new money would be found to fund the process“ (URL21).
Zu erwarten ist eine Umschichtung der finanziellen Mittel zu Lasten der Forschungsetats und der Bibliotheken und zugunsten der Verlagswirtschaft. Das wird z. B. in der Erklärung des englischen Minister of State for Universities and Science deutlich: „In all cases universities upon receipt of funding should transfer these charges to their institutional publication fund … A university can then use these funds to pay for APCs for any article resulting from research council funding.“ (URL21)
Es ist eine öffentliche Diskussion erforderlich, ob die Finanzierung der kommerziellen OA-Publikation (plus der Finanzierung der Gewinne) durch die Öffentlichkeit ein wissensökologisch angemessenes Modell ist und ob der dadurch erzielte weltweite freie Zugriff auf veröffentliche Information
A 6: Wissensökologie
81
die Einbußen bei der bisherigen Informationsinfrastruktur vor allem der Bibliotheken rechtfertigt. Ist also eine Übertragung des bisherigen Finanzierungsmodells für Bibliotheken auf kommerzielle Betreiber sinnvoll und nachhaltig, auch mit Blick auf die Langzeitarchivierung? Auf jeden Fall sollte bei diesen OA-Geschäftsmodellen darauf geachtet werden, dass AutorInnen ihre Rechte an ihren Publikationen behalten und dass die Arbeiten über freie Lizenzen nicht nur frei zugänglich sind, sondern auch frei genutzt und weiterverarbeitet werden dürfen. Und nicht zuletzt: Gehört es vielleicht doch zur wissenschaftlichen Arbeit, auch das Publikationsgeschehen (wie das Reviewing) in diese zu integrieren, zumal die in elektronischen Umgebungen gegebenen technischen Mittel dies heute leicht möglich machen? A 6.4.2.2 Commons-based-Modell für kommerzielle und offene Informationsmärkte Abbildung 5 zeigt, dass die in Abbildung 4 angedeuteten Unterschiede auf den kommerziellen und offenen Informationsmärkten nicht zuletzt auf unterschiedlichen Realisierungen der Eigentumsrechte an Wissen und Information beruhen und damit auf unterschiedlichen Institutionalisierungsformen, wie in Abbildung 2 beschrieben. Entsprechend der Fundierung der Wissensökologie auf das Konzept der Commons sollte sich das bisherige Monopol der privaten individuellen Eigentumsrechte in Richtung auf Commons-basierte Eigentumsrechte verschieben. Darauf deuten auch neuere juristischen Diskussionen hin, die auf eine Priorität von Gemeinfreiheit von Wissen und Information gegenüber kommerziell bedingten Einschränkungen abzielen (Lit. 35). Commons-basierte Eigentumsrechte können und sollen aber nicht private persönliche Eigentumsanspruche ablösen oder negieren. Abbildung 6 deutet an, wie sich in Zukunft ein Zusammenspiel von Commons-basierten Informationsmärkten und proprietären kommerziellen Informationsmärkten entwickeln könnte. Der Default-Wert für Publikation und Nutzung von nicht nur, aber vor allem für öffentlich finanziertes Wissen und Information sollte das OA-Modell sein. Auch angesichts der technologischen und medialen Entwicklung sind für die öffentliche Zugänglichmachung der Wissens- und Informationsobjekte keine traditionellen verlegerischen Leistungen mehr vonnöten. Das klassische Argument für Verlage – das Vorlegen von Kapital und Know how für das Publizieren – ist in elektronischen Umgebungen nicht mehr stichhaltig. Commons-basierte Informationsmärkte Lizenzen für einfache kommerzielle Nutzungsrechte Geschäftsmodell über Kommerzielle Mehrwertprodukte Zweitverwertung der Informationsobjekte Mediale Aufbereitung Hypertextifizierung, Dossiers Summaries, Übersetzungen Retrieval- und MiningAngebote Innovative Reviewmodelle Personelle und institutionelle Hintergrundinformation
Freie offene Nutzung der Informationsobjekte erstellt von den AutorInnen in Bildung und Wissenschaft weiterentwickelt in kollaborativen Arbeitsumgebungen rechtlich abgesichert durch freie Lizenzen
Abb. 6: Einige Prinzipien einer commons-based information economy/society
82
A 6: Rainer Kuhlen
Kommerzielle Tätigkeit mit Wissen und Information, die aus volkswirtschaftlichen Gründen und zum Erhalt und Weiterentwicklung von Publikations-Know-how erwünscht ist, ist nach diesem Modell und in diesen Umgebungen nur durch die Erzeugung von informationellen Mehrwerten zu rechtfertigen (Lit. 44). Dies liegt auch der Idee der von Lawrence Lessig propagierten Idee der Hybridökonomie zugrunde (Lit. 04). Hier liegt die große Herausforderung an die Wissensökonomie und vielleicht auch an den Gesetzgeber, Wissenschaftsschranken im Urheberrecht sehr freizügig zu gestalten, um die Verlagswirtschaft zu zwingen, auf den Informationsmärkten über informationelle Mehrwerte innovativ zu sein (Lit. 32). Ob die Modelle für Wissensökonomie und Wissensökologie sich weiter unabhängig voneinander oder sich sogar in Konkurrenz zueinander entwickeln oder sich wechselseitig durchdringen, ist für die Nutzung von publizierten Werken in allen Bereichen der Gesellschaft von entscheidender Bedeutung. Wissensökonomie und Wissensökologie müssen keine Gegensätze sein, wenn grundsätzlich anerkannt ist, dass Wissen und Information Commons sind. Darauf kann aufgebaut werden.
Literatur 01 Ott, Konrad: Nachhaltigkeit des Wissens – was könnte das sein? Heinrich-Böll-Stiftung (Hrsg.): Gut zu Wissen. Links zur Wissensgesellschaft (konzipiert und bearbeitet von A. Poltermann). Münster: Westfälisches Dampfboot 2002, 208-237 02 North, Klaus: Wissensorientierte Unternehmensführung. Wertschöpfung durch Wissen. Wiesbaden: Gabler-Verlag, 5. Auflage 2011 (erste Auflage 1998) 03 Mettler von Meibom, Barbara; Donath, Matthias (Hrsg.): Kommunikationsökologie: Systematische und historische Aspekte. Reihe Kommunikationsökologie. Münster: LitVerlag 1998 04 Lessig, Lawrence: Remix. Making art and commerce thrive in the hybrid economy. London: Bloomsbury Publishing 2008 05 Kuhlen, Rainer: Der Streit um die Regelung des Zweitveröffentlichungsrechts im Urheberrecht – oder: Was macht Wissenschaftsfreiheit aus? Joachim Griesbaum, Thomas Mandl, Christa Womser-Hacker (Hg), Information und Wissen: global, sozial und frei? ISI 2011 − 12. Internationales Symposium für Informationswissenschaft, Universität Hildesheim, 9.-11. März 2011 06 Renn, O.; Knaus. A.; Kastenholz, A.: Wege in eine nachhaltige Zukunft. B. Breuel (Hg.): Agenda 21. Vision: Nachhaltige Entwicklung. Campus: Frankfurt, New York 1999, 17-74 07 Ott, Konrad: Nachhaltigkeit des Wissens – was könnte das sein? Heinrich-Böll-Stiftung (Hrsg.): Gut zu Wissen. Links zur Wissensgesellschaft (konzipiert und bearbeitet von A. Poltermann). Westfälisches Dampfboot: Münster 2002, S. 208-237 08 Brundtland-Report: Our common future. World Commission on Environment and Development (WCED), Oxford: Oxford University Press 1987 09 Tremmel, Jörg: Nachhaltigkeit als politische und analytische Kategorie. Der deutsche Diskurs um nachhaltige Entwicklung im Spiegel der Interessen der Akteure. München: Ökon. Ges. für Ökologische Kommunikation 2003 10 Bertaccini, Enrico E.; Bravo, Giangiacomo; Marrelli, Massimo; Santagata, Walter: Cultural Commons: A New Perspective on the Production and Evolution of Cultures. Northampton, MA: Edward Elgar Publishing 2012 11 Hyde, Lewis: COMMON AS AIR. Revolution, Art, and Ownership. New York: Farrar, Straus & Giroux 2010 12 Kuhlen, Rainer: Bausteine zur Entwicklung einer Wissensökologie – Plädoyer für eine nachhaltige Sicht auf den UN-Weltgipfel zur Informationsgesellschaft (WSIS). Heinrich-Böll-Stiftung (Hrsg.): Die Zukunft der globalen Güter in der Wissensgesellschaft. Auf der Suche nach einer nachhaltigen Politik zum Schutz des geistigen Eigentums. Dokumentation einer Konferenz der Heinrich-Böll-Stiftung am 8.11.2002 in Berlin. Berlin Juni 2003, 66-97 13 Daly, Hermann: Wirtschaft jenseits von Wachstum. Die Volkswirtschaftslehre nachhaltiger Entwicklung.
14 15
16 17 18 19
20
21 22 23 24
25 26
27 28 29 30 31 32
33
A 6: Wissensökologie
83
Pustet: Salzburg/München 1999 (engl.: Beyond growth. The economics of sustainable development. Beacon Press, 1996) Kuhlen, Rainer: Wissensökologie. A 8 in KSS-5 Kuhlen, Rainer: Wissensökonomie und Wissensökologie zusammen denken. Helfrich, Silke und HeinrichBöll-Stiftung (Hrsg.): Commons. Für eine neue Politik jenseits von Markt und Staat. transcript Verlag: Bielefeld 2012, 405-413 [das gesamte Buch kann heruntergeladen werden unter: http://www.boell.de/ publikationen/publikationen-commons-fuer-eine-neue-politik-jenseits-von-markt-und-staat-14395.html) Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? Schriften zur Informationswissenschaft; Bd. 48. vwh - Boizenburg: Verlag Werner Hülsbusch 2008 Ostrom, Elinor: Governing the commons. The evolution of institutions for collective action. Cambridge University Press, 1999 Hardin, Garrett: The tragedy of the commons. Science 162, 1968, 1243-1248; vgl. Garrett Hardin 1998: Extensions of ‘the tragedy of the commons’. Science 280, May 1, 1998, 682-683 Rose, Carol: Romans, roads and romantic Creators: Traditions of public property in the information age. Law and Contemporary Problems, Vol. 66, 2003, Nos. 1/2 (http://scholarship.law.duke.edu/cgi/ viewcontent.cgi?article=1275&context=lcp) Linebaugh, Peter: Meandering on the semantical-historical paths of communism and commons. The Commoner, December 2010 (http://www.commoner.org.uk/wp-content/uploads/2010/12/meanderinglinebaugh.pdf) J. Boyle: The second enclosure movement and the construction of the public domain. Law and Contemporary Problems 66, 1&2, 2003, S. 33-74 (http://law.duke.edu/pd/papers/boyle.pdf) Boyle, James: The public domain. Enclosing the commons of the mind. New Haven, London: Yale University Press 2008 Helfrich, Silke und Heinrich-Böll-Stiftung (Hrsg.): Commons. Für eine neue Politik jenseits von Markt und Staat. Bielefeld: Transcript Verlag 2012 Helfrich, Silke; Kuhlen, Rainer; Sachs. Wolfgang; Siefkes, Christian: Gemeingüter – Wohlstand durch Teilen. Heinrich-Böll-Stiftung 22.10.2010 (http://www.boell.de/downloads/Gemeingueter_Report_ Commons.pdf) Ostrom, Elinor: Die Verfassung der Allmende – Jenseits von Staat und Markt. Tübingen: Mohr-Siebeck 1990 Silke Helfrich und Heinrich-Böll-Stiftung (Hrsg.): Wem gehört die Welt? Zur Wiederentdeckung der Gemeingüter. München; oekom Verlag 2009 (mit einer CC-Lizenz unter: http://www.boell.de/downloads/ economysocial/Netzausgabe_Wem_gehoert_die_Welt.pdf) Quilligan, James B.: Warum wir Commons von den öffentlichen Gütern unterscheiden müssen. In Lit. 23, 99-106 Committe on the Human Dimensions of Global Change (Elinor Ostrom et al.): The drama of the commons. Washington D.C. National Academy Press 2002 (http:// www.napa.edu) Kuhlen, Rainer: In Richtung eines gerechten, inklusiven, nachhaltigen Umgangs mit dem Gemeingut (Commons) Wissen. In Lit. 30, 46-68 Schüller-Zwierlein, André; Zillien, Nicole (Hrsg.): Informationsgerechtigkeit. Theorie und Praxis der gesellschaftlichen Informationsversorgung. Berlin: de Gruyter 2012 Hess, Charlotte; Ostrom, Elinor. (eds): Understanding knowledge as a commons. From theory to practice. Cambridge, Massachusetts; London, England: The MIT Press 2007 Kuhlen, Rainer: Open Innovation: Teil einer nachhaltigen Wissensökonomie. Olga Drossou; Stefan Krempl; Andreas Poltermann (Hrsg.): Die wunderbare Wissensvermehrung. Wie Open Innovation unsere Welt revolutioniert. Heise Zeitschriften Verlag: Hannover 2006, 12-23 Berlin declaration on open access to knowledge in the sciences and humanities. Berlin 2003 (http:// www.zim.mpg.de/openaccess-berlin/berlindeclaration.html) Deutsche Version: http://oa.mpg.de/ openaccess-berlin/Berliner_Erklaerung_dt_Version_07-2006.pdf; vgl. Zehn Jahre nach der Open-AccessInitiative von Budapest: Den Standard auf „Offen“ setzen (http://www.opensocietyfoundations.org/ openaccess/boai-10-translations/german-translation)
84
A 6: Rainer Kuhlen
34 Barnes, Peter: Capitalism 3.0. A guide to reclaiming the commons. 2008 (http://www.capitalism3.com/ downloadbuy (deutsch: Kapitalismus 3.0 – Ein Leitfaden zur Wiederaneignung der Gemeinschaftsgüter Hamburg 2008 - http://boell.de/publikationen/publikationen-4819.html) 35 Peukert, Alexander: Die Gemeinfreiheit. Tübingen: Mohr Siebeck 2012 36 Bollier, David; Helfrich, Silke: The wealth of the commons. A world beyond market & state. Amherst: Levellers Press 2012 37 Bernhardt, Christoph; Kilper, Heiderose; Moss, Timothy (Hg.): Im Interesse des Gemeinwohls. Regionale Gemeinschaftsgüter in Geschichte, Politik und Planung. Frankfurt: Campus Verlag 2009 38 U.S. Constitution Art. I Sec. 8 Clause 8 39 de la Durantaye, Katharina: Der Kampf um die Public Domain. Zeitschrift der Deutschen Vereinigung für gewerblichen Rechtsschutz und Urheberrecht (GRURInt) 2012, 11, 989-994 40 Kuhlen, Rainer: Informationsethik – Umgang mit Wissen und Information in elektronischen Räumen. Reihe UTB 2454. Konstanz: Universitätsverlag Konstanz (UVK) 2004 41 Kuhlen, Rainer: Ethical foundation of knowledge as a common. Proceedings of the International Conference commemorating the 40th Anniversary of the Korean Society for Library and Information Science. Seoul Oct. 8th 2010 (http://www.kuhlen.name, Publikationen 2010) 42 Siefkes, Christian: Beyond digital plenty: Building blocks for physical peer production. Journal of Peer Production. Issue 1, 2012 (http://peerproduction.net/issues/issue-1/invited-comments/beyond-digitalplenty/; vgl. http://keimform.de/2012/beyond-digital-plenty-1/) 43 Patry, Williams: Moral Panics and the Copyright Wars. Oxford: Oxford University Press 2009 44 Hilty, Reto M. ; Bajon, Benjamin: Das Zweite Gesetz zur Regelung des Urheberrechts in der Informationsgesellschaft (Zweiter Korb) - ein Beitrag aus Wissenschaftssicht. ZfBB 2008, 257-263
URL-Verzeichnis (Alle URLs wurden eingesehen am 03.11.2012) URL1 http://www.nachhaltigkeit.info/artikel/brundtland_report_1987_728.htm URL2 http://www.bmu.de/files/pdfs/allgemein/application/pdf/johannesburg_declaration.pdf URL3 http://www.unesco.de/reshv62-1.html URL4 http://www.kuhlen.name/MATERIALIEN/Vortraege02-Web/nachhaltigkeit-fa-ci-entwurf0902.pdf URL5 http://www.itu.int/wsis/outcome/booklet.pdf URL6 http://www.worldsummit2003.de/de/web/52.htm URL7 http://www.kuhlen.name/MATERIALIEN/Publikationen2003/rk_on_charta_v2.pdf URL8 http://www.wissensgesellschaft.org/themen/wissensoekonomie/nachhaltigkeit.pdf URL9 http://www.zim.mpg.de/openaccess-berlin/berlin_declaration.pdf URL10 http://www.worldsummit2003.de/en/web/598.htm URL11 http://kestudies.org/ URL12 http://www.co-i-l.com/coil/knowledge-garden/kd/index.shtml URL13 http://www.brint.org/KMEcology.pdf und http://surface.syr.edu/cgi/viewcontent. cgi?article=1002&context=mgt URL14 http://keionline.org/node/15 URL15 http://ifiptc8.org/events/esrcseminars/LanzaraMorner.pdf URL16 http://onlinelibrary.wiley.com/doi/10.1111/j.1944-8287.2008.tb00365.x/abstract URL17 http://www.un.org/depts/german/grunddok/ar217a3.html - engl. Fassung: http://www.un.org/en/ documents/udhr/index.shtml URL18 http://www.bundestag.de/bundestag/aufgaben/rechtsgrundlagen/grundgesetz/gg_01.html URL19 http://press-pubs.uchicago.edu/founders/documents/a1_8_8s12.html URL20 http://blogs.law.harvard.edu/mediaberkman/2007/02/13/lewis-hyde-on-cultural-commons/ URL21 http://www.wissensallmende.de/sites/default/files/file/wissensallmende_report_2009_druckversion.pdf
A 6: Wissensökologie
85
URL 22 http://www.enterstageright.com/archive/articles/1100commonism.htm URL23 http://www.fsf.org/ URL24 http://www.oekosozial.at/index.php?id=13333 URL25 http://www.wbgu.de/ (Finanzierung der globalen Energiewende) URL26 http://keimform.de/2008/seven-hypotheses-about-commonism/ URL27 http://onthecommons.org/magazine/growing-gardening-community URL28 http://open-access.net/de/wissenswertes_fuer/foerderorganisationen/publikationskosten_fuer_open_access URL29 http://www.guardian.co.uk/science/2012/jun/19/open-access-academic-publishing-finch-report
Rainer Hammwöhner
A 7 Hypertext A 7.1 Einleitung Mit dem ersten internationalen Workshop über Hypertextsysteme 1987 in Chapel Hill wurde der Begriff Hypertext einem internationalen Fachpublikum bekannt als der Begriff für vernetzte, elektronisch repräsentierte Dokumente. Es folgte die zügige Entwicklung eines wissenschaftlichen Forschungsgebiets, das durch große internationale und europäische Fachtagungen repräsentiert wurde. Mehr noch als der wissenschaftliche Ertrag stellte sich der praktische Erfolg ein. Ein Blick über die heutige Informationslandschaft zeigt, dass kaum noch ein Informationsangebot ohne Hypertextkomponenten auskommt. Das World Wide Web hat sich als ein weltumspannendes Medium so erfolgreich etabliert, dass sich innerhalb dieses Mediums eigene, wiederum hypertextorientierte Dienstleistungen etablieren konnten, die ein Millionen- bis Milliardenpublikum binden können. Zu nennen sind hier beispielhaft Facebook oder Wikipedia. Hypertext kann somit als ein prägendes Element der heutigen Informationsgesellschaft angesehen werden. Erstaunlich ist, dass Begriff und Forschungsthema Hypertext bei diesem offenkundigen Erfolg schon nach weniger als einer Dekade nach dem Durchbruch in Chapel Hill in den Hintergrund zu treten begannen. Das World Wide Web hatte sich als eigenständiger Gegenstand von Forschung und Entwicklung mit sehr gut besuchten Konferenzen etabliert. Viele Hypertext-Forscher der ersten Stunde hatten das Potenzial des Web zunächst nicht erkannt. Vor allem das im Vergleich zum damaligen Stand der Technik als simpel empfundene Modell des Web war auf Ablehnung gestoßen, führte aber gerade in seiner Einfachheit zum schnellen Erfolg des WWW (Lit. 01, Lit. 02). Viele weitere erfolgreiche Dienste – Wikis, insbesondere die zahlreichen Fassungen der Online-Enzyklopädie Wikipedia, Taggingdienste wie Delicious, Medienrepositories wie Flickr oder soziale Netzwerke wie Facebook – entwickelten sich innerhalb und aus dem Web und kreierten wiederum eigene Communities. Der Bedarf an einer übergreifenden Sicht auf Hypertext trat in den Hintergrund. Mittlerweile scheint sich die Situation allerdings wieder konsolidiert zu haben, sichtet man die einschlägigen Tagungen – insbesondere die jährlichen ACM-Konferenzen zu Hypertext und Hypermedia (Lit. 03, Lit. 04). Die jüngst erfolgte explizite Berücksichtigung von Social Media im Tagungstitel (Lit. 05) zeigt die wiedergewonnene Vitalität des Forschungsgebiets und dokumentiert den Anspruch, die aktuellen Entwicklungen in der Nutzung der vernetzten Medien forschend zu begleiten. Im Folgenden soll der Gegenstandsbereich der Hypertext-Forschung umrissen werden. Interdisziplinäre Fragestellungen werden dabei eher gestreift, während solche, die von unmittelbarer Relevanz für die Informationswissenschaft sind, mit größerer Ausführlichkeit behandelt werden.
A 7.2 Was ist Hypertext? Hypertext ist ein in isolierte Blöcke – Knoten, Units, Objekte, informationelle Einheiten – fragmentierter Text. Diese Einheiten werden durch textinterne Verweise, textuelle Deixis, untereinander verbunden. Aufgrund dieser Verweise stellt der Leser, ausgehend von einem vorgegebenen oder individuell ausgewählten Startknoten, eine Lesesequenz zusammen, die seinen persönlichen Rezeptionsgewohnheiten und seinem Informationsbedarf entsprechen. Eine vorgegebene lineare Lesefolge wie bei einem Buch ist allenfalls als zusätzliches Strukturierungsangebot vorhanden. Diese weitergehenden Anforderungen an die Handhabung bedingen, dass Hypertexte im Gegensatz zu konventionellen Texten elektronisch repräsentiert sein müssen und nur vermittels eines Computers oder e-books o. ä. unter Einsatz einer speziellen Software, eines Hypertextsystems gelesen und geschrieben werden können. Die Auswahl der Verknüpfungen, die im Text besonders gekennzeichnet sind, erfolgt dann durch direkte Manipulation der als Verknüpfung (Link) gekennzeichneten Objekte.
A 7: Hypertext
87
Der voranstehende Definitionsversuch wird vermutlich die meisten Nutzer des WWW zufrieden stellen, lassen sich doch die Gegenstände, mit denen er sich konfrontiert sieht, dort unschwer wiederfinden. Andererseits weist schon der zugrundeliegende Textbegriff Unschärfen an den Grenzen zwischen umgangssprachlicher, textlinguistischer (Lit. 06), konkurrierender literaturwissenschaftlicher (Lit. 07) und semiotischer Interpretation (Lit. 08) auf. So nimmt es nicht Wunder, dass auch die Frage, was Hypertext eigentlich sei, immer wieder gestellt wurde. Wardrip-Fruin (Lit. 09) schlägt eine bei dem von Nelson geprägten (s. u.) Begriff beginnende historische Begriffsanalyse vor, während Nelson (Lit. 10) selbst auf eigene Arbeiten – insbesondere das Konzept der Transclusion – verweist, die der ursprünglichen Idee eines global vernetzten Dokumentenverbundes näher kämen als die derzeit übliche Dokument-Link-Struktur. Für das Ziel dieses Beitrags erscheint die Vorgehensweise von Nürnberg (Lit. 11) angemessener, der auf die z. T. differierenden Erkenntnisinteressen der an der Hypertextforschung und -entwicklung beteiligten Gruppen hinweist. Die Schwierigkeit, zu einer eindeutigen Einordnung des Phänomens Hypertext zu kommen, zeigt sich an internen Debatten der Literati, die, im Gegensatz zu den Engineers (Lit. 01), primär an literarischen Hypertexten interessiert sind. In ihren theoretischen Arbeiten – hier sind vor allem die Bücher von George Landow zu erwähnen (Lit. 12) – zeigen sie sich überwiegend einer postmodernen bzw. poststrukturalistischen Literaturtheorie verpflichtet, die den Tod oder das Verschwinden des Autors und die Dezentralisierung des Textes auf ihre Fahnen schreibt. Rune Delgaard zeigt nun (Lit. 13) die fruchtbare Anwendbarkeit der strukturalen Literaturtheorie Genettes (Lit. 14) zumindest auf bestimmte Hypertexte. Stuart Moulthrop (Lit. 15) weist in seiner Reaktion auf die Vielfalt des Webs hin, der vermutlich keine geschlossene Theorie mehr gerecht werden könne. Zudem identifiziert er drei Entwicklungsphasen von Hypertext: 1. die Phase der Pioniere und Experimentalsysteme (s. u.), 2. die Phase erster verteilter Hypertexte und 3. die Phase, in der ein weltweiter Hypertext wirklich existiert und untersucht werden kann. Akzeptiert man diese Abfolge, kann die oben angedeutete Selbstfindungskrise auch als Resultat einer notwendigen Reorientierung interpretiert werden. Hypertext ist nun nicht mehr allein und vermutlich nicht einmal primär prospektiv durch die Konstruktion von Systemen und die theoretische Begleitung dieses Prozesses zu erforschen, sondern durch die Untersuchung eines großen, empirisch vorfindlichen Gegenstands. Jedenfalls wird sichtbar, dass die theoretische Debatte über Hypertext weit über informationstechnische bzw. -methodische Fragestellungen hinausreicht.
A 7.3 Wie hat sich Hypertext entwickelt? Als Vorläufer aller Hypertextsysteme gelten heute Memex und Xanadu, zwei Systeme, die überhaupt nicht oder nie vollständig realisiert wurden. Memex wurde 1945 von Vannevar Bush (Lit. 16), damals Berater des amerikanischen Präsidenten, konzipiert, um dem Fachexperten oder Informationsspezialisten Mittel zur Bewältigung der auf ihn einströmenden Informationsmengen an die Hand zu geben. Memex organisierte Textmengen durch Netzwerke von Trails, welche analog zu den Assoziationsnetzen der menschlichen Kognition konzipiert waren. Während die theoretische Vision des Systems sich als zukunftsweisend herausstellte, setzte die praktische Konzeption – entsprechend dem damaligen Stand der Technologie als elektromechanisches auf Mikrofilm beruhendes System – auf eine technische Sackgasse. Das theoretische Konzept von Memex als privatem „Kognitionsverstärker“ kann aber noch heute als Grundlage von individuellen Lernsystemen und Ideenstrukturierungstools etc. angesehen werden. Erst in jüngerer Zeit wird die „Statistische Maschine“ von Emanuel Goldberg gewürdigt, die schon in den dreißiger Jahren Mikrofilmtechnologie mit Verfahren der Mustererkennung zum Zweck der effizienten Informationssuche verknüpfte (Lit. 17). Ted Nelson griff Bushs Ideen auf und prägte für die entstehenden netzwerkartigen Textstrukturen den Namen Hypertext. Nelson setzte im Gegensatz zu Bush nicht nur auf die kognitive, sondern auch auf die kommunikative Funktion von Text. Sein Xanadu (Lit. 18) war schon frühzeitig als weltweit vernetztes Kommunikations- und Archivierungssystem geplant. Lösungen für viele Detail-
88
A 7: Rainer Hammwöhner
probleme wie z. B. die Vereinheitlichung von Adressierungsschemata und die Gewährleistung des Copyrights für beliebig kleine Medienfragmente waren erarbeitet. Dieser extreme Perfektionismus verzögerte jedoch die Realisierung von Xanadu so weit, bis es durch den Siegeszug eines anderen, einfacheren Systems, des WWW, obsolet geworden war. Als einflussreich erwies sich auch das Augment-System, das eng mit dem Namen Douglas Englebart verbunden ist (Lit. 19). Zum einen wurden hier viele Techniken der Mensch-Maschine-Interaktion wie Fenstertechnik, Computermouse etc. entwickelt. Zum anderen wurde hier das Konzept einer textorientierten computerbasierten Zusammenarbeit in Teams formuliert, wie es sich heute in Systemen des Computer Supported Cooperative Work (CSCW) wiederfindet. Diese Ideen wurden bis 1987 in kleineren Forschungsgruppen weiter verfeinert und als jeweils proprietäre Hypertextsysteme implementiert. Besonders einflussreich und erfolgreich war die Gruppe um Andries van Dam an der Brown University, aus deren Arbeit die Hypertext-Systeme Fress und Intermedia (Lit. 20) hervorgingen, und die Gruppe um Halasz am Xerox Parc mit ihrem NoteCards-System. Diese Systeme und ihre Nachfolger implementierten viele richtungsweisende Konzepte für Hypertext-Anwendungen, die bis heute den Publikumsmarkt des WWW noch nicht erreicht haben. Beispielgebend und die Theorie fundierend waren auch die empirischen Untersuchungen im Umfeld der Weiterentwicklung von NoteCards (Lit. 21). Der internationale Workshop über Hypertext 1987 in Chapel Hill mit seiner für alle Beteiligten überraschenden internationalen Resonanz gab dem Forschungsfeld einen erheblichen Impuls. Forschungsgruppen entstanden auch außerhalb der USA. Nennenswerte Forschung wurde im Bereich der Strukturierung von Hypermedia-Dokumenten, benutzerfreundlichen Interaktionsformen, der Integration mit wissensbasierten Systemen und zahlreichen anderen Problemfeldern betrieben. Mit Hypercard (für Macintosh) und Guide (für PC/Windows) wurden erste Systeme entwickelt, die eine breite Anwenderschaft auch im Publikumsmarkt erzielten. Der eigentliche Durchbruch wurde aber mit dem World Wide Web erzielt, das die Ideen vernetzter Dokumente mit denen der computerbasierten Kommunikation verband. Somit hatten die Ideen der großen Visionäre Bush, Nelson und Licklider (Lit. 22) – letzterer kann als Vater des Internet bezeichnet werden – erstmalig eine gemeinsame konkrete Ausprägung gefunden.
A 7.4 Nicht-lineare Informationsarbeit Nachdem Hypertext als eine besonders strukturierte, elektronisch verfügbare Form von Text identifiziert ist, kann es nicht verwundern, dass spezifische Einsatzszenarien für Hypertext nicht identifizierbar sind. Hypertext ist ein allgemein verwendbares Medium, wenngleich die Titel früher Arbeiten – „As we may think“ (Lit. 16) oder „A research center for augmenting human intellects“ (Lit. 19) – eine Orientierung auf die Wissensarbeit hin nahe legen, die durch Assoziationsmodelle des Gedächtnisses motiviert war. Die Literati kamen etwas später und eröffneten eine text- oder literaturtheoretische Perspektive auf Hypertext. Schon früh wurde die Liste möglicher Gegenstandsbereiche für Hypertext unübersichtlich: technische Dokumentation, Enzyklopädien, Kooperation in Forscherteams, Strukturierung und Erschließung von Wissensbeständen, Strukturierung und Dokumentation von Argumentationen durch „issue based information systems“, Unterstützung universitärer Lerngruppen (siehe D 9 Lernen mit Medien), Lektüre schöngeistiger postmoderner Literatur usw. Vollständigkeit kann hier nicht angestrebt werden, auf einen Einzelnachweis wird verzichtet. Statt dessen werden abstraktere Formen der Informationsarbeit identifiziert, die ungeachtet des Gegenstandsbereichs an Hypertexten zu vollziehen sind.
A 7: Hypertext
89
A 7.4.1 Lesen in Hypertexten Im Vergleich zum linearen Text sieht sich der Leser beim Fortgang der Lektüre eines Hypertextes immer wieder vor die Entscheidung gestellt, wo oder wie er weiterlesen will. Es lag also nahe, Modelle des Nutzerverhaltens zu erforschen und daraus Schlussfolgerungen für orientierende Hypertextstrukturen bzw. Interaktionsformen abzuleiten. Zunächst wurden grundlegende Interaktionsstile und -ziele für die Bewegung im Hypertext – häufig auch als Navigation bezeichnet – identifiziert. So kann der Nutzer den Hypertext lesen, um den Inhalt kurz systematisch zu erfassen, zu überfliegen, zu durchstöbern, nach einer konkreten Information zu durchsuchen usw. (Lit. 23). Diese zunächst aus kleineren Studien gewonnenen Modelle wurden später im Sinne einer Formalisierung – z. B. durch Markov-Modelle (Lit. 24) – vorangetrieben und anhand der großen Korpora des Web (Lit. 25) überprüft und verfeinert, indem Web-spezifische Navigationsstrategien evaluiert werden (Lit. 26). Die durch diese Studien gewonnenen Daten bilden eine Basis für die nutzer- oder aufgabenspezifische Anpassung von Hypertexten (s. u.). Frühzeitig wurden auch Instrumente entwickelt, um Pfade (trails) oder geführte Rundgänge (guided tours) durch den Hypertext zu definieren, um so dem Leser Hilfestellung anbieten oder didaktische Ziele verfolgen zu können – für einen Überblick s. Lit. 27. A 7.4.2 Suche in Hypertexten Die Erwägungen zu möglichen Navigationsstrategien lassen eine Frage offen. Wie können aus einem großen Hypertext diejenigen Elemente herausgegriffen werden, die für ein Thema oder eine Fragestellung relevant sind? Dies kann zur Recherche spezifischer Information, aber auch für die Auswahl von Startpunkten zur Erkundung des Hypertexts hilfreich sein. Es bietet sich an, auf die eingeführten Modelle des Matching-orientierten Information Retrieval zurück zu greifen (vgl. B 20 Modelle des Information Retrieval). Bessere Rechercheergebnisse sind jedoch zu erzielen, wenn die Struktur des Hypertexts in die Relevanzeinschätzung mit einbezogen wird. Einfache Ansätze berücksichtigen die Relevanz von Nachbarknoten in der Bewertung (Lit. 28). Das intrinsische Gewicht eines Teiltexts ergibt sich durch normales Matching, ein extrinsisches durch das Gewicht der Nachbarknoten. Durch Verallgemeinerung entstehen komplexere Modelle wie Kleinbergs HITS-Algorithmus oder Page-Rank, die auf der Basis rekursiver Algorithmen zu einer geschlossenen Bewertung der Elemente eines Hypertexts kommen können (s.a. D 1 Suchmaschinen). Beiden Ansätzen liegt die starke Ungleichverteilung der Verknüpfungshäufigkeit im WWW – wie auch anderen skalenfreien Netzen (s. a. C 7 Web Science) – zugrunde. Sie sind deshalb nur für solche Hyperdokumente angemessen verwendbar, die diese Eigenschaft aufweisen. Eine vereinheitlichte Sicht auf diese Suchverfahren stellen Ding et al. (Lit. 29) vor. A 7.4.3 Schreiben und Strukturieren von Hypertexten Es ist offensichtlich, dass, berücksichtigt man die vielfältigen Einsatzmöglichkeiten von Hypertext (s.o.), nur wenig allgemeine Feststellungen über den Autorenprozess zu treffen sind. Grundsätzlich zu unterscheiden ist die Autorschaft an kleinen, zumeist einem einheitlichen Diskursziel verpflichteten Hypertexten – etwa e-learning-Lehreinheiten –, großen, von Autorenkollektiven verfassten Hypertexten – z. B. Wikipedia, deren konkretes Wachstum häufig am besten durch Zufallsprozesse beschreibbar ist (s. u.), und solchen, die automatisch aus großen Textkollektionen durch automatische Verknüpfung generiert sind. So ist es auch nicht verwunderlich, dass Untersuchungen über den Autorenprozess im Allgemeinen kaum zu finden sind. Selbst eine spezialisierte empirische Studie zum Verfassen von Lehr-Hypertexten kommt zu dem Schluss, dass Handreichungen für den Au-
90
A 7: Rainer Hammwöhner
tor weniger zielführend sind als Feedback über die Qualität des Ergebnisses (Lit. 30). Dazu ist die Formulierung von Modellen der Informationsqualität für Hyperdokumente erforderlich. Es bleiben einige Minimalanforderungen an den Autorenprozess zu definieren. Dass das entstehende Produkt den ergonomischen Prinzipien der Mensch-Maschine-Interaktion zu folgen hat (s. C 6 Mensch-Computer-Interaktion), sollte den eigentlichen Autorenprozess nicht betreffen. Design und Inhalt sind systematisch zu trennen. Ein eigener Entwicklungsschritt ist weiterhin die Definition der globalen Hypertextstruktur. Für einen literarischen Hypertext ist dies die Erzählstruktur, im World Wide Web ist deutlich prosaischer von Informationsarchitekturen die Rede. Eine Objektivierung dieses Planungsprozesses erfolgt durch die Verwendung bewährter Substrukturen, Pattern oder Templates (Lit. 31), die dem Autor die Arbeit erleichtern und dem Leser eine Antizipation der globalen Struktur erlauben. In den Bereich der Informationsarchitektur fällt auch die Ausstattung eines Hypertextes mit Meta-Information. Eine Besonderheit ist dabei die formalisierte Repräsentation von Hypertext-Inhalten zum Zweck der algorithmischen Wissensverarbeitung. Diese erfolgt in Ausdrücken eines formalen Systems – zumeist einer Logik (vgl. B 6 Ontologien und B 7 Semantic Web und Linked Open Data). Die Anwendung dieser Formalismen zielt zumeist auf die Repräsentation von Sachverhalten oder Terminologien. Die formalen Ausdrücke sind zudem klar vom semi-strukturierten medialen Anteil des Hypertexts getrennt. Frühere Versuche, Ansätze der Wissensrepräsentation – insbesondere Frames – eng mit Hypertext zu verbinden, sind, wie am System Aquanet (Lit. 32) exemplarisch aufgezeigt wurde, gescheitert, weil der Anspruch, allgemeinere Aufgaben der Strukturierung von Wissen mit Hilfe formal spezifizierter Hypertext-Strukturen durchzuführen, die Autoren überforderte. Als Reaktion wurde der Ansatz räumlicher Hypertexte entwickelt (Lit. 33), der den Autor weitgehend von expliziten Strukturierungsaufgaben entlasten soll.
A 7.5 Hypertextmodelle Wie in den vorangegangenen Kapiteln deutlich geworden ist, entwickelte sich das Konzept von Hypertext aus den Arbeiten zahlreicher Forscher, die z. T. divergierenden Erkenntnisinteressen und Entwicklungszielen verpflichtet waren und jeweils unterschiedliche Anwendungsbereiche für Hypertext fokussierten. Dementsprechend waren stark abweichende Strukturierungsprinzipien zu beobachten, die zum Teil von den jeweils verwendeten Hypertextsystemen unterstützt bzw. erzwungen waren, sich andernteils erst aus dem Gebrauch entwickelten und auf einfachere Strukturierungsmittel zurückzuführen waren. Letztere konnten als vorherrschende Muster bzw. Pattern in Hypertexten identifiziert und einer abstrakteren Beschreibung zugeführt werden (Lit. 34). Auf einer ähnlich phänomenalen, wenngleich umfassenderen Basis definiert Lit. 35 eine Typologie von Hypertexten, die folgende Kriterien umfasst: –– Topologie: Welche Struktur ordnet die Menge der Text-Einheiten? Ist sie linear – dies ist der Sonderfall des konventionellen Texts – hierarchisch oder netzwerkartig? –– Dynamik: Hier wird unterschieden, ob Verknüpfungen oder Inhalte des Textes statisch vorgegeben sind oder an die Rezeptionssituation angepasst sein können (s. u.). –– Determinierbarkeit: Ist die Traversierungsfunktion deterministisch in dem Sinn, dass Abfolgebeziehungen unveränderlich bleiben? Dies ist dann nicht der Fall, wenn Verknüpfungsziele intensional, z. B. durch Suchanfragen spezifiziert sind. –– Ablauf: Ist der Ablauf der Präsentation zeitgesteuert wie bei einer zeitsynchronisierten Multimedia-Präsentation oder ist eine Aktion des Lesers erforderlich? –– Steuerbarkeit: Welche Traversierungsfunktionen stehen für die Lektüre des Hypertexts zur Verfügung, wie z. B. Verknüpfung folgen, vordefiniertem Pfad folgen oder Rücksprung zum Startknoten?
A 7: Hypertext
91
Aufgrund der parallelen Entwicklung und der divergierenden Entwicklungsziele hatten sich jedoch auch unterschiedliche Datenformate für Hypertexte entwickelt, die jeweils eigene Strukturierungsprinzipien unterstützten und nur von proprietären Hypertextsystemen zu interpretieren waren. Ein erster Versuch, ein Modell für ein Hypertextsystem mit einer Kernfunktionalität zu definieren, resultierte in HAM, der Hypertext Abstract Machine (Lit. 36). Eine erste mathematisch formale Definition eines Hypertext-Modells stellte das Dexter-Hypertext-Referenzmodell (Lit. 37) dar, das, wie Dodd (Lit. 38) ausführt, bis in die jüngere Vergangenheit wirksam auf die Weiterentwicklung von Hypertext-Standards – auch im World Wide Web – geblieben ist. Das Dexter-Modell sieht unterschiedliche Spezifikations- und Verwaltungsebenen für Hypertext-Inhalte und Verknüpfungen vor. Es erlaubt die Aggregierung von Objekten und die Spezifikation von Transformationen auf diesen Objekten. Dies ist die Voraussetzung für adaptive Hypertextsysteme. Mehrere Erweiterungen des Modells führten zu einer nochmaligen Verallgemeinerung der Strukturen (Lit. 39) und einer Auffassung offener Hypertexte, die einen Austausch von Materialien unterschiedlicher Medialität aus diversen Systemen ermöglichen sollen. Nimmt man das auf der Oberfläche simpel erscheinende Hypertext-Modell des Web zur Kenntnis, so könnte die Auffassung entstehen, die Bemühungen um die präzise Definition von Hypertextmodellen seien – trotz der Einschätzung von Dodd (s. o.) – letztlich ohne Konsequenzen geblieben. Schon frühzeitig wurden aber Ansätze formuliert, wie auf dem Dexter-Modell basierende Hypermedia-Dienste als Web-Services in das World Wide Web integriert werden konnten (Lit. 40). Auch für offene Hypertextsysteme wurden service-basierte Modelle definiert. Ein offener Hypertext wird als eine Menge von Diensten aufgefasst, welche über wohldefinierte Schnittstellen kommunizieren (Lit. 41). Spezifische Dienste sind z. B. für die Datenhaltung, die Verwaltung der Verknüpfungen oder die Informationssuche vorgesehen. Auch auf der Basis dieser vereinheitlichenden Modelle besteht dennoch eine reiche Auswahl konkurrierender Strukturierungsansätze für Hypertexte: Verknüpfungen konnten gleichermaßen gerichtet, ungerichtet, uni- und bidirektional zwei oder mehrere Hypertexteinheiten verbinden. Verknüpfungstypen können nach deklarativer und prozeduraler Semantik unterschieden werden (Lit. 32). Zusätzlich zur Ebene des Verknüpfungsnetzwerks kann eine Struktur der Objektaggregation eingeführt werden (Lit. 21), die es erlaubt, Dokumenthierarchien, Nutzungskontexte, Versionsgeschichten (Lit. 44), Navigationspfade (Lit. 45) usw. zu modellieren. Die bisherigen Überlegungen zu Modellen von Hypertext waren rein strukturell und auf das Design von Hypertexten oder Hypertextsystemen hin ausgerichtet. Insbesondere bei großen, von zahlreichen Nutzern bearbeiteten und vielfältigen Interessen verpflichteten Hypertexten (Wikipedia, Social Media wie Facebook, das World Wide Web insgesamt) kann die entstehende Netzwerkstruktur als Zufallsgraph interpretiert und mathematisch modelliert werden (vgl. C 7 Web Science).
A 7.6 Neuere Forschung zum Thema Hypertext Wie schon einleitend angemerkt wurde, ist eine genuine Hypertextforschung zumindest zwischenzeitlich gegenüber derjenigen zu den Spezialtechnologien – World Wide Web, Semantic Web, Social Web – in den Hintergrund getreten, nachdem die Grundlagen gelegt waren. Dementsprechend waren die bisherigen Ausführungen primär rückblickend und auf älterer Literatur basierend ausgelegt, um die Entwicklung des Gebiets auch für denjenigen nachvollziehbar zu machen, der sich primär für die Anwendung von Hypertextkonzepten im Web oder anderen Kontexten interessiert. Im Folgenden soll im Ausgang von den jährlichen Hypertext-Konferenzen auf aktuelle Themen im Kernbereich der Hypertextforschung eingegangen werden. Dabei bleibt das Problem der Eingrenzung, da jegliche Forschung im Web-Umfeld auch unter Hypertextforschung zu subsumieren ist.
92
A 7: Rainer Hammwöhner
A 7.6.1 Erzähltheorie Die Hypertextforschung wurde von Beginn an literaturtheoretisch begleitet (Lit. 12). Während zunächst die Dezentrierung des Textes im Sinne einer postmodernen Literaturtheorie im Vordergrund stand, rückt in den letzten Jahren zunehmend die Frage der Kohärenz der Erzählung in den Fokus (Lit. 45), die auch die Rolle von Erzählstrategien in nicht-fiktionalen Texten berücksichtigt (Lit. 46). Kohärente Rezeptionssequenzen wurden dabei nicht nur für Texte sondern auch für Photos (Lit. 47) und Videos (Lit. 48) konzipiert, wobei letztere die automatische Generierung von Erzählpfaden auf der Basis einer abstrakten Spezifikationssprache für Erzählungen (NSL – Narrative Structure Language) vorschlagen. Mancini und Shum (Lit. 49) schlagen den Bogen zurück und leiten aus Mustern der Filmsprache Strukturen für wissenschaftlichen Hypertext ab. Einen weiteren intermedialen Brückenschlag versucht Licia Calvi (Lit. 50), die eine Ästhetik des Hypertexts aus Bildsprache und Rhetorik von Comics ableitet. Einen interessanten Bezug zu unmittelbar informationswissenschaftlichen Themen weist eine empirische Studie von Tomás et al. (Lit. 51) auf, die erzählbasierte Tagging-Strategien nicht nur vorschlagen, sondern an einer kleinen Probandengruppe auch erfolgreich evaluieren. A 7.6.2 Transclusion und Spatial Hypertext Die hier angesprochenen Konzepte entstanden aus der Wahrnehmung, dass die aus Knoten und zumeist binären Verknüpfungen bestehende Graphstruktur konventioneller Hypertexte für die kooperative Arbeit bei der Erstellung und Strukturierung von Wissensbeständen nicht zufriedenstellend ist. Nelson (Lit. 10) führt, auf einer informellen Ebene, das Konzept der Transclusion – Inklusion durch Referenz – ein. Dieses entspreche zum einen eher den Trails von Bushs Memex, biete zudem eine bessere Grundlage für die Einführung eines allgemeinen Dokumentmodells. Goulding et al. (Lit. 42) stellen eine mengentheoretische Formalisierung von Transclusions bereit, welche die Möglichkeiten und Grenzen dieses Strukturierungsmittels zu präzisieren erlaubt. Anwendung findet das Transclusion-Konzept derzeit primär in Spatial Hypertexts. Diese erlauben die Definition einer Menge räumlicher Kontexte, in denen Inhalte vergleichsweise frei angeordnet werden können. Zwischen den Kontexten werden Materialen transkludiert. Räumliche Nähe wird dabei als inhaltliche Verwandtschaft interpretiert. Vermutlich hat dieser, sich radikal vom Hypertextmodell des World Wide Web unterscheidende Ansatz begünstigt, dass sich eine eigenständige Forschung zu Spatial Hypertext auf hohem Niveau erhalten hat. Während die einheitlichen Interaktionsformen des Web die zahlreichen Ansätze zur Interaktion mit Hypertexten weitgehend nivelliert haben, finden sich im Zusammenhang mit Spatial Hypertext noch Überlegungen zur Strukturierung, Visualisierung und Nutzung von Dialoghistorien. Räumliche Hypertexte haben einen breiten Einsatzbereich gefunden, der von der Autorenunterstützung für lineare Dokumente (Lit. 52) über die Bereitstellung von Schulungsmaterialien (Lit. 53) und die Auswertung von User-Feedback (Lit. 54) bis zu digitalen Bibliotheken reicht (Lit. 55). Vorschläge für die Adaption von räumlichen Hypertexten verweisen auf den Gegenstand des nächsten Abschnitts (Lit. 56). A 7.6.3 Adaption Die komplexe Struktur von Hypertexten wurde schon früh als eine kognitive Herausforderung für den Leser angesehen. Dieser Effekt wurde noch dadurch verstärkt, dass große Hypertexte für differenzierte Nutzergruppen mit unterschiedlichen Informationsbedürfnissen, Lesegewohnheiten oder Lernstrategien konzipiert werden mussten. Es entstand der Wunsch, dass jeder Nutzer den Hypertext während der Lektüre so erfährt, als wäre er speziell für ihn und sein augenblickliches Vorha-
A 7: Hypertext
93
ben entworfen worden. Dies sollte durch eine situative Anpassung des Hypertexts durch Filter- und Transformationsprozesse geschehen. Aus diesem grundsätzlichen Vorhaben hat sich eine eigene sehr aktive Forschungsrichtung entwickelt, die gut mit verwandten Themen – Nutzermodellierung, Data-Mining usw. – vernetzt ist. Eine frühe Systematisierung dieses Forschungsgebiets wurde von Brusilovsky (Lit. 57) vorgelegt. Er identifiziert eine Kollektion von Leitfragen für die Adaption von Hypertexten: –– Welche Anwendungsgebiete sind erfolgversprechend für adaptive Hypertexte? Genannt werden instruktionale Hypertexte, Hilfesysteme, Information Retrieval Systeme u. a. –– Welche Eigenheiten des Nutzers bzw. seiner Tätigkeit bilden die Grundlage der Anpassung? Vorwissen des Nutzers, Interaktionsziele bzw. Informationsbedarf, Vertrautheit mit dem Informationssystem bzw. Hypertext, sonstige Präferenzen des Nutzers werden als relevant eingeschätzt. –– Welche Strukturen des Hypertexts können Gegenstand der Anpassung sein? Grundsätzlich können Navigation im Hypertext und die Präsentation seiner Inhalte Gegenstand der Anpassung sein. Verknüpfungen können kommentiert, empfohlen, in eine Rangfolge gebracht oder auch verborgen werden. Die Präsentation kann durch konditionale Texte oder Medienobjekte, Stretchtexte oder ähnliche Instrumente dem Bedarf angepasst werden. Auch graphische Visualisierungen von Hypertextstrukturen unterliegen dann diesen Modifikationen. –– Welche Ziele werden mit der Anpassung verfolgt? Durch die Adaption des Hypertexts kann der Nutzer in seiner lokalen oder globalen Orientierung im Hypertext unterstützt werden, indem ihm Navigationsalternativen erläutert werden. Er kann aber auch auf globaler oder lokaler Ebene zu den Navigationszielen geführt werden. Die präsentierten Texte können jeweils dem Informationsbedarf oder Kenntnisstand des Lesers angepasst werden. Zwölf Jahre später wurde erneut ein Bericht über den Forschungsstand über adaptive Hypertexte vorgelegt (Lit. 58). Es zeigte sich, dass die von Brusilovsky vorgenommen Systematisierung Bestand hatte und sich die Forschungsfragen weitgehend in den vorgezeichneten Bahnen bewegen. In der Zwischenzeit sind zahlreiche adaptive Hypermediasysteme entstanden. Analog zur Entwicklung von Hypertextmodellen wurden Referenzarchitekturen auch für diesen Bereich geschaffen – AHAM, das Goldsmith Model usw. Die aktuelle Forschung kann diese technisch-methodische Basis bereits als gegeben annehmen, wenngleich in neueren Arbeiten versucht wird, das Spektrum der in einem System vereinten Adaptionsoptionen sukzessiv zu erweitern (Lit. 59). Es kommen nun Fragen ins Blickfeld, die in der ersten Phase der technischen Exploration noch zurückstehen mussten. Foss und Christea (Lit. 60) nehmen die Komplexität des Autorenprozesses für adaptive Hypertexte ins Visier und versuchen hier durch Standardisierung und Isolierung von Teilaufgaben Abhilfe zu schaffen. Knutov et al. (Lit. 61) wiederum eröffnen eine neue Abstraktionsebene, indem sie sich fragen, wie dem Leser die jeweils getroffenen Adaptionen zu erklären sein könnten, wenn er nach der Motivation der Materialauswahl fragen sollte. Zunehmend werden die Adaptionsansätze auch evaluiert (Lit. 62). Dabei werden sowohl die Eigenschaften der gefilterten Hypertextstrukturen als auch das Navigationsverhalten der Leser ins Visier genommen. Hannon et al. (Lit. 63) zeigen schließlich, dass auch Empfehlungs- bzw. Recommender-Systeme (vgl. B 9 Empfehlungssysteme), die derzeit im e-Commerce als unverzichtbar erscheinen, in ein allgemeines theoretisches Gerüst adaptiver Systeme einzuordnen sind. A 7.6.4 Evaluation Während die Anfangsjahre der Hypertextforschung primär von technischem Entwicklergeist und literaturwissenschaftlich inspirierter Theorie bestimmt waren, getragen von Halasz Engineers und Literati, wird in jüngerer Zeit zunehmend das Bedürfnis artikuliert, die eigenen Bemühungen auch wissenschaftlich zu evaluieren. Die 21. Hypertext-Tagung hatte für dieses Thema ein eigenes Panel
94
A 7: Rainer Hammwöhner
vorgesehen (Lit. 64), in dem Zweck und Verfahren der Evaluation diskutiert wurden. In den Proceedings-Bänden werden mehrfach thematisch fokussierte Evaluationen vorgestellt, systematisch angelegte große Studien stehen jedoch noch aus.
A 7.7 Ausblick Die Vielfalt aktueller Forschungsthemen im Kontext von Hypertext zeugt weiter die Produktivität des Forschungsgebiets. Auffällig ist der hohe Anteil, von Arbeiten zum Social und Semantic Web in den neuen Hypertext-Proceedings-Bänden (vgl. z. B. Lit. 05). Auch wird immer wieder das Problem des Information Retrieval im Web behandelt (vgl. D 1 Suchmaschinen). Die Thematik der neueren Proceedings-Bände zeigt, dass die Hypertext-Forschung aus ihrer Nische abseits des Web herausgefunden hat und sich auf die ganze Breite der aktuellen Hypertext-Formate einlässt. Andererseits hat der Blick von Außen in der Vergangenheit es auch erleichtert, manches in Frage zu stellen, was von der gerade im Aufwind befindlichen Technik als gegeben angenommen wurde. Vor allem aber gilt es die gute Zusammenarbeit zwischen den Engineers und den Literati zu bewahren, zu denen nunmehr die Sozialempiriker hinzustoßen.
Literatur 01 Halasz, Frank G.: Reflections on ‘Seven Issues’: Hypertext in the Era of the Web. ACM Journal of Computer Documentation, Bd. 25, Nr. 3, 2001, 109-114 02 Hall, Wendy: Back to the Future with Hypertext: A Tale of Two or Three Conferences. Proceedings of the 18th ACM Conference on Hypertext and Hypermedia. New York: ACM 2007, 179-180 03 Chignell, Mark; Toms, Elaine: Proceedings of the 21st ACM Conference on Hypertext and Hypermedia. New York: ACM 2010 04 de Bra, Paul; Grønbæk, Kaj: Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. New York: ACM 2011 05 Munson, Ethan; Strohmainer, Markus: Proceedings of the 23rd Conference on Hypertext and Social Media. New York: ACM 2012 06 van Dijk, Teun: Textwissenschaft. München: dtv 1980 07 Bohnenkamp, Anne: Textkritik und Textedition. Arnold, H.; Detering, H. (Hrsg.): Grundzüge der Literaturwissenschaft. München: dtv 1994, 179-203 08 Posner, Roland: Text und Kultur. Boehm, A.; Mengel, A.; Muhr, T. (Hrsg.), Texte verstehen. Konzepte, Methoden, Werkzeuge. Konstanz: Universitätsverlag Konstanz 1994, 13-31 09 Wardrip-Fruin, Noah: What Hypertext is? Proceedings of the 15th ACM Conference on Hypertext and Hypermedia, New York: ACM 2004, 126-127 10 Nelson, Theodor Holm: Back to the Future: Hypertext the Way it Used to be. Proceedings of the 18th ACM Conference on Hypertext and Hypermedia. New York: ACM 2007, 227-228 11 Nürnberg, Peter J.: What is Hypertext? Proceedings of the 14th ACM Conference on Hypertext and Hypermedia, New York: ACM 2003, 220-221 12 Landow George P.: Hypertext 3.0. Critical Theory and New Media in an Era of Globalization. Baltimore: The Johns Hopkins University Press 2006 13 Dalgaard, Rune: Hypertext and the Scholarly Archive: Intertexts, Paratexts and Metatexts at Work. Proceedings of the 12th ACM Conference on Hypertext and Hypermedia. New York: ACM 2001, 175-184 14 Genette, Gérard: Paratexte. Frankfurt am Main: Campus 1989 15 Moulthrop, Stuart: What the Geeks Know: Hypertext and the Problem of Literacy. Proceedings of the 16th ACM Conference on Hypertext and Hypermedia. New York: ACM 2005, 227-231 16 Nyce, James M.; Kahn, Paul: From Memex to Hypertext. San Diego: Academic Press 1991 17 Lunn, Darren; Bernstein, Mark; Marshall, Cathy; Matias, J. Nathan; Nyce, James M.; Tompa, Frank: Past
A 7: Hypertext
95
Visions of Hypertext and Their Influence on Us Today. Chignell, Toms (2010), 315 18 Nelson, Theodor Holm: Literary Machines, Sausalito: Mindful Press, 1987 19 Englebart, Douglas C.; English, William K.: A research center for augmenting human intellects. Greif, Irene (Hrsg.): Computer-supported cooperative work: a book of readings, 81-105. San Francisco: Morgan Kaufmann 1988 20 Yankelovich, Nicole; Haan, Bernard J.; Meyrowitz, Norman K.; Drucker, Steven M.: Intermedia: The Concept and the Construction of a Seamless Information environment.IEEE Computer, Bd. 21, Nr. 1, 1988, 81-96 21 Halasz, Frank G.: Reflections on NoteCards: Seven issues for the next generation of hypermedia systems. Communications of the ACM, Bd. 31, Nr. 7, 1988, 836-852 22 Taylor, Robert W.: In Memoriam J. C. R. Licklider. Digital Research Center 1990 (ftp://gatekeeper.research. compaq.com/pub/DEC/SRC/research-reports/SRC-061.pdf, zitiert am 14.10.2012) 23 Canter, David; Rivers, Rod; Storrs, Graham: Characterizing User Navigation through Complex Data Structures. Behaviour & Information Technology, Bd. 4, Nr. 2, 93-102, 1985 24 Gallinari, Pattrick; Bidel, Sylvain; Lemaoine, Laurent; Piat, Frédéric; Artières: Classification and Tracking of Hypermedia Navigation Patterns. Proceedings of the 2003 Joint International Conference of Artificial Neural Networks and Neural Information Processing. Berlin, Heidelberg: Springer 2003, 891-900 25 Beauvisage, Thomas: The Dynamics of Personal Terrritories on the Web. Proceedings of the 20th ACM Conference on Hypertext and Hypermedia. New York: ACM 2009, 25-34 26 Huang, Jeff; White, Ryen W.: Parallel Browsing Behavior on the Web. In Lit. 03, 13-17 27 Reich, Sigfried; Carr, Leslie; De Roure, David; Hall, Weny: Where have you been from here? Trails in Hypertext Systems. ACM Computing Surveys, Bd. 31, Nr. 4, 1999 28 Frisse, M.E.; Cousins. S.B.: Information retrieval from hypertext: Update on the Dynamic Medical Handbook Project. Proceedings of the 2nd ACM Conference on Hypertext. New York: ACM 1989, 199-212 29 Ding, Chris; He, Xiaofeng; Husbands, Parry; Zha, Hongyuan; Simon, Horst D.: PageRank, HITS and a Unified Framework for Link Analysis. Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM 2002, 353-354 30 Xavier Mendes, Maria Emilia; Hall, Wendy: Hyper-Authoring for Education: A Qualitative Evaluation. Computers & Education, Bd. 32, Nr. 1, 1999, 51-64 31 Smith Catlin, Karen; Garrett, L. Nancy: Hypermedia Templates: An Author’s Tool. Proceedings of the 3rd ACM Conference on Hypertext. New York: ACM 1991, 147-160 32 Marshall, Catherine C.; Halasz, Frank G.; Rogers, Russel A.; Jannssen, William C.: Aquanet: a Hypertext Tool to Hold Your Knowledge in Place. Proceedings of the 3rd ACM Conference on Hypertext. New York: ACM 1991, 261-265 33 Marshal, Catherine C.; Shipman, Frank M.: Spatial Hypertext: An Alternative to Navigational and Semantic Links. ACM Computing Surveys, Bd. 31, Nr.4, 1993, Beitrag Nr. 4 34 Bernstein, Mark: Patterns of Hypertext. Proceedings of the 9th ACM Conference on Hypertext and Hypermedia. New York: ACM 1998, 21-29 35 Aarseth, Espen: Nonlinearity and Literary Theory. George P. Landow (Hrsg.): Hyper/Text/Theory. Baltimore: The Johns Hopkins University Press, 1994, 51-86 36 Campbell, Brad; Goodman, Joseph M.: HAM: A general-purpose hypertext abstract machine. Communications of the ACM, Bd. 31, Nr. 7, 1988, 856-861 37 Halasz, Frank G.; Schwartz, Mayer; Grønbæk, Kaj; Trigg, Randall H.: The Dexter Hypertext Reference Model. Communications of the ACM, Bd. 37, Nr. 2, 1994, 30-39 38 Dodd, Robert: 20 Years On: The Dexter Model of Hypertext and its Impact on Web Accessibility. SIGACCESS Newsletter 2008, Nr. 90, 3-16 39 Grønbæk, Kaj; Trigg, Randall H.: Towards a Dexter-based Model for Open Hypermedia: Unifying Embedded References and Link Objects. Proceedings of the 7th ACM Conference on Hypertext, New York: ACM 1996, 149-160 40 Grønbæk, Kaj; Bouvin, Niels O.; Sloth, Lennert: Designing Dexter-based Hypermedia Services for the World Wide Web. Proceedings of the 8th ACM Conference on Hypertext. New York: ACM 1997, 146-156 41 Østerbye, Kasper; Wiil, Uffe K.: The Flag Taxonomy of Open Hypermedia Systems. Proceedings of the 7th
96
A 7: Rainer Hammwöhner
ACM Hypermedia Conference on Hypertext. New York: ACM 1996, 129-139 42 Goulding, James; Brailsford, Timothy; Ashman, Helen: Hyperorders and Transclusion: Understanding Dimensional Hypertext. In Lit. 03, 201-209 43 Østerbye, Kasper: Structural and Cognitive Problems in Providing Version Control for Hypertext. In Proceedings of the ECHT ’92 ACM Conference on Hypertext, New York, ACM 1992, 33-42 44 Zellweger, Polle T.: Scripted Documents. A Hypermedia Path Mechanism. Proceedings of the 2nd ACM Conference on Hypertext. New York: ACM 1989, 1-14 45 Bernstein, Mark: On Hypertext Narrative. Proceedings of the 20th ACM Conference on Hypertext and Hypermedia, New York: ACM 2009, 5-14 46 Pisarski, Mariusz: New Plots for Hypertext? Towards Poetics of a Hypertext Node. Paul De Bra, Kaj Grønbæk (2011), 313-317 47 Hargood, Charlie; Millard, David E.; Weal Mark J.: A Semiotic Approach for the Generation of Themed Photo Narratives. Chignell, Toms (2010), 19-28 48 Zsombori, Vilmos; Frantzis, Michael; Guimaraes, Rodrigo Laiola; Ursu, Marian F.; Cesar, Pablo; Kegel, Ian; Craigie, Roland; Bulterman, Dick C.A.: Automatic Generation of Video Narratives from Shared UGC. Paul De Bra, Kaj Grønbæk (2011), 325-334 49 Mancini, Clara; Shum, Simon B.: Cognitive Coherence Relations and Hypertext: From Cinematic Patterns to Scholarly Discourse. Proceedings of the 12th ACM Conference on Hypertext and Hypermedia. New York: ACM 2001, 165-174 50 Calvi, Licia: Hypertext and Comics: Towards an Aesthetics of Hypertext. Proceedings of the 12th ACM Conference on Hypertext and Hypermedia. New York: ACM 2001, 135-137 51 Tomás, Nuno; Guerreiro, Tiago; Jorge, Joaquim A. ; Gonçalves, Daniel: A Narrative-Based Alternative to Tagging. Chignell, Toms (2010), 189-193 52 Yamamoto, Yasuhiro; Nakakoji, Kumiyo; Nishinaka, Yoshiyoki; Asada, Mitsuhiro; Matsuda, Ryouichi: What is the Space for? The Role of Space in Authoring Hypertext Representations. Proceedings of the 16th ACM Conference on Hypertext and Hypermedia. New York: ACM 2005, 117-125 53 Francisco-Revilla, Luis; Shipman, Frank M.: Instructional Information in Adaptive Spatial Hypertext. Proceedings of the 2004 ACM Symposium on Document Engineering. New York: ACM 2004, 124-133 54 Wolff, Annika L.; Mulholland, Paul; Zdrahal, Zdenek: Visual Summaries of Data: A Spatial Hypertext Approach to User Feedback. Chignell, Toms (2010), 287-288 55 Buchanan, George; Blandford, Ann; Jones, Matt: Integrating Information Seeking and Structuring: Exploring the Role of Spatial Hypertext in a Digital Library. Proceedings of the 15th ACM Conference on Hypertext and Hypermedia, New York: ACM 2004, 225-234 56 Francisco-Revilla, Luis; Shipman, Frank M.: WARP: A Web-based Dynamic Spatial-Hypertext. Proceedings of the 15th ACM Conference on Hypertext and Hypermedia, New York: ACM 2004, 235-236 57 Brusilovsky, Peter: Methods and Techniques of Adaptive Hypermedia. User Modeling and User Adapted Interaction, Special Issue on Adaptive Hypertext and Hypermedia, Bd. 6, Nr 2-3, 1996, 87-129 58 Knutov, Evgeny; de Bra, Paul; Pechenizkiy, Mykola: AH 12 Year Later: A Comprehensive Survey of Adaptive Hypermedia Methods and Techniques. New Review of Hypermedia and Multimedia, Bd. 15, Nr. 1, 2009, 5-38 59 Smits, David; de Bra, Paul: GALE: A Highly Extensible Adaptive Hypermedia Engine. Paul De Bra, Kaj Grønbæk (2011), 63-72 60 Foss, Jonathan G. K.; Christea, Alexandra I.: The Next Generation Authoring Adaptive Hypermedia: Using and Evaluating the MOT3.0 and PEAL Tools. In Lit. 03, 83-92 61 Knutov, Evgeny; de Bra, Paul; Pechenitzkiy, Mykola: Provenence Meets Adaptive Hypertext. In Lit. 03, 93-97 62 Ramos, Vinicius F.C.; de Bra, Paul: The Influence of Adaption on Hypertext Structures and Navigation. Lit. 03, 77-81 63 Hannon, John; Knutov, Evgeny; de Bra, Paul; Pechenitzkiy, Mukola; Smyth, Barry; Mccarthy, Kevin: Bridging Recommendation and Adaption: Generic Adaption Framework – Twittomender Compliance Case-Study. Proceedings of the 2nd International Workshop on Dynamic and Adaptive Hypertext. 2011 64 http://www.win.tue.nl/~eknutov/dah11/programme.html. 65 Chignell, Mark; Brusilovsky, Peter: Szigeti, Steve; Toms, Elaine: Evaluating Hypertext: The QualitativeQuantitative Quandary. In Lit. 03, 211
Christa Womser-Hacker, Thomas Mandl
A 8 Information Seeking Behaviour (ISB) Die Vielzahl der Publikationen zeigt, dass Information Seeking Behaviour (dt. Informationssuchverhalten) seit Beginn der informationswissenschaftlichen Forschung als relevantes Thema angesehen wird (Lit. 12). ISB versteht sich als Unterkategorie von Information Behaviour (dt. Informationsverhalten), das jegliches Verhalten mit Bezug zu Wissen und Information umfasst (z. B. auch negatives Informationsverhalten wie Informationsvermeidung). ISB hingegen meint meist einen bewussten Prozess, um sich aufgrund einer festgestellten Wissenslücke die notwendige Information zu beschaffen (Lit. 04). Aber nicht nur aktives Suchen mit entsprechenden Suchanfragen wird darunter gefasst, auch passives Verhalten ohne zielgerichtete Suchintention kann darunter subsumiert werden. „The term 'information seeking' occurred in the literature as a short form for information need, seeking and use.“ (Lit. 33, S. 16) Die Forschung zu ISB verfolgt verschiedene Ziele: Natürlich geht es zunächst darum, den Benutzer und sein Verhalten zu verstehen und zu beschreiben, aber auch als praktisches Ziel, die Systeme und Services daran auszurichten und zu verbessern. Ein wichtiger Aspekt besteht in der Entwicklung und Validierung geeigneter Methoden für diese Forschungsrichtung.
A 8.1 Kurzer historischer Abriss Zu Beginn der Auseinandersetzung mit ISB richtete sich der Fokus häufig auf das ISB von Wissenschaftlerinnen/Wissenschaftlern und Studierenden unter Nutzung von Bibliotheken. Weiterhin interessierte man sich für bestimmte Aktivitäten bei der Informationssuche z. B. die Relevanzbewertung oder die Beurteilung von Information, die Kriterien zur Auswahl von Dokumenten, die Selektion und Nutzung von Informationsquellen oder generell die verwendeten Suchstrategien und deren Performanz. Oftmals steht auch die Interaktion zwischen Menschen und Maschinen oder Systemen im Vordergrund. 1996 fand in Finnland die erste Internationale Konferenz zu Information Seeking in Context (ISIC) statt. Später geraten die Information Needs in die Diskussion, die Information Seeking auslösen, um eine Wissenslücke zu schließen (Lit. 04). Während zu Beginn der Benutzer eher als passiver Rezipient angesehen wird, verschiebt sich das Interesse zunehmend auf den Benutzer als Akteur sowie darauf, den Benutzer in seinen zielgerichteten, informationellen Handlungen zu verstehen (Lit. 24). Auch wird die Verschiedenheit der Akteure berücksichtigt, die Information generieren, bearbeiten, vermitteln, suchen, verwenden etc. Die Breite des Verständnisses von ISB zeigt sich auch in den verschiedenen Szenarien. So kann Information über verschiedene Quellen und Kanäle erlangt werden: –– Face-to-face Kommunikation –– Nutzung von Bibliotheken –– Nutzung von Informationssystemen –– Surfen/Browsing im Internet –– Mobile Nutzer und mobile Systeme Wilson (Lit. 35) argumentiert, dass ein „total view of the information user“ schwierig ist und jegliche partielle Blickwinkel genaue Definitionen der jeweiligen Ausschnitte erfordern. Insgesamt führt diese Breite der thematischen Ausrichtung von ISB zu verschiedenen Modellen und verschiedenen methodischen Herangehensweisen, die im Folgenden beleuchtet werden sollen.
98
A 8: Christa Womser-Hacker, Thomas Mandl
A 8.2 Methoden Bei der Analyse des Informationssuchverhaltens stehen seit den 1980er Jahren qualitative Methoden im Vordergrund, da quantitative oder gar prüfstatistische Methoden (Formulierung und Testen von Hypothesen) aufgrund der Komplexität und Heterogenität des Forschungsfeldes sowie der Datenlage oft nicht adäquat eingesetzt werden können. Die zählbaren Fakten wie Bibliotheksbesuche, Anzahl der ausgeliehenen Bücher, Anzahl der relevanten Treffer, Dauer der Auseinandersetzung mit Dokumenten etc. konnten nur wenig Aufschluss über das eigentliche ISB geben. Am häufigsten finden sich sozialwissenschaftliche Datenerhebungen, die allerdings nicht ohne Kritik geblieben sind (Lit. 35), weil sie die theoretischen Grundlagen vermissen lassen. Auch Mischmethoden aus qualitativer und quantitativer Betrachtung finden immer mehr Anwendung und etablieren sich immer mehr als Ansätze, die synergetisch ineinandergreifen und voneinander profitieren. Bei der Datensammlung werden Beobachtung (in der natürlichen Umgebung oder im Labor), Fragebogen, Interview, Selbstbeobachtung (z. B. mittels Tagebuch), Dokumentenanalyse (z. B. web logs, transaction protocols) eingesetzt. Labortests ermöglichen die Kontrolle der Variablen. Es müssen allerdings Abstriche in Bezug auf die Natürlichkeit gemacht werden. Durch die Kontrolle kann die Komplexität reduziert und der Fokus auf bestimmte Elemente gelegt werden. Es bleiben jedoch Fragen, z. B. ob die Ergebnisse tatsächlich auf die reale Situation übertragbar sind oder ob durch die Komplexitätsreduktion eine gewisse Verfälschung eingetreten ist. Finden die Tests z. B. am Arbeitsplatz der Testpersonen statt, müssen Unterbrechungen (z. B. durch Telefon, Besuche etc.) hingenommen werden, die nichts mit dem Untersuchungsgegenstand zu tun haben. Auch ist die Vergleichbarkeit eingeschränkt, wenn die Testpersonen ihren eigenen Suchaufgaben nachgehen. Derartige Tests liegen jedoch recht nah an der Realität. Die Entscheidung, welches Verfahren geeignet ist, ist von vielen Faktoren abhängig und muss für jedes Projektvorhaben eigens getroffen werden. Interviews können nur in Bezug auf die vorgegebenen Ziele genutzt werden. Sie können lediglich über ihre Struktur und die Fragen kontrolliert werden. Bei Selbsteinschätzungen der Testpersonen ist zu beachten, dass ein hohes Maß an Subjektivität vorliegt. Für weitere Details bzgl. der Methoden Lit. 10. Bei all diesen Ansätzen gilt es, das Handeln der Testpersonen sowie deren Kontext in den Vordergrund zu stellen. Beobachter und Testleiter müssen in den Hintergrund treten, um keine Verfälschungen zuzulassen (Shadowing Verfahren). Oft eignen sich Video- oder Audioaufzeichnungen nicht, da die Testpersonen ihren Standort wechseln oder die Gesamtsituation zu sensibel ist, um nach außen getragen zu werden (z. B. in kundenorientierten Bereichen wie Unternehmensberatungen oder Call Centres). Oftmals werden verschiedene Feedback-Methoden eingesetzt, um die Ergebnisse an die Beteiligten zurückzuspielen, zum einen, um das korrekte Verständnis zu garantieren und zum anderen, darüber zu diskutieren, woraus z. B. in Organisationen wiederum Aktionspläne entwickelt werden können. Hier zeichnen sich oftmals Einschränkungen bedingt durch die Anwendungsbereiche ab, die z. B. zu sensibel sind, um eine längerfristige Beobachtung zuzulassen oder eine längere zeitliche Mitwirkung nicht ermöglichen können. Wichtig ist bei gemischten Methoden die Zusammenführung und Evaluierung aller erhobenen Daten (Lit. 13). Beobachtungen beschränken sich i. d. R. auf kleinere Gruppen, während Befragungen (faceto-face, per Telefon oder online) umfangreichere Gruppengrößen umfassen können. Beispielstudien untersuchen das ISB bestimmter Gruppen z. B. von Sozialwissenschaftlern (Lit. 23). Auch Fokusgruppen kommen zum Einsatz sowie Methoden, auf der Basis sog. critical incidents spezifische Problemsituationen zu diskutieren. Mehrfach wurden auch sog. Delphi-Studien durchgeführt, bei der eine Expertengruppe in mehreren Runden zu einem gewissen Konsens bzgl. einer Fragestellung kommt. Wilson führt in vielen seiner Publikationen die aus der Organisationsentwicklung stammende action research (basierend auf Clark, Lit. 06) mit ISB zusammen, die Informationsarbeit zu den Organisationen, in welchen sie durchgeführt wird, und ihrer praktischen Anwendung in Relation
A 8: Information Seeking Behaviour (ISB)
99
setzt. Er zeigt damit einen Weg auf, wie Änderungen in der Informationsarbeit (R&D-Projekte in Organisationen) analysiert und bzgl. ihres Nutzens eingeschätzt werden können. Dabei werden die folgenden vier Variablen als zentral erachtet: die Struktur der Organisation, die genutzte Technologie, die zur Erfüllung der Aufgaben von den Menschen eingesetzt wird (Lit. 35). Jeder Wandel innerhalb einer Variablen zieht weitere Änderungen nach sich und eröffnet Möglichkeiten der action research. Die Nutzer werden als zentrale Elemente dieser vernetzten Struktur angesehen, wobei Verhandlungen zwischen ihnen die Sensibilität für die Probleme herstellen. Wilson (Lit. 35, Fig. 5) hat einen Kreislauf eingeführt, der auch mehrfach durchlaufen werden kann. Insgesamt zeigt sich bei den Methoden ein hoher Anteil empiriegeleiteter Methoden sowie die Dominanz des kognitivistisch-orientierten Ansatzes, bei dem das Handeln auf der Basis von Information – primär getragen von den Bedürfnissen und Motiven – im Vordergrund steht. Ganz aktuell sind ethnologische Feldforschungsmethoden, die ein intensives „Eintauchen“ in das jeweilige soziale und kulturelle Umfeld der Informationsarbeit vorsehen (Lit. 28, Lit. 27).
A 8.3 Modelle des ISB Eines der Ziele bei der Erhebung von ISB ist es, daraus Modelle des Informationssuchverhaltens abzuleiten, die den Problemzusammenhang beschreiben (meist auch visualisieren) und Ursachen und Konsequenzen von Aktivitäten und Zuständen in vereinfachter Form und in Relation darstellen. Als Ausgangspunkt für die Modellierung von ISB sind die Arbeiten in Lit. 07, Lit. 08, Lit. 19 u. a. zu sehen und Fisher et al. (Lit. 11) haben in mehr als 70 kurzen Kapiteln Theorien, Modelle und Hypothesen zusammengetragen Die hier getroffene Auswahl an Modellen kann nicht vollständig sein und wird sich auf grundlegende beschränken. Insgesamt zeigt sich, dass es zwischen den vorhandenen Modellen wenig Konflikte gibt, sondern dass jeweils unterschiedliche Teilbereiche betont und Details ausgearbeitet werden. Auch haben die Autoren ihre Modelle im Laufe der Zeit mehrfach weiterentwickelt oder die Modelle wurden von anderen Autoren aufgegriffen und erweitert. Wilsons Nested Model von 1999 ordnet ISB in den Kontext ein und stellt die Bezüge zu dem weiteren Bereich des Information Behaviour und dem engeren Information Search Behaviour her. Es soll hier an den Anfang gestellt werden, da es die Position von ISB sowie die Bezüge innerhalb der Terminologie verdeutlicht.
Information Behaviour
Information Seeking Behaviour
Information Search Behaviour
Abb. 1: Wilsons Nested Model (Lit. 34, S. 263)
100
A 8: Christa Womser-Hacker, Thomas Mandl
Wilsons Modell von 1981 ist mehr als zyklischer Ablauf von Information Seeking denn als Modell zu sehen. Ausgehend vom Informationsbedarf führt der Benutzer unter Nutzung verschiedener Hilfsmittel Handlungen durch, um Information zu finden, die von Erfolg gekrönt sein können oder nicht. Im positiven Fall kann das Problem gelöst werden, im negativen werden weitere Zyklen durchlaufen. Durch einen Austausch von Information können mehrere Personen in diesen Prozess involviert sein. Information User Satisfaction or Non-satisfaction
„Need“
Information Use
Information-seeking Behaviour
Demands on other Information Systems
Information Exchange
Demands on other Information Sources Other People
Success
Failure
Information Transfer Abb. 2: Wilsons Model of information behaviour (Lit. 34, S. 251)
Das Modell ähnelt Dervins Sense-making Modell aus dem Jahr 1998, das von einem situationsgebundenen Informationsbedarf ausgeht. Der Informationssuchende „spürt“ die Wissenslücke und identifiziert ein Informationsbedürfnis. „The need must be filled by something called information that makes sense to the person in order to bridge the gap. The individual searching for information makes sense of the current situation, and moves toward the goal.“ (Lit. 33, S. 17f)
Eine Auffächerung der Bedarfe (needs) in physiologische, kognitive und affektive findet sich in Wilsons zweitem Modell aus dem Jahr 1981, das auch den Kontext in Form der persönlichen Eigenschaften, der Rolle, der Aufgabe des Informationssuchenden sowie mögliche damit verbundene Barrieren mit einbezieht (Lit. 34, S. 252). Dieses Modell nimmt direkten Bezug auf Ellis‘ empiriebasiertes Modell aus dem Jahr 1989 (Lit. 08), in dem die verschiedenen Teilbereiche von ISB beschrieben werden. Ellis‘ Modell bleibt auf einem statischen Level. Es werden weder Zusammenhänge zwischen den Phasen formuliert, noch nimmt er hier eine explizite sukzessive Anordnung vor. Folgende Merkmale des ISB sowie deren Definitionen werden angeführt: –– Starting: Aktivitäten, die am Anfang der Informationssuche stehen (Auswahl von Quellen, Befragung von Kollegen, Sichtung der eigenen Dokumente und Materialien etc.) –– Chaining: Bezüge zwischen Informationseinheiten werden in verschiedenen Richtungen ausgewertet und vernetzt (z. B. durch Analyse der Zitationen oder anderer Formen von Referenz)
–– –– –– –– –– ––
A 8: Information Seeking Behaviour (ISB)
101
Browsing: Browsen in potentiell interessanten Bereichen (z. B. auf der Basis bereits gefundener Dokumente und Informationsquellen), Verfolgung von Inhaltsverzeichnissen, Titeln und Überschriften, Namen von einschlägigen Autoren etc. Differentiating: Unterschiede innerhalb des Materials werden zur Beurteilung und Filterung von Informationseinheiten herangezogen (z. B. nach ihrer Art, Wichtigkeit, Qualität, Aktualität, Brauchbarkeit etc.) Monitoring: Aufmerksamkeit für aktuelle Entwicklungen und Veränderungen auf einem Forschungsgebiet, um sich immer auf dem neuesten Stand zu halten Extracting: Identifizierung der relevanten Informationseinheiten, systematisches Bearbeiten durch den Benutzer und Einbindung in das vorhandene Wissen Verifying: Überprüfung der Informationseinheiten in Bezug auf ihre Korrektheit und Zuverlässigkeit Ending: Abschluss der Suche und Zusammenführung der Information
Wilson modifiziert das Modell in Richtung eines Prozessmodells und ordnet die einzelnen Schritte in ihrer wahrscheinlichsten Abfolge an (Lit. 34, S. 255). Er zeichnet durch die Beschreibung der unterschiedlichen Aktivitäten, die Wissenschaftler durchführen, um Information zu generieren, ein detailliertes Bild des taskbasierten Information Seeking, welches die kognitive Perspektive stark mit geprägt hat. Anzumerken ist, dass das Modell in starkem Maße auf elektronische IR-Systeme ausgerichtet ist, so dass die Bedeutung anderer möglicherweise relevanter Informationsquellen unberücksichtigt bleibt. Ebenso wie das Modell von Ellis basiert auch das Information Search Process Model (ISP) von Kuhlthau aus dem Jahr 1991 (Lit. 19) auf vielen Benutzerstudien (z. T. auch Langzeitstudien), anhand derer ihr Modell angewendet und verifiziert wurde. Kuhlthau schlägt ähnliche Elemente wie Ellis – allerdings als Zustände – vor und fügt diesen weitere Ebenen hinzu: die Gefühle, die Gedanken und die Handlungen:
Stages in ISP
Feelings Common to Each Stage
Thoughts Common to Each Stage
Actions Common to Each Stage
1. Initiation
Uncertainty
General/ Vague
Seeking Background Information
2. Selection
Optimism
3. Exploration
Confusion/ Frustration/ Doubt
4. Formulation
Clarity
Narrowed/ Clearer
5. Collection
Sense of Direction/ Confidene
Increased Interest
6. Presentation
Relief/ Satisfaction or Dissapointment
Clearer or Focused
Appropriate Task According to Kuhlthau Model Recognize Identify
Seeking Relevant Information
Investigate Formulate
Seeking Relevant or Focused Information
Gather Complete
Tab. 1: Kuhlthau-Modell des Information Search Process (Lit. 19, S. 367)
Zentral für Kuhlthaus Modell (Lit. 19) ist die Integration einer emotionalen Ebene, die zeigt, dass ISB im Spannungsfeld zwischen benötigter Information und Unsicherheit Gefühle wie Zufriedenheit, aber auch Frustration, Zweifel oder Verwirrung hervorrufen kann. Folgende Stadien werden in Kuhlthaus Modell differenziert:
102 –– –– –– –– –– ––
A 8: Christa Womser-Hacker, Thomas Mandl
Initation: Anfang eines Informationsprozesses, bei welchem sich der Handelnde einer Wissenslücke oder eines Verständnisproblems bewusst wird und dadurch Unsicherheit auftritt Selection: Identifizierung und Auswahl des Untersuchungsbereichs, Versuch, die Unsicherheit zu reduzieren Exploration: Gefühle der Verwirrtheit und Unsicherheit können auftreten, bedingt durch die vielen neuen Wissensbestandteile, das eigene Wissen sowie die schwierige Verknüpfung Formulation: Sog. „Turning Point“, aus der bestehenden Übersicht wird ein Fokus ausgewählt, wobei die Unsicherheit einem Gefühl der Zuversicht weicht Collection: Die Suche wird abgeschlossen und die Information, die für den Untersuchungsgegenstand relevant ist, geordnet Presentation und Assessment: Zusammenfassung der Suche, Nutzung der gesammelten Information, die Bewertung des erreichten Ergebnisses
Kuhlthaus Modell setzt den Fokus – wie oben erwähnt – auf die affektiven Komponenten des Information Seeking und legt Aktivitäten und Stufen des Informationssuchprozesses dar. Das Modell gibt zwar auf der einen Seite einen tiefen Einblick in die Emotionen, die beim Suchenden auftreten können, auf der anderen Seite werden Informationsquellen, Aufgaben sowie der weiterführende Kontext weitgehend ausgeblendet. Marchionini (Lit. 21) untersucht das Informationssuchverhalten speziell in elektronischen Umgebungen und entwickelt daraus sein Modell, das auf die Subprozesse des Information Seeking ausgerichtet ist.
Recognize Accept
Define Problem
Select Source
Formulate Query
Execute Query
Examine Results
Extract Info
Reflect Stop
Default Transitions High Probability Transitions Low Probability Transitions
Abb. 3: Subprozesse des Information Seeking (Lit. 21, S. 50)
Die einzelnen Schritte weisen starke Überschneidungen mit den vorher dargestellten Modellen auf; interessant ist die Durchbrechung der statischen Anordnung. Manche Phasen (z. B. die define problem Phase) können während des gesamten Information Seeking Prozesses aktiv bleiben und parallel zu anderen Phasen ablaufen. Als Konsequenz aus seinen Untersuchungen zum Suchverhalten mündet Marchioninis Forschung in die Entwicklung interaktiver Systeme, welche das menschliche Verhalten berücksichtigen und den Zugang zu elektronischen Informationssystemen unterstützen. Abschließend soll auf die Erweiterung des Wilsonschen Modells eingegangen werden, das Anleihen aus verschiedenen Disziplinen (Stress/Coping Theory, Risk/Reward Theory) nimmt:
A 8: Information Seeking Behaviour (ISB)
Context of information need
Activating mechanism
Person-incontext
Stress/coping theory
Intervening variables
Psychological
Activating mechanism
Risk/Reward theory
Demographic Role-related or interpersonal Environmental Source characteristics
Social learning theory Selfefficacy
103
Information seeking behaviour Passive attention Passive search Active search Ongoing search
Information processing and use Abb. 4: Wilsons Modell aus dem Jahr 1996 (Lit. 19, S. 367, Lit. 34, S. 257)
Hier bilden der Informationsnutzer und sein Kontext des Informationsbedürfnisses die Schlüsselelemente, die als Ausgangspunkt dienen. Die informationshandelnde Person steht in einem Kontext und wird von verschiedenen Aktivierungsmechanismen und Variablen beeinflusst, die ihr Informationsverhalten steuern. Neben den hier dargestellten Modellen zum Information Seeking existieren noch weitere, die sich auf bestimmte Facetten spezialisieren oder näher an der Forschung zum interaktiven Information Retrieval liegen. Hervorzuheben sind die Modelle von Byström und Järvelin (Lit. 02), von Leckie et al. (Lit. 20), von Saracevic (Lit. 26) und Vakkari (Lit. 32).
A 8.4 Aktuelle Forschungsbereiche Aufsetzend auf den Modellen des ISB zeichnen sich in letzter Zeit verschiedene Perspektiven und Forschungsbereiche ab, die hier kurz angesprochen werden sollen, aber auch nur als Auswahl gelten. A 8.4.1 Kontext und Aufgabenbezug Die Analyse des ISB wird im Laufe der Zeit immer stärker kontextualisiert. Die Einflüsse externer und interner Bezüge, in die Individuen bei ihrem Informationshandeln eingebunden sind, werden zum Gegenstand der Forschung. Nach Ingwersen & Järvelin (Lit 17, S. 260f) wird diese Beeinflussung als organisatorischer, sozialer und kultureller Kontext spezifiziert. Ersterer umfasst u. a. den Rahmen mit seinen Vorgaben und Einschränkungen, die z. B. durch die Einbindung in ein Unternehmen oder eine Organisation oder durch spezielle Verpflichtungen eine Informationssuche ein-
104
A 8: Christa Womser-Hacker, Thomas Mandl
leiten oder begleiten können. Interaktionen mit Personen aus dem gesellschaftlichen Umfeld können ebenfalls Work Tasks initiieren oder bei der Bewältigung helfen. Ingwersen und Järvelin führen außerdem den durch beteiligte Systeme gegebenen Kontext an, der sich bspw. durch deren Gestaltung oder durch etwaige Regelungen bzgl. des Zugriffs oder in der Verfügbarkeit und Komplexität zeigt (Lit. 17, S. 274ff). Auch hinsichtlich der materiellen Ressourcen kann der jeweilige Kontext wirksam werden, wenn z. B. eine bestimmte Zeitspanne oder auch bestimmte monetäre Ressourcen zur Verfügung stehen. Pharo (Lit. 25) stellt ein Framework vor, das die wesentlichen Faktoren in Relation setzt. Diese sind der Informationssuchende, seine Umgebung, die generelle und spezifische Aufgabe (work task) sowie Faktoren, die sich aus der Mensch-Maschine-Interaktion ergeben. Zentral innerhalb des Kontexts ist die Aufgabe, die das Informationsbedürfnis auslöst und sich für den Informationssuchenden in Zusammenhang seiner Berufstätigkeit, Freizeitaktivität oder einem alltäglichen Interesse ergibt. Reicht das vorhandene Wissen zur Bewältigung der Aufgabe nicht aus, entsteht das Bewusstsein (State of Uncertainty) einer Wissenslücke zwischen vorhandenem und notwendigem Wissen (Lit. 17, S. 391). Die Reaktion auf dieses identifizierte Informationsbedürfnis ist, nach Information zu suchen. Byström (Lit. 03) hat die Rolle der Aufgaben eingehend analysiert und als tragfähiges Konzept innerhalb von Informationsstudien formuliert. Sie kommt zu dem Schluss, dass Aufgaben multidimensionale Konstrukte sind, die sowohl für theoretische als auch empirische Forschungsperspektiven von Relevanz sind. Neben der Forderung nach Einbeziehung des generellen Kontexts gibt es Ansätze, den Einfluss verschiedener Faktoren auf das Informationsverhalten zu überprüfen. Heinström (Lit. 15) fokussiert auf die Rolle von Persönlichkeitsfaktoren und Lernstilen. Anhand des Five Factor Model nach McCrae & Costa (Lit. 22) nimmt sie eine Kategorisierung vor. Sie kommt zu dem Ergebnis, dass im Wesentlichen drei unterschiedliche Muster von Informationsverhalten existieren und benennt diese mit Fast surfers, Broad scanners und Deep divers. „The fast surfers skim the surface of the information wave, wanting information easily. Among these also a surface approach to studying is more common. Lack of motivation or real interest seems to be related to this approach, and problems with relevance judgement and time pressure are perceived more often. The Broad scanners are open to new information, extravert and spontaneous but also competitive in their orientation. This also increases the probability of accidental information discovery. The Broad scanners were oriented towards seeking activity but less oriented to depth in the information content. The third category the Deep divers had an opposite attitude to the fast surfers. They dive deeply into the information flow and go for depth and quality in choosing information sources. This approach to information seeking and use was also related to a deep study approach“. (Höglund, Lit. 16) A 8.4.2 Spezifische Benutzergruppen Die meisten ab 1980 durchgeführten Studien befassen sich generell mit dem Informationssuchverhalten und beziehen als Probanden Wissenschaftler und Wissenschaftlerinnen sowie Studenten und Studentinnen ein, die auf ihrem Qualifikationsweg intensiv mit Wissen und Information in Berührung kommen und bei der Erfüllung ihrer Aufgaben permanent Informationsprozesse durchlaufen. In Zuge der Differenzierung finden weiterführende Kategorisierungen der Nutzer statt und es werden andere Benutzergruppen hinzugezogen. Eine wichtige Auffächerung findet durch die jeweilige Profession oder Disziplin statt. So haben Ellis et al. 1993 (Lit. 09) das Informationsverhalten von Physikern und Sozialwissenschaftlern und Leckie et al. 1996 (Lit. 20) von Ingenieuren, im Gesundheitsbereich tätigen Personen und Anwälten untersucht. Krampen et al. (Lit. 18) führten eine empirische Analyse des Informationsverhaltens von Psychologen durch. In Becks et al. (Lit. 01) und Hansen (Lit. 14) wurden Patentspezialisten bei verschiedenen patentspezifischen Aufgaben bzgl. ihres Umgangs mit Patentinformation untersucht.
A 8: Information Seeking Behaviour (ISB)
105
Methodisch zeigen sich auch hier vielfältige Unterschiede. Während z. B. Krampen et al. (Lit. 18) in einer Online-Umfrage ca. 300 wissenschaftliche Psychologen befragen und dabei neben demographischen Fragen vor allem auf das Informationssuchverhalten bei verschiedenen Projektaufgaben fokussieren, setzen frühere Studien einfachere Befragungstechniken ein. Studien mit Patentexperten setzen auf Beobachtung und Interviews. Die Auswertung erfolgt in der Studie des Leibniz-Instituts für Psychologische Information gemäß eines psychologisch-prüfstatistischen Methodeninventars. Während sich in früheren Studien nur geringe Unterschiede zwischen verschiedenen Disziplinen zeigten, ändert sich die Situation mit der zunehmenden Digitalisierung von wissenschaftlicher Information, der Vielschichtigkeit der Quellen und materiellen Ressourcen. Insgesamt lässt sich aktuell feststellen, dass die Professionszugehörigkeit ein wesentlicher Faktor für die Ausprägung des Informationssuchverhaltens ist und unbedingt einbezogen werden muss. „The (one and only) professional information-seeking behaviour […] does not exist at all. Instead, the facet of information-seeking and -processing behaviour under study must be specifically defined“. (Lit. 18, S. 449) Görtz (Lit. 13) hat eine Studie vorgelegt, in der das ISB von Berufseinsteigern in der Unternehmensberatungsbranche untersucht wird. Eine besondere Rolle dabei spielt Social Software und es wurde der Frage nachgegangen, wie sich diese Dienste in wissensintensiven Bereichen etablieren und ob sie als Ressource für berufsbezogene Information eingesetzt werden. Als Ergebnis konnte gezeigt werden, dass sich derzeit traditionelle Wissensquellen im professionellen Umfeld meist größerer Beliebtheit erfreuen als z. B. unternehmensinterne soziale Plattformen. Obwohl eine intensive Nutzung in privaten Kontexten sichtbar ist, müssen die Sozialen Netzwerke noch gewisse Anpassungen erfahren, um stärkere Relevanz bei der professionellen Informationssuche zu erlangen. Eine weitere Differenzierung innerhalb der Benutzer hat sich durch die Generationszugehörigkeit ergeben. Als zwei Pole haben einerseits Kinder das Interesse auf sich gezogen, wobei verschiedene Altersstufen untersucht wurden. Spink et al. (Lit. 30) führten eine explorative Studie durch, bei der Kinder vor dem Schulalter bei der Websuche untersucht wurden. Andererseits erfuhr mittlerweile auch die Generation der sich im Rentenalter befindlichen Personen intensive Beachtung, die die Gemeinsamkeit verbindet, dass sie nicht in der digitalen Welt aufgewachsen sind. Den Umgang mit Computer und Internet haben sie maßgeblich über deren Verwendung im Berufsleben erlernt. Obwohl die Aufgaben der beruflichen Tätigkeit nicht mehr anfallen, können neue und anders gelagerte Aufgaben bspw. durch familiäres oder ehrenamtliches Engagement entstehen. Verschiedene Studien (dargestellt in Lit. 05) zeigen auf, mit welchen Themen sich diese Personengruppe in erster Linie befasst und welche Faktoren das Informationssuchverhalten beeinflussen. Die meisten Informationsprobleme dieser Altersgruppe werden durch Themen wie Gesundheit, Finanzen, altersgerechtes Wohnen etc. ausgelöst. Da die aus dem Berufsleben gewohnten Strategien zur Begegnung von Informationsunsicherheit nur noch bedingt funktionieren, müssen die Methoden des Informationssuchverhaltens im neuen sozialen Kontext angepasst und z. T. neu erlernt werden. Die Gründe für die geringe Nutzung von Online-Angeboten liegen oft in der nicht auf die Belange dieser Personengruppe adaptierten Präsentationsformen. A 8.4.3 Collaborative Information Seeking Behaviour In den letzten Jahren hat sich in der Forschung zum ISB ein neuer Bereich etabliert, der starkes Interesse auf sich gezogen hat, das kollaborative Information Seeking. Obwohl eine einheitliche Definition noch fehlt, gibt es Versuche, kollaboratives Informationssuchverhalten einzugrenzen. Bei Foster (Lit. 36, S. 329) findet sich folgende Definition: „The study of the systems and practices that enables individuals to collaborate during the seeking, searching, and retrieval of information.“
106
A 8: Christa Womser-Hacker, Thomas Mandl
Diese sehr auf Systeme und Praktiken fokussierende Definition wird von Poltrock et al. (Lit. 38, S. 239) auf ein gemeinsames Informationsbedürfnis bezogen: „The activities that a group or team of people untertakes to identify and resolve a shared information need“. Auch hier ist die Modellierung des Informationsverhaltens wichtig, wobei oftmals die o. g. Modelle als Ausgangspunkt dienen. Bei den Erweiterungen, die diese Modelle hinsichtlich der Kollaboration erfahren, findet man singuläre und kollaborative Aktivitäten nebeneinander. Bei dem Modell von Hyldegard (Lit. 37) gehören z. B. die anfänglichen Schritte der Topic Selection und der Task Initiation eher zu den Gruppenaufgaben, während die Exploration des vorläufigen Fokus Aufgabe des Einzelnen ist. Shah (Lit. 29) entwickelte 2008 das sog. Four Layer Model des kollaborativen Information Seeking, das sich auf zwei Nutzer bezieht. Sie verfügen in dem Modell über individuelle und gemeinsame Bereiche, die sie über kollaborative Werkzeuge austauschen können. Layer-1: Sources
Layer-2: Tools
Collection
Collection
Search Services
Collection
Search Services Collaborative tools
Layer-3: User
Layer-4: Results
Results
Common Results
Results
Abb. 5: Four Layer Model (Shah, Lit. 29, S. 4)
Verschiedene Autoren haben sich mit dem Ansatz von Shah auseinandergesetzt und Problembereiche identifiziert, die intensiverer wissenschaftlicher Auseinandersetzung bedürfen. So erwies sich z. B. der Übergang auf größere Gruppen als nicht so einfach zu bewerkstelligen. Die Heterogenität von Nutzern und die Komplexität von Aufgaben und deren Verteilung stellt sowohl in Bezug auf die Organisation der Kollaboration als auch die Einlösung des Informationsbedürfnisses eine große Herausforderung dar. Ein Schwerpunkt hat sich in der Entwicklung verschiedener Werkzeuge und Systemprototypen ergeben, die der Unterstützung von kollaborativer Informationssuche dienen sollen.
A 8.5 Fazit Die Literatur zu Information (Seeking) Behaviour ist immens und umfasst viele verschiedene Gebiete, die hier nur kurz angerissen werden können. Der Bogen spannt sich von der Analyse und Repräsentation von Informationsbedürfnissen, über die Varianten des Suchens („information seeking, looking for information, searching information retrieval systems, browsing information re-
A 8: Information Seeking Behaviour (ISB)
107
sources, finding information“, Lit. 33, S. 15) bis hin zur Nutzung, Teilung und dem Transfer von Information. Themen wie persönliche Informationsstrategien, die Zufälligkeit von Information, Informationsvermeidung sowie der individuelle Umgang mit Information vor dem Hintergrund spezifischer Aufgaben und Kulturen sind von hoher Aktualität. Die Auseinandersetzung von Information Seeking Behaviour bezog sich in letzter Zeit auf den singulären, individuellen Suchprozess. Neuere Ansätze beziehen die Kollaboration von Menschen ein, die ein geteiltes Informationsbedürfnis befriedigen wollen (Collaborative Information Seeking, Lit. 29).
Literatur 01 Becks, D.; Görtz, M.; Womser-Hacker, C.: Understanding Information Seeking in the Patent Domain and its Impact on the Interface Design of IR Systems. Proceedings of the HCIR 2010 Workshop in Conjunction with IIiX 2010, 22 Aug 2010, New Brunswick, NJ. S. 2011, 2010 02 Byström, K.; Järvelin, K.: Task complexity affects information seeking and use. Information Processing and Management, Vol. 31, No. 2, 191-213, 1995 03 Byström, K.: Approaches to „task“ in contemporary information studies. Information Research, 12 (4), October 2007 04 Case, D.O.: Looking for information: a survey on information seeking, needs and behaviour. San Diego: Academic Press, 2002 05 Case, D.O: Collection of family health histories: The link between genealogy and public health. JASIST, Vol. 59, No. 14, 2312-2319, 2008 06 Clark, P.A.: Action research and organizational change. London: Harper & Row, 1972 07 Dervin, B.: Sense-making theory and practice: an overview of user interests in knowledge seeking and use. Journal of Knowledge Management, Vol. 2 Iss: 2, 36-46, 1998 08 Ellis, D.A.: A behavioural approach to information retrieval design. Journal of Documentation, Vol. 45, No. 3, 171-212, 1989 09 Ellis, D.; Cox, D.; Hall, K.A.: A comparison of the information seeking patterns of researchers in the physical and social sciences. Journal of Documentation, Vol. 49, No. 4, 356-369, 1993 10 Fidel, R.: Approaches to investigating information interaction and behavior. Ruthven, I., Kelly, D. (Eds.) (2011), Interactive Information Seeking, Behaviour and Retrieval. London: Facet Publishing, 61-75, 2011 11 Fisher, K.E.; Erdelez, S.; Mc Kechnie, L. (Eds.): Theories of Information Behavior. Medford, NJ, USA: InformationToday, 2005 12 Ford, G. (Ed.): User studies: an introductory guide and bibliography. Sheffield: Centre for Research on User Studies, 1977 13 Görtz, M.: Social Software as a Source of Information in the Workplace. Modeling Information Seeking Behavior of Young Professionals in Management Consulting. Schriften zur Informationswissenschaft, Bd. 59. Hülsbusch-Verlag, 2011 14 Hansen, P.: Task-based Information Seeking and Retrieval in the Patent Domain. Processes and Relationships. Ph.D. Thesis. Acta Universitatis Tamperensis 1631, 2011 15 Heinström, J.: Five personality dimensions and their influence on information behaviour. Information Research 2003, Vol. 9, No. 1, 2003 16 Höglund, L.: Review of: Heinström, Jannica. Fast surfers, broad scanners and deep divers. Personality and information-seeking behaviour. Turku (Åbo): Åbo Akademi University Press, 2002. Information Research, 8 (2), review no. 079, 2003 (http://informationr.net/ir/reviews/revs079.html) 17 Ingwersen, P.; Järvelin, K.: The Turn. Integration of Information Seeking and Retrieval in Context. Dordrecht: Springer, 2005 18 Krampen, G.; Fell, C.; Schui, G.: Psychologists' research activities and professional information-seeking behaviour: Empirical analyses with reference to the theory of the Intellectual and Social Organziation of the Sciences. Journal of Information Science 37 (4), 439-450, 2011
108
A 8: Christa Womser-Hacker, Thomas Mandl
19 Kuhlthau, C.C.: Inside the search process: information seeking from the user’s perspective. Journal of the American Society for Information Science, Vol. 42 (5), 361-371, 1991 20 Leckie, G.L.; Pettigrew, K.E.; Sylvain, C.: Modeling the Information Seeking of Professionals: A General Model Derived from Research on Engineers, Health Care Professionals, and Lawyers. The Library Quarterly, Vol. 66, No. 2, 161-193, 1996 21 Marchionini, G.: Information Seeking in electronic environments. Cambridge, UK: Cambridge Univ. Press, 1995 22 McCrae, P.R.; Costa, P.T.: Toward a new generation of personality theories: theoretical contexts for the Five-Factor model. Wiggins, J.S. (Ed.), The Five-Factor Model of personality. Theoretical perspectives. New York: Guilford Press, 51-87, 1996 23 Meho, L.I.; Tibbo, H.R.: Modeling the Information-Seeking Behavior of Social Scientists: Ellis’ Study Revisited. Journal of the American Society for Information Science & Technology, Vol. 54, No. 6, 569-586, 2003 24 Pettigrew, K.E.; Fidel, R.; Bruce, H.: Conceptual Frameworks in Information Behavior. Annual Review of Information Science and Technology (ARIST), Vol. 35, 43-78, 2001 25 Pharo, N.: The SST Method Schema: a Tool for Analysing Work Task-Based Web Information Search Processes. Ph.D. Thesis. Acta Universitatis Tamperensis 871, 2002 26 Saracevic, T.: The stratified Model of Information Retrieval Interaction: Extension and Applications. Proceedings of the American Society for Information Science, Vol. 34, 313-327, 1997 27 Savolainen, R.: Information Behavior and Information Practice: Reviewing the „umbrella concepts“ of information-seeking studies. Library Quarterly, Vol. 77, No. 2, 109-132, 2007 28 Schindler, C.: Informationspraxen in der Bildungsforschung – Ethnographische Informationsforschung über Forschungsumgebungen, Apparaturen und Forschungsdaten in Interaktion. Dissertationsschrift, Universität Hildesheim, 2012 29 Shah, C.: A framework for supporting User-Centric collaborative Information Seeking. Doctoral Thesis at the School of Information & Library Science, University of North Carolina at Chapel Hill, 2010 30 Spink, A.; Danby, S.; Mallan, K.; Butler, C.: Exploring young children’s web searching and technoliteracy. Journal of Documentation, Vol. 66, No. 2, 191-206, 2010 31 Toms, E.G.: Task-based Information searching and retrieval. Ruthven, I., Kelly, D. (Eds.) (2011), Interactive Information Seeking, Behaviour and Retrieval. London: Facet Publishing, 43-59, 2011 32 Vakkari, P.: A theory of task-based information retrieval process. Journal of Documentation, Vol. 57, No. 1, 44-60, 2001 33 Wang, P.: Information behavior and seeking. Ruthven, I., Kelly, D. (Eds.) (2011), Interactive Information Seeking, Behaviour and Retrieval. London: Facet Publishing, 15-41, 2011 34 Wilson, T.D.: Models in information behaviour research. Journal of Documentation, Vol. 55, No. 3, 249-270, 1999 35 Wilson, T. D.: Recent trends in user studies: action research and qualitative methods. Information Research, Vol. 5, No. 3, 2000 (http://informationr.net/ir/5-3/paper76.html) 36 Foster, J.: Collaborative information seeking and retrieval. Annual Review of Information Science and Technology (ARIST) 40, 329-356, 2006 37 Hyldegard, J.: Between individual and group – exploring group members’ information behavior in context. Dissertation. Royal School of Library and Information Science, Copenhagen. Department of Information Studies, 2006 38 Poltrock, S.; Grudin, J.; Dumais, S. et aL: Information Seeking and Sharing in Design Teams. GROUP '03 Proceedings of the 2003 international ACM SIGGROUP conference on Supporting group work, 239-247, 2003
Hans-Christoph Hobohm
A 9 Informationsverhalten (Mensch und Information) A 9.1 Entwicklung eines Paradigmas A 9.1.1 Untersuchung von Informationsverhalten vor „neuen“ Aufgaben Die überaus große Zugänglichkeit von Information seit der weiten Verbreitung mobiler und vernetzter Informationstechnologie stellt die grundsätzliche Frage nach dem Verhalten des Menschen zu Information und Wissen neu. Die traditionellen Anlaufpunkte (wie das Verlagswesen, das Buch, das Urheberrecht, Bibliotheken und Museen, ja das gesamte Bildungssystem) prägten das Informationsverhalten und die Lebenswelt der Menschen. Die Informationsflut ist so groß geworden, dass kaum noch ein intrinsischer Wert von Information zählt oder durch qualitätssichernde Institutionen vermittelt werden kann. Andererseits entwickeln die Menschen selbst Verhaltensweisen und Einstellungen zur Bewältigung der Informationsflut, die vom Suchen, Sammeln, Kategorisieren und Organisieren und Teilen bis hin zur Filterung, Abschottung und Vermeidung führt. Der Informationsarchitekt Richard Wurman charakterisierte (Lit. 82, Lit. 83) den Antrieb des Menschen mit Information umzugehen als information anxiety, die ständige Angst des Menschen, nicht die richtigen Daten zur Information zusammengestellt zu haben und daraus nicht das richtige Wissen gelernt zu haben. Es ist nicht die Angst vor dem Zuviel oder der Reizüberflutung an sich, sondern die implizit selbstgestellte Frage nach dem richtigen Umgang, der Kompetenz in der Informationsverarbeitung. A 9.1.2 Nutzer von Informationssystemen und deren Verhalten im Fokus Die uns ständig umgebende Findbarkeit von Information (ambient findability; Lit. 58) und die Auflösung ihrer Formen und Autoritäten im Netz stellt damit auch die Informationswissenschaft vor neue Aufgaben. Aber erst in den 1990er Jahren kamen zunehmend die (End-)Nutzer von Informationssystemen in den Fokus. Zunächst war allerdings noch eine eher prozessanalytische Sicht der Informationsverhaltensforschung vorherrschend (s. A 8 Information Seeking Behaviour), bei der untersucht wurde, wie Nutzer die angebotenen Informationsressourcen nutzen und wie die Informationssysteme den Nutzerbedürfnissen angepasst werden können. Ingwersen und Järvelin (Lit. 42) beschrieben diese Entwicklung als die Wende („The Turn“) in der Informationswissenschaft. Die eigentliche Frage nach Informationsbedürfnissen und Informationsverhalten bestimmter Zielgruppen wurde eher selten gestellt. Zunächst war wichtig zu beschreiben, wie Informationssysteme genutzt werden und wie diese einen expliziten Informationsbedarf abdecken können (umfassend dazu: Lit. 16). In der Tradition der Konferenzreihe „Information Seeking in Context“ (ISIC) wurde aber auch zunehmend gefragt, wie Menschen zunächst spezifischer Berufsgruppen allgemein mit ihrem Informationsbedürfnis umgehen. Es wurden erste empirische Studien unternommen, wie aufgabenbezogene Informationssuche geschieht, ohne dass das zu benutzende Informationssystem wie Bibliothek oder Datenbank vorgegeben war. Erste allgemeine Modelle zum Informationsverhalten entstanden (Lit. 51), die meist die Frage nach der beruflichen Aufgabe oder Rolle stellten, die eine Informationssuche auslösen würde. Bahnbrechend für die Erweiterung der informationswissenschaftlichen Sicht auf das Informationsverhalten war die umfangreiche Studie von Harris und Dewdney (Lit. 35), die deutlich belegen konnte, dass „formale Systeme“ wirklich „Informationsbedürftigen“ gar nicht helfen können. Frauen, die Gewalt in der Ehe erfahren, erreicht jegliches Informationsangebot formaler Art nicht. Wichtiger sind persönliche Kontakte und Erfahrungen des persönlichen Umfeldes. Bedeutende Impulse für diese Art „ethnographischer“ Studien vor allem in „informationsarmen“ Bevölkerungs-
110
A 9: Hans-Christoph Hobohm
gruppen gab Elfreda Chatman (vgl. Lit. 17), die unter Bezug auf Ansätze des sozialwissenschaftlichen Konstruktivismus von Berger und Luckmann (Lit. 07, vgl. Lit. 33), die Theorie der kleinen informationellen Lebenswelten entwickelte, die schon frühzeitig thematisiert, was derzeit als Filter-Blase oder Echoraum der begrenzten Informationswelten diskutiert wird (Lit. 65, Lit. 80). Jede Lebenswelt für sich ist informationell im Prinzip selbstgenügsam und tendiert dazu, den eigenen Wahrnehmungsraum zu verstärken, nur die Information aufzunehmen und als Wissen zu internalisieren, die den eigenen sozialen Normen entsprechen. CONTEXT: • power structures/dynamics • organizational systems/procedures • domain knowledge system • cultures/communities
OUTCOMES IN SITUATIONS: • helps/facilitations • hurts/hindrances • consequences/impacts/effects
BRIDGES: • ideas/cognitions/thoughts • attitudes/beliefs/values • feelings/emotions/intuitions • memories/stories/narratives
SITUATION: • history • experience • horizons • constraints • barriers • habits/skills
SPACE-TIME
SENSE-MAKING & UN-MAKING • verbings • procedurings • strategics/tactics GAPS: • questions/confusions • muddles/riddles • angst
SOURCES: • channels • media • people • institutions
RELEVANCES: Criteria/attributes used to evaluate impeded movement • questions • answers • information • information designs • sources • channels
Abb. 1: Dervins Sense Making Metapher (aus Lit. 28, S. 59, Fig. 3.1)
Chatman ist damit eine der ersten, die versucht, der sonst eher auf empirische Beschreibung ausgelegte, als theorielos kritisierten Informationsverhaltensforschung, einen theoretischen Rahmen zu geben (vgl. Lit. 28). Ausgangspunkt der Überlegungen zum Informationsverhalten ist nicht mehr nur der Auslöser eines bestimmten Informationsbedürfnisses und die folgende explizite Informationssuche (information seeking behaviour (ISB)) etwa nach dem Stufenmodell von Taylor (Lit. 79) oder der ASK-Hypothese von Belkin (Lit. 06), die beide ein unbewusstes Informationsbedürfnis bzw. einen „unnormalen“ Wissenszustand (ASK = anomalous state of knowledge) als Auslöser für Informations(such)verhalten postulieren. Die einflussreiche Kommunikationswissenschaftlerin Brenda Dervin (Lit. 22, Abb. 1) wies unter Bezug auf Ansätze der pädagogischen Psychologie von Jerome Bruner (Lit. 14) und der modernen Phänomenologie mit ihrer Methode des „sense making“ auf den situativen und lebensweltlichen Kontext des Informationssuchenden, der durch Informationsverarbeitung Wissenslücken zu überbrücken und anwendungsbezogenen oder gar existentiellen Sinn sucht. Mit ihrem Überblicksartikel zu Information Needs and Uses (Lit. 21) begründete sie den Wechsel der informationswissenschaftlichen Perspektive von der System- zur Nutzerorientierung. Im sog. cognitive turn der Informationswissenschaft entstanden immer komplexere Modelle des gesamten kognitiven Zustandes von Informationssuchendem und Informationsanbieter (Lit. 42; A 8 Information Seeking Behaviour). Der Status der allgemeinen Informationsverhaltensfor-
A 9: Informationsverhalten (Mensch und Information)
111
schung kann abgelesen werden an dem umfangreichen Sammelband „Theories of Information Behavior“ von Fisher, Erdelez und McKechnie (Lit. 29), in dem über siebzig verschiedene Theorie- und Methodikansätze in knappen Kapiteln beschrieben wurden, die ein sehr heterogenes, umfassendes Bild menschlichen Informationsverhaltens bieten, aber keinen gemeinsamen Nenner finden. A 9.1.3 Öffnung der Informationsverhaltensforschung Unter dem Eindruck von Entwicklungen in angrenzenden Disziplinen vor allem in den Sozialwissenschaften kommen neben konstruktivistischen zunehmend auch phänomenologische, soziologische, ethnographische, philosophische oder kognitionspsychologische Ansätze in der Informationswissenschaft zum Tragen. Allen gemeinsam ist die Suche nach der Erklärung menschlichen Verhaltens angesichts der permanenten Datenflut. Ein erster Meilenstein dieses neuen Verständnisses der Untersuchung des Verhältnisses von Mensch und Information wird 2010 u. a. von einer der führenden Autorinnen der Informationsverhaltensforschung Gloria Leckie (Lit. 52) vorgelegt. Entgegen der Titelformulierung „Critical Theory for Library and Information Science“ werden hier nicht nur Positionen der kritischen Theorie der Sozialforschung, der sog. Frankfurter Schule (Habermas, Marcuse u. a.) vorgestellt, sondern auch andere Schulen und Ansätze vielfältiger Disziplinen und deren Bezug zur Information(swissenschaft). Der Sammelband entstand aus der Erkenntnis des Bandes von 2005 (Lit. 52) und vieler anderer Kommentare (vgl. z. B. Lit. 28), dass der Beschreibung menschlichen Informationsverhaltens noch immer ein theoretischer Rahmen fehlt: viele Phänomene lassen sich beschreiben, aber wenig erklären oder gar vorhersagen. Unter dem Eindruck der Kritik, die Informationsverhaltensforschung sei theorielos, werden schließlich sogar eigene Klassiker neu interpretiert wie z. B. David Bawden (Lit. 05), der die Brookesche Formel des Wissenserwerbs neu als „cognitive map“ beschreiben konnte (vgl. auch Lit. 69), oder Søren Brier (Lit. 10), der die semiotische Basis der Informationswissenschaft mit einem systemtheoretischen Ansatz der Verhaltensforschung zu „Cybersemiotics“ verband. Andere wichtige Impulse kommen jedoch aus angrenzenden Disziplinen, die noch mehr das Konzept des Kontextes menschlichen Verhaltens aufgreifen. Als besonders einflussreich sind hier Überlegungen aus dem Bereich der Forschungen zur Mensch-Maschine-Kommunikation (HCI) zu nennen. Die „information ecologies“ von Bonnie Nardi u. a. (Lit. 60, Lit. 61) wären in diesem Zusammenhang hervorzuheben. Sie bedienen sich erfolgreich der ursprünglich aus der sowjetischen Psychologie kommenden „activity theory“, die versucht zu beschreiben, wie Menschen Tätigkeiten und Aktivitäten entfalten, die nicht nur Objekte wie Technik und Maschinen schaffen, sondern auch von diesen bestimmt sind (Lit. 46). Diese Konzepte sind mittlerweile im Interface Design relativ weit verbreitet und helfen verstehen, wie der von Datenflut und Informationstechnologie umgebene Mensch sich zu diesen Instrumenten und Interfaces verhält. Die Informationswissenschaftlerin Raya Fidel (Lit. 28) greift in ihrem „ökologischen Ansatz“ die Kontextdimension in Form der activity theory explizit auf und entwickelt dazu die Methode der „Cognitive Work Analysis“ weiter, die Informationsverhalten in konkreten Arbeitssituationen beschreiben hilft. Hier gelingt der Brückenschlag zwischen der engeren Analyse des Informationssuchverhaltens (Lit. 51) zu allgemeinen Bedingungen des Verhältnisses von Information und menschlichem Verhalten. Weitere Anregungen erhält die Informationswissenschaft aus verschiedenen Reorientierungen der Geistes- und Sozialwissenschaften, die z. B. mit spatial turn (Lit. 23, Lit. 26), practice turn (Lit. 73, Lit. 41), narrative turn (Lit. 48, Lit. 11) u. a. umschrieben werden. Blaise Cronin attestiert damit schon 2008 der Informationswissenschaft den sociological turn, der sich im oben erwähnten Sammelband von Lecki u. a. (Lit. 52) manifestiert. Ron Day geht (Lit. 20) schließlich sogar noch einen Schritt weiter, indem er mit Verweis auf die Psychoanalyse oder auf neuere wissenssoziologische Theorien wie die Actor Network Theory (ANT) Bruno Latours den Tod des Nutzers der Informationswissenschaft ausruft. Der Mensch wird nur noch in immer komplexeren Strukturen tiefenpsychologischer und systemischer Art verortet und bei aller nun vorhandenen Theorie
112
A 9: Hans-Christoph Hobohm
immer weniger sichtbar. Oder wie Weinberger es im Untertitel seines Buches „Too Big to Know“ (Lit. 80) formuliert: „Rethinking knowledge, now that the facts aren't the facts, experts are everywhere and the smartest person in the room is the room.“
A 9.2 Information und menschlicher Organismus A 9.2.1 Information als anthropologische Konstante Informationsverhalten, der Umgang mit Information, ist in besonderem Maße eine menschliche Eigenschaft. Je nach Verständnis des Informationsbegriffs (vgl. Lit. 44) kann man zwar auch biophysikalischen Prozessen oder anderen Lebewesen Informationsverhalten zuschreiben, etwa den Transfer von Informationen (Geninformation, Schwarmverhalten bei Bienen u. ä.), aber ein allgemeines „Verhalten“, ein Verhältnis zur Information, auch im Sinne der Aufmerksamkeit für und des Organisierens von Informationseinheiten scheint spezifisch menschlich zu sein. Amanda Spink (Lit. 78) detailliert ausführlich die These, dass Informationsverhalten eine eigene Intelligenzform ist und neben Intelligenzen wie der sprachlichen, der logisch-mathematischen, der musischen, der interpersonalen und anderen die information intelligence als gleichwertig anzusehen ist. Bei der evolutionären Entwicklung zum Menschen entsteht eigentliches Informationsverhalten erst mit dem Homo Sapiens nach der ersten Entfaltung seiner kognitiven Fähigkeiten wie der Sprachentwicklung, der Problemlösungsfähigkeit oder dem abstrakten Denken. Die These, dass der Mensch aus Gründen der Anpassung an die Umwelt ein besonderes Informationsverhalten entwickelt, lässt sich sogar generalisieren: Die Überlebensfähigkeit von Organismen und Systemen hängt von ihrer Kapazität der Verarbeitung von Information aus ihrer Umwelt ab. Der Kognitionspsychologe George Miller (Lit. 55) wies darauf hin, dass Menschen dabei mehr als andere Organismen informationsfressende Organismen sind: Informavores. Er prägte damit den Begriff, den Peter Pirolli später für seine „Information Foraging Theory“ (Lit. 66) (etwa = „Theorie der Informationsnahrungssuche“) als Grundlage nahm. Menschen sammeln Informationen nicht nur rational-kognitiv, sondern auch unbewusst, um oft erst auf einer erstaunlich großen Basis an Wissen Entscheidungen zu treffen. Analog zur evolutionären Adaption von Organismen an den Nahrungshaushalt der Umwelt findet auch beim Menschen eine Anpassung des Informationsverhaltens entsprechend des Informationsgehalts seiner Umgebung statt. Dieser Anpassungsprozess kann negativ interpretiert werden (Lit. 74, Lit. 77) oder als prinzipiell vorgegeben akzeptiert werden. Er entspricht dem allgemeinen Optimierungsprinzip der Evolution, aber auch den Prinzipien des Rationalen Handelns (Rational-Choice-Modell des Menschen). Speziell auf Informationsverhalten wies schon Herbert Simon, einer der Begründer des Schule des Rational Choice, darauf hin, dass das Verhalten von Menschen dem Prinzip der optimalen Zufriedenstellung des Bedürfnisses unter Kosten-Nutzen-Gesichtspunkten folgt: dem satisficing (Lit. 67, Lit. 84). George Zipfs (Lit. 85) „Prinzip des geringsten Aufwandes“ („principle of least effort“) und die schließlich darauf aufbauenden Potenzgesetze („Power Laws“) sind dementsprechend häufig anzutreffende, grundlegende Aspekte der Informationswissenschaft. Die Anpassung sorgt dafür, dass im Einzelfall nicht immer jede Information genutzt wird, sondern nur die Menge, die nötig ist, um in der aktuellen Situation zu „überleben“. A 9.2.2 Kognitionspsychologie, Hirnforschung Neben der evolutionstheoretischen Komponente beinhaltet das rationale Optimierungskonzept der Information Foraging Theory jedoch auch zentrale Aspekte der Kognitionspsychologie. Diese postuliert eine Reihe rationaler Prozessmodelle (sog. Kognitive Architekturen) zur Beschreibung der Aufnahme und Verarbeitung von Informationen im menschlichen Gehirn und zu deren Umsetzung in
A 9: Informationsverhalten (Mensch und Information)
113
Handlung. Pirolli folgt speziell dem weitverbreiteten Modell Andersens (Lit. 01): ACT-R = „adaptive control of thought – rationale“ (vgl. Abb. 2). Hiermit wird beschrieben, wie die Umwelteinflüsse im Gehirn einer „rationalen Analyse“ unterzogen werden, mit vorhandenem deklarativem und prozeduralen Wissen und eigenen Handlungszielen in Verbindung gebracht werden. In dem von Pirolli eingeführten „information scent module“ (etwa: Informationsspürsinn-Modul) werden die KostenNutzenberechnungen angestellt, die zu Entscheidungen über die erneute Einholung von Informationen oder zu abschließenden Handlungen führen. Nach dem Optimierungsprinzip des geringsten Aufwandes werden oft nur die ersten Ergebnisse einer Suche beachtet – unbeschadet ihrer tatsächlichen Relevanz oder anderer Qualitätsmaßstäbe.
Goal Memory Spreading Activation Procedural (Production) Memory
Spreading Activation
Conflict Set
Information Scent Module
Declarative Memory
External World Abb. 2: Kognitive Architektur des ACT-Scent Modell (Lit. 66, S. 25, fig. 1.7)
Die abstrakten, oft als Computeralgorithmen oder Programmiersprachen konzipierten Modelle der kognitiven Architekturen der Kognitionswissenschaft haben als Grundgedanken, die informationsverarbeitenden Prozesse im Gehirn nachvollziehbar zu machen. Ihr Gegenpart, die klinische Neurowissenschaft, konnte in den letzten Jahren durch neue bildgebende Verfahren tatsächlich Regionen im menschlichen Gehirn nachweisen, die offensichtlich sehr unterschiedliche Funktionen bei der Speicherung und Verarbeitung von Informationen haben. Die Hirnforscher können auf diese Weise jetzt klar Regionen für prozedurales, emotionales und deklaratives Gedächtnis im Gehirn aufzeigen oder für Bereiche des allgemeinen Weltwissens und des Expertenwissens. Die hirnphysiologisch begründete Unterscheidung zwischen Weltwissen und Expertenwissen zieht im Grunde auch die Trennungslinie zwischen „information seeking behaviour“, bei dem es stets um konkrete Faktenrecherchen geht, und dem breiter angelegten Konzept des allgemeinen Informationsverhaltens. Nicht nur bei der Beschreibung des Informationsspeichers, sondern auch bei der Analyse des Sensoriums, das die Beziehung zur Außenwelt herstellt und die Verarbeitung der Informationsreize ermöglicht, ist die Kognitionspsychologie in den letzten Jahren einige Schritte weiter gekommen. Mit den Begriffen „distributed“ oder „embodied cognition“ wird zunehmend deutlich beschrieben, dass der Mensch nicht nur symbolbezogen, über Sprache und Vision Information aufnimmt, verarbeitet und lernt, sondern dass der ganze Körper und die physische Präsenz des Menschen einen nicht unwesentlichen Anteil an der Informationsaufnahme (und damit der Realitätskonstitution) hat (Lit. 24, Lit. 02, Lit. 10). Schon der Linguist George Lakoff wies früh auf die enge Beziehung zwischen Körper und (sprachlichem) Denken hin (Lit. 50). Als drittes Paradigma der HCI-Forschung
114
A 9: Hans-Christoph Hobohm
(vgl. C 6 Mensch-Computer-Interaktion) hat dieses Konzept mittlerweile konkrete Anwendung auf Informationssysteme gefunden, z. B. im Modell der Blended Library, die versucht, mehr körperliche und multimediale Schnittstellen zu Information zu schaffen als sie der zweidimensionale Computerbildschirm üblicherweise bietet (Lit. 36, Lit. 68). A 9.2.3 Persönlichkeit Genauso wie in der Kognitionspsychologie zunehmend die einfache Dualität von Körper und Geist in Frage gestellt wird, geht man in der Informationsverhaltensforschung auch nicht mehr von einem einheitlichen Informationsnutzer aus. Persönlichkeitstypen, „kognitive Stile“ und andere persönliche Charakteristika prägen die Art des Informationsverhaltens und der Informationssuche. Die Kognitionspsychologie versteht unter kognitiven Stilen die Art und Weise, wie Personen in Problemlösungssituationen Informationen verarbeiten und organisieren. Dabei lassen sich Zusammenhänge identifizieren zwischen der Art der Informationsaufnahme bei Personen, die eher ganzheitlich oder eher analytisch oder jenen, die eher verbal oder bildlich ihre Umwelt aufnehmen. In der Didaktik versucht man durch Variation der Präsentationsmethoden (etwa durch Erhöhung des Visualisierungsanteils) den unterschiedlichen Bedürfnissen zu entsprechen. Die bisherigen Untersuchungen führen allerdings noch nicht zu konkret generalisierbaren Ergebnissen, vor allem was deren praktische Umsetzung in Informationssystemen angeht (vgl. Lit. 34). Auch die allgemeine Persönlichkeitstheorie kann relativ deutlich den Zusammenhang zwischen Informationsverhalten und Persönlichkeitstyp belegen (Lit. 37). Dies betrifft zum einen das weit verbreitete „Fünf-Faktoren-Modell“ der Persönlichkeitspsychologie (Neurotizimus, Extraversion, Offenheit für Erfahrungen, soziale Verträglichkeit, Gewissenhaftigkeit) als auch den in den Vereinigten Staaten sehr populären Myers-Briggs-Type-Indicator (MBTI) (Lit. 75) mit seinen vier Grundeigenschaften bzw. 16 Persönlichkeitstypen des Menschen. Vor allem die Wahl eher Personen bezogener oder formaler Informationsquellen lässt sich gut mit der Persönlichkeitsstruktur des Nutzers begründen. Gunther Dueck (Lit. 25) baut auf letzterem eine grundlegende Beschreibung des Umgangs von Menschen mit Informationstechnologie auf, die in der These mündet, dass Technologie vermittelte Informationsversorgung nur einen relativ geringen Teil der Menschen wirklich nutzt. Vor allem Aspekte zum Faktor „Neurotizismus“ (auch „negative Affektivität“) sind in Bezug auf Informationsverhalten untersucht worden (Lit. 37, S. 75-103). Aggression, Stress, ja sogar Depression führen oft zu Informationsverhalten, die nicht zu optimalen Ergebnissen führen. Andererseits kann nachgewiesen werden, dass ein gewisses Maß an Angst und Stress auch zu positiven Ergebnissen führt. Selbstsicherheit führt unter dem Gesichtspunkt des Satisficing (s.o.) nicht immer zu erfolgreichem Informationsverhalten. Besonders gut analysiert ist andererseits das eher allgemeine Phänomen der Bibliotheksangst (Lit. 53, Lit. 63), mit dem immer wieder beschrieben werden kann, dass bestimmte Personengruppen aus psychologischen Gründen das Aufsuchen einer Bibliothek vermeiden oder dort unter negativem Stress leiden.
A 9: Informationsverhalten (Mensch und Information)
115
Phasen
Start
Auswahl
Erkundung
Ausdruck
Sammlung
Gefühle
Unsicherheit
Optimismus
Verwirrung, Frustration, Zweifel
Klarheit
zielgerichtet, Erleichterung, zuversichtlich Befriedigung oder Enttäuschung
Gedanken
vage
klarer
gesteigertes Interesse
Handlungen Suche nach HintergrundInformationen Aufgabe
Erkennen
Auswahl relevanter Informationen Identifizieren, Identifizieren, Analysieren Analysieren
Präsentation
fokussiert
Auswahl der zutreffenden (pertinenten) Informationen Formulieren Sammeln
Komplettieren
Tab. 1: Kuhlthaus Informationssuchprozess-Modell (eigene Adaption: Lemma im 'Lexikon der Bibliotheks- und Informationswissenschaft', Stuttgart 2009-2013)
Die Bedeutung von Emotion für das Informationsverhalten wurde relativ früh durch Carol Kuhlthau (Lit. 49) in die Betrachtung des Informationssuchprozesses mit eingebracht (vgl. erste Zeile in Tab. 1), die darauf aufmerksam machte, dass alle Phasen des Suchprozesses von unterschiedlichen, mehr oder weniger förderlichen Emotionen begleitet werden. Diane Nahl spricht in letzter Zeit sogar von einem neuen Paradigma der Informationswissenschaft (Lit. 59) und auch die HCI-Forschung hat sich dem Thema Emotionen seit einiger Zeit sehr intensiv gewidmet (Lit. 09). Besonders positive Emotionen können sich bekanntermaßen freisetzen durch den sog. Flow-Effekt, der beschreibt, wie bei Tätigkeiten die Balance zwischen Angst hervorrufender Überforderung und Langweile generierender Unterforderung gefunden werden kann (Lit. 19).
Abb. 3: Der Flow-Effekt (Grafik: C.Löser in Wikimedia 2008)
Keine der Persönlichkeitseigenschaften kann jedoch für sich alleine stehen; die anderen Faktoren tragen ebenfalls in ihrer entsprechenden Ausprägung jeweils zum Informationsverhalten des Menschen bei: der Faktor „Offenheit für Erfahrung“ (im Fünf-Faktoren-Modell) ist Grundlage für Neugierde und Explorieren, der Faktor Gewissenhaftigkeit bedingt die Ausdauer der Informationssu-
116
A 9: Hans-Christoph Hobohm
che und Präzision des erreichten Ergebnisses, der Faktor „Extraversion“ beinhaltet die soziale Dimension des Informationsteilens und des gemeinsamen Problemlösens; und schließlich die soziale Verträglichkeit (im Englischen: „agreeableness“) ist zentral für die informationell wichtige Dimension des Vertrauens (Lit. 37, S. 173ff).
A 9.3 Komponenten des Informationsverhaltens A 9.3.1 Gesamtstrukturen Es gibt mittlerweile eine große Anzahl von Gesamtstudien zum Informationsverhalten, wenn auch meist der Perspektive der Informationssuche (vgl. Lit. 16, Lit. 18, Lit. 28) besonderes Augenmerk gewidmet wird. In den Zeiten des allgemeinen Wandels des Informationsverhaltens werden aber auch zunehmend große nationale Studien zu der „Informations-Praxis“ vor allem von Wissenschaftlern durchgeführt, so z. B. für die USA (Lit. 62) oder Großbritannien (Studien des Research Information Network: Lit. 81, Lit. 15, Lit. 54). Es wird häufig ein sehr differenziertes Bild einzelner Wissenschaftsdisziplinen gezeichnet, das vermuten lässt, dass der Wandel im Umgang mit Information und den neuen Möglichkeiten der Informationstechnologie noch nicht abgeschlossen ist. Einzelne Wissenschaften bleiben noch relativ traditionell wie die Lebenswissenschaften, während andere wie die Geisteswissenschaften sich praktisch auch als Disziplin versuchen neu zu definieren (als „Digital Humanities“). Eine Studie von OCLC (Online Computer Library Center, Dublin Ohio: Lit. 64) versuchte die verschiedenen Ansätze der empirischen Erforschung des Wandels wissenschaftlichen Arbeitens zu systematisieren und kam zu folgendem Schema der Komponenten des Informationsverhaltens von Wissenschaftlern: 1. Searching i. Direct searching ii. Chaining iii. Browsing iv. Probing v. Accessing 2. Collecting i. Gathering ii. Organizing 3. Reading i. Scanning ii. Assessing iii. Rereading 4. Writing i. Assembling ii. Co-Authoring iii. Disseminating 5. Collaborating i. Coordinating ii. Networking iii. Consulting 6. Cross-Cutting primitives i. Monitoring ii. Notetaking iii. Translating iv. Data Practices
A 9: Informationsverhalten (Mensch und Information)
117
Raya Fidel (Lit. 28, S. 17-42) fasst die Bereiche des menschlichen Informationsverhaltens etwas breiter zusammen mit folgenden acht Komponenten, die teilweise über das Information Seeking Behaviour (ISB) und das eigentliche Information Retrieval hinaus gehen und weiterer Forschungen unter dem Aspekt des allgemeinen Informationsverhaltens bedürfen: –– Informationserwerb (acquiring) –– Suchen (seeking/searching) –– Browsen/Surfen (surfing) –– Begegnen (encountering) –– Bewertung (evaluating, relevance) –– Nutzung (using) –– (Ver-)Teilen (sharing) –– Filtern (filtering) –– Vermeiden (avoiding) –– Organisieren (organizing) –– Repräsentieren (representing) Hier kommen eine Reihe von weiteren psychologischen Aspekten hinzu wie etwa der Hinweis darauf, wie wenig intersubjektiv konsistente Darstellung also „representing“ (z. B. in Form von Visualisierung oder Indexierung mit Metadaten) möglich zu sein scheint (Lit. 08). Marian Smith (Lit. 76, S. 142) ist in ihrer phänomenographischen Analyse des Informationsverhaltens Jugendlicher hingegen zu folgender, einfacherer Gesamtstruktur von „Informationsverhalten“ gekommen. 1. Das Wissen um Quellen von Information 2. Das Erhalten von Information 3. Das Finden von Information 4. Das Speichern unverarbeiteter Information 5. Das Verarbeiten von Information 6. Das Nutzen von Information (put into action) Zu vielen dieser Bereiche gibt es noch wenig gesicherte Erkenntnisse über die Bedingungen der Strukturen menschlichen Informationsverhaltens. Die Gesamtschau der dazu gehörigen Bereiche macht deutlich, dass hier zwar schon eine Reihe theoretischer und konzeptioneller Vorarbeiten vorliegen (s. o.), aber die empirische Beschreibung und Umsetzung in der Praxis noch fehlt. Im Folgenden sollen einige der am häufigsten anzutreffenden Konzepte exemplarisch erläutert werden. Viele weitere sind in Lit. 29 nachzuschlagen. A 9.3.2 Alltagsinformationspraxis Ein häufig zitiertes und weit verbreitetes, schon in den 1990er Jahren entwickeltes Modell allgemeinen Informationsverhaltens ist das von Reijo Savolainen zur Alltagsinformationssuche (oft abgekürzt mit „ELIS“ = Everyday Life Information Seeking, nicht zu verwechseln mit dem Informationssuchprozessmodell von David Ellis), später nur noch als „Informationspraxis“ bezeichnet (Lit. 70, Lit. 71). Mit explizitem Bezug auf Pierre Bourdieus Lebenswelt-Ansatz und auf Elfreda Chatmans von sozialen Normen gesteuerte „Kleine Welten“ stellt Savolainen mit dem Modell ELIS die alltägliche Informationsbewältigung in den Mittelpunkt des „Meisterns des Lebens“ als Teilaspekt der Problembewältigung. Ohne kognitive Architekturen bemühen zu müssen, setzt er dennoch Persönlichkeitsstrukturen in den Mittelpunkt seines Schemas. Zielsetzungen und situationale Faktoren bedingen dann Bewertung, Auswahl und Suche von Information praktischer Art.
118
A 9: Hans-Christoph Hobohm
EVERYDAY LIFE WAY OF LIFE
(„order of things“) * time budget
* consumption models
* hobbies
• values, attitudes (meanings)
MASTERY OF LIFE
(„keeping things in order“) Main type of mastery of life • • • •
optimistic-cognitive pessimistic-cognitive defensive-affective pessimistic-affective
„Project of life“ • Specific projects of everyday life Problematic situations of everyday life
PROBLEM SOLVING BEHAVIOR (including everyday life information seeking) • evaluation of the importance of problem at hand • selection of information sources and channels • seeking orienting and practical information
• material capital (money, etc.)
• social capital (contact networks)
• cultural and cognitive capital
Situational factors (e.g. lack of time)
• current situation of life (e.g. health)
Abb. 4: Everyday Life Information Seeking (ELIS) (Lit. 70)
A 9.3.3 Informationsarmut und -überlastung Neben der pauschalen Beschreibung der globalen Informationsverteilung in informationsarme und informationsreiche Länder hat Elfreda Chatman (Lit. 17) einen anderen Begriff von Informationsarmut geprägt. Sie beobachtete in verschiedenen Studien zum Informationsverhalten marginalisierter und armer Bevölkerungsgruppen ein Phänomen der Informationsabschottung, das sich mit dem ökonomischen Status allein nicht erklären ließ. Ihre Theorie, die in Teilen später verifiziert werden konnte, zeigt im Konzept der Informationsarmut die vier Dimensionen: „Geheimnis“, „Enttäuschung“, „Risikobereitschaft“ und „Situationsrelevanz“ als Faktoren für eine selbstgewählte Einschränkung von Informationen in bestimmten Bevölkerungsgruppen. Informationsarme empfinden sich selbst als abgeschnitten von potentiellen Hilfsquellen und zeigen oft besonderes Gruppenzugehörigkeitsgefühl (Chatman: „class distinction“). Bei Informationsarmut sind
A 9: Informationsverhalten (Mensch und Information)
119
meist übergeordnete Selbstschutzmechanismen mit im Spiel: als Reaktion auf soziale Normen, aus Angst vor Enttäuschung und aus allgemeinem Vertrauensverlust werden Informationen eher geheim gehalten. Es besteht wenig Risikobereitschaft zur Selbstdarstellung (z. B. Informationsweitergabe) aus Angst vor negativen Konsequenzen und wenn ausgewählte Informationen in die kleine Soziale Welt hereinkommen, dann stets aufgrund ihrer spezifischen Alltagsrelevanz. Es handelt sich im Grunde um eine Abschottung nach außen, die aber nicht der Vermeidung von Information als Reaktion auf Informationsüberlastung entspricht – eher dem Phänomen der Informationsblase oder des Echoraums (s.o.). In allgemeinerem Kontext wurde von Hjørland und Nicolaisen (Lit. 38) darauf hingewiesen, dass bei der Informationsnutzung eine sozialpsychologisch weit verbreitete Tendenz zum sog. confirmation bias vorliegen kann: Wissenschaftler rezipieren nur die wissenschaftlichen Erkenntnisse, die ihrem eigenen Vorstellungen, ihrem Paradigma entsprechen. Information Overload und Information Anxiety werden auch in der konkreten Informationsverhaltensforschung ambivalent diskutiert. Einerseits wird tatsächlich ein erhöhtes Informationsaufkommen z. B. in Form einer erhöhten Anzahl von E-Mails oder Dokumentbergen auf dem Schreibtisch von Managern beobachtet, aber letztlich wird in empirischen Studien dieses nicht unbedingt als besonderes Problem identifiziert. Vor allem in der Alltagsinformationspraxis ist es allerdings bisher kaum erforscht (Lit. 71, S. 165-177). Als Strategien gegen ein Zuviel an Information werden das Filtern und die Quellenbeschränkung genannt. Das vom Begründer des Information Retrieval, Calvin Mooers, formulierte Gesetz besagt, dass Menschen dazu neigen, die Aneignung von Informationen unter Kosten-Nutzen-Gesichtspunkten zu reflektieren und ggf. diese nicht zu nutzen. Mooers 1960: „An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it.“ (Lit. 57, vgl. Lit. 03). Unter dem Stichwort des information satisficing wird hierbei beobachtet, dass Informationssuchende nach 20-25 % der zur Verfügung stehenden Zeit die Suche beenden unter dem Eindruck, das beste Ergebnis erreicht zu haben und nicht weil die „Zeit knapp geworden“ ist (Lit. 47, Lit. 84, Lit. 67). Die Psychologin Suzanne Miller entwickelte in den 1980er Jahren eine Testskala zur Identifikation von Persönlichkeitstypen in Bezug auf das Informationsvermeidungsverhalten von Menschen in Stresssituationen, z. B. im Zusammenhang mit der Nachricht einer schwerwiegenden Krankheit (Lit. 56). Sie unterscheidet dabei zwischen monitoring und blunting als den grundlegenden Dimensionen des Informationsverhaltens unter Stress. Dabei gibt es Informationssuchende, die ein hohes monitoring an den Tag legen und Informationsvermeider, die niedriges monitoring aufweisen. Auf der anderen Seite gibt es das Stressbewältigungsverhalten durch mehr oder weniger große Ablenkung (blunting = Abstumpfung), bei dem Informationen durch Zerstreuung aus dem Weg gegangen wird (hohes oder niedriges blunting). A 9.3.4 Informationsorte Auf Karen Fisher geht das Konzept der Information Grounds zurück (Lit. 30). Bei ihren ethnographischen Studien zum Informationsverhalten im Gesundheitswesen wurde sie auf die Tatsache aufmerksam, dass Informationsaustausch – quasi als Nebenprodukt – oft auch an Orten stattfindet, die nicht eigentlich dieser Funktion dienen. Ein typisches Beispiel ist der Smalltalk beim Frisör oder die beiläufige Kommunikation beim Warten auf die Fußpflege. Sie definiert Informationsorte als solche Umgebungen, die von Personen zeitbegrenzt geschaffen werden für einen bestimmten Zweck und in denen es zu einer Atmosphäre spontanen und zufälligen Informationsaustauschs kommt. Die entstehenden Informationsflüsse sind sehr heterogen und können direkt oder indirekt zustande kommen und sogar für andere vorgenommen werden (imposed query). Das Phänomen ist sicher nicht neu, aber erst der Fokus der Informationsverhaltensforschung auf dieses Konzept ermöglicht seine konkretere Analyse. Eine genauere Charakterisierung bedarf noch einer Reihe von weiteren, systematischen Forschungen. Information Grounds sind für unterschiedlichste Orte identifiziert und beschrieben worden: von Sportstätten, Waschsalons, öffentli-
120
A 9: Hans-Christoph Hobohm
chen Verkehrsmitteln, Auto- oder Fahrradwerkstätten, Warteräumen im medizinischen Bereich bis hin zu Bibliotheken. Am häufigsten lassen sich jedoch Stätten des religiösen Lebens und der Arbeitsplatz als informelle Informationsorte ausmachen. Schon im Wissensmanagement der 1990er Jahre wurde darauf hingewiesen, dass es zum Wissensaustausch einen Ort und eine Gelegenheit braucht (vgl. das japanische „ba“ bzw. die „enabling spaces“). Ohne direkten Bezug auf den „spatial turn“ der Sozialwissenschaften entwickelten hier Karen Fisher und ihr Team mit den information grounds ein Konzept, das auch neueren Überlegungen zu der Funktion von Bibliotheken als Ort des Wissensaustauschs zugrunde liegt (vgl. Kap. D 12 Bibliothek im Wandel). A 9.3.5 Informationsbegegnungen Information Grounds zeichnet aus, dass sie sich nicht primär anbieten für gezielte Suche nach Information. Hier findet vorwiegend (wenn auch nicht immer) die zufällige Begegnung mit fremdem Wissen und Information statt. Sanda Erdelez (Lit. 27) teilt im breiteren Gegenstandsbereich des Informationsverhaltens den Bereich des Informationserwerbs in den zielgerichteten Informationserwerb (intentional information acquisition) und in den des „Gelegenheitserwerbs von Information“ (opportunistic acquisition of information: OAI). Wie beim ziellosen Surfen im Web, dem unabsichtlichen Stöbern in Informationssammlungen oder auch bei einem mehr oder weniger zielgerichteten Browsing (Lit. 04) findet auch an information grounds eher wenig willentlicher (intentional) Erwerb von Information statt (OAI).
Informationsverhalten andere Formen des Informationsverhaltens
Informationserwerb zielgerichteter Erwerb von Information (z. B. Informationssuche)
Gelegenheitserwerb von Information (Opportunistic Acquisition of Information, OAI) Informationsbegegnung (information encountering)
andere Formen des OAI
Abb. 5: Information encountering als Unterkategorie des OAI (nach Lit. 27)
Es herrscht der intuitive Zufallsfund von Information vor, der bei entsprechender Gelegenheit (opportunity) ergriffen wird. Der Zufallsfund an sich wird als Serendipity bezeichnet (Lit. 31, Lit. 58), der verstanden wird als Komponente der Informationssuche wie auch des Browsings. Informationsdienste können z. B. daraufhin analysiert werden, wieviel Serendipity sie zulassen, etwa durch die Erschließung mit Klassifikation oder Aufstellungssystematik. Im Information Retrieval wird sie als Wert berechnet, der angibt, wieviel Zufallsfunde brauchbaren Materials in einem Informationssystem möglich sind – im Gegensatz zu nicht verwendbarem Ballast.
A 9: Informationsverhalten (Mensch und Information)
121
Als eine Sonderform der OAI beschreibt Erdelez (Lit. 27) das information encountering als Begegnung mit Information, während man auf der Suche nach anderer Information ist. Diese Art der Ablenkung von der zielgerichteten Suche ist weit verbreitete Alltagserfahrung, und informationswissenschaftliche Studien, wie die oft zitierte „Keeping Found Things Found“ (Lit. 12), beobachten dieses Problem im Hinblick darauf, wie Informationsnutzer ihr persönliches Informationsmanagement darauf einstellen. Erdelez beschreibt das Phänomen des information encountering mit den fünf Prozessphasen (noticing, stopping, examining, capturing, returning): –– Wahrnehmen → –– Suche unterbrechen = „Informationsbegegnung“ → –– Analysieren: im Hinblick auf Hintergrund-Informationsbedarf → –– Erfassen/Speichern → –– Ursprüngliche Suche zum Vordergrund-Informationsbedarf wieder aufnehmen. Der Hintergrundinformationsbedarf kann ein eigener sein oder der einer anderen Person, dessen Fragestellung man verfolgt. In dem einen Fall handelt es sich um einen Aspekt des PAIN (s. u.), im anderen um eine Informationsgabe. A 9.3.6 Informationsgaben Das „Teilen von Information“ ist nicht erst durch die Eindeutschung des in den Social Media weit verbreiteten Begriffs des „sharing“ ins Blickfeld gerückt (vgl. Lit. 28, Lit. 71, S. 183ff). Karen Fisher brachte den Begriff des information giving in die empirische informationswissenschaftliche Forschung und Kevin Rioux formulierte das Akronym des SIF-FOW: „Sharing Information Found – For Others on the Web“. Obwohl es eine große Anzahl dieses Verhalten unterstützende, sog. kollaborative Werkzeuge im Web gibt (wie vernetzte Linklisten, Aspekte in Sozialen Netzwerken, bibliographische Tools, Photo- oder Musiksharing-Plattformen etc.), ist die informationswissenschaftliche Forschung dazu noch nicht weit verbreitet. Anders als beim CSCW (computer supported collaborative work) steht auch hier eher die nicht intentionale Suche im Vordergrund. Beim eigentlichen CSCW prägt das gemeinsame Ziel des Projekts, bei SIF-FOW oder information giving allgemein nur die persönliche Beziehung zum Empfänger, die Kenntnis seiner Interessen, der Moment des information encountering und die psychologische Disposition „Wissen abzugeben“. Am häufigsten wird ursprünglich die Weiterleitung von für andere interessante Informationen per E-Mail beobachtet. Die vielfältig anzutreffenden Funktionen in Social-Media-Umgebungen haben in letzter Zeit die Möglichkeiten des „sharing“ um ein Vielfaches erhöht, wobei nicht mehr nur die Eins-zu-Eins-Kommunikation mit einer einzelnen bekannten Person im Vordergrund steht, sondern die Gruppe, ein „Kreis“ von Personen (wie bei Google+) oder die community (of practice) wie im Wissensmanagement. Die Grenzen zum allgemeinen Publizieren sind fließend geworden. Sozusagen das Gegenmodell dazu ist das in der Kommunikationswissenschaft weit verbreitete Konzept des Gatekeepers. Unter Netzwerkbedingungen wird aus dem zensierenden und editierenden Kanalisator von Information eher der Moderator oder der Attraktionspunkt im Netz, der viele „Follower“ anzieht. A 9.3.7 Persönliches Informationsmanagement Das Organisieren, Speichern und Wiederfinden persönlich bedeutsamer Informationen (ob beruflich oder privat) fand auch immer schon statt ohne Zuhilfenahme formaler Informationssysteme. Dabei sind Persönlichkeitstypen bedingte, aber auch disziplinäre Unterschiede deutlich zu beobachten, wie z. B. die Charakterisierung von Geisteswissenschaftlern als „Stapelarbeiter“ (vgl. Lit. 64). Literaturverwaltungsprogramme und entsprechende Komponenten der Social Media unter-
122
A 9: Hans-Christoph Hobohm
stützen mittlerweile das Personal Information Management (PIM; Lit. 45) in einem vorher nicht gekannten Ausmaß bei der Organisation der eigenen Informationssammlung (der Personal Information Collection: PIC). PICs werden bei praktisch allen methodisch sauber durchgeführten Untersuchungen (bisher noch) stets als erste Informationsquelle genannt (vor persönlichen Kontakten). Ein wichtiger Aspekt dabei ist das Personal, Anticipated Information Need („persönliche, erwartete Informationsbedürfnis“, kurz PAIN: Lit. 13). Das von Harry Bruce entwickelte Modell beschreibt im persönlichen Informationsmanagement das Entstehen von privaten Informationssammlungen durch fünf Eigenschaften: 1. Das Aufbewahren von Informationen oder Dokumenten wird durch Informationsereignisse ausgelöst. 2. Es ist stark von Kontexten und der jeweiligen Informationskompetenz des Sammlers abhängig. 3. Die tatsächliche spätere Nutzung der gesammelten Information ist nicht vorhersagbar. 4. Die Entscheidung des Aufhebens beruht auf persönlichen Wirtschaftlichkeitsüberlegungen („lohnt sich“). 5. Die Erkenntnis und Benennbarkeit eines eigenen, zukünftigen Informationsbedürfnisses ist die zentrale Voraussetzung für die persönliche Informationskompetenz.
A 9.4 Fazit Informationsverhaltensforschung hat sich in den letzten Jahren als eigene Disziplin etabliert und den Blick über die Erforschung von Benutzer und Benutzung von Informationssystemen erweitert. Zentrale Erkenntnis in vielen für sie adaptierten Fachdisziplinen ist, dass der Mensch in seiner Umwelt komplexer ist als es Systementwickler bisher dachten. Hier ist eine weitere Hereinnahme komplexerer Ansätze aus Soziologie, Psychologie, den Neurowissenschaften und vielleicht sogar der Philosophie gefordert.
Literatur 01 02 03 04 05 06 07 08 09 10 11 12
Anderson, John R.: The architecture of cognition. Cambridge, MA: Harvard University Press, 1983 Anderson, Michael L.: Embodied Cognition: A field guide. Artificial Intelligence, 149 (1), 91-130, 2003 Austin, Brice: Mooers' law: In and out of context. J. Am. Soc. Inf. Sci. 52 (8), 607-609, 2001 Bates, Marcia J.: What is browsing – really. Information Research 12 (4), 2007 (InformationR.net/ir/12-4/ paper330.html) Bawden, David: Brookes equation. The basis for a qualitative characterisation of information behaviours. Journal of Information Science 37 (1), 101-108, 2011 Belkin, Nicholas: Anomalous states of knowledge as a basis for information retrieval. Canadian Journal of Information Science 5, 133-143, 1980 Berger, Peter L.; Luckmann, Thomas: The social construction of reality. A treatise in the sociology of knowledge. 1. Aufl. Garden City, N.Y.: Doubleday, 1966 Bowker, Geoffrey C.; Star, Susan Leigh: Sorting things out: classification and its consequences. Cambridge, Mass. u. a.: MIT Press, 1999 Brave, Scott; Nass, Cliff: Emotion in Human Computer Interaction. Andrew Sears und Julie A. Jacko (Hg.): Human-computer interaction. Fundamentals. Boca Raton, FL: CRC Press, 53-68, 2009 Brier, Søren: Cybersemiotics. Why information is not enough! Toronto: Univ. of Toronto Press (Toronto studies in semiotics and communication), 2010 Brophy, Peter: Narrative-based practice. Aldershot, Hants, England, Burlington, VT: Ashgate Pub., 2009 (http://site.ebrary.com/lib/academiccompletetitles/home.action) Bruce, Harry; Jones, William; Dumais, Susan: Information Behaviour That Keeps Found Things Found. Information Research 10 (1), 2004 (InformationR.net/ir/10-1/paper207.html, zuletzt geprüft am 4.11.12)
A 9: Informationsverhalten (Mensch und Information)
123
13 Bruce, Harry: Personal, anticipated information need. Information Research, 10 (2005), 3, 2005 (http:// InformationR.net/ir/10-3/paper232.html, zuletzt geprüft: 1.11.12) 14 Bruner, Jerome S.: Actual minds, possible words. Cambridge, Mass: Harvard Univ. Press, 1986 15 Bulger, Monika; Meyer, Eric T.; La Flor, Grace de; Terrsa, Melissa; Wyatt, Sally; Jirotka, Marina et al.: Reinventing research? Information practices in the humanities. A Research Information Network Report. London: rin, 2011 (http://www.rin.ac.uk/our-work/using-and-accessing-information-resources/ information-use-case-studies-humanities) 16 Case, Donald Owen: Looking for Information. A survey of research on information seeking, needs and behavior. 3. Aufl. Bingley (UK): Emerald Group Pub. Ltd., 2012 17 Chatman, Elfreda A.: The impoverished life-world of outsiders. Journal of the American Society of Information Science and Technology 47 (3), 193-206, 1996 18 Cole, Charles: Information need. A theory connecting information search to knowledge formation. Medford, New Jersey: published on behalf for the American Society for Information Science and Technology by Information Today, Inc., 2012 19 Csikszentmihalyi, Mihaly: Flow. The psychology of optimal experience. New York: Harper [and] Row, 1990 20 Day, Ronald E.: Death of the user: Reconceptualizing subjects, objects, and their relations. J. Am. Soc. Inf. Sci 62 (1), 78-88, 2011 21 Dervin, Brenda; Nilan, Michael: Information Needs and Uses. ARIST: Annual Review of Information Science and Technology 21, 3-33, 1986 22 Dervin, Brenda; Foreman-Wernet, Lois: Sense-making methodology reader. Selected writings of Brenda Dervin. Hg. v. Brenda Dervin, Lois Foreman-Wernet und Eric Lauterbach. Cresskill, N.J.: Hampton, 2003 23 Döring, Jörg; Thielmann, Tristan (Hg.): Spatial turn. Das Raumparadigma in den Kultur- und Sozialwissenschaften. Bielefeld: transcript, 2008 24 Dourish, Paul: Where the action is. The foundations of embodied interaction. Cambridge, Mass: MIT Press, 2001 25 Dueck, Gunter: Wild Duck – empirische Philosophie der Mensch-Computer-Vernetzung. Berlin u. a.: Springer, 2000 26 Dünne, Jörg; Günzel, Stefan (Hg.): Raumtheorie. Grundlagentexte aus Philosophie und Kulturwissenschaften. Frankfurt am Main: Suhrkamp (Suhrkamp-Taschenbuch Wissenschaft, Orig.-Ausg., 1. Aufl.), 2006 27 Erdelez, Sanda: Information Encountering. Karen E. Fisher, Sanda Erdelez und Lynne Mckechnie (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 179-184, 2005 28 Fidel, Raya: Human information interaction. An ecological approach to information behavior. Cambridge, Mass: MIT Press, 2012 29 Fisher, Karen E.; Erdelez, Sanda; Mckechnie, Lynne (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 2005 30 Fisher, Karen E.: Information Grounds. Karen E. Fisher, Sanda Erdelez und Lynne Mckechnie (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 185-190, 2005 31 Foster, Allen; Ford, Nigel: Serendipity and information seeking: an empirical study. Journal of Documentation 59 (3), 321-340, 2003 32 Franck, Georg: Ökonomie der Aufmerksamkeit. Ein Entwurf. München: Hanser, 1998 33 Frei, Rene: Informationswissenschaftliche Begriffe und Kernprozesse aus Sicht des Radikalen Konstruktivismus. Chur: Arbeitsbereich Informationswissenschaft, HTW Chur – Hochschule für Technik und Wirtschaft (Churer Schriften zur Informationswissenschaft; 34), 2009 34 Gulliver, Stephen R.; Ghinea, George: Cognitive style and personality: impact on multimedia perception. Online Information Review 34 (1), 39-58, 2010 35 Harris, Roma; Dewdney, Patricia: Barriers to Information: How Formal Help Systems Fail Battered Women. Westport: Greenwood, 1994 36 Heilig, Mathias; Rädle; Roman; Reiterer, Harald: Die Blended Libraray: Benutzerorientierte Verschmelzung von virtuellen und realen Bibliotheksdiensten. Bernard Bekavac, René Schneider und Werner Schweibenz (Hg.): Benutzerorientierte Bibliotheken im Web. Usability-Methoden, Umsetzung und Trends. Berlin, Boston: de Gruyter Saur, 217-241, 2011 37 Heinström, Jannica: From fear to flow. Personality and information interaction. Oxford: Chandos, 2010 38 Hjørland, Birger; Nicolaisen, Jeppe: The social psychology of information use: seeking 'friends', avoiding
124
A 9: Hans-Christoph Hobohm
'enemies'. Information Research 15 (3 colis706), 2010 (InformationR.net/ir/15-3/colis7/colis706.html) 39 Hobohm, Hans-Christoph: Can Digital Libraries Generate Knowledge? Historical Social Research 37 (3), 218-229, 2012 40 Hobohm, Hans-Christoph: Information und Wissen. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 73-80, 2012 41 Huizing, Ard; Cavanagh, Mary: Planting contemporary practice theory in the garden of information science. Information Research 16 (4), 2011 (http://informationr.net/ir/16-4/paper497.html) 42 Ingwersen, Peter; Järvelin, Kalervo: The turn: integration of information seeking and retrieval in context. Dordrecht u. a.: Springer (Kluwer international series on information retrieval), 2005 43 Jaeger, Paul T.; Burnett, Gary: Information worlds. Social context technology and information behavior in the age of the Internet. 1. publ. New York: Routledge (Routledge studies in library and information science, 8), 2010 44 Janich, Peter: Was ist Information? Kritik einer Legende. 1. Aufl. Frankfurt am Main: Suhrkamp, 2006 45 Jones, William: Personal Information Management. Annual Review of Information Science and Technology 41 (1), 453-504, 2007 46 Kaptelinin, Victor; Nardi, Bonnie A.: Activity theory in HCI. Fundamentals and reflections. San Rafael, Calif.: Morgan & Claypool, 2012 47 Koenig, Michael E. D.: Knowledge Management, User Education, and Librarianship. Hans-Christoph Hobohm (Hg.): Knowledge Management. Libraries and Librarians Taking Up the Challenge. München: Saur (IFLA Publications; 108), 137-150, 2004 48 Kreiswirth, Martin: Merely Telling Stories? Narrative and Knowledge in the Human Sciences. Poetics Today 21 (2), 293-318, 2000 49 Kuhlthau, Carol Collier: Developing a model of the library search process: cognitive and affective aspects. Reference Quarterly 28 (2), 323-242, 1988 50 Lakoff, George; Johnson, Mark: Philosophy in the flesh. The cognitive unconscious and the embodied mind: how the embodied mind creates philosophy. New York: Basic Books, 1999 51 Leckie, G.L.; Pettigrew, K.E.; Sylvain, C.: Modeling the Information Seeking of Professionals: A General Model Derived from Research on Engineers, Health Care Professionals, and Lawyers. The Library Quarterly, Vol. 66, No. 2, 161-193, 1996 52 Leckie, Gloria J.; Given, Lisa M.; Buschman, John (Hg.): Critical theory for library and information science. Exploring the social from across the disciplines. Santa Barbara, Calif: Libraries Unlimited, 2010 53 Mellon, Constance: Library Anxiety: A Grounded Theory and Its Development. College and Research Libraries (march), 160-165, 1986 54 Meyer, Eric T.; Bulger, Monica; Kyriakidou-Zacharoudiou, Avgousta; Power, Lucy; Williams, Peter: Collaborative yet independent. Information practices in the physical sciences. A Report of the Research Information Network, the Institute of Physics, Institute of Physics Publishing and the Royal Astronomical Society. London: rin, 2012 55 Miller, George A.: Informavores. Fritz Machlup und Una Mansfield (Hg.): The Study of Information. Interdisciplinary Messages. New York: Wiley, 111-113, 1983 56 Miller, Suzanne M.: Monitoring and blunting: Validation of a questionnaire to assess styles of information seeking under threat. Journal of Personality and Social Psychology 52 (2), 345-353, 1987 57 Mooers, Calvin N.: Editorial: Mooers' Law. American Documentation 11 (3), S. ii, 1960 58 Morville, Peter: Ambient Findability. Sebstopol: O'Reilly, 2005 59 Nahl, Diane; Bilal, Dania (Hgs.): Information and emotion. The emergent affective paradigm in information behavior research and theory. Medford, N.J: Information Today, 2007 60 Nardi, Bonnie A.: Context and Consciousness: Activity Theory and Human-Computer Interaction. Cambridge, Mass.: MIT Press, 1996 61 Nardi, Bonnie A.; O'Day, Vicki L.: Information ecologies. Using technology with heart. Cambridge, Mass: MIT Press, 1999 62 Niu, Xi; Hemminger, Bradley M.; Lown, Cory; Adams, Stephanie; Brown, Cecelia; Level, Allison et al.: National study of information seeking behavior of academic researchers in the United States. J. Am. Soc.
A 9: Informationsverhalten (Mensch und Information)
125
Inf. Sci 61 (5), 869-890, 2010 (http://dx.doi.org/10.1002/asi.21307) 63 Onwuegbuzie, Anthony J.; Jiao, Qun G.; Bostick, Sharon L.: Library anxiety. Theory, research, and applications. Lanham Md.: Scarecrow Press (Research methods in library and information studies, 1), 2004 64 Palmer, Carole L.; Teffeau, Lauren C.; Pirmann, Carrie M.: Scholarly Information Practices in the Online Environment. Themes from the Literature and Implications for Library Services Development. Dublin, Ohio: OCLC, 2009 65 Pariser, Eli: The filter bubble. What the Internet is hiding from you. New York: Penguin Press, 2011 66 Pirolli, Peter: Information foraging theory. Adaptive interaction with information. Oxford ; New York: Oxford University Press (Oxford series in human-technology interaction), 2007 67 Prabha, Chandra; Connaway, Lynn Silipigni; Olszewski, Lawrence; Jenkins, Lillie R.: What is enough? Satisficing information needs. Journal of Documentation 63 (1), 74-89, 2007 68 Reiterer, Harald; Heilig, Mathias; Rexhausen, Sebastian; Demarmels, Mischa: Idee der Blended Library. Neue Formen der Wissensvermittlung durch Vermischung der realen und digitalen Welt. Ulrich Hohoff und Christiane Schmiedeknecht (Hg.): Ein neuer Blick auf Bibliotheken. 98. Deutscher Bibliothekartag in Erfurt 2009. Hildesheim: Olms (Deutscher Bibliothekartag Kongressbände), 108-115, 2010 69 Sandis, Constanine: Dretske on the Causation of Behavior. Behavior and Philosophy 36, 71-85, 2008 70 Savolainen, Reijo: Everyday Life Information Seeking. Karen E. Fisher, Sanda Erdelez und Lynne Mckechnie (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 143-148, 2005 71 Savolainen, Reijo: Everyday information practices. A social phenomenological perspective. Lanham, Md.: Scarecrow Press, 2008 72 Schapp, Wilhelm: In Geschichten verstrickt: Zum Sein von Mensch und Ding. 5., Auflage 2012. Klostermann, 2012 73 Schatzki, Theodore R.; Knorr-Cetina, Karin D.; Savigny, Eike von (Hg.): The practice turn in contemporary theory. London: Routledge, 2001 74 Schirrmacher, Frank: Payback. Warum wir im Informationszeitalter gezwungen sind zu tun, was wir nicht tun wollen, und wie wir die Kontrolle über unser Denken zurückgewinnen. 3. Aufl. München: Blessing, 2009 75 Sims, Dale B.: The effect of personality type on the use of relevance criteria for purposes of selecting information sources. PhD Thesis. University of North Texas, Denton, Texas, 2002 (http://digital.library. unt.edu/ark:/67531/metadc3313/, zuletzt geprüft am 04.11.2012) 76 Smith, Marian: Young People: a phenomenographic investigation into the ways they experience information. Doctoral Thesis. University, Loughborough, 2010 (https://dspace.lboro.ac.uk/dspace-jspui/ handle/2134/6632, zuletzt geprüft am 26.10.12) 77 Spitzer, Manfred: Digitale Demenz. Wie wir uns und unsere Kinder um den Verstand bringen. München: Droemer, 2012 78 Spink, Amanda: Information behavior. An evolutionary instinct. Berlin; New York: Springer, 2010 79 Taylor, Robert S.: Question-negotiation and information seeking in libraries. College and Research Libraries 29, 178-194, 1968 80 Weinberger, David: Too big to know. Rethinking knowledge now that the facts aren't the facts experts are everywhere and the smartest person in the room is the room. New York: Basic Books, 2011 81 Williams, Robin; Pryor, Graham; Bruce, Ann; Macdonald, Stuart; Marsden, Wendy: Patterns of Information use and exchange: case studies of researchers in the life sciences. A report by the Research Information Network and the British Library. London: rin, 2009 82 Wurman, Richard Saul: Information anxiety: what to do when information doesn't tell you what you need to know. New York, NY u. a.: Bantam books (A Bantam trade paperback, Bantam ed), 1990 83 Wurman, Richard Saul; Leifer, Loring; Sume, David; Whitehouse, Karen: Information anxiety 2. Indianapolis, Ind: Que., 2001 84 Zach, Lisl: When is ‘Enough’ Enough? Modeling the Information-Seeking and Stopping Behavior of Senior Arts Administrators. Journal of the American Society for Information Science and Technology 56 (1), 23-35, 2005 85 Zipf, George Kingsley: Human behavior and the principle of least effort. An introduction to human ecology. Cambridge Mass: Addison-Wesley, 1949
Urs Dahinden
A 10 Methoden empirischer Sozialforschung für die Informationspraxis A 10.1 Relevanz der empirischen Sozialforschung für die praktische Information und Dokumentation Alle Organisationen, welche Daten für ein bestimmtes Publikum auswählen, sammeln und aufbereiten, streben das gleiche Ziel an: Sie möchten, dass ihre Kunden durch die Nutzung der angebotenen Daten möglichst umfassend und präzise ihren spezifischen Informationsbedarf abdecken können. So einfach dieses Ziel formuliert werden kann, so schwierig ist es in der Praxis zu überprüfen, ob überhaupt und wie gut dieses Ziel erreicht wurde. Zwar bieten interne Datenquellen (Besuchs-, Ausleih- und Nutzungsstatistiken) erste Hinweise über die Nutzung bestimmter Informationsangebote. Die Nutzung eines bestimmten Informationsträgers (z. B. der realisierte Zugang zu einem E-Book) ist aber nur eine notwendige und noch keine hinreichende Bedingung für die Befriedigung eines spezifischen Informationsbedarfs. Zu welchem Zweck sich ein Nutzer überhaupt eine bestimmte Information beschafft, wie die Nutzung im Detail stattfindet (Dauer, Intensität, Ort etc.) und ob durch die Nutzung der angestrebte Zweck erreicht und der spezifische Informationsbedarf abgedeckt wird: Alle diese wichtigen Fragen bleiben im alltäglichen Betrieb einer Informationseinrichtung (Archiv, Bibliothek, Museum, Medienunternehmen etc.) weitgehend offen. Die Methoden der empirischen Sozialforschung bieten unterschiedliche Instrumente an, welche eine systematische und wissenschaftliche Beantwortung dieser anspruchsvollen Fragen ermöglichen. In diesem Beitrag soll deshalb ein Überblick zu den Möglichkeiten und Grenzen der Methoden der empirischen Sozialforschung gegeben werden. Im folgenden Beitrag können nur Grundkenntnisse vermittelt werden, mit deren Hilfe der interessierte Lesende in die Lage versetzt werden soll, als kompetenter Gesprächspartner bei der Planung und Durchführung entsprechender Projekte in Kooperation mit erfahrenen Dritten (z. B. als Auftraggeber einer Kundenbefragung) mitzuwirken. Für die konkrete und selbständige Anwendung sind zusätzliche und detailliertere Kenntnisse und Kompetenzen notwendig, welche sich interessierte Lesende über weiterführende Literatur erschliessen können. Da die Methoden der empirischen Sozialforschung in allen sozialwissenschaftlichen Disziplinen (Soziologie, Psychologie, Pädagogik, Ökonomie, Kommunikations- und Medienwissenschaft, Marktforschung etc.) zur Anwendung gelangen, existiert dazu auch ein vielfältiges und empfehlenswertes Literaturangebot (Lit. 01, Lit. 02, Lit. 03).
A 10.2 Ablauf von empirischen Forschungsprojekten Der Ablauf von sozialwissenschaftlichen Forschungsprojekten lässt sich vereinfacht in die folgenden Phasen gliedern (vgl. Lit. 03, S. 8): 1. Projektstart auf Grund eines bestimmten Forschungsanlasses (Bsp. Auftrag, betriebliches Problem, Projektausschreibung, persönliches Interesse, etc.) 2. Formulierung einer wissenschaftlichen Fragestellung (Bsp. Wie beurteilen Kunden die Qualität unserer Informationsprodukte und -dienstleistungen?) 3. Literaturrecherche: Fundierung der wissenschaftlichen Fragestellung durch Bestimmung des Stands der Forschung in Bezug auf Theorie und Empirie 4. Wahl der Methode und Entwicklung eines Datenerhebungsinstruments 5. Auswahl der Untersuchungseinheiten und Merkmalsträger 6. Datenerhebung 7. Datenauswertung 8. Verwertung der Ergebnisse in Publikationen und Vorträgen
A 10: Methoden empirischer Sozialforschung für die Informationspraxis
127
Die lineare Abfolge dieser Phasen stellt eine vereinfachte und idealisierte Darstellung dar. In der Forschungspraxis kann es sinnvoll sein, diese strikte Reihenfolge zu durchbrechen und parallele Prozesse (z. B. mehrere unterschiedliche Datenerhebungen gleichzeitig) und Schleifen einzubauen (z. B. nach einer ersten Datenerhebung und Auswertung erneut Literatur zu recherchieren und eine zweite Auswertung durchzuführen). Erläuternde Bemerkungen sind für die Phase 3 (Literaturrecherche) notwendig: Auch in Forschungsprojekten mit einer starken Anwendungsorientierung ist es empfehlenswert, den Stand der Forschung in Bezug auf Theorie und Empirie zu erheben. Damit kann unnötiger Aufwand vermieden werden, in dem bewährte Instrumente der Datenerhebung (Fragebogen etc.) übernommen werden. Zudem steigt durch die systematische Erhebung des Forschungsstandes auch die Anschlussfähigkeit und Vergleichbarkeit der eigenen Ergebnisse. Die Begriffe Theorie und Empirie sollen hier kurz definiert und erläutert werden (Lit 01, S. 17). Unter Theorie sollen hier alle Systeme von Aussagen verstanden werden, welche den Charakter von Verallgemeinerungen haben. Theorien setzen sich aus mehreren Aussagen (so genannten Hypothesen) zusammen, welche im Rahmen von empirischen Forschungsprojekten überprüft werden können. Ein Beispiel einer Hypothese: „Wenn Informationsinstitutionen neue Dienstleistungen und Produkte anbieten, dann steigt die Zufriedenheit ihrer Kunden.“ Die Gültigkeit dieser sehr allgemeinen Aussage muss in einem empirischen Forschungsprojekt konkretisiert und mit Hilfe von konsistenten methodischen Entscheidungen (siehe Phasen 4 bis 7) überprüft werden. Der Begriff der Empirie kann dabei gleichgesetzt werden mit kontrollierter Erfahrung, wie sie im Rahmen von wissenschaftlichen Datenerhebungen und -auswertungen durchgeführt wird (Lit 01, S. 18). Für die Planung von Forschungsprojekten sind nicht nur allgemeine Theorien, sondern auch spezifische empirische Forschungsresultate von Interesse, welche bei der Auswertung und Interpretation der Daten als Vergleich herangezogen werden können. Um im Beispiel zu bleiben, kann es hilfreich sein zu wissen, um wie viele Prozentpunkte sich die Kundenzufriedenheit in einer vergleichbaren Institution nach der Einführung einer bestimmten Dienstleistung (z. B. Fernzugriff auf E-Books) bei der angepeilten Zielgruppe verbessert hat.
A 10.3 Differenzierung von Forschungsmethoden nach drei Dimensionen Problem
Auftrag
Wissenschaftliche Fragestellung Fundierung der Fragestellung (Forschungsstand) Begriffsdefinition, Hypothesenbildung Wahl der Datenerhebungsmethode / Art der Messung / Untersuchungsanlage Datenerhebung Datenauswertung, Ergebnisdarstellung Publikation, Vorträge etc.
Abb. 1: Forschungsprozess
128
A 10: Urs Dahinden
Die Methoden der empirischen Sozialforschung lassen sich nach unterschiedlichen Kriterien charakterisieren, von denen die folgenden drei Dimensionen zentral sind (siehe Abbildung 1): –– Methode der Datenerhebung (Befragung, Beobachtung, apparative Messung, Inhaltsanalyse), –– Art der Messung und Auswertung (quantitativ und standardisiert oder qualitativ und nichtstandardisiert), –– Experimentelle oder nicht-experimentelle Untersuchungsanordnung.
Abb. 2: Differenzierung von Forschungsmethoden nach drei Dimensionen (eigene Darstellung)
Die Darstellung in Abbildung 2 zeigt, dass jedes konkrete Sozialforschungsprojekt als eine Kombination von bestimmten Elementen aus diesen drei Dimensionen beschrieben werden kann. Grundsätzlich sind alle Methoden der Datenerhebung mit allen Arten der Messung und allen Versuchungsanordnungen kombinierbar, mit einer Ausnahme: Apparative Messungen sind stets mit einer quantitativen Art der Messung verbunden, da die entsprechenden Messgeräte nur Zahlenwerte erheben können. Forschende müssen eine Auswahl treffen und entscheiden, mit welcher Methode der Datenerhebung, mit welcher Art der Messung und mit welcher Untersuchungsanordnung sie ihre Forschungsfragen am besten beantworten können. Im Folgenden soll genauer auf jede dieser drei Dimensionen und den dazugehörigen Ausprägungen eingegangen werden.
A 10.4 Methoden der Datenerhebung Bevor auf die einzelnen Methoden genauer eingegangen wird, soll hier ein erster Überblick auf die vier grundlegenden Datenerhebungsmethoden gegeben werden. Tabelle 1 zeigt auf, dass sich (mit Ausnahme der Inhaltsanalyse) alle Datenerhebungsmethoden auf Personen als Merkmalsträger konzentrieren. Zudem wird deutlich, dass die erhobenen Rohdaten in sehr unterschiedlichen Formen anfallen können, selbst wenn die gleiche Datenerhebungsmethode eingesetzt wird. Da es sich um Rohdaten handelt, sind häufig zusätzliche Datenaufbereitungsschritte notwendig, z. B. die Transkription von Audioaufnahmen. Entsprechend vielfältig und anspruchsvoll sind die notwendigen Methoden der Datenauswertung.
A 10: Methoden empirischer Sozialforschung für die Informationspraxis
129
Methode der Datenerhebung
Merkmalsträger
Mögliche Formen der erhobenen Rohdaten
Befragung
Personen
Sprache (mündlich und schriftlich) Onlinebefragung: digitale Daten
Beobachtung
Personen
Beobachtungsprotokolle in sprachlicher Form Visuelle Daten (stehende und bewegte Bilder)
Verhaltensmessung
Personen
Physiologische Messdaten (Puls, Blutdruck etc.) Eye-Tracking (Blickverlaufsstudien) Automatisierte Messung der Mediennutzung (Telecontrol, Radiocontrol) und des Internetverhaltens (Server- und Userzentrierte Messungen mit Logfile-Analyse)
Inhaltsanalyse
Dokumente
Sprache (schriftlich) Stehende und bewegte Bilder Audiodokumente (Musik, mündliche Sprache)
Tab. 1: Vier Datenerhebungsmethoden im Vergleich (eigene Darstellung)
Datenerhebungsmethode: Befragung Fragen stellen ist zunächst ein ganz alltäglicher Vorgang in der zwischenmenschlichen Kommunikation. Auch in der sozialwissenschaftlichen Forschung zählt die Befragung zu den am häufigsten eingesetzten Datenerhebungsmethoden. Eine Befragung, welche wissenschaftlichen Kriterien genügen soll, unterscheidet sich aber von einem alltäglichen Gespräch sehr stark durch die systematische Planung, die Strukturierung des Gesprächs mit einem Fragebogen oder Leitfaden sowie die fortlaufende und systematische Datensammlung während des Gesprächs. Befragungen können in vier unterschiedlichen Formen durchgeführt werden, welche spezifische Vor- und Nachteile aufweisen: Persönliche Befragungen haben den zentralen Vorteil, dass damit alle Bevölkerungsgruppen erreicht werden können. Sie sind für komplexe und anspruchsvolle Befragungsthemen (u. a. auch Experteninterviews, Lit. 04) geeignet, da im Gespräch von Angesicht zu Angesicht Unklarheiten und Missverständnisse schnell erkannt und ausgeräumt werden können. Wesentliche Nachteile sind die hohen Kosten (u. a. für die Reisezeit und die Reisespesen) sowie die begrenzte Teilnahmebereitschaft, insbesondere bei persönlichen Befragungen im Privatbereich. Telefonische Befragungen weisen viele Gemeinsamkeiten mit den persönlichen Befragungen auf, sind aber nur mit mittelhohen Kosten verbunden. Ein weiterer Vorteil ist die im Schnitt höhere Teilnahmebereitschaft. Wegen der mündlichen Kommunikationssituation können auch hier Unklarheiten im Gespräch vergleichsweise einfach geklärt werden. Allerdings fehlt ein direkter Blickkontakt zwischen Interviewer und Befragten und damit auch die Möglichkeit, visuelles Material zu präsentieren. Ein weiterer Nachteil ist die eingeschränkte Erreichbarkeit der Gesamtbevölkerung bzw. der für die Erhebung relevanten Grundgesamtheit, da heutzutage nicht mehr alle Personen über ein Festnetztelefon oder eine öffentliche bekannte Mobiltelefonnummer verfügen. Schriftliche Befragungen (auf Papier) sind mit geringen Kosten verbunden, die sich auf die Aufwände für den Druck, den Versand und die Erfassung der ausgefüllten Fragebogen beschränken. Allerdings ist die Teilnahmebereitschaft für schriftliche Befragungen sehr tief. Diese Befragungsform kann deshalb nicht für allgemeine Bevölkerungsbefragungen empfohlen werden, sondern nur für Zielgruppen, bei denen mit einer erhöhten Motivation und einem persönlichen Interesse für das Befragungsthema zu rechnen ist (z. B. Personalbefragungen). Die Teilnahmebereitschaft kann
130
A 10: Urs Dahinden
durch eine persönliche Ansprache sowie durch materielle Anreize (so genannte Incentives: kleine Geschenke oder Teilnahme an Wettbewerben mit attraktiven Preisen) erhöht werden. Als weiterer Nachteil ist zu erwähnen, dass in schriftlichen Befragungen keine komplexen Themen behandelt werden können. Ausserdem schliessen schriftliche Befragungen Personen ohne ausreichende Grundfertigkeiten des Lesens und Schreibens (Illetrismus) von der Teilnahme aus. Online-Befragungen (Lit. 05) haben sehr ähnliche Vor- und Nachteile wie schriftliche Befragungen. Ein wesentlicher Unterschied zwischen diesen beiden Befragungstypen sind die noch tieferen Kosten von Online-Befragungen, da kein Druck und kein Versand von Papier notwendig ist. Ein zusätzlicher Vorteil ist die sofortige und durch die Befragungssoftware kontrollierte Datenerhebung, welche menschliche Erfassungsfehler weitgehend ausschliesst. Eine Herausforderung bei OnlineBefragungen ist die direkte Kontaktierung der Zielgruppen. Im Idealfall sind von allen Zielpersonen die E-Mail-Adressen bekannt, so dass eine einfache und personalisierte Kontaktierung möglich ist. In der Praxis fehlt aber häufig dieser direkte Zugang, so dass durch Online-Hinweise auf den entsprechenden Websites oder auch Offline-Medien (Flugblätter etc.) auf die Befragung hingewiesen werden muss. Dadurch wird das Risiko erhöht, dass an der Online-Befragung auch Personen teilnehmen, welche nicht zur Zielgruppe gehören. Ein zentraler Nachteil von Online-Befragungen ist die Beschränkung auf die Gruppe der Internet-Nutzer. In Industrieländern verfügt allerdings eine klare Mehrheit (derzeit über 75 %) der Bevölkerung über einen Internetanschluss (Lit. 06, S. 362). Dennoch sollten Offliner nicht von vornherein von der Befragungsteilnahme ausgeschlossen werden, sondern parallel über eine alternative Befragungsform (z. B. schriftlich oder telefonisch) kontaktiert werden. Anwendungsfälle in der Praxis: –– Eine Universitätsbibliothek plant, ihre Öffnungszeiten anzupassen. Um verlässliche Daten über die Bedürfnisse ihrer Kunden zu bekommen, gibt die Universitätsleitung eine OnlineBefragung in Auftrag, in der die Studierenden und Mitarbeitenden nach ihren genauen Wünschen und Bedürfnissen in Bezug auf die Öffnungszeiten gefragt werden. –– Eine unternehmensinterne Informationsvermittlungsstelle prüft, ob sie eine neue, kostenpflichtige Datenbank in ihr Angebot aufnehmen soll. Dazu führt sie Experteninterviews mit einer kleinen Zahl von potentiell Interessierten dieser Datenbank durch. Datenerhebungsmethode: Beobachtung Nicht nur das Fragen, sondern auch das Beobachten gehört zum kommunikativen Alltag aller Menschen. Eine wissenschaftliche Beobachtung kann in Abgrenzung davon folgendermassen definiert werden: „Die wissenschaftliche Beobachtung ist die systematische Erfassung und Protokollierung von sinnlich (…) wahrnehmbaren Aspekten menschlicher Handlungen und Reaktionen, solange sie weder sprachlich vermittelt noch auf Dokumenten basieren.“ (Lit. 07, S. 25f). Diese Definition macht deutlich, dass bei der Beobachtung non-verbale Daten im Zentrum stehen. Der Fokus auf non-verbales Verhalten stellt einen wesentlichen Vorteil der Beobachtung gegenüber der Befragung dar, da sich gewisse menschliche Verhaltensbereiche weitgehend der verbalen Beschreibung entziehen. Gründe für diese Nicht-Verbalisierbarkeit sind erstens fehlendes Wissen und mangelnde Erinnerungsfähigkeit: So wird es vermutlich den meisten Menschen sehr schwer fallen, im Rückblick auf den Vortag mit einer hohen Präzision (Minuten, Meter) anzugeben, wann sie sich wo innerhalb der Räumlichkeiten einer Bibliothek oder eines Archivs befanden. Als zweiter Grund für die fehlende Verbalisierbarkeit muss hier auch auf eine verzerrte oder gänzlich fehlende verbale Auskunftsbereitschaft bei sozial unerwünschtem Verhalten hingewiesen werden. Ein harmloses Beispiel für sozial unerwünschtes Verhalten wäre Littering (unerlaubtes Liegenlassen von Abfall), das zwar von vielen Menschen praktiziert, aber im Rahmen von Befragungen meist verschwiegen wird. Durch eine wissenschaftliche Beobachtung vor Ort kann in beiden Fällen das Problem der fehlenden Verbalisierbarkeit überwunden werden. Beobachtungen lassen sich klassifizieren nach den zwei Dimensionen Offenheit (offen oder verdeckt) und Teilnahme des Forschenden (teilnehmend oder nicht).
––
––
––
A 10: Methoden empirischer Sozialforschung für die Informationspraxis
131
Bei einer offenen Beobachtung werden die Beobachteten im Voraus über die Datenerhebung informiert und haben ihr zugestimmt. Dies hat forschungsethische Vorteile, aber auch den Nachteil, dass Menschen sich wegen der Bekanntheit der Beobachtung bewusst oder unbewusst anders verhalten (so genannte Reaktivität der Methode) und deshalb z. B. auf sozial unerwünschtes Verhalten verzichten. Bei einer verdeckten Beobachtung wird die Zielgruppe weder im Voraus noch im Nachhinein informiert, was zu einer Umkehrung der erwähnten Vorund Nachteile führt. Von einer teilnehmenden Beobachtung spricht man, wenn Mitglieder des Forschungsteams persönlich an der Beobachtungssituation teilnehmen und dabei auch Daten erheben. Der Vorteil dieser Beobachtungsform sind die geringen technischen Voraussetzungen. Als Nachteil gilt die Reaktivität sowie die Doppelbelastung durch zwei widersprüchliche Rollen (Beobachtender oder Teilnehmender), welche die Datenerhebung einschränken. Bei einer nicht-teilnehmenden Beobachtung sind die Forschenden als Personen nur passiv oder gar nicht präsent in der Beobachtungssituation. Bei Abwesenheit werden die Daten nicht direkt durch die Forschenden, sondern indirekt durch technische Hilfsmittel, z. B. Einwegspiegel oder Aufzeichnungsgeräte (z. B. Foto- und Filmkameras) erhoben. Vorteilhaft ist daran, dass so sehr viel grössere Datenmengen gesammelt werden können. Ein weiterer Vorteil ist die geringe Reaktivität. Nachteile sind der erhebliche technische Aufwand sowie der Zusatzaufwand, der mit der Auswertung von umfangreichen Rohdaten verbunden ist.
Anwendungsfälle in der Praxis. Da die zwei Dimensionen (Offenheit und Teilnahme) voneinander unabhängig sind, können sie beliebig miteinander kombiniert werden: –– Beispiel für eine offene, teilnehmende Beobachtung: Eine Vorgesetzte beobachtet im Rahmen der Ausbildung von neuen Mitarbeitenden deren Gesprächsverhalten bei der Benutzerberatung. Die Beobachtungssituation ist für alle Beteiligten bekannt und die Vorgesetzte kann bei Bedarf auch aktiv eingreifen und die neue Mitarbeiterin bei der Benutzerberatung unterstützen. –– Verdeckte, teilnehmende Beobachtung: Eine Marktforschungsfirma erhält den Auftrag, die Freundlichkeit und fachliche Kompetenz des Auskunftspersonals zu überprüfen. Um möglichst unverfälschte Resultate zu erhalten, wird ein so genanntes „Mistery Shopping“ durchgeführt: Testkunden prüfen das Auskunftspersonal mit Anfragen von unterschiedlichem Schwierigkeitsgrad und verfassen anschliessend dazu einen Bericht. Das Personal wird in der Regel zwar vorinformiert über das Mistery Shopping, weiss aber im konkreten Beratungsfall nicht, ob es sich um einen normalen oder einen Testkunden handelt. Datenerhebungsmethode: Apparative Messung Der technologische Fortschritt hat es möglich gemacht, dass menschliches Verhalten nicht nur durch personalintensive Verfahren wie Befragungen oder Beobachtungen, sondern vermehrt und immer kostengünstiger auch durch Apparate erfasst werden kann. Einige Anwendungsfälle sind weiter unten aufgeführt. Ähnlich wie Beobachtungsdaten weisen solche apparativen Messungen den Vorteil auf, dass mit ihnen non-verbale Daten gesammelt werden können, welche nicht durch das individuelle Bewusstsein und seine erwähnten Einschränkungen gefiltert und verzerrt werden. Im Gegensatz zu Beobachtungsdaten, welche typischerweise in eher unstrukturierter Form (z. B. Filmaufnahmen) vorliegen, sind apparativ erhobene Messdaten aber sehr stark strukturiert und individualisiert und benötigen meist keine weitere Datenaufbereitung durch Transkription oder Codierung. Deshalb werden diese Daten hier (in Abgrenzung zu Gehrau, Lit. 07) nicht der Methode der Beobachtung, sondern der apparativen Messung zugeordnet. Apparative Messungen von menschlichem Verhalten sind besonders attraktiv für die Analyse von Mensch-Computer-Interaktionen, da in diesem technisch geprägten Umfeld die entsprechenden Daten meist mit relativ geringem Aufwand automatisiert gesammelt werden können. (vgl. C 7 Modelle der Computervermittelten Kommunikation und C 8 Mensch-Maschine-Interaktion). Je nach
132
A 10: Urs Dahinden
Art der apparativen Messung sind allerdings auch kostspielige Zusatzgeräte (Eye-Tracker) notwendig. Ein weiterer Nachteil von apparativen Messungen sind die oft anspruchsvollen technischen Vorkenntnisse bei der Datenerhebung. Zudem stellt die Auswertung und Interpretation eine Herausforderung dar, weil zur Erklärung der gemessenen Veränderungen (erhöhter Puls) oft auf komplexes Anschlusswissen (z. B. aus der Physiologie oder Neurologie) zurückgegriffen werden muss. Anwendungsfälle in der Praxis: –– Zur Überprüfung der Usability (Benutzbarkeit) von Websites werden Blickverlaufsstudien (Eye-Tracking) durchgeführt. Die entsprechende Technologie wird meist in einem Testlabor eingesetzt und erlaubt eine genaue Erfassung des Blickverlaufs von Versuchspersonen und damit indirekte Rückschlüsse auf deren kognitive Aktivitäten. –– Das Internetnutzungsverhalten kann apparativ durch spezialisierte Software gemessen werden. Die entsprechenden Methoden werden unter dem Begriff der „Web Analytics“ (Lit. 08, Lit. 09) zusammengefasst. Wird auf der Anbieterseite gemessen, so spricht man von serverbasierten Verfahren (z. B. Log-Datei-Analyse). Wird auf der Nutzerseite gemessen, so ist die Rede von client-basierten Verfahren. Auf spezifische Formen der apparativen Messung wird in diesem Band an anderer Stelle ausführlicher eingegangen (vgl. A 9 Informationsverhalten und A 8 Information Seeking Behaviour). Datenerhebungsmethode: Inhaltsanalyse Im Gegensatz zur Befragung, zur Beobachtung, auch zu den apparativen Messungen stehen bei der Inhaltsanalyse nicht Personen, sondern Dokumente (Beiträge in Massenmedien, Bücher, stehende und bewegte Bilder, Audiodokumente, Spiele etc.) als Merkmalsträger im Zentrum. Die Inhaltsanalyse kann folgendermassen definiert werden: „Die Inhaltsanalyse ist eine empirische Methode zur systematischen, intersubjektiv nachvollziehbaren Beschreibung inhaltlicher und formaler Merkmale von Mitteilungen; (häufig mit dem Ziel einer darauf gestützten interpretativen Inferenz).“ (Lit. 10, S. 25)
Informationseinrichtungen investieren im Rahmen der Wissensorganisation bzw. Erschliessungstätigkeit schon heute einen wesentlichen Teil ihrer Ressourcen in die oben erwähnte Beschreibung inhaltlicher und formaler Merkmale ihrer Medien und Bestände. Entsprechend dieser Definition gehört die Inhaltsanalyse also schon heute zum alltäglichen Kerngeschäft jeder Informationseinrichtung. Die Gemeinsamkeiten zwischen der sozialwissenschaftlichen Methode der Inhaltsanalyse und der Wissensorganisation sind groß und nicht zu übersehen: In beiden Fällen werden Dokumente anhand von vordefinierten Regeln bestimmten Kategorien zugeordnet. Eine weitere Gemeinsamkeit ist die zunehmende Bedeutung von automatisierten Verfahren. Bei der Inhaltsanalyse haben sich dabei die Begriffe der computerunterstützten Inhaltsanalyse (CUI) (Lit. 01, S. 172ff) oder auch des Text Mining eingebürgert (vgl. B 4 Text Mining und Data Mining). Bei der automatisierten Erschliessungstätigkeit wird dagegen eher von Automatischer Indexierung bzw. Automatischem Abstracting gesprochen (vgl. B 11 Automatische Indexierung und B 12 Automatisches Abstracting). Allerdings gibt es auch wesentliche Unterschiede zwischen der Erschliessungstätigkeit in einer Informationseinrichtung und der sozialwissenschaftlichen Inhaltsanalyse. Erstens werden unterschiedliche Ziele verfolgt: Die Erschliessung hat den Hauptzweck, für den potentiellen Nutzenden die Suche eines bestimmten Mediums möglichst systematisch und einfach zu ermöglichen. Im Gegensatz dazu steht bei einer Inhaltsanalyse nicht das einzelne Dokument, sondern die Generalisierung über den untersuchten Medienbestand im Zentrum. Das folgende Beispiel soll dies illustrieren: –– Eine Einrichtung (z. B. ein Museum) möchte wissen, auf welche Resonanz eine neu konzipierte Ausstellung in der medialen Öffentlichkeit gestoßen ist. Zur Beantwortung dieser Frage werden im Rahmen einer Inhaltsanalyse alle medialen Beiträge zu dieser Ausstellung (Zei-
A 10: Methoden empirischer Sozialforschung für die Informationspraxis
133
tungsartikel, Radio- und TV-Sendungen etc.) gesammelt und anhand eines bestimmten Kategorienrasters (Codebuch) ausgewertet. Ein zweiter Unterschied zwischen der Inhaltsanalyse und der Erschliessung liegt in der Art der verwendeten Kategorienraster. In der Inhaltsanalyse wird in aller Regel für jede Studie ein neues, themenspezifisches Kategorienraster (Fachbegriff: Codebuch) entwickelt und angewandt. Informationseinrichtungen setzten dagegen bei der Erschliessung ihrer Medien Systematiken ein (Klassifikationssysteme, Thesauri, Ontologien etc.), welche in aller Regel sehr generell und umfassend aufgebaut sind und sowohl historisch als auch interkulturell eine hohe Stabilität im Sinne eines internationalen Standards aufweisen (vgl. ausführlich dazu D 5 Normung und Standardisierung). Zusammenfassend kann gesagt werden, dass Informationseinrichtungen durch die formale und inhaltliche Erschliessung ihrer Bestände bereits über sehr umfangreiche und attraktive Datenbestände für Inhaltsanalysen verfügen. Diese internen Daten werden aber leider nur sehr selten gezielt und systematisch ausgewertet. Anwendungsfälle in der Praxis: –– Bestandsanalyse: Eine öffentliche Bibliothek untersucht anhand einer Auswertung der eigenen Katalogdaten, wie sich der Anteil der verschiedenen Mediengattungen (Bücher, Filme, Audiodateien, Spiele etc.) im eigenen Bestand in den vergangenen Jahren verändert hat. –– Nutzungsanalyse: Durch eine Verbindung der anonymisierten Ausleihstatistik mit den Erschliessungsdaten der Medien können Nutzungsanalysen durchgeführt werden, welche Aufschluss geben, wie häufig welche Mediengattungen (oder auch: Genres, Autoren, etc.) von den Kunden genutzt werden.
A 10.5 Art der Messung: Quantitativ oder qualitativ Das methodische Vorgehen in der empirischen Sozialforschung kann nicht nur nach der Methode der Datenerhebung, sondern auch nach der Art der Messung (quantitativ vs. qualitativ) differenziert werden. Diese zwei Messarten unterscheiden sich bei mehreren Punkten: Eine quantitative Art der Messung und Auswertung ist sinnvoll, wenn über den Untersuchungsgegenstand bereits viel Wissen in Form von Theorien und empirischen Resultaten bekannt ist. Dabei ist das zentrale Erkenntnisinteresse die Überprüfung von bekannten Theorien in neuen Kontexten (zeitlich, örtlich, kulturell etc.). Bei einer quantitativen Art der Messung werden häufig bewährte Datenerhebungsinstrumente (Bsp. Fragebogen, Codebücher etc.) eingesetzt, deren Kategorien bereits in standardisierter Form vorliegen (Bsp. geschlossene Fragen mit vorgegebenen Antworten). Diese Art der Messung und Auswertung wird als quantitativ bezeichnet, weil die Auswertung der erhobenen Daten mit statistischen Verfahren erfolgt (Lit. 01, S. 47ff; Lit. 03, S. 127ff, S 441). Im Gegensatz dazu ist eine qualitative Art der Messung und Auswertung angebracht, wenn über den Untersuchungsgegenstand kaum Wissen vorhanden ist. Das zentrale Erkenntnissinteresse ist die Entwicklung von neuen Theorien, welche durch die Empirie inspiriert werden (Lit. 11, Lit. 12, Lit. 13). Ein weiteres Prinzip bei der qualitativen Art der Messung ist die Offenheit des Vorgehens. Dieser Anspruch wirkt sich auch auf die Methodenpraxis, d. h. den konkreten Ablauf eines Forschungsprojekts aus. Die oben vorgestellte lineare Abfolge von Forschungsphasen wird bewusst aufgebrochen und durch schleifenförmige Abläufe (z. B. sofortige Datenauswertung nach jedem Einzelinterview) ersetzt. Die Offenheit führt auch zu einem weitgehenden Verzicht auf vorgegebene Kategorien und Standardisierungen. So werden beispielsweise in qualitativen Befragungen die Fragen offen, das heisst ohne Antwortkategorien gestellt. Die Rohdaten einer qualitativen Messung sind denn auch nicht Zahlen, sondern Texte (Notizen, Protokolle, Gesprächsabschriften (Transkripte) etc.). Die Auswertung von qualitativen Daten erfolgt nach unterschiedlichen Methoden, bei denen teilweise auch Spezialsoftware zum Einsatz gelangt (Lit. 11, S. 451ff).
134
A 10: Urs Dahinden
Anwendungsfälle in der Praxis: –– Quantitative Art der Messung: Alle bisher angeführten Beispiele bei den Datenerhebungsmethoden können (müssen aber nicht) in einer quantitativen Art der Messung durchgeführt werden. –– Qualitative Art der Messung: Eine Gesundheitsbehörde möchte ihre Informations- und Aufklärungstätigkeit im Zusammenhang mit einer bestimmten, komplexen Krankheit optimieren. Dazu gibt die Behörde eine Studie in Auftrag, in der wenige qualitative Interviews mit den wichtigsten Zielgruppen (Betroffene, Angehörigen) durchgeführt, um genauer zu erfahren, wann welcher Informationsbedarf im Krankheitsverlauf auftritt und wie dieser am besten gedeckt werden kann. Auf eine spezifische Form der qualitativen Datenerhebung wird in diesem Band an anderer Stelle eingegangen (vgl. A 11 Ethnografische Verfahren).
A 10.6 Untersuchungsanordnung: Experimentell oder nicht-experimentell Als dritte und letzte Differenzierungsdimension der Methoden der empirischen Sozialforschung soll hier noch auf die Unterscheidung von experimentellen und nicht-experimentellen Untersuchungsanordnungen eingegangen werden. Dazu die folgende Definition: „Wissenschaftliche Experimente sind Untersuchungsanordnungen, mit denen Kausalzusammenhänge überprüft werden können“ (Lit. 01, S. 208). Ein Experiment untersucht den Einfluss einer unabhängigen Variable, die als Ursache bezeichnet werden kann, auf eine abhängige Variable, bei der Wirkungen gemessen werden. Anwendungsfall in der Praxis. Das folgende Beispiel eines Feldexperiments soll die Bedeutung dieser Begriffe illustrieren: –– Ein Archiv baut das Dienstleistungsangebot für seine Kunden aus (unabhängige Variable). Um die Auswirkungen dieser Maßnahme auf die Kundenzufriedenheit evaluieren zu können, werden die Kunden vor und nach der Erweiterung des Dienstleistungsangebotes zu ihrer Zufriedenheit (abhängige Variable) befragt. Ein Experiment ist mit anderen Worten stets mit einer Manipulation, also einer gezielten Veränderung der unabhängigen Variable (hier das Dienstleistungsangebot) durch den Forscher verbunden. Alle anderen Einflussfaktoren sollten in einem Experiment möglichst weitgehend kontrolliert und konstant gehalten werden, damit die beobachteten Veränderungen nur auf eine Ursache zurückgeführt werden können. In einem Feldexperiment ist eine vollständige Kontrolle aller Randbedingungen und Störfaktoren nur begrenzt möglich. So kann im erwähnten Beispiel ein sehr negatives gesellschaftliches Ereignis zwischen den zwei Befragungszeitpunkten (Bsp. Umweltkatastrophe) sich in einer Verschlechterung der Kundenzufriedenheit niederschlagen und dadurch zu unlogischen Resultaten und interpretativen Fehlschlüssen führen. In Laborexperimenten können solche Störfaktoren weitgehend kontrolliert und ausgeschaltet werden. Anwendungsfall in der Praxis: –– Im Rahmen der Neugestaltung einer Suchmaske soll deren Usability optimiert werden. Im Projektteam stehen zwei unterschiedliche Versionen A und B zur Debatte, welche als lauffähige Prototypen entwickelt werden. Im Rahmen eines Usability-Experiments wird je die Hälfte der Versuchspersonen nach dem Zufallsprinzip der Version A oder B zugewiesen, mit der sie anschließend standardisierte Suchaufgaben lösen müssen.
A 10.7 Fazit In diesem Beitrag wurde ein Überblick zu den verschiedenen Methoden der empirischen Sozialforschung mit ihren Vor- und Nachteilen gegeben. Anhand von Beispielen wurden ihre Einsatzmöglichkeiten in der Praxis illustriert. Als Fazit soll hier abschliessend die Prognose formuliert
A 10: Methoden empirischer Sozialforschung für die Informationspraxis
135
werden, dass diese Methoden in Zukunft für Informationseinrichtungen an Bedeutung gewinnen. Die folgenden Argumente sprechen dafür: Erstens sind Informationseinrichtungen zunehmend mit der Forderung konfrontiert, ein systematisches Qualitätsmanagement einzuführen, damit ihre Produkte und Dienstleistungen möglichst optimal den Bedürfnissen ihrer internen und externen Kunden entsprechen. Die Methoden der empirischen Sozialforschung bieten vielfältige Instrumente zur systematischen Evaluation dieser Optimierungsbemühungen. Zweitens fördert der Einsatz von empirischer Sozialforschung den Handlungsspielraum für organisationales Lernen: Entscheidungen werden im Idealfall nicht nur auf Grund subjektiver Eindrücke und Präferenzen der Organisationsleitung gefällt, sondern beruhen auf wissenschaftlich begründeten Grundlagen. Drittens können Informationseinrichtungen anhand der Resultate aus empirischen Sozialforschungsprojekten die Qualität und Quantität des eigenen Angebots systematisch gegenüber in- und externen Auftraggebern dokumentieren. Angesichts von zunehmender Ressourcenverknappung und Kostendruck können Erkenntnisse aus empirischen Sozialforschungsprojekten eine wichtige Legitimationsgrundlage für die Existenz von Informationseinrichtungen mit ihren vielfältigen Aktivitäten bilden. Zudem liefern sie Gestaltungshinweise für deren mittel- und langfristige Weiterentwicklung.
Literatur 01 Brosius, Hans-Bernd; Koschel, Friederike; Haas, Alexander: Methoden der empirischen Kommunikationsforschung. Eine Einführung. Wiesbaden: VS Verlag für Sozialwissenschaften; 2009 02 Dahinden, Urs; Hättenschwiler, Walter: Forschungsmethoden in der Publizistikwissenschaft. Publizistikwissenschaft: Eine Einführung. Jarren, Otfried; Bonfadelli, Heinz (Hrsg.). Bern: UTB für Wissenschaft; 2001, 489-527 03 Schnell, Rainer; Hill, Paul B.; Esser, Elke: Methoden der empirischen Sozialforschung. München: Oldenbourg, R.; 2011 04 Bogner, Alexander; Littig, Beate; Menz, Wolfgang: Das Experteninterview. Theorie, Methode, Anwendung. 2. Auflage. Opladen: Westdeutscher Verlag; 2005 05 Kuckartz, Udo: Evaluation online. Internetgestützte Befragung in der Praxis. Wiesbaden: VS Verlag für Sozialwissenschaften/GWV Fachverlage GmbH Wiesbaden; 2009 06 van Eimeren, Birgit; Frees, Beate: ARD/ZDF-Online-Studie 2012. 76 Prozent der Deutschen online - neue Nutzungssituationen durch mobile Endgeräte. Media Perspektiven 2012:362-379 07 Gehrau, Volker: Die Beobachtung in der Kommunikationswissenschaft. Methodische Ansätze und Beispielstudien. Konstanz: UVK-Verlagsgesellschaft; 2002 08 Hassler, Marco: Web analytics. Metriken auswerten, Besucherverhalten verstehen, Website optimieren. Heidelberg, München, Landsberg, Frechen, Hamburg: MITP; 2010 09 Brauckmann, Patrick (Hrsg.): Web-Monitoring. Gewinnung und Analyse von Daten über das Kommunikationsverhalten im Internet. Konstanz: UVK-Verl.-Ges.; 2010 10 Früh, Werner: Inhaltsanalyse: Theorie und Praxis. 5. überarbeitete Auflage. Konstanz: UVK; 2001 11 Flick, Uwe: Qualitative Sozialforschung. Eine Einführung. Reinbek bei Hamburg: Rowohlt-Taschenbuch; 2007 12 Lamnek, Siegfried: Qualitative Sozialforschung. Lehrbuch. Weinheim; Basel: Beltz PVU; 2005 13 Mayring, Philipp: Einführung in die qualitative Sozialforschung. Weinheim: Beltz; 2002
Michael Seadle
A 11 Ethnografische Verfahren der Datenerhebung Die Ethnografie verfügt über mehrere Methoden zur Datenerhebung, die in der Forschung zuweilen gleichzeitig verwendet werden. Entscheidender als die speziellen Datenerhebungsmethoden, die eine ethnografische Untersuchung kennzeichnen, ist das Ziel, eine Kultur oder Subkultur oder Mikro-Kultur zu verstehen und das dabei involvierte Problem zu diagnostizieren (Lit. 04, S. 26). Ethnografen zielen heute weniger auf generelle Gesetze der Menschheit ab, sondern fokussieren auf den Kontext, die spezifischen Umstände: „this ethnographer, in this time, in this place, with these informants, these commitments, and these experiences“ (Lit. 05, S. 5). Auch wenn Ethnografie manchmal als rein qualitatives Verfahren eingeschätzt wird, sind quantitative Daten für ethnografische Forschung genau so wertvoll, und schließlich soll nicht vergessen werden: „Footnotes help, verbatim texts help even more, details impress, numbers normally carry the day“ (Lit. 06, S. 17). Geertz ist nicht der einzige Theoretiker der Ethnologie, aber seine Ideen hatten besonders starken Einfluss auf die ethnografische Forschung für Bibliotheks- und Informationswissenschaft, und er ist deshalb in diesem kurzen Kapitel besonders berücksichtigt.
A 11.1 Beobachtete Datenerhebung Ethnografische Datenerhebung soll immer mit systematischer Beobachtung eng verbunden sein. In traditionellen ethnografischen Beobachtungen in weit entfernten Orten und fremden Kulturen beobachtet und notiert der Ethnograf so viel wie möglich von dieser ihm zunächst unbekannten Welt. Beobachtung ist nicht nur Sehen, sondern auch Hören und Zuhören. Sprachen spielen eine wichtige Rolle für das Verständnis fremder Kulturen, wobei nicht zuletzt das Problem besteht, dass deren Worte in die europäischen Sprachen oft schwer zu übersetzen sind. Die linguistischen Theorien von Ferdinand de Saussure gehören zu den historischen Wurzeln der Ethnografie, und deren gegenwärtige linguistische Weiterentwicklung unter dem Stichwort der Superdiversities (Lit. 02) spielt weiter eine bedeutende Rolle. Saussure machte den Unterschied zwischen dem Signifikat (dem sprachlichen Zeichen) und dem Signifikant (das, was damit bezeichnet ist). Bei einem konkreten Objekt, z. B. ein Baum, gibt es vermutlich eine ziemlich enge Verbindung zwischen dem Wort (dem Signifikat Baum) und dem Objekt (dem Signifikant: eine hohe und holzige Pflanze), obwohl das Wort auch mehrere Arten von Bäumen (Eichen, Ahorn, Kiefer) bedeuten kann. Jemand in Afrika denkt bestimmt an andere Bäume als jemand in Deutschland, und ein Busch für eine Person bedeutet manchmal einen Baum für die andere (ein Senfbaum z. B., der auch ein Busch ist). Die Bedeutung von Wörtern soll der Ethnograf auch für die bibliotheks- und informationsbezogene Arbeit bedenken und beobachten. Einige Benutzer meinen nur gebundene und auf Papier gedruckte Objekte, wenn sie das Wort Buch verwenden, und andere Benutzer denken an eine Informationseinheit, die ebenso gut im elektronischen wie im Papierformat gelesen werden könnte. Das Wort Buch kann auch für den Laien eine Monographie oder den Sammelband einer Zeitschrift heißen. In der ethnografischen Datenerhebung sollte man genau wissen, was mit den Worten (bzw. Aktionen oder Gesten) gemeint ist. Interviews sind sicherlich auch für die ethnologische Datenerhebung eine weit verwendete Methode, aber das bedeutet nicht, dass Interviews allgemein die typische ethnologische Methode sind. Es gibt mehrere Arten von Interviews, formale mit Fragen, die vorher festgelegt wurden, informelle mit breiten und offenen Fragen und Gespräche, die ohne Vorstrukturierung und ohne festgelegte Fragen durchgeführt werden. Formale Interviews sind für Anfänger geeigneter, weil alles vorher geplant und durchgedacht werden kann. Offene Gespräche sind dann besser geeignet, wenn der Forscher selbst noch nicht sicher ist, was er fragen soll.
A 11: Ethnografische Verfahren der Datenerhebung
137
Tonaufnahmen sind heutzutage für Interviews üblich, unter der Annahme bzw. einer expliziten Bestätigung, dass der Befragte einverstanden ist. Jedoch sollte man sich vorab überlegen, ob der Aufwand, jedes Wort zu transkribieren und den ganzen Interviewtext danach auch noch zu beschlagworten, im Verhältnis zum Ertrag steht. Es reicht oft aus, sich während des Interviews Notizen zu machen oder diese von einer Begleitperson machen zu lassen. Es hängt aber natürlich davon ab, was man genau untersuchen will. Visuelle Beobachtung sollte Standard bei der ethnografischen Datenerhebung sein. Kleine Gesten und Gesichtsausdruck können bedeutungsvoller sein als die dabei gesprochenen Worte. In einigen Kulturen ist es z. B. zu unhöflich, einfach nein zu sagen, so dass man ja sagt und andere Indikatoren benutzt, um anzuzeigen, dass man nicht wirklich einverstanden ist. In Teilen von Indien schüttelt man den Kopf, um das ja zu kommunizieren – also auch Gesten müssen aus dem Kontext interpretiert werden. Mit effektiver, methodisch kontrollierter Beobachtung können Probleme z. B. bei einem Bibliotheksbau erkannt werden, die man sonst nicht sieht, weil man so daran gewöhnt ist. Beispiel: Erkennen, warum Besucher eine Infotheke in der Bibliothek benutzen oder auch nicht (vgl. Lit. 07). Wie genau man die Beobachtungen notiert, hängt von den jeweiligen Umständen ab. In früheren Zeiten musste alles verschriftlicht werden, höchstens konnte zusätzlich eine Kamera zum Einsatz kommen, wobei eine auch später nachvollziehbare Beziehung zwischen Bild und Notizen gesichert werden musste. Die gegenwärtig verfügbare Technologie hat inzwischen vieles geändert: mit einem mobilen Gerät wie einem Handy kann man heute Fotos und Videos in einer für die Zwecke der Erhebung brauchbaren Qualität machen und sofort notieren bzw. die Aufnahme direkt kommentieren. Aus ethischen (und auch rechtlichen) Gründen sollte für diese Aufnahmen eine Erlaubnis vorab eingeholt werden, was manchmal in öffentlichen Umgebungen nicht möglich ist. Videos sind zunächst auch nur Rohdaten, die immer mit erheblichem Aufwand bearbeitet/erschlossen werden müssen, zumal zum Zeitpunkt der Aufnahme nicht immer klar war, welche Details für die vorgesehene Forschung zählen und welche nicht.
A 11.2 Datenerhebung durch Probanden Es gibt viele ethnografische Projekte, in dem die Probanden selbst die Daten erheben. Nancy Foster und Susan Gibbons an der University of Rochester (Lit. 03) haben den Probanden billige WegwerfKameras gegeben und sie gebeten, Aufnahmen entsprechend gegebener Vorgaben zu machen: wo sie studieren, wo sie am liebsten in der Bibliothek sitzen usw. Cowan (Lit. 01) hat einen ähnlichen Versuch mit Videokameras gemacht, mit dem Vorteil, dass die Studierenden die Videoaufnahmen simultan kommentieren konnten. Diese Verwendung neuer Technologie erlaubt dem Ethnografen, den wichtigen Kontext der Orte und die tatsächlichen Interaktionen zu sehen, ohne selbst dabei zu sein. Die physische Anwesenheit des Ethnografen ist in der Regel ein Störfaktor, den man in Rechnung stellen muss. Wenn ein Unbekannter und Fremder in einer aufzunehmenden Szene dabei ist und zuhört, ist es nicht wahrscheinlich, dass Menschen sich gänzlich normal verhalten. Deshalb verbleiben Ethnologen traditionell eine längere Zeit in einer fremden Gesellschaft, manchmal ein Jahr oder mehr, damit die Probanden den Beobachter nicht mehr als Fremdkörper ansehen. Auch eine Videokamera kann als Einsatz von Technik z. B. in einer Alltagssituation ein Störfaktor sein; aber ihre Verwendung ist inzwischen so weit verbreitet, dass zumindest die Störung des Fremden kaum noch empfunden wird. Vor- und Nachteile müssen aber auch hier weiter abgewogen werden.
A 11.3 Externe Datenerhebung Eine ethnografische Untersuchung beschränkt sich nicht nur auf Interviews oder Beobachtung: Sie kann auch Datenquellen wie Logfiles oder Datenbanken oder die Ergebnisse einer Befragung benutzen. Auch Texte gehören zu den externen Datenquellen, besonders (und zwingend) bei ethno-
138
A 11: Michael Seadle
grafischer Forschung, die Vorgänge aus der Vergangenheit zum Gegenstand hat. Logfile-Analysen sind nützlich für das Verständnis der Interaktionen zwischen Menschen und Maschinen allgemein, oder auch um zu lernen, wie z. B. die Bibliotheksbenutzer mit elektronischer Information umgehen. Auch das sind Themen für ethnografische Untersuchungen. Logfile-Daten sind quasi geheim und elektronisch erworbene Beobachtungen. Auch hier muss man die Grenzen von Logfileanalysen verstehen: eine Pause z. B. bedeutet nicht immer, dass der Proband sich auf eine Webseite konzentriert – er könnte auch einfach nur abgelenkt sein. Bei Befragungen, die nicht nur nach Tatsachen, sondern auch Meinungen und Präferenzen erheben wollen, ist es zwingend erforderlich, dass entsprechende Fragen unter vier Augen in einem Interview gestellt werden, damit man sieht, inwieweit der Befragte unsicher ist oder eine Antwort nur deshalb gibt, weil er nicht weiter gefragt werden will (sogenanntes Satisficing). Befragungen bei einer sehr breiten oder unspezifischen Grundgesamtheit sind weniger für ethnografische Untersuchungen geeignet. Die moderne Ethnografie versucht, spezifische Menschen, Kulturen und Gruppen mit konkreten Details zu verstehen. Eine ethnografische Befragung einer kleinen und geschlossenen Gruppe kann aber sehr effektiv Informationen und Kontextdaten ermitteln.
A 11.4 Fazit Ethnografische Datenerhebung schließt in der Regel keine Quellen aus, und gute ethnografische Forschung benutzt in der Regel mehrere Quellen, damit ein breites und vollständiges Bild aufgebaut werden kann. Das Ziel, so Clifford Geertz, ist dem Leser das Gefühl zu geben, dass der Untersuchende wirklich da war (Lit. 05, S. 4). Die Methoden der ethnografischen Datenerhebung sind noch im Wandel, auch weil die Technologie der Aufzeichnung sich in den letzten Jahren stark verändert hat. Je mehr Daten man sammeln kann, besonders qualitative Daten, desto schwerer wird die Aufgabe, sie zu organisieren und zu analysieren. Obwohl es inzwischen Systeme gibt, durch die das Transkribieren und Beschlagworten qualitativer Daten unterstützt wird, bleibt der Aufwand doch so hoch, dass unerfahrene Forscher sich oft in den Details verlieren, ohne die Gestalt des Gesamten richtig zu erkennen. Details in der Datenerhebung sind immer wichtig, aber ohne ausreichenden Abstand davon verliert man leicht die nötige Distanz, um ein wirkliches ethnografisches Bild darzustellen zu können. Datenerhebung ist nicht Selbstzweck, sondern muss der Forschung die wichtigen Hinweise zur Beantwortung ihrer Fragen geben.
Literatur 01 Cowan, S. M.: Assessment 360: Mapping undergraduates and the Library and the University of Connecticut. Connecticut, 2012 (http://www.clir.org/pubs/resources/Assessment360.pdf) 02 Blommaert, J.; Rampton, B.: Language and superdiversity. Diversities (published by UNESCO) Vol 13, 2011, 2, 1-22 03 Foster, N. F.; Gibbons, S. (eds.): Studying Students: The Undergraduate Research Project at the University of Rochester. Chicago, IL.: American Library Association, 2007 (http://www.ala.org/ala/mgrps/divs/acrl/ publications/digital/Foster-Gibbons_cmpd.pdf) 04 Geertz, C.: Thick Description: Toward an Interpretive Theory of Culture. The Interpretation of Cultures: Selected Essays. New York: Basic Books, 3-32, 1973 05 Geertz, C.: Works and Lives: The Anthropologist as Author, Stanford, CA.: Stanford University Press. 1988 06 Geertz, C.: After the fact: two countries, four decades, one anthropologist. Cambridge, MA: Harvard University Press, 1995 07 Greifeneder, E.; Seadle, M.: Bilder, die nicht lügen. B.I.T. Online, 12 (1), 11-16, 2009
Hans-Christoph Hobohm
A 12 Erhebungsmethoden in der Informationsverhaltensforschung Die Beobachtung und Analyse des Umgangs von Menschen mit Information ist methodisch noch wenig gesichert (vgl. A 9 Informationsverhalten). Die meisten Studien verwenden eine eigene adhoc-Methodik, die ausschließlich Aussagekraft für die eigene Studie hat. Es ist deshalb dieser Teildisziplin zuweilen der Vorwurf gemacht worden, wenig wissenschaftlich, also nicht im Sinne der Weiterentwicklung einer Forschungsfront gearbeitet zu haben. Ob sich Methoden als sinnvoll, verlässlich oder valide erweisen, wird zu wenig hinterfragt, und es wird zu wenig auf methodische Erfahrungen anderer Studien zurückgegriffen. Die teilweise sehr weitgehende methodologische Diskussion anderer Disziplinen – etwa der Psychologie oder der Sozialforschung – wird weitestgehend nicht rezipiert. In letzter Zeit wird im Zusammenhang mit der methodischen Unsicherheit der Informationswissenschaft oft die Grounded Theory von Glaser und Strauss bemüht und Feldforschung unter dem Label ethnografischer Studien betrieben (vgl. A 11 Ethnografische Verfahren der Datenerhebung). Die Pionierstudie hierzu ist das vielzitierte Modell von David Ellis (Lit. 06) zum Informationssuchverhalten von Wissenschaftlern, die nicht nur die inhaltliche, sondern auch die methodische Basis der Informationsverhaltensforschung legte. Ob allerdings der Bezug auf die Grounded Theory in den Nachfolgestudien immer gerechtfertigt ist, muss im Einzelfall geprüft werden. Gerade die Informationsverhaltensforschung als junges Wissenschaftsgebiet sollte mit hohen wissenschaftlichen Standards arbeiten, um sich nicht zu diskreditieren. Sehr häufig werden selbstentwickelte Fragebögen eingesetzt mit geschlossenen Fragen zur Selbsteinschätzung durch den Befragten. Nicht in allen Fällen werden hierbei die Erfahrungen der empirischen Sozialforschung oder der Kompetenzanalyse berücksichtigt, die z. B. der Selbsteinschätzung durch Befragte zunehmend kritisch gegenüberstehen (vgl. Lit. 14, Lit. 07). Die sog. quantitative empirische Forschung zeichnet sich durch einen hohen methodologischen Standard aus. Aber auch die qualitative Forschung, die wie in der Grounded Theory oft versucht, dem zu untersuchenden Objekt nicht durch Vorkategorisierungen unrecht zu tun und sich eher beobachtend und beschreibend zur Analyse vortastet, hat einen ausgefeilten methodologischen Apparat (Lit. 08), den es gilt, zunehmend für die Informationsverhaltensforschung zu nutzen.
A 12.1 Tests und Skalen – Quantitative Ansätze Die meisten Erkenntnisse zum Verhältnis des Menschen zu Information stammen aus der Psychologie und der Kognitionswissenschaft. Von dort werden Skalen, Tests und andere Erhebungsinstrumente meist quantifizierender Art an informationswissenschaftliche Fragestellungen herangeführt. Ein Beispiel ist der MBTI (Myers-Briggs Type Indicator, Lit. 11, Lit. 05), der als standardisiertes Messinstrument zur Persönlichkeit des Menschen verwendet wird, um die daraus gewonnenen Daten mit meist selbst definierten Erhebungsskalen zu korrelieren. Die empirische Psychologie verfügt über einen ausgefeilten Apparat an Analyseinstrumenten zur Beschreibung des menschlichen Verhaltens, der in der Informationswissenschaft noch relativ selten eingesetzt wird. Vor allem aber gibt es bisher kaum spezifische, standardisierte Tests zur quantifizierten Erhebung von Informationskompetenz oder Informationsverhalten, die zur Darstellung der Informationsdimension verwendet werden können. Eine Ausnahme bildet die Miller Behavioral Style Scale (MBSS), die das Informationsverhalten von Personen unter Stress vor allem im Gesundheitswesen misst (Lit. 10). Ein spezifisch informationswissenschaftlicher Test ist die Library Anxiety Scale von Bostick (Lit. 12), der zur expliziten Erhebung von Bibliotheksangst verwendet werden kann. Es wäre wünschenswert, wenn mehr entsprechend spezifische Skalen (d. h. standardisierte und getestete Fragebögen) zum Informationsverhalten entwickelt würden. Die HCI-Forschung (vgl. C 6 Mensch-Computer-Interaktion) und das Forschungsgebiet des Interface Design (Lit. 15) sind hier einen Schritt weiter,
140
A 12: Hans-Christoph Hobohm
vor allem durch experimentelle Erhebungssettings etwa mit Eye-Tracking-Systemen und speziell ausgestatteten Usability-Laboren. Allerdings überwiegt hier meist die Fragestellung der Akzeptanz von und des Umgangs mit Technologie, während die Informationsverhaltensforschung auch nicht Technologie gebundene Informationsflüsse betrachtet. Eine Reihe von konzeptuellen Modellen zum Informationssuchverhalten (ISB) existiert bereits (vgl. A 8 Information Seeking Behaviour). Aber auch in diesem Forschungszweig (als Teilgebiet der allgemeinen Informationsverhaltensforschung) werden praktisch in jeder Studie eigene Erhebungsinstrumente entwickelt, so dass eine Vergleichbarkeit oft nicht gegeben ist – ganz zu schweigen von immer wieder anzutreffenden methodischen Schwächen einzelner Arbeiten.
A 12.2 Qualitative Methoden Der informationswissenschaftliche Ansatz zur Analyse menschlichen Informationsverhaltens ist einerseits stark prozessorientiert und ist auf diese Weise Konzepten wie der kognitiven Architektur des ACT-R verbunden. Aber andererseits ergab sich gerade in der Forschung zur künstlichen Intelligenz schon früh ein eher phänomenologischer Ansatz (Lit. 04, Lit. 01), der auch dazu führte, dass andere Formen der Analyse der praktischen Informationssituation erprobt wurden. Brenda Dervin schlug aus diesem Grund vor, nicht nur zu erfragen, wann welche Information wie genutzt und welche Qualitäten daran geschätzt wurden, sondern (zusätzlich) genauer auf die konkrete Situation zu schauen und diese in ihrer Zeit-Raum-Sozial-Dimension zu analysieren (Lit. 03, Lit. 02). Ihre Erhebungsmethode der „micromoments-interviews“ ähnelt der „Sequentiellen Ereignismethode“ der qualitativen Marktforschung und wird in Form der Critical Incidents Technique schon recht häufig eingesetzt. Hier geht es stets um das meist erzählerische Ausloten von konkreten lebensweltlichen Situationen, ähnlich auch der „thick description“ der Anthropologie. Das wissenschaftstheoretische Vorgehen beruft sich hierbei oft auf die sog. Grounded Theory von Glaser und Strauss, bei der im Prinzip die Forschung sich die Analysekategorien im Erhebungsprozess erst allmählich selbst entwickelt. Eine noch weiter entfernt von vordefinierten kategorialen und kognitiv-verbalisierten Untersuchungsmethoden ist die in der Erziehungswissenschaft verbreitete Methode der Phänomenographie, die ebenfalls versucht, vordefinierte kategoriale Verbalisierungen zu vermeiden (Lit. 09, Lit. 17). Hierbei wird angestrebt, die Informationssituation ganz aus der Perspektive der Befragten zu erfassen, indem man sie z. B. zeichnen lässt und erst anhand der Zeichnung zu sprachlichen Erläuterungen anregt. Der Fokus der phänomenographischen Analyse ist allerdings nicht die einzelne befragte Person in ihrem Verhältnis zu einzelnen untersuchten Variablen, sondern die berichtete Erfahrung in einem eher „kollektiven“ Sinn. Die Analysematerialien aller befragten Probanden werden deshalb meist mit inhaltsanalytischen Methoden aus dem Gesamtkorpus der Befragungen interpretiert, so dass sich auch immer wieder neue Kategorien herausbilden, die vorher nicht im Blickfeld der Untersuchungen waren (exemplarisch dazu Lit. 17).
A 12.3 Information Horizons Eine andere qualitative Erhebungsmethode ist die der Information Horizons. Sie entspricht im Grunde dem Cognitive Mapping, das in der Regional- und Stadtforschung, aber auch im Interface Design in letzter Zeit eine große Rolle spielt. Die Methode wurde von skandinavischen Informationswissenschaftlern um Diane Sonnenwald u. a. vorgeschlagen und von Reijo Savolainen weiterentwickelt (Lit. 18, Lit. 13). Hierbei soll die/der Proband/in auf einem Blatt Papier zunächst sich selber einzeichnen, um dann auf dem Blatt seine/ihre Informationsquellen so zu verorten, dass sie gruppiert sind und später in eine Reihenfolge ihrer Bedeutung gebracht werden können. Auch hier wird mit Hilfe der „critical incidents“-Technik im Interview danach die Situationsbeschreibung vertieft, auch um die Vollständigkeit der Verzeichnung genutzter Informationsquellen zu erreichen.
A 12: Erhebungsmethoden in der Informationsverhaltensforschung
141
Die Methode hat zunächst den Vorteil für die meisten Befragten intuitiv zu sein, und sie erreicht durch die Zeichnung einen Generalisierungsgrad der Beschreibung des eigenen Informationsverhaltens, der nicht durch direkte Befragungen, Beobachtungen oder Experimente herzustellen wäre. Das geforderte numerische Ranking der Quellen erleichtert zudem schließlich eine ansatzweise quantitative Darstellung von Ergebnissen über mehrere Befragte hinweg.
Abb. 1: Information Horizon in einem Forschungsinstitut: Der Wissenschaftler nutzt zunächst seinen eigenen Fundus (0), danach die Kollegen seines Instituts (1), dann formalisierte Quellen aus dem Internet (2), die Scientific Community (Fachkollegen auf Tagungen und in Verbänden) und erst an letzter Stelle die Institutsbibliothek (eigene Erhebung 2009)
Literatur 01 Clark, Andy: Supersizing the mind. Embodiment, action, and cognitive extension. New York, NY: Oxford University Press, 2011 02 Dervin, Brenda; Foreman-Wernet, Lois: Sense-making methodology reader. Selected writings of Brenda Dervin. Hg. v. Brenda Dervin, Lois Foreman-Wernet und Eric Lauterbach. Cresskill, N.J.: Hampton, 2003 03 Dervin, Brenda: What Methodology Does to Theory: Sense-Methodology as Exemplar. Karen E. Fisher, Sanda Erdelez und Lynne Mckechnie (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 25-36, 2005 04 Dreyfus, Hubert L.: What computers still can't do. A critique of artificial reason. Cambridge Mass.: MIT Press, 1972 05 Dueck, Gunter: Wild Duck – empirische Philosophie der Mensch-Computer-Vernetzung. Berlin u. a.: Springer, 2000
142
A 12: Hans-Christoph Hobohm
06 Ellis, David: Modeling the information-seeking patterns of academic researchers: A grounded theory approach. Library Quarterly, 63, 469-486, 1993 07 Erpenbeck, John; Rosenstiel, Lutz von: Handbuch Kompetenzmessung. Erkennen, verstehen und bewerten von Kompetenzen in der betrieblichen, pädagogischen und psychologischen Praxis. 2., überarb. und erw. Aufl. Stuttgart: Schäffer-Poeschel, 2007 08 Flick, Uwe; Kardorff, Ernst von; Steinke, Ines: Qualitative Forschung. Ein Handbuch. 9. Aufl. Reinbek bei Hamburg: Rowohlt-Taschenbuch-Verlag (Rororo Rowohlts Enzyklopädie, 55628), 2012 09 Limberg, Louise: Phenomenography. Karen E. Fisher, Sanda Erdelez und Lynne Mckechnie (Hg.): Theories of information behavior. Medford, N.J: Information Today (ASIST monograph series), 280-283, 2005 10 Miller, Suzanne M.: Monitoring and blunting: Validation of a questionnaire to assess styles of information seeking under threat. Journal of Personality and Social Psychology 52 (2), 345-353, 1987 11 Myers, Isabel Briggs: MBTI manual. A guide to the development and use of the Myers-Briggs Type Indicator. 3. Aufl. Palo Alto, Calif: Consulting Psychologists Press, 1998 12 Onwuegbuzie, Anthony J.; Jiao, Qun G.; Bostick, Sharon L.: Library anxiety. Theory, research, and applications. Lanham Md.: Scarecrow Press (Research methods in library and information studies, 1), 2004 13 Savolainen, Reijo: Everyday information practices. A social phenomenological perspective. Lanham, Md.: Scarecrow Press, 2008 14 Schnell, Rainer; Hill, Paul B.; Esser, Elke: Methoden der empirischen Sozialforschung. 9. Aufl. München: Oldenbourg, 2011 15 Sears, Andrew; Jacko, Julie (Hg.): Human-computer interaction. Fundamentals. Boca Raton, FL: CRC Press, 2009 16 Sims, Dale B.: The effect of personality type on the use of relevance criteria for purposes of selecting information sources. PhD Thesis. University of North Texas, Denton, Texas, 2002 (http://digital.library. unt.edu/ark:/67531/metadc3313/, zuletzt geprüft am 04.11.2012) 17 Smith, Marian: Young People: a phenomenographic investigation into the ways they experience information. Doctoral Thesis. University, Loughborough, 2010 (https://dspace.lboro.ac.uk/dspace-jspui/ handle/2134/6632, zuletzt geprüft am 26.10.12) 18 Sonnenwald, Diane H.; Wildemuth, Barbara M.; Harmon, Gary L.: A Research Method Using the Concept of Information Horizons. An Example from the Study of Lower-Economic Students' Information Seeking. The New Review of Information Behavior Research 2, 65-86, 2001 (http://eprints.rclis.org/ bitstream/10760/7969/1/2001-info-beh-sonnenwald.pdf, zuletzt geprüft am 4.11.12)
B: Methodisches
Bernard Bekavac B 1 Web-Technologien Rolf Assfalg B 2 Metadaten
145
159
Ulrich Reimer B 3 Wissensorganisation
172
Thomas Mandl B 4 Text Mining und Data Mining
183
Harald Reiterer, Hans-Christian Jetter B 5 Informationsvisualisierung 192 Katrin Weller B 6 Ontologien
207
Stefan Gradmann B 7 Semantic Web und Linked Open Data
219
Isabella Peters B 8 Benutzerzentrierte Erschließungsverfahren Ulrich Reimer B 9 Empfehlungssysteme
229
238
Udo Hahn B 10 Methodische Grundlagen der Informationslinguistik Klaus Lepsky B 11 Automatische Indexierung Udo Hahn B 12 Automatisches Abstracting Ulrich Heid B 13 Maschinelle Übersetzung Bernd Ludwig B 14 Spracherkennung
252
272 286 302
313
Norbert Fuhr B 15 Modelle im Information Retrieval
322
Christa Womser-Hacker B 16 Kognitives Information Retrieval
336
Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller B 17 Maschinelles Lernen, Mustererkennung in der Bildverarbeitung 348
Bernard Bekavac
B 1 Web-Technologien Dieser Beitrag führt zunächst in die grundlegenden und wichtigsten technologischen Konzepte des Web ein und liefert eine Übersicht über die aktuellen Web-Technologien. Aufbauend darauf werden einige weitere spezifische Web-basierte Technologien vorgestellt, die aus informationswissenschaftlicher Sichtweise von besonderer Relevanz sind. Seit Beginn des World Wide Web Ende der 80er bzw. Anfang der 90er Jahre hat sich die zugrundeliegende technologische Basis stetig fortentwickelt, so dass aktuelle Werke wie z. B. Meinel & Sack (Lit. 01), McLaughlin (Lit. 02) oder die Dokumentation des World Wide Web Consortiums (W3C, URI01), die detailliert und in voller Breite Web-Technologien behandeln, mehrere hundert Seiten umfassen. Dieser Beitrag kann daher in keinerlei Weise Anspruch auf Vollständigkeit erheben, er soll vielmehr nach einer Einleitung mit einem kurzen geschichtlichen Abriss einen Bogen zwischen den grundlegenden technologischen Konzepten des Web und spezifischen informationswissenschaftlichen Aspekten spannen. Die technologische Grundlage des World Wide Web bildet das Client/Server-Konzept aufbauend auf dem TCP/IP-basierten Internet. Der Server bzw. Web-Server übernimmt dabei zwei grundlegende Aufgaben: Zum einen werden hier die abrufbaren Inhalte zur Verfügung gestellt und zum anderen werden die Anfragen von Client-Programmen entgegengenommen und verarbeitet. Der Server stellt somit einen Dienst zum Abruf von Inhalten zur Verfügung. Das softwaretechnische Pendant zum Server ist der Web-Client, der i. d. R. in Form des heutigen Web-Browsers in Erscheinung tritt. Dieser bildet die Schnittstelle zwischen dem Anwender und den von Web-Servern zur Verfügung gestellten Informationsbeständen. Die primären Aufgaben eines Web-Browsers sind der Verbindungsaufbau, die Anfrage von spezifischen Inhalten, das Empfangen von Daten sowie die (multimediale) Darstellung von Web-Seiten. Nicht selten sind es aber gar keine Menschen, die auf die Webseiten zugreifen, sondern Maschinen. In diesem Fall sind es sogenannte Roboterprogramme diverser Anwendungen, wie z. B. von Suchmaschinen, die Webseiten automatisiert verfolgen, herunterladen und je nach Anwendung weiterverarbeiten. In beiden Fällen verbinden sich Web-Server und -Client über das gemeinsame Kommunikationsprotokoll HTTP (HyperText Transfer Protocol). Diese typische Client/Server-Architektur war aus technologischer Sicht schon vor der Entstehung des Web in ähnlicher Weise bei allen Internet-basierten Diensten vorhanden. Worin lag also die Besonderheit beim Web? Frühere Internet-Dienste erforderten spezifische technologische Kenntnisse bei der Bedienung eines Clients. Wollte man auf den Dienst eines Internet-basierten Servers zugreifen, so musste man nicht nur dessen Internetadresse kennen bzw. eingeben, sondern auch detailliert wissen, wie man zu den entsprechenden Inhalten gelangt, wobei dies von Dienst zu Dienst unterschiedlich war. Im Falle des E-Mail-Dienstes konnte das noch durch eine einmalige Parametrisierung (Server-Adresse, Benutzerauthentifizierung, Portangaben etc.) durch IT-Administratoren erfolgen, aber schon bei der Anwendung des FTP-Dienstes ist ein Hintergrundwissen über betriebssystemspezifische Verzeichnisse sowie diverse Kommandos zur Auswahl und Übertragung von Dateien unerlässlich. Andere Internetdienste wie z. B. telnet erfordern noch tiefere Informatikkenntnisse für deren Handhabung. Eines der Ziele des Dienstes WWW war es genau diese Komplexität zu reduzieren. Mittels einem sogenannten Uniform Resource Identifier (URI) wurde zunächst ein Adressformat definiert, mittels dem man ein bestimmtes Dokument auf einem bestimmten Server eindeutig referenzieren kann. Dies ermöglichte es, dass ein Client mittels einer gegebenen URI automatisch auf das spezifizierte Dokument auf dem angegebenen Server zugreifen konnte. Den zweiten großen Unterschied zwischen dem Web und den vorangegangenen Diensten im Internet bildet ein ebenfalls spezifisches Dokumentformat der zu übertragenden Inhalte. Anhand der Seitenbeschreibungssprache HTML (HyperText Markup Language) wurde nicht nur die Möglich-
146
B 1: Bernard Bekavac
keit geschaffen, multimediale Inhalte (zunächst nur formatierter Text und Grafik, später dann diverse Audio und Video-Formate) zwischen Server und Client zu transferieren, sondern auch innerhalb dieser direkte Verknüpfungen, sogenannte (Hyper-)Links, zu anderen Dokumenten herzustellen und damit das Hypertextprinzip zu verwirklichen. Diesen zugrunde liegenden Web-Technologien ist es, zusammen mit aufkommenden Web-Clients mit graphischen Benutzeroberflächen und der Aktivierung von Links mittels Mausklick, zu verdanken, dass der benutzerfreundliche Dienst WWW solch eine breite Anwendung gefunden hat. Das Web ist allerdings schon lange nicht mehr nur ein Dienst zum Abrufen von Dokumenten oder multimedialen Inhalten. Die Weiterentwicklung der Web-Technologien führte dazu, dass diese inzwischen für die allgemeine Realisierung von Benutzungsschnittstellen verwendet werden. Der Vorteil liegt dabei auf der Hand: Hat eine Applikation eine Web-basierte Benutzeroberfläche, so kann diese meist nicht nur ohne zusätzlichen Aufwand von einem beliebigen Web-Browser aus bedient werden, es entfällt auch die Installation von neuen Versionen, da die Applikation auf dem Server läuft und über den Browser lediglich bedient wird. Daher verwundert es auch nicht, dass die meisten mit dem Web verbundenen technologischen Entwicklungen der letzten zwei Jahrzehnte um den Web-Browser herum entstanden sind und somit die Gestaltung von Benutzeroberflächen immer mehr professionalisiert wurde. Der Web-Browser-Hersteller Netscape verwendete als erster die Skriptsprache JavaScript, um den statischen Aspekt von HTML aufzuheben und zunächst PopUp-Fenster, Plausibilitätsprüfungen bei Formulareingaben, Laufschriften oder kleinere Berechnungen realisieren zu können. Die schnelle Verbreitung von JavaScript zwang dann nicht nur alle Hersteller von Web-Browsern dazu, diese Skriptsprache in ihre Produkte zu integrieren, sondern machte diese Technologie quasi zu einer weiteren Kerntechnologie des Web. So wurde auch HTML nachträglich auf JavaScript angepasst, und zusammen bilden sie den Kernbestandteil der heutigen Ajax-Technologie (siehe unten), mit der man dynamische Weboberflächen gestalten kann, d. h. bei einer Interaktion muss nicht die ganze Webseite, sondern es können auch nur Teile davon nachgeladen werden, was mehr Gestaltungsspielraum ermöglicht und einen Geschwindigkeitsvorteil mit sich bringt. Auf Seiten des Web-Browsers gibt es viele weitere Technologien mittels der man spezifische Formate anzeigen bzw., wie im Falle von Video oder Ton, abspielen kann. Meist stammen die zugehörigen Programme nicht von den Browserherstellern selbst, sondern von spezialisierten Anbietern, wie z. B. der weit verbreitete RealPlayer der Firma RealNetworks oder der pdf-Viewer von Adobe Systems. Die Anbindung an den Web-Browser erfolgt dabei als ein sogenanntes PlugIn, d. h. der Web-Browser liefert an das PlugIn-Modul die vom Server erhaltenen Daten und ermöglicht diesem ggfls. die Ausgabe auf der graphischen Benutzeroberfläche des Browsers. Die erwähnte Firma Adobe Systems hat noch ein weiteres auf Web-Seiten weit verbreitetes Produkt namens Adobe Flash (ehemals Macromedia Flash), welches nicht nur zur Darstellung multimedialer Inhalte dient, sondern auch Interaktionen mit diesen ermöglicht. Mit Adobe Flash lässt sich auch der Bogen zu mobilen Web-Anwendungen spannen. Mit der Lancierung des Apple iPhone im Jahre 2007 hat das Web auch den Durchbruch im mobilen Bereich erreicht. Die vorherigen Versuche mit einer speziell auf Mobiltelefone ausgerichteten Technologie namens WAP (Wireless Application Protocol) kann man aus heutiger Sicht allenfalls als eine eher wenig verbreitete „Brückentechnologie“ bezeichnen. Das iPhone sowie auch die inzwischen in Konkurrenz dazu erschienen Smartphones mit dem von Google entwickelten Betriebssystem Android sind in der Lage, Webseiten mittels einem Webbrowser nahezu vollständig anzuzeigen – spezielle Webseiten für mobile Anwendungen benutzen also Standard-Webtechnologien, um Web-Seiten auf die kleinere Anzeige von Smartphones anzupassen. Eine Ausnahme sorgt jedoch seit Jahren für Furore: Das Apple iPhone sowie das später erschienene iPad spielen keine FlashInhalte der Firma Adobe Systems ab. Das zunächst mit Sicherheitsbedenken und Ressourcenverbrauch begründete Vorgehen von Apple hat sich inzwischen vielmehr eher als ein politisches herausgestellt. Mit Adobe Flash ließen sich viele Applikationen und Spiele auf dem iPhone realisieren, die Apple selbst in dem mit dem iPhone zusammen lancierten App-Store und häufig nur gegen
B 1: Web-Technologien
147
Bezahlung anbietet. Dass hierbei viele Web-Seiten, die Flash nutzen, nicht mit dem iPhone/iPad angezeigt werden können, hat Apple also bewusst „in Kauf“ genommen. Zudem verwenden viele der App-Store-Applikationen (kurz Apps) das HTTP-Protokoll zur Übertragung von Daten. Die Ausführung der Apps sowie die Gestaltung der Benutzeroberfläche erfolgt jedoch mit einer proprietären Technologie von Apple. Apple hat somit die Adaption des Web auf den mobilen Bereich aufgrund der wirtschaftlichen Vormachtstellung maßgeblich (mit-)beeinflusst. Google’s Android-System ist aus technologischer Sicht wesentlich offener, da es auf dem Linux-Kern aufbaut und selbst auch OpenSource ist. Eigenwillige Einschränkungen wie z. B. das Abspielen von Flash-Inhalten sind somit zwar nicht existent, das App-Store-System für den Android-Markt wurde allerdings ähnlich wie bei Apple nachgebaut. Die Hoffnung der Fachwelt liegt in der nächsten Version von HTML mit der Bezeichnung HTML5, welche die gleichen technischen Möglichkeiten verspricht, wie sie derzeit nur mit PlugIns oder mittels Apps möglich sind. Sollten die Browser-Hersteller hierbei mitziehen, dann könnte der Einfluss auf die Web-Technologien von Unternehmen wie Apple oder Google wieder geringer werden.
B 1.1 Kernkomponenten der Web-Technologien Mit ausgereiften Server-Technologien und deren Entwicklungsumgebungen, Web-Browsern und deren PlugIn-Erweiterungen sowie einer fast unüberschaubaren Anzahl an Datenformaten, die z. T. speziell für Web-Anwendungen entwickelt wurden (v.a. im Streamingbereich zur Übertragung von Video und TV), kann das technologische Gesamtbild des heutigen Web grob skizziert werden. Dieses Kapitel konzentriert sich auf den Kern des World-Wide-Web-Dienstes: Der Adressierungsstandard URI, das Übertragungsprotokoll HTTP sowie der Dokumentbeschreibungsstandard HTML. Diese Kernkomponenten bilden zum einen die wichtigsten Erfolgsfaktoren, die dem Web den Weg zum heutigen Standarddienst im Internet geebnet haben. Zum anderen sind diese aber auch Grundlage für alle anderen Erweiterungen der Web-Technologien und dienen dem Verständnis der im nächsten Abschnitt beschriebenen informationswissenschaftlichen Anwendungsprotokolle. B 1.1.1 Objektspezifikation mittels URI Bei der Konzeption des Web-Dienstes war eine einheitliche und eindeutige Dokumentenspezifikation notwendig, um v.a. über Hypertextlinks den Zugriff auf Dokumente anderer Server automatisiert zu ermöglichen. Automatisiert bedeutet in diesem Fall, dass dem Web-Browser beim Aktivieren eines Links alle Angaben vorliegen, die für die Übertragung der durch den Link referenzierten Datei notwendig sind. Zum einen sind das TCP/IP-spezifische Angaben wie der Hostname oder alternativ die IP-Nummer und die zugehörige Portnummer. Zum anderen sind das Angaben des Zielsystems wie das zugehörige Übertragungsprotokoll und der genaue Fundort der abzurufenden Daten. Das Web wurde dabei von vornherein offen konzipiert, d. h. ein Link sollte nicht ausschließlich auf Dokumente anderer Webserver verweisen können, sondern auch den Zugriff auf andere Internet-Dienste wie z. B. auf eine FTP-Datei oder gar eine Mail-Adresse ermöglichen. Um dies zu verwirklichen, wurde ein Adressierungsschema unter der Bezeichnung „Uniform Resource Identifier“ (URI) entworfen. URI wurde dabei als eine Art Regelwerk für Internetressourcen verstanden, das für konkrete Adressen entweder die Form „Uniform Resource Locator“ (URL) oder „Uniform Resource Name“ (URN) vorsah. Allerdings wurden zum einen diese Bezeichnungen nicht einheitlich verwendet und zum anderen hat das W3C die genaue Bestimmung ihrer Verwendung immer wieder verändert (zur Klarstellung hat das W3C hierzu ein eigenes Dokument veröffentlicht: URI02). Eine Web-Adresse wie z. B. http://www.informationswissenschaft.ch dürfte nach dem letzten RFC 3986 (URI03) korrekterweise nur als URI bezeichnet werden. Jedoch hat sich die anfängliche Interpretation, diese als URL zu bezeichnen, mit der Zeit so durchgesetzt, dass die korrektere Bezeich-
148
B 1: Bernard Bekavac
nung URI dafür noch eher selten vorzufinden ist. Eine URL spezifiziert den genauen Ort, an dem sich eine Ressource im Web befindet (Hostadresse, Portnummer, Pfadangaben etc.), sowie alle notwendigen Angaben für deren Abruf: Neben dem Zugriffsprotokoll können das noch diverse andere Angaben sein wie z. B. Username, Passwort oder Accountnamen. Eine URN hingegen sollte ein vom Ort unabhängiger Name einer (Internet-)Ressource sein, bei dem diese lediglich eindeutig bezeichnet wird. Der genaue Ort der Ressource und die Zugriffsart sollte dabei dynamisch über anderweitige Quellen bzw. Systeme beziehbar sein. URI muss also zum einen für alle vorhandenen Internetdienste anwendbar sein und zum anderen auch künftigen Ansprüchen genügen. Um dies zu bewerkstelligen, beginnt eine URI grundsätzlich mit einem sogenannten „scheme“-Namen gefolgt von einem Doppelpunkt. scheme ist dabei eine eindeutige Kennung, die entweder einen Internet-Dienst und damit seine Übertragungsart bzw. das zugehörige Protokoll repräsentiert, wie z. B. „http“ für Web-Seiten, „mailto“ für E-MailAdressen oder die Kennung „urn“, welche eine URN einläutet. Alles was nach dem Doppelpunkt kommt ist abhängig vom System, welches durch scheme eingeläutet wurde. Hier sind sehr unterschiedliche Angaben und Formen möglich. Die möglichen Bestandteile bspw. einer Web-Adresse (scheme=http) sind: http://[benutzer[:passw]@]{hostname|ip-number|localhost}[:portnummer]/path [?search] [#fragmentid]
Die eckigen und geschweiften Klammern sowie der senkrechte Strich sind Metazeichen mit folgender Bedeutung: Alles was innerhalb „[“ und „]“ eingeschlossen ist, ist optional und alles innerhalb „{“ und „}“ stellt eine Einfach-Auswahl dar, wobei die möglichen Elemente mit “|“ getrennt sind. Die kursiv gedruckten Bereiche müssen durch konkrete Angaben ersetzt werden. Der Bereich „[benutzer[:passw]@]“ ist demnach optional und stellt die Möglichkeit dar, einen Benutzernamen und ggfls. Passwort direkt an den Web-Server zu übergeben. Dies wird jedoch in der Praxis kaum angewandt, da diese vertraulichen Angaben für alle leserlich wären. Mit „{hostname|ip-number|localhost}“ wird der Web-Server i. d. R. mittels Hostnamen adressiert, seltener wird auch direkt die IP-Nummer angegeben. Der Begriff „localhost“ bedeutet, dass sich der Web-Server auf dem eigenen Rechner befindet und wird meist nur von Entwicklern verwendet. Bei „[:portnummer]“ kann eine Portnummer angegeben werden. I.d.R ist ein Web-Server unter der Standardportnummer „80“ erreichbar. Diese darf dann in der URI weggelassen werden. Meist wird nur zu Testzwecken 8080 oder eine andere Portnummer als 80 verwendet. Der „/path“-Bereich kennzeichnet den genauen Fundort der Web-Seite innerhalb des Web-Servers und kann sehr unterschiedlich aufgebaut sein. Im Falle von Datei-Pfaden ist es meist das virtuelle Serververzeichnis, bei Datenbank-Lösungen kann es auch eine lange Zeichenkette sein, hinter der diverse Zugriffsmechanismen codiert sind. Das optionale „[?search]“ ist meist für die Übergabe von einem oder mehreren Suchbegriffen an den Web-Server gedacht und wird i. d. R. von Suchfunktionen verwendet. Da der Bereich nach dem „?“ jedoch nicht fest vorgegeben ist, wird dieser auch von einigen auf den Web-Technologien aufsetzenden Protokollen verwendet. „[#fragmentid]“ ist ebenfalls optional und wird dafür genutzt, um z. B. auf eine bestimmte Stelle innerhalb einer Webseite zu verweisen. Beispiel von unterschiedlich aufgebauten Web-URI’s: http://informationswissenschaft.org http://informationswissenschaft.org:8080 http://www.htwchur.ch/informationswissenschaft http://www.google.com/search?q=informationswissenschaft http://de.wikipedia.org/wiki/Informationswissenschaft#Studium_und_Lehre
B 1: Web-Technologien
149
Neben dem Web gibt es diverse URI-schemes anderer (Internet-)Dienste (URI13), hier nur einige Beispiele: mailto:[email protected] ftp://[email protected]/pub tel:+41-81-286-2470
Bei URN (scheme=urn) ist der Aufbau zwar ähnlich, jedoch kann der Weg zur spezifizierten Ressource wesentlich komplexer sein. Da zu Beginn des Web noch kein elektronisches System für die Anwendung einer URN zur Verfügung stand, dient(e) das ISBN-System häufig als Referenzbeispiel: urn:isbn:0123456789
Mit einer ISBN wird eine bestimmte Publikation eindeutig referenziert. Für zusätzliche Angaben wie z. B. Metadaten zu der Publikation oder ein Kauf- bzw. Ausleihort muss man sich an entsprechende virtuelle (Online-)Shops oder physische Stellen (Buchgeschäft, Bibliothek) wenden. Inzwischen werden URN mit digitalen Ressourcen über einen sogenannten Namensraum realisiert (vgl. Lit. 03). Die URN-Namensräume werden unterschiedlich genutzt. Gängig ist die Vergabe von URN im Bereich der Nationalbibliotheken. Sie nutzen den Namensraum „nbn“ (National Bibliography Number), der über RFC 3188 der Internet Engineering Task Force (IETF) geregelt ist. „urn:nbn:ch“ ist bspw. der Bereich, der von der Schweizerischen Nationalbibliothek koordiniert wird. URN können daher nicht wie die anderen URI-schemes direkt aufgerufen werden, sondern müssen zuerst von einem so genannten Resolver-Dienst in eine gültige Internet-Adresse übersetzt werden. Da es keinen universellen Resolver für URN gibt, wird bei der Angabe einer URN häufig auch das Resolver-System mit aufgeführt bzw. verlinkt. Ein Beispiel hierfür ist das Konzept „Digital Object Identifier“ (DOI, URI14). Dabei werden über ein Netz von Registrierungsagenturen eindeutige Web-Adressen für digitale Ressourcen (Persistent Identifier) vergeben. Die Zuordnung einer DOI-URI und einer URI der Originalquelle wird auf einem Server verwaltet und kann bei Bedarf immer wieder geändert werden. Wird z. B. die DOI-URI http://dx.doi.org/5.100/9 in einem Webbrowser aufgerufen, dann bekommt der Benutzer eine Webseite mit einer oder mehreren Original-URIs der referenzierten Ressource, zugehörigen Metadaten und ggfls. Angaben über die Zugriffsrechte. DOI erfüllt damit die URN-Anforderungen und kann somit auch als URN beschrieben werden, im obigen Beispiel: als urn:doi:5.100/9. Da die Resolversysteme hinter URN sehr unterschiedlich sind, können Web-Browser derzeit mit URN-Adressen allerdings nicht automatisch umgehen, d. h. für jedes benutzte System muss ein zusätzliches Skript oder ein Plug-In installiert sein, welches die URN in eine konkrete URL auflöst. B 1.1.2 HyperText Transfer Protocol (HTTP) Rein technisch gesehen ist es nicht zuletzt dem Übertragungs- bzw. Anwendungsprotokoll des Web, dem HTTP (URI15), zu verdanken, dass der damals neue Dienst World Wide Web relativ schnell verbreitet werden konnte. Im Vergleich zu vielen anderen vorangegangenen Protokollen des Internet (wie z. B. FTP oder telnet) gilt HTTP zum einen als ressourcensparend und zum anderen als relativ flexibel. Dies rührt daher, dass HTTP zustandslos und unabhängig von dem zu übertragenden Datenformat ist. „Zustandslos“ bedeutet in diesem Zusammenhang, dass ein Web-Server eine vom Web-Browser gesendete HTTP-Anfrage (HTTP-Request) in einem Ablauf abarbeitet und unmittelbar danach die TCP/IP-Verbindung und somit auch diverse Ressourcen wie Port und Kommunikationsprozesse wieder freigibt. Ein Nachteil dieser Vorgehensweise ist, dass es nach dem Verbindungsabbau seitens des Protokolls keine Möglichkeit gibt, auf den vorherigen Zugriff bzw. dessen Daten zurückzugreifen. Dies schien aber zunächst auch nicht erforderlich zu sein, da man zu Beginn davon
150
B 1: Bernard Bekavac
ausging, dass das Web ein reines Hypertextsystem zum Abruf von wissenschaftlichen Dokumenten ist. Ein zustandsführendes Protokoll führt zu einer weitaus höheren Rechnerbelastung des Servers, da jede Verbindung aufrechterhalten und die Übertragung mitprotokolliert werden muss. Im Falle von längeren Sitzungen, v.a. immens vielen Zugriffen auf einen Server, wie dies im Web üblich ist, wäre diese Technik somit gar nicht im WWW anwendbar gewesen. Im Gegensatz zu vielen anderen Anwendungsprotokollen ist HTTP unabhängig von dem zu übertragenden Datenformat. Die Antwort (HTTP-Response) auf eine mittels URI adressierte Ressource enthält zunächst einen „Header“ mit diversen Vorabinformationen über den Status der Abarbeitung (Statuscode) sowie über die danach folgenden Daten. Dabei werden i. d. R. auch das Dokumentformat und das Datenvolumen spezifiziert, so dass der Web-Browser alle Teilinhalte einer Web-Seite entsprechend anzeigen kann. Ist eine URI-Ressource nicht (mehr) vorhanden oder anderweitig verschoben, dann wird dies im Statuscode entsprechend gekennzeichnet und ggfls. die URI des neuen Ortes mitgeliefert, so dass der Web-Browser direkt über diese erneut zugreifen kann. Auch HTTP-Anfragen enthalten einen Header, mittels dem der Web-Client Metainformationen an den Server senden kann (z. B. Browser-Kennung, Betriebssystem u. a.). HTTP-Anfragen und -Antworten sind zudem variabel erweiterbar und erlauben so dem Web-Server und Client nicht nur die exakte Spezifikation der Datenübertragung, sondern ermöglichen auch die Einbettung weiterer Protokolle bzw. Anwendungen (z. B. OAI/SRU, siehe unten). Aktuell befinden sich die Protokollversionen HTTP/1.0 und HTTP/1.1 in Anwendung. Der grundsätzliche Aufbau ist bei beiden Versionen in etwa gleich, beim Request erfolgt zunächst die Spezifikation einer Zugriffsmethode gefolgt von einem Header. Folgender HTTP-Request bspw. greift auf die Homepage von Informationswissenschaft.org zu: GET http://informationswissenschaft.org HTTP/1.0 User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:12.0) Gecko/20120403211507 Firefox/12.0 …
GET ist sicherlich die am meisten auftretende Zugriffsmethode und läutet den Abruf einer Web-Ressource ein. Es folgt die URI sowie die verwendete HTTP-Version. In der zweiten Zeile beginnt dann der Header-Bereich, im Beispiel mit Angaben über den zugreifenden Client sowie dessen Betriebssystem, eingeleitet mit der Kennung „User-Agent:“ Die Information selbst ist komplex aufgebaut und lässt ohne Hintergrundwissen nur am Ende auf den Firefox-Browser schliessen. Bei der Zugriffmethode selbst gibt es diverse Möglichkeiten (URI04), meist treten jedoch GET und POST auf, wobei letzteres zur Übertragung von Daten an den Server dient, wie z. B. nach dem Ausfüllen eines Formulars oder dem Absenden einer E-Mail mittels Webmail. Die Formulardaten werden dann samt dem Request und nach dem Header, der auch die entsprechenden Metainformationen über die Daten enthält, an den Web-Server übertragen. Mittels GET lassen sich jedoch auch Daten an den Web-Server übertragen: Dabei werden diese einfach an die URI nach dem „?“ angehängt. Dies wird allerdings meist nur bei Anwendungen verwendet, bei denen kleinere Eingaben notwendig sind, wie z. B. bei Suchanfragen. GET http://www.google.com/search?q=informationswissenschaft HTTP/1.0 …
Der HTTP-Response beginnt stets mit einer Statuszeile, gefolgt von dem Header und den Daten. HTTP/1.1 200 OK Server: Apache/1.3.29 (Unix) PHP/4.3.4 Content-Length: 6060 Content-Language: ISO-8859-1 Content-Type: text/html
B 1: Web-Technologien
151
Hochschulverband Informationswissenschaft … Die Statuszeile beginnt mit einer Angabe der unterstützten HTTP-Version sowie einem dreistelligen Code, aus dem der Status der Anfrage hervorgeht. Bei einer erfolgreichen Abarbeitung beginnt der Statuscode mit der Ziffer 2xx (meist 200). Der Fehlerfall wird mit 4xx eingeleitet, z. B. 404, wenn die mittels URI referenzierte Web-Ressource nicht existent ist. Mit 3xx wird dem Client mitgeteilt, dass weitere Schritte notwendig sind, um auf die Web-Ressource zuzugreifen, z. B. 303 für eine Umleitung auf eine neue URI, die mittels dem Header der Anfrage (Feld LOCATION) mitgeteilt wird. Die Statusklasse 1xx wird zurückgesendet, wenn die Anfrage längere Zeit in Anspruch nimmt (um damit die Timeout-Grenze der Web-Browser zu umgehen) und 5xx bei Serverfehlern. Beide kommen jedoch eher selten vor. Der Response-Header enthält diverse Metainformation über die danach folgenden Daten. Jede Angabe beginnt mit einem Feldnamen, gefolgt von einem Doppelpunkt und dem Inhalt. Zu den gängigsten Angaben gehören sicherlich das Format der nach dem Header folgenden Daten (Content-Type), die Datenlänge (Content-Length) sowie die Sprache des Inhalts (Content-Language). Die Metadatenfelder werden jedoch nicht nur zur Datenbeschreibung, sondern auch zu diversen anderen Zwecken genutzt, wie z. B. für Serverangaben („Server:“) oder innerhalb eingebundener Protokolle bzw. Anwendungen (z. B. OAI/SRU). Ein gutes Beispiel für das Zusammenspiel von Header-Feldern bei einer HTTP-Anfrage und -Antwort ist die sogenannte Cookie-Funktion. Da HTTP-Verbindungen nach der Abarbeitung einer Anfrage vom Server aufgelöst werden, ist es dem Server nicht ohne weiteres möglich, eine Sitzung mit dem gleichen Client über mehrere Anfragen zu verfolgen. Dies ist jedoch bei vielen Web-Anwendungen erforderlich, da man z. B. bei einer Flugbuchung mehrere Schritte (Auswahl des Fluges, Personenangaben, Bezahlung, Bestätigung etc.) durchlaufen muss. Eine Möglichkeit, dies zu bewerkstelligen, ist die Verwendung des „Set-Cookie:“-Feldes in der HTTP-Antwort des Web-Servers. Als Inhalt des Feldes wird ein eindeutiger Code an den Web-Browser gesendet, der von diesem gespeichert und verwaltet wird. Bei jedem weiteren Zugriff auf dieselbe URI sendet der Browser mittels dem Request-Feld „Cookie:“ dem Server diesen Code. Auf diese Weise kann eine Sitzung über mehrere Verbindungen hinweg aufrechterhalten werden. Die Cookie-Funktion wird jedoch zu diversen Zwecken genutzt, z. B. auch um jeden Zugriff eines Browsers bzw. eines Benutzers zu registrieren und somit ein Benutzerprofil zu erstellen. Mit der Metadatenfeld-Kombination „WWW-Authenticate:“ (Aufforderung an den Web-Browser zur Abfrage eines Benutzernamens/Passworts)/„Authorization“ (Benutzernamen/Passwort wird bei jedem Zugriff auf den Server gesendet) wird eine Alternative geboten, um Sitzungen über mehrere Anfragen hinweg aufrecht zu erhalten. Eine weitere Möglichkeit ist die Verwendung von dynamischen URIs: Nach einem Login auf der Web-Seite wird vom Server bei jedem Link innerhalb der zurückgelieferten HTML-Seiten eine eindeutige Session-ID an die URI angehängt (nach dem „?“). Web-Anwendungen benutzen aus Gründen der Benutzerfreundlichkeit und Sicherheit nicht selten eine Kombination der genannten Möglichkeiten. Die höhere Version 1.1 des HTTP-Protokolls bietet ebenfalls eine Möglichkeit, Verbindungen über mehrere Anfragen hinweg aufrecht zu erhalten. Dabei geht es allerdings nicht um Statusorientierung oder um auf den nächsten Mausklick des Benutzers zu warten, sondern um eine reine Effizienzsteigerung beim Zugriff: Heutige Web-Seiten bestehen i. d. R. aus mehreren und sehr unterschiedlichen Komponenten (Text, Grafik, Audio, Video, Frame u. a.), die allesamt eine eigene URI besitzen und getrennt voneinander geladen werden, um die Seite vollständig aufzubauen. Um nicht bei jeder Komponente eine neue Internetverbindung aufbauen zu müssen, kann der Web-Browser im Header (Feld „Keep-Alive:“) eine sogenannte „persistent connection“ anfordern. Wird dies vom
152
B 1: Bernard Bekavac
Web-Server unterstützt, dann wird eine Verbindung so lange aufrechterhalten, bis alle Komponenten einer Web-Seite heruntergeladen sind. Auf diese Weise können bei HTTP/1.1 mehrere Anfragen und Antworten innerhalb einer Verbindung realisiert werden, was letztlich die Download-Zeit signifikant verbessert. B 1.1.3 Hypertext Markup Language (HTML) HTML ist eine speziell für das Web entwickelte Dokumentbeschreibungssprache für Web-Seiten und baut auf der in den 80er Jahren entwickelten „Standard Generalized Markup Language“ (SGML) auf. SGML definiert eine Syntax und beinhaltet Regeln für die Erstellung von Auszeichnungssprachen für unterschiedliche Dokumentenklassen, wie z. B. im Fall von HTML für Web-Seiten. Mittels textbasierten Markup-Elementen können in HTML diverse Formatierungen (z. B. Schriftart, Fett-/Kursivschrift, Aufzählungen u.v.a.), multimediale Elemente (z. B. Grafiken, Bilder, A/VDateien) und Layout-Anordnungen (z. B. Frames, Container) „beschrieben“ werden. Die so in reiner Textform (ASCII-, Unicode-Zeichensatz) beschriebenen Web-Seiten sind damit weitgehend unabhängig von Eigenheiten unterschiedlicher graphischer Benutzeroberflächen, Bildschirmauflösungen oder Betriebssystemen. Für die Darstellung von HTML-Code als aufbereitete Webseite auf einer spezifischen Rechnerumgebung ist der Web-Client in Form eines Web-Browsers zuständig – WebClients, die nicht der Darstellung von Web-Seiten dienen sind z. B. Suchmaschinenprogramme, die HTML-Dateien nur für den Aufbau des Suchindex herunterladen. Das herausragende Merkmal des Web ist sicherlich dessen Hypertexteigenschaft, die es ermöglicht, per Mausklick innerhalb einer Web-Seite eine neue Web-Seite vom Web-Browser automatisch herunterladen und anzeigen zu lassen. Hierzu bietet HTML ein Element, welches im Grunde genommen nur die URI des Zieldokuments benötigt, anhand der dann der Web-Browser alle notwendigen Angaben für die Adressierung und das Herunterladen der neuen Datei erhält. Damit schließt sich auch der Kreis der in diesem Kapitel beschriebenen grundlegenden Webtechnologien HTTP, URI und HTML.
Bsp. einer Webseite
Herzlich Willkommen beim
Hochschulverband Informationswissenschaft
Der zentrale Bestandteil von HTML sind Markup-Elemente, die stets mit den Zeichen „“ eingeschlossen werden. Um Verwechslungen auszuschließen, dürfen diese „reservierten“ Zeichen daher auch nicht von den Autoren/Designern einer Webseite als Textzeichen verwendet werden – reservierte Zeichen können aber in einem Ersatzformat (z. B. „ Ähnlichkeits-Schwellwert CUT für das Dokument dk, dann weise das Dokument dem Cluster C mit der größten Ähnlichkeit zu; nach der Zuweisung heißt das Dokument "geclustert"; 1. berechne den Centroiden des modifizierten Clusters C neu. Bilde dazu den komponentenweisen Mittelwert aus allen Term Vektoren von C: Σj=1|C| dj = (t1j, t2j, ..., tnj) / |C|
b. falls SIM < oder = Ähnlichkeits-Schwellwert CUT für das Dokument. dann initialisiere einen neuen Cluster; das Dokument ist somit der erste Repräsentant eines neuen Clusters (ein Centroid) und heißt "geclustert". 4. Iteriere über Kriterium (3) solange, bis sich keine freien Dokumente mehr in der Kollektion befinden. 5. Ausgabe: a. eine Kollektion von Clustern, die alle inhaltlich ähnliche Dokumente enthalten. Algorithmenskizze 6: „Single-Link-Clustering“
Cluster-Verfahren gehören auch zum Methodenkern der statistischen Informationslinguistik im Rahmen des vektoriellen Paradigmas. Sie unterscheiden sich in der Vorgabe einer festen Menge zu bildender Cluster oder deren datengetriebener freien Bestimmung, der Generierung nicht-überlappender (sog. perfekter) bzw. überlappender Cluster und den Ähnlichkeitskriterien zur eigentlichen Berechnung der Cluster (in Algorithmus 6 etwa der Mittelwert-Centroid und der vorab gegebene Ähnlichkeits-Schwellwert, denen potentielle Cluster-Elemente entsprechen müssen). B 10.4.2 Merkmalsbasierte Klassifikatoren Überwachte Lernverfahren setzen voraus, dass ein Korpus mit sprachlichen Rohdaten (Texten) verfügbar ist, das mit linguistischen Metadaten angereichert wurde. Diese Metadaten charakterisieren das Lernziel beim Maschinellen Lernen, indem sie Instanzen von zu lernenden Klassen auszeichnen, und müssen daher ein hohes Maß an Annotationsqualität besitzen. Beim überwachten Ler-
268
B 10: Udo Hahn
nen wird die Wahrscheinlichkeit des Auftretens einer Klasse A im Kontext B in diesen Korpora automatisch geschätzt, formal: p(A|B). Klassen können in der Informationslinguistik Wortarten (wie Det, Nom oder Verb), semantische Typen (Entitäten wie Personen, Organisationen, Ortsangaben oder Produkte) usw. sein, Kontexte bestehen aus lernrelevanten Merkmalsdimensionen, wie den folgenden: –– die Groß- bzw. Kleinschreibung von Wörtern, –– das Auftreten bestimmter Wörter, Wortarten (lexikalische Kategorien) oder Phrasentypen (komplexe syntaktische Kategorien im Sinne von Kap. B 10.2.2) im linken oder rechten Ausschnitt eines Beobachtungsfensters (n Wörter links oder rechts vom aktuellen Wort), –– dem Auftreten von Lexikonelementen in frei wählbaren Segmenten von Dokumenten. Während die Groß- und Kleinschreibung durch einfache Zeichentests geprüft werden kann, verlangen Wortarten- oder Phrasen-Informationen Annotationen (eine Auszeichnung durch Metadaten), die von menschlichen Experten bereitgestellt werden müssen. Dieses Trainingsmaterial dient als Goldstandard für den Lerner. Aus der Verteilung aller relevanten Merkmale berechnet der Lerner (classifier) ein statistisches Entscheidungsmodell, mit dem er die Trainingsdaten möglichst korrekt klassifizieren kann, aber später auch ungesehene Daten mit einer zulässigen Fehlerquote ebenfalls korrekt klassifiziert. Auch große Korpora enthalten niemals genug Daten, um p(A|B) genau zu bestimmen. Daher müssen (statistische) Schätzverfahren aus dem Bereich des Maschinellen Lernens eingesetzt werden, die diese Aufgabe mit großer Annäherung an die wirkliche Verteilung P lösen. Ein prototypisches statistisches Modell hierfür ist das Maximum-Entropie-Modell (MaxEnt), das hier kurz vorgestellt werden soll (Lit. 05). Das Ziel ist, die unbekannte Wahrscheinlichkeitsverteilung P* so nahe wie möglich zur wirklichen Merkmalsverteilung P zu lernen, die die Trainingsdaten D erzeugt hat. Das heißt, dass 1.) die Merkmalsverteilung in P* der in D entspricht, 2.) mit wachsender Größe der Trainingsdaten D die dortige Merkmalsverteilung der in P sich immer mehr annähert und 3.) somit die Merkmalsverteilung in P* der in P immer ähnlicher wird. Da nun mehrere P* mit derselben Merkmalsverteilung wie in D existieren, stellt sich die Frage, welche Verteilung zu wählen ist. Hier gibt die Entropie als Maß für den Informationsbetrag in einer Verteilung ein sinnvolles Auswahlkriterium ab. Da hohe Entropie für ein geringes Maß an Information steht, wählt man diejenige Wahrscheinlichkeitsverteilung P* mit der maximalen Entropie, deren Merkmalverteilungen mit D übereinstimmen. P* hat damit die wenigste externe Information, die überhaupt möglich ist (sie macht die wenigsten Zusatzannahmen innerhalb der Menge möglicher Verteilungen und bezüglich fehlender Information). Neben Max-Ent-Modellen werden in der aktuellen Forschung vor allem auch Conditional-Random-Fields (CRFs) (Lit. 25) sowie Support-Vektor-Maschinen (SVMs) verwendet (Lit. 09). Alle hier erwähnten Lernmodelle haben ebenfalls einen starken Bezug zu den kurz erwähnten probabilistischen Modellen. Ihre bedeutendsten Anwendungsbereiche sind die Informationsextraktion (Named Entity-Erkennung (Lit. 39) oder Relationsextraktion (Lit. 40) und statistische Verfahren für linguistische Modelle, etwa statistisches POS-Tagging, statistisches Parsing (z. B. Lit. 07).
B 10.5 Informationslinguistische Systeme Nach dem vorangegangenen Überblick stellt sich die Frage, wie diese Methoden in informationslinguistische Systeme Eingang finden. Hierbei ist es wichtig, zwischen Applikationssystemen und Systemkernen, die bei (fast) allen Applikationen das analytische Fundament bilden, zu unterscheiden. Folgende Applikationsklassen sind von großer Bedeutung: –– die inhaltliche Erschließung von Dokumenten wie die Indexierung und Klassifikation und das inhaltsgesteuerte Wiederfinden (Retrieval) von Dokumenten in großen Kollektionen (vgl. B 12 Automatisches Abstracting und B 16 Kognitives Information Retrieval);
–– –– ––
B 10: Methodische Grundlagen der Informationslinguistik
269
die Faktengewinnung aus Dokumenten (Informationsextraktion) und – sofern „neues“ Wissen abgeleitet wird – das Text Mining); dem entspricht auf der Retrievalseite die Fragebeantwortung; die Informationsreduktion im Sinne des Abstracting; die Maschinelle Übersetzung.
Jede dieser großen Applikationsklassen hat eigene, applikationstypische Routinen zur informationellen Analyse von Dokumenten und diese werden in den entsprechenden Kapiteln genauer beschrieben. Allen Applikationen ist jedoch gemeinsam, dass sie auf Systemkernen beruhen, die die zuvor beschriebenen informationslinguistischen Methoden in diversen Systemkomponenten wiederverwenden. Alle Analyseverfahren benötigen beispielsweise Komponenten zur Erkennung von Sätzen (sentence splitter) in Dokumenten und zur Erkennung von Texttoken in Sätzen (tokenizer). Kaum ein Verfahren kommt ohne morphologische Analyse aus, sei es in Form des Stemming oder der Lemmatisierung. POS-Tagger berechnen die Wortarten von konkreten Texttoken, und Parser sorgen für die syntaktische Strukturanalyse von Sätzen. Sie treten dabei in unterschiedlichen Feinheitsstufen auf – in einigen Fällen reicht die partielle Erkennung von Phrasen (vor allem bei Nominalphrasen) aus (Chunking oder partielles Parsing). Besonders für den Bereich der semantischen Analytik sind die Erkennung von Instanzen von Klassennamen (entity recognition) und die Extraktion von Relationen bzw. Prädikat-Argument-Strukturen (relation extraction) unverzichtbar. Großes Augenmerk erfahren auf der semantischen Ebene auch Verfahren zur Disambiguierung mehrdeutiger Lexeme (word sense disambiguation) und Komponenten zur Erkennung subjektiver bzw. emotionaler Sprache (sentiment analysis). Mit der zunehmenden Bedeutung von Volltexten rücken verstärkt Verfahren der Referenz- und Anaphernauflösung (anaphora resolution) in den Mittelpunkt der Betrachtung (s. zu all diesen Aspekten: Lit. 20 und Lit. 27). Morphologische, syntaktische, semantische und textstrukturelle Analytik nimmt in hohem Ausmaß Bezug auf unterschiedliche Formen von Lexika – allgemeinsprachliche (wie WordNet) oder fachsprachliche (wie unterschiedliche Arten von Thesauri und Ontologien). Viele der gerade angesprochenen Komponenten verwenden Maschinelle Lernverfahren, die auf Korpora trainiert werden, in denen für die jeweils zu lösende Analyseaufgabe (POS-Tagging, Parsing, Erkennung von Prädikat-Argument-Strukturen usw.) annotierte Metadaten verfügbar sind (für die englische Sprache etwa die PennTreeBank (Lit. 28) mit Parse-Annotation oder die PennPropBank (Lit. 32) mit Annotationen von Prädikat-Argument-Strukturen). Es gehört zu den großen Fortschritten im Bereich der Computer- und Informationslinguistik, dass es mittlerweile für alle diese Komponenten eine Fülle von alternativen Softwarelösungen gibt, die im Internet frei verfügbar sind. Besonders verdienstvoll sind hierbei Portale, die mehrere solcher Komponenten zum Download bereit halten. Hier sind besonders LingPipe (URL8), OpenNLP (URL9), Mallet (URL10) und der Natural Language Toolkit (NLTK; URL11) zu nennen. Da moderne Informationslinguistik und Sprachtechnologie funktional anspruchsvolle Systeme mit einer zunehmenden Software-Komplexität entwickeln, hat sich in den letzten Jahren eine Tendenz zu Middleware-Architekturen abgezeichnet, die es erlauben, komplexe sprachtechnologische Systeme unter Verwendung softwaretechnischer Kontroll- und Abstraktionsmittel in eine entsprechende technische Infrastruktur einzubetten. Hier sind vor allem GATE (URL12) und UIMA (URL13) zu nennen. Man sollte sich aber der Tatsache bewusst sein, dass dies keine EndbenutzerWerkzeuge sind, die System-Pipelines per Mouse-Click konstruieren lassen, sondern sie verlangen grundlegendes Know-how – neben Grundwissen im Bereich Computer- und Informationslinguistik auch Wissen in den Bereichen Maschinelles Lernen, Software Engineering und Programmierung (aktuell vor allem Java, Perl und Python). Ein weiteres Professionalisierungsmerkmal ist die ausgeprägte Tendenz zur empirisch-experimentellen Leistungsprüfung von informationslinguistischen Softwarekomponenten und Anwendungssystemen. Hierzu sei exemplarisch auf die nunmehr über zehnjährige Tradition im Rahmen
270
B 10: Udo Hahn
der CoNLL-Konferenz (Computational Natural Language Learning) verwiesen, innerhalb der internationale Wettbewerbe zur Leistungsstärke von Parsern, Taggern, Extraktoren usw. ausgerichtet wurden, und zwar mit überaus positiven Effekten auf den Fortschritt dieser Art von methodischer Analytik (die Historie dieser Wettbewerbe kann via URL14 eingesehen werden). Mit diesen Fortschritten wurde auch die Grundlage für die industrielle Basis der Sprachtechnologie geschaffen, die mittlerweile vielfältige Sprach-Software-Produkte kommerziell erfolgreich vermarktet – dies wird am Beispiel von Suchmaschinen besonders offenkundig (s.a. D 1 Suchmaschinen). Aufgrund des immensen Wachstums von natürlichsprachlichen Daten und Dokumenten, der Vielfalt natürlicher Sprachen und der Notwendigkeit, in einer IT-basierten Welt einerseits umfassend und fokussiert informiert, aber andererseits auch ein proaktiver informationeller Akteur zu sein, wird die Sprachtechnologie auf dem IT-Markt weiter zu den Wachstumstechnologien der Zukunft zählen – denn natürliche Sprachen heißen (in Abgrenzung zu formalen Sprachen) nicht nur so, sondern sind es auch.
Literatur 01 E. Alpaydin: Introduction to Machine Learning. 2nd edition. MIT Press, 2009 02 J. Bacher; A. Pöge; K. Wenzig: Clusteranalyse – Anwendungsorientierte Einführung in Klassifikationsverfahren, 3. Auflage. Oldenbourg, 2010 03 R. Baeza-Yates; B. Ribeiro-Neto: Modern Information Retrieval. ACM Press. 1999 04 T. Brants: TnT: a statistical part-of-speech tagger. ANLP 2000 – Proc. of the 6th Applied Natural Language Processing Conf., 224-231 05 A. Berger; S. Della Pietra; V. Della Pietra: Maximum entropy approach to natural language processing. Computational Linguistics 22 (1), 39-71, 1996 06 K.-U. Carstensen; C. Ebert et al. (editors): Computerlinguistik und Sprachtechnologie. Eine Einführung. 3. Auflage. Spektrum Akademischer Verlag, 2010 07 E. Charniak: Statistical techniques for natural language parsing. AI Magazine 18 (4), 33-43, 1997 08 F. Crestani; M. Lalmas; C. van Rijsbergen; I. Campbell: „Is this document relevant?…probably“: a survey of probabilistic models in information retrieval. ACM Computing Surveys 30 (4), 528-552, 1998 09 N. Cristianini; J. Shawe-Taylor: Kernel Methods for Pattern Analysis. Cambridge University Press, 2004 10 D. Cruse: Lexical Semantics. Cambridge University Press, 1986 11 S. Dumais: Latent Semantic Analysis. ARIST. Vol. 38, Ch. 4, 189-230, 2004 12 L. Egghe: Good properties of similarity measures and their complementarity. Journal of the American Society for Information Science and Technology 61 (10), 2151-2160, 2010 13 G. Fanselow; S. Felix: Sprachtheorie. Eine Einführung in die Generative Grammatik. Band 1: Grundlagen und Zielsetzungen. Francke, 1990 14 H. Guiter; M. Arapov (editors): Studies on Zipf's Law. Brockmeyer, 1982 15 B. Hall Partee; A. Ter Meulen; R. Wall: Mathematical Methods in Linguistics. Kluwer, 1990 16 J. Hopcroft; R. Motwani; J. Ullman: Introduction to Automata Theory, Languages, and Computation. 3rd edition. Addison-Wesley, 2008 17 I. Horrocks; P. Patel-Schneider; F. van Harmelen: From SHIQ and RDF to OWL: the making of a Web Ontology Language. Journal of Web Semantics 1 (1), 7-26, 2003 18 D. Hull: Stemming algorithms: a case study for detailed evaluation, JASIS 47 (1), 70-84, 1996 19 A. Jain; M. Murty; P. Flynn: Data clustering: a review. ACM Computing Surveys 31 (3), 264-323, 1999 20 D. Jurafsky; D. Martin: Speech and Language Processing. 2nd edition. Pearson – Prentice Hall, 2009 21 R. Köhler; G. Altmann; R. Piotrowski (editors): Quantitative Linguistik – Quantitative Linguistics. W. de Gruyter, 2005 22 R. Kuhlen: Experimentelle Morphologie in der Informationswissenschaft. Saur, 1976 23 R. Kuhlen (editor): Informationslinguistik. M. Niemeyer, 1986 24 S. Kübler; R. McDonald; J. Nivre: Dependency Parsing. Morgan & Claypool, 2009
B 10: Methodische Grundlagen der Informationslinguistik
271
25 J. Lafferty; A. McCallum; F. Pereira: Conditional Random Fields: probabilistic models for segmenting and labeling sequence data. ICML-2001 – Proc. of the Intl. Conf. on Machine Learning, 282-289 26 C. Manning; P. Raghavan; H. Schütze: Introduction to Information Retrieval. Cambridge University Press, 2008 27 C. Manning; H. Schütze: Foundations of Statistical Natural Language Processing. MIT Press, 1999 28 M. Marcus; B. Santorini; M. Marcinkiewicz: Building a large annotated corpus of English: the Penn Treebank. Computational Linguistics 19 (2), 313-330, 1993 29 R Mitkov (editor): The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003 30 T. Mitchell: Machine Learning. McGraw Hill, 1997 31 S. Naumann; H. Langer: Parsing. Teubner, 1994 32 M. Palmer; D. Gildea; P. Kingsbury: The Proposition Bank: an annotated corpus of semantic roles. Computational Linguistics 31 (1), 71-105, 2005 33 M. Porter: An algorithm for suffix stripping. Program 14 (3), 130-137, 1980 34 G. Salton; M. McGill: Introduction to Modern Information Retrieval. McGraw-Hill, 1986 35 G. Salton; A. Wong; C. Yang: A vector space model for automatic indexing, Communications of the ACM 18 (11), 613-620, 1975 36 G. Salton (editor): The SMART Retrieval System. Prentice Hall, 1971 37 D. Schwarze; D. Wunderlich (editors): Handbuch der Lexikologie. Athenäum, 1985 38 S. Staab; R. Studer (editors): Handbook on Ontologies. 2nd edition. Springer, 2009 39 K. Takeuchi; N. Collier: Use of Support Vector Machines in extended named entity recognition. CoNLL 2002 – Proc. of the 6th Conf. on Natural Language Learning, 119-125 40 D. Zelenko; C. Aone; A. Richardella: Kernel methods for relation extraction. Journal of Machine Learning Research 3, 1083-1106, 2003
URL-Verzeichnis URL1 URL2 URL3 URL4 URL5 URL6 URL7 URL8 URL9 URL10 URL11 URL12 URL13 URL14
WordNet: http://wordnet.princeton.edu/ GermaNet: http://www.sfs.uni-tuebingen.de/lsd/ FrameNet: https://framenet.icsi.berkeley.edu/fndrupal/ German FrameNet: http://www.laits.utexas.edu/gframenet/ MALLET: http://mallet.cs.umass.edu/ WEKA: http://www.cs.waikato.ac.nz/ml/weka/ MAHOUT: http://mahout.apache.org/ LingPipe: http://alias-i.com/lingpipe/ OpenNLP: http://opennlp.apache.org/ Mallet: http://mallet.cs.umass.edu/ NLTK: http://nltk.org/ bzw. http://text-processing.com/ GATE: http://gate.ac.uk/ UIMA: http://uima.apache.org/ CoNLL: http://ifarm.nl/signll/conll/
Letzter Zugriff am 30. Okt. 2012.
Klaus Lepsky
B 11 Automatische Indexierung B 11.1 Begriffsklärung Unter Indexierung versteht man die Zuordnung von Indextermen (Indexaten, Erschließungsmerkmalen) zu Dokumenten. Ziel der Indexierung ist es, über die zugeteilten und suchbar gemachten Indexterme ein gezieltes Auffinden der Dokumente zu ermöglichen. Indexterme können inhaltsbeschreibende Merkmale wie Notationen, Deskriptoren, kontrollierte oder freie Schlagwörter sein; es kann sich auch um reine Stichwörter handeln, die aus dem Text des Dokuments gewonnen werden (vgl. Lit. 10). Eine Indexierung kann intellektuell, computergestützt (halbautomatisch) oder automatisch erfolgen (Lit. 18). Die intellektuelle Indexierung strebt die Wiedergabe des Dokumentinhalts an und versucht diesen durch geeignet erscheinende Indexterme auszudrücken. Dazu wird zunächst eine Inhaltsanalyse für das Dokument durchgeführt, um auf der Basis des ermittelten Inhalts geeignete Indexterme festlegen bzw. auswählen zu können. Die Indexterme repräsentieren den begrifflichen Inhalt. Nur durch eine intellektuelle Indexierung ist es möglich, Dokumente gleichen Inhalts konsistent mit gleichen Indextermen zu versehen (innerhalb der Grenzen menschlicher Indexierungsfehler). Bei einer Suche ist es dadurch möglich, mit einem Indexterm tatsächlich alle Dokumente gleichen Inhalts zu finden. Der Preis für diese hohe Indexierungsqualität ist der Einsatz menschlicher Arbeitskraft – ein Preis, der heute oftmals als zu hoch angesehen wird. Halbautomatische Indexierungsverfahren unterstützen die intellektuelle Indexierung durch automatische Vorarbeiten. In der Regel wird ein automatisch erstelltes Indexierungsergebnis einer intellektuellen Nachkontrolle unterzogen, um Fehler und Inkonsistenzen zu tilgen. Halbautomatische Verfahren stellen einen Kompromiss dar zwischen den aufwendigen intellektuellen Verfahren und den automatischen Verfahren. Computergestützte Indexierung kommt zum Einsatz, wenn eine hohe Indexierungsqualität gewünscht und benötigt wird, diese aber durch eine rein automatische Indexierung nicht erzielt werden kann. Bei der automatischen Indexierung werden die Indexterme aus dem Dokumenttext automatisch ermittelt und dem Dokument zugeordnet. Eine kognitive Inhaltsanalyse findet nicht statt. Datengrundlage für die Arbeitsweise der automatischen Indexierung sind alle Wörter (besser: Zeichenketten) im Dokument. Werden diese ohne weitere Behandlung und ohne jede Auswahl zu Indextermen, handelt es sich um eine sog. Volltextindexierung oder Vollinvertierung (B 11.2). In diesem Beitrag werden unter automatischer Indexierung solche Systeme verstanden, die auf den Zeichenketten des Dokuments aufsetzen, diese aber weiter verarbeiten. Die dem Dokument so zugeteilten Indexterme können von den ursprünglichen Zeichenketten abweichen, sie können eine Teilmenge der Zeichenketten im Dokument sein, sie können aber auch aus anderen Quellen als dem Dokumenttext stammen. Automatische Indexierung bedient sich für die Verarbeitung der Zeichenketten im Dokument im wesentlichen linguistischer (B 11.3) und statistischer Verfahren (B 11.4). Eine inhaltliche Analyse von Dokumenten ist für automatische Verfahren nicht möglich. Der Wunsch nach Indexierungsergebnissen, die Rückschlüsse auf den Inhalt von Dokumenten und damit auf die Semantik der in ihnen enthaltenen Terme ermöglichen, existiert dennoch. Aus dem Zusammenspiel linguistischer und statistischer Verfahren lassen sich Verfahren entwickeln, die diesem Ziel näher kommen (B 11.5), ohne das Versprechen einer automatischen semantischen Indexierung ganz einlösen zu können (B 11.6). Automatische Indexierungsverfahren können eine intellektuelle Indexierung nicht ersetzen. Ihre Stärke liegt überall dort, wo die Menge der zu erschließenden Dokumente eine intellektuelle Indexierung nicht oder nicht ausschließlich zulässt. Darüber hinaus sind automatische Verfahren, im Gegensatz zu intellektuellen Verfahren, beliebig oft wiederholbar. Dadurch können durch eine Neuindexierung Systemverbesserungen vergleichsweise einfach und rasch in eine kohärente und verbesserte Retrievalqualität des Gesamtsystems umgesetzt werden.
B 11: Automatische Indexierung
273
B 11.2 Das Prinzip Index im Information Retrieval In elektronischer Form abgespeicherte Dokumente werden durch Information Retrieval-Systeme such- und findbar. Im Information Retrieval werden in der Regel keine Informationen gesucht, sondern Dokumente, die eine gewünschte Information enthalten. Information Retrieval besteht technisch auf dem Vergleich von eingegebenen Suchwörtern mit den Wörtern in den abgespeicherten Dokumenten. Eine Übereinstimmung zwischen Suchwort und Wort im Dokument (Matching) führt zu einem erfolgreichen Suchprozess, einem Treffer (Lit. 17, Lit. 22, Lit. 23). Information Retrieval-Systeme verwenden alphabetisch sortierte Listen aller Zeichenketten in allen Dokumenten, einen sog. Index bzw. eine invertierte Liste, um den Suchprozess schnell abwickeln zu können. Der Index eines Information Retrieval-Systems enthält alphabetisch sortiert alle Zeichenfolgen aller Dokumente einer Dokumentkollektion und hält die Fundstellen der Zeichenfolgen fest. Bei einem solchen Index handelt es sich um einen Volltextindex. Manchmal wird bereits der Prozess der Erstellung eines solchen Volltextindex als automatische Indexierung bezeichnet. Falls unter „Indexierung“ verstanden werden soll, dass im Sinne eines Information Retrievals nützliche Indexterme generiert werden, greift das Konzept der Volltextindexierung zu kurz. Für den letzten Satz des vorhergehenden Absatzes sähe eine alphabetisch sortierte Liste aller Zeichenketten folgendermaßen aus: auch im soll, das Indexterme unter dass Information verstanden der Konzept Volltextindexierung eines kurz. werden Falls nützliche werden, generiert Retrievals zu greift Sinne „Indexierung“
Es ist offensichtlich, dass eine solche Liste unter verschiedenen Aspekten nicht den Anforderungen einer Indexierung im Sinne einer Festlegung tauglicher Indexterme genügt: Einträge beginnen und/oder enden mit Sonderzeichen („"Indexierung"“, „kurz.“, „soll,“), auf den ersten Blick wenig nützliche Einträge sind in der Liste enthalten („auch“, „das“, „zu“) und einige Einträge liegen in Wortvarianten vor („Indexterme“, „Retrievals“, „verstanden“). Während die Entfernung oder Nicht-Berücksichtigung der Sonderzeichen am Wortanfang und -ende ein eher einfaches technisches Problem darstellt, stellen das Unterscheiden von tauglichen und nicht-tauglichen Indextermen und die Identifizierung von Wortvarianten ernsthafte Probleme für die Indexierungsqualität dar. Wortvarianten sind ein durch die Veränderlichkeit der Sprache im Satz verursachtes Problem, das nur durch den Einsatz linguistischer Verfahren zu lösen ist. Die Differenzierung der wichtigen von den unwichtigen Termen in einem Dokument wird über den Einsatz statistischer Verfahren erreicht, die durch die Untersuchung von Worthäufigkeiten Terme hinsichtlich ihrer Wichtigkeit für ein Information Retrieval bewerten.
B 11.3 Informationslinguistische Verfahren Die Informationslinguistik setzt Verfahren zur Verarbeitung natürlicher Sprache ein, um die Qualität von Indextermen zu verbessern (vgl. B 10 Informationslinguistik; Lit. 07). Primär zu lösendes Problem ist dabei die Zusammenführung sprachlich verschiedener Formen eines Wortes. Für Indexierung und Retrieval ist dies von Bedeutung, weil ein Retrievalprozess nur dann erfolgreich sein kann, wenn das Anfragevokabular und das Indexierungsvokabular übereinstimmen. Natürliche
274
B 11: Klaus Lepsky
Sprache ist jedoch vielfältig und in ihrer Gestalt reich an Varianten, weshalb das Erreichen dieser Übereinstimmung keine triviale Aufgabe ist. Die sprachlichen Phänomene auf der Ebene des Wortes werden durch die Morphologie (vereinfacht: Formenlehre der Wörter) als Teilbereich der Linguistik beschrieben. Für den Zusammenhang des Information Retrievals sind folgende Aspekte der Morphologie besonders interessant: Bei der Flexion verändert sich die Form des Wortes in Abhängigkeit von seiner grammatikalischen Funktion im Satz. Ausgangspunkt für die durch Flexion verursachten Veränderungen ist die Grundform des Wortes, bei der für Retrievalzwecke wichtigsten Wortart, den Substantiven, der Nominativ Singular. In den meisten Fällen erfahren Substantive nur Veränderungen am Ende durch das Hinzufügen von Suffixen, es gibt allerdings auch unregelmäßige Formen, bei denen sich der Stamm ändert: Grundform: Sprache Flexion: Er spricht verschiedene Sprachen. Grundform: Haus Flexionen: Er ist ein Bewohner des Hauses. Den Häusern fehlt ein Anstrich. Grundform: house Flexion: Houses can be expensive.
Bei der Derivation entstehen Wörter durch Ableitung. Es handelt sich um einen Wortbildungsprozess, der auf dem Wortstamm aufsetzt: Wortstamm: sprach Substantiv: Sprache Adjektiv: sprachlich Wortstamm: retriev Substantiv: retrieval Verb: to retrieve
Aus der Perspektive des Retrievals zeigen sich die durch Derivation begründeten Veränderungen der Indexterme durch Suffixe, die den Wortstamm verändern. Entfernt man die Suffixe, bleiben Stämme übrig, die den Vorteil haben, gleichzeitig für Substantive und zum Beispiel Verben stehen zu können. Nachteilig wirkt sich aus, dass es sich bei Wortstämmen nur ausnahmsweise um vollständige Wörter handelt. Im Deutschen besonders wichtig ist die Komposition, ebenfalls eine Form der Wortbildung. Dabei entstehen Wörter durch das Zusammenfügen mehrerer Wörter zu Komposita: Ausgangswörter: Haus, Tür Kompositum: Haustür Ausgangswörter: fremd, Sprache Kompositum: Fremdsprache Flexion: Fremdsprachen
Ziel einer linguistisch basierten automatischen Indexierung ist es, die grammatikalischen Varianten auf eine einzige Form abzubilden, die als Indexterm die geeignete ist, z. B. Substantive auf die
B 11: Automatische Indexierung
275
Singularform. Dazu werden Systeme eingesetzt, die über ein morphologisches Wissen verfügen, das es erlaubt, die Grammatik eines Wortes zu erkennen und die erwünschte Manipulation durchzuführen (z. B. eine Reduzierung auf die Grundform). Die Komplexität solcher Systeme ist von der Beschaffenheit der Grammatik einer Sprache abhängig. Eine stark regelhafte Sprache wie das Englische erlaubt den Einsatz deutlich einfacherer Verfahrensweisen als das Deutsche. Die deutsche Grammatik weist eine hohe Zahl von Regeln bei einer gleichzeitig hohen Zahl von Ausnahmen auf und erfordert durch den so vorhandenen Variantenreichtum ungleich mehr Aufwand. B 11.3.1 Stemming-Verfahren Für das Englische haben sich Stemming-Verfahren etabliert, die sich die Regelhaftigkeit der Flexion in der englischen Sprache zunutze machen (Lit. 06, Lit. 24). Für die Angleichung der Wörter eines Satzes an die Grammatik gibt es recht wenige Regeln bei einer überschaubaren Menge von Ausnahmen. Dadurch ist es möglich, Terme in Dokumenten regelbasiert, d. h. algorithmisch, auf ihre Grundformen zu bringen. Stemming-Verfahren (stem – der Wortstamm) sind von einer einfachen Grundannahme geleitet: Falls die Veränderung eines Wortes (z. B. das Anhängen eines Suffixes) regelmäßig zu einer grammatikalischen Form führt und umgekehrt das Vorliegen dieser Veränderung bei einem Wort genau dieser grammatikalischen Form entspricht, dann ist es möglich, anhand der Veränderung auf die Grundform des Wortes zu schließen. So erfolgt die Pluralbildung von Substantiven im Englischen, die auf y enden, regelmäßig durch Tilgung des „y“ und Anhängen von „ies“: family → families
Im Umkehrschluss ist das Vorliegen der Endung ies regelmäßig ein Hinweis auf die Pluralvariante eines Substantivs, dessen Grundform auf y endet. Für ein Stemming-Verfahren resultiert daraus die Regel, dass Wörter, die auf ies enden, durch Tilgung dieser Endung und Anhängen von „y“ auf ihre Grundform gebracht werden können: families
Tilgung „ies“ → „famil“ Anhängen „y“ → family
Gleichzeitig gibt es im Englischen nur eine überschaubare Zahl von Wörtern, die zwar auf „ies“ enden, aber keine y-Substantive sind: pie → pies (oder schon im Singular mit „ies“ wie species)
Die Ausnahmen werden in einer Ausnahmeliste erfasst, die für jedes zu untersuchende Wort als erstes herangezogen wird: Steht das Wort in der Ausnahmeliste, ist dort auch die Grundform erfasst, steht es nicht in der Liste, gilt die Stemming-Regel. Für einen zuverlässig funktionierenden Stemmer sind Regeln für das Suffix-Verhalten jeder Wortart nötig. Einer der häufig eingesetzten Stemming-Algorithmen ist der sog. Porter-Stemmer, „an algorithm for suffix stripping“ (Lit. 18, Lit. 05, S. 312ff), mit dem sich flektierte Wortformen durch das Abtrennen ihrer Endungen bis auf ihre Stammform reduzieren lassen. Porter betont, dass sich durch seinen Stemmer nicht immer linguistisch korrekte Stammformen erzeugen lassen, sondern dass hinter dem Verfahren allein ein pragmatischer Ansatz zur Steigerung der Retrievalleistung steht. Kuhlen hat, neben einem Verfahren zur Stammformenreduktion, einen einfacheren Algorithmus für das Erzeugen von Grundformen als Indexterme entwickelt (Lit. 11): Die Erzeugung von Grundformen wie beim Verfahren von Kuhlen hat den grundsätzlichen Vorteil, dass es sich bei diesen um vollständige Wörter handelt, die als Indexterme sinnvoll suchbar sein können. Werden hingegen Wortstämme statt Grundformen zu Indextermen, geht die Unterscheidung nach Wortklassen
276
B 11: Klaus Lepsky
im Index verloren, es sind dann keine spezifischen Recherchen nach substantivischen oder adjektivischen Formen mehr möglich. Erschwerend kommt hinzu, dass Stämme nur ausnahmsweise vollständige Wörter sind. Für den Abgleich von Suchanfragen und Indexeinträgen im Information Retrieval stellt das ein ernsthaftes Matching-Problem dar. Wenn von den Nutzern für die Sucheingaben, wie zu erwarten, vollständige Wörter verwendet werden, im Index jedoch Stämme stehen, wird das Suchergebnis ohne Treffer bleiben. Um dies zu verhindern, ist es nötig, auch die Sucheingaben einem Stemming zu unterziehen. Stemming-Verfahren wie der Porter- oder der Kuhlen-Grundformenalgorithmus werden immer auch fehlerhafte Resultate erzeugen, weil es z. B. Zeichenketten geben wird, die regelhaft bearbeitet werden, in Wirklichkeit aber Ausnahmen darstellen und noch nicht in der Ausnahmeliste erfasst sind. Grundsätzlich unterscheidet man zwei typische mögliche Fehler beim Stemming: das Overstemming und das Understemming. Beim Overstemming werden verschiedene Wortformen falsch zusammengeführt, weil ein zu langes Suffix abgetrennt wird oder etwas für ein Suffix gehalten wird, das keines ist. Im folgenden Beispiel werden die unterschiedlichen Wörter „winner“, „winning“ und „wine“ alle auf den Stamm „win“ reduziert, weil der Stemmer für „wine“ ein Overstemming durchführt (und dadurch einen falschen Stamm erzeugt): winner → win/ner winning → win/ning wine → win/e
Understemming trennt demgegenüber zu kurze Suffixe ab und führt dadurch semantisch eigentlich zusammengehörige Wörter nicht auf einen gemeinsamen Stamm zurück: divide → divid/e dividing → divid/ing division → divis/ion
B 11.3.2 Wörterbuchbasierte Verfahren Für Sprachen, in denen es sehr viele Regeln bei gleichzeitig sehr vielen Ausnahmen gibt, wird die Erstellung regelbasierter linguistischer Systeme sehr aufwendig. Für solche Sprachen, so auch für das Deutsche, haben sich Verfahren etabliert, die statt mit Regeln und Ausnahmelisten mit Positivlisten arbeiten. Die Positivlisten enthalten in möglichst umfassender Form das Vokabular der zu verarbeitenden Sprache und mehr oder weniger ausführliche Informationen zur Grammatik der Wörter. Da solche Wortlisten Eigenschaften haben, die denen von Wörterbüchern entsprechen, werden diese Systeme auch wörterbuchbasierte oder lexikonbasierte Systeme genannt. B 11.3.2.1 Grundformerzeugung Wörterbuchbasierte Verfahren zur automatischen Indexierung identifizieren anhand ihrer Wörterbucheinträge die Wörter im Dokumenttext und erzeugen die dazu gehörigen Grundformen. Dazu müssen sie in der Lage sein, im Text vorkommende Varianten zuverlässig zu erkennen, d. h. sie benötigen in den Wörterbüchern das Wissen über alle Grundformen. Zusätzlich müssen sie über Techniken verfügen, Varianten zu identifizieren und diesen die richtige Grundform zuzuordnen. Dafür gibt es unterschiedliche Ansätze, die sich im Inhalt der Wörterbücher niederschlagen. Man unterscheidet hauptsächlich Vollformenwörterbücher und Grundformenwörterbücher. Vollformenwörterbücher enthalten sowohl die Grundformen als auch die grammatikalisch möglichen Varianten.
B 11: Automatische Indexierung
277
Dabei können auch Angaben über die Grammatik der jeweiligen Variante hinterlegt sein, wie es z. B. im Wörterbuch des Indexierungssystems EXTRAKT der Fall ist (Lit. 14): Abfall::Abfall+SUB;MAS;SG;AKK Abfall::Abfall+SUB;MAS;SG;DAT Abfall::Abfall+SUB;MAS;SG;NOM Abfalles::Abfall+SUB;MAS;SG;GEN Abfalls::Abfall+SUB;MAS;SG;GEN
Die Grundformerzeugung auf der Basis von Vollformenwörterbüchern ist ein einfacher MatchingProzess zwischen Textwort und Einträgen des Lexikons. Ist er erfolgreich, kann die zugehörige Grundform direkt ausgelesen werden. Indexierungssysteme mit Vollformenwörterbüchern erzielen eine sehr hohe Arbeitsgeschwindigkeit. Erkauft wird dieser Vorteil durch die Größe der zu verwendenden Wörterbücher und den vergleichsweise höheren Aufwand, die Wörterbücher um weitere Wörter und deren Varianten zu ergänzen. Eine Arbeit, die allerdings für alle wörterbuchbasierten Indexierungssysteme grundsätzlich nötig ist und bei deren Einführung bedacht werden muss. Grundformenwörterbücher enthalten ausschließlich die Grundformen der lexikalisierten Wörter und benötigen deshalb für die korrekte Identifizierung von Wortvarianten im Text zusätzlich Hinweise über die Varianten der Grundformen. Diese sind in Form von Informationen über das Flexionsverhalten der Grundformen entweder im Wörterbuch direkt oder an anderer Stelle des Systems in Form von Regeln hinterlegt. Das Indexierungssystem Lingo verwendet z. B. ein Grundformenwörterbuch in Verbindung mit einer hinterlegten Suffixliste (Lit. 13, Lit. 05, Kap. 5). Das Grundformenwörterbuch von Lingo enthält eine Zeichenkette, mit der ein Identifizierungsversuch erfolgt (Eintrag links vom Gleichheitszeichen, außer für unregelmäßige Formen identisch mit der Grundform), die im Falle eines Matchings zu erzeugende Grundform (rechts vom Gleichheitszeichen) und Angaben zur Wortart der Grundform (z. B. „s“ für Substantive): lahr=lahr #e laich=laich #s laichen=laichen #v laichend=laichend #a laichen #v laie=laie #s laienhaft=laienhaft #a laientum=laientum #s
Mit derartigen Einträgen kann die Identifizierung einer Wortvariante wie etwa „Laien“nur dann gelingen, wenn dem System bekannt ist, dass „n“ eine zulässige Endung für die Grundform „laie“ ist. Diese Angaben findet das System in einer Suffixliste für das Deutsche: [s, „e en er ern es n s se sen ses“]
Die Suffixliste enthält alle zulässigen Endungen für Substantive („s“), worunter auch das Suffix „n“ ist. Die Identifizierung der Zeichenkette „Laien“ geschieht über die im Wörterbuch enthaltene substantivische Grundform „laie“ + Endung „n“, die durch die Suffixliste verifiziert ist. Im Rahmen der Grundformerkennung bzw. -erzeugung ist es möglich, Wortableitungen zu erkannten Grundformen zu bilden. Die Wortableitung erlaubt die Bereitstellung von zusätzlichen Indextermen in der bevorzugten grammatikalischen Form, für das Retrieval in der Regel die substantivische Form. Um dies wörterbuchbasiert zu leisten, ist lediglich die Ergänzung von Substantiven für adjektivische Grundformen nötig; der Lexikoneintrag „wirtschaftlich=wirtschaftlich #a wirtschaft #s“ erzeugt die Grundformen „wirtschaftlich“ und „wirtschaft“, falls „wirtschaftlich“ im Text steht.
278
B 11: Klaus Lepsky
Im Deutschen hat die Behandlung der Wortableitung in der Indexierung eine große Bedeutung, weil es grundsätzlich möglich ist, eine Aussage in verschiedenen inhaltsgleichen aber grammatikalisch stark unterschiedlichen Varianten zu treffen: „Aufschwung der Wirtschaft“ (Wortfolge mehrerer Substantive), „Wirtschaftsaufschwung“ (Kompositum) und „wirtschaftlicher Aufschwung“ (Adjektiv-Substantiv-Verbindung) sind als inhaltsgleiche Aussagen in Texten austauschbar, führen jedoch zu verschiedenen Indextermen. Durch die Wortableitung vom Adjektiv auf das Substantiv wird die Adjektiv-Substantiv-Verbindung inhaltlich identisch mit der Substantiv-Wortfolge („wirtschaftlicher Aufschwung → wirtschaft, aufschwung“). Durch die Kompositumzerlegung wird das Kompositum auf der Ebene der Indexterme identisch mit der Substantiv-Wortfolge („Wirtschaftsaufschwung → wirtschaft, aufschwung“). Sprachlich werden verschiedene Ausgangsformen im Index zusammengeführt. Wörterbuchbasierte Indexierungssysteme enthalten in der Regel einen sehr umfangreichen Wortschatz, um möglichst viele Wortformen im Text identifizieren zu können. Daraus muss sich nicht notwendigerweise auch ein Wissen über alle korrekten Wörter und Wortvarianten des Deutschen ergeben. Lingo zum Beispiel würde auch die Zeichenkette „Laieses“ über die Grundform „laie“ und das Suffix „ses“ identifizieren und auf die Grundform „laie“ bringen. Es gibt Systeme, die dieses positive Sprachwissen haben, dafür allerdings höheren Aufwand bei der Erstellung des Wörterbuchs benötigen. Ein Beispiel dafür ist das System IDX und sein Grundformenwörterbuch (Lit. 12). Dort sind zu jeder Grundform nur die grammatikalisch zulässigen Endungen lexikalisiert, sodass Fehlidentifizierungen nahezu ausgeschlossen sind. IDX kennt so mehr oder weniger alle in Texten erlaubten Erscheinungsformen von Wörtern. Eine Fähigkeit, die auch für die wörterbuchbasierte Rechtschreibkontrolle von Texten genutzt werden kann. B 11.3.2.2 Kompositumerkennung Der mit wörterbuchbasierten Indexierungssystemen verbundene höhere Aufwand bei der Wörterbucharbeit ist eine wichtige Basis für die Realisierung von Funktionen, die über eine reine Grundformerzeugung hinausgehen. Vor allem für stark komponierende Sprachen wie das Deutsche ist bei der automatischen Indexierung eine Identifizierung und korrekte Zerlegung von Komposita (d. h. zusammengesetzten Wörtern mit mehreren inhaltlichen Komponenten) unverzichtbar. Aus Sicht des Retrievals haben Komposita die Eigenschaft, potenziell nützliche Indexterme in ihrem Inneren zu verbergen. Die Zerlegung macht die Bestandteile von Komposita als Indexterme suchbar. Ohne eine Zerlegung der Komposita, d. h. ohne eine Erkennung der Bestandteile von Komposita, ist es auch nicht möglich, flektierte Komposita auf die Kompositum-Grundform zu bringen. Während es zumindest theoretisch denkbar ist, alle Grundformen des Deutschen einigermaßen vollständig zu lexikalisieren, ist dies für Komposita nicht möglich, weil deren Menge fortwährend durch Neubildung vergrößert wird. Da Komposita aus bekannten Wörtern zusammengesetzt werden, kann über die Erkennung der im Kompositum enthaltenen Grundformen auch die Identifizierung des Kompositums erfolgen. Das Kompositum „Informationswirtschaft“ wird zum Beispiel mit Lingo über die beiden im Grundformenwörterbuch enthaltenen Einträge „information“ und „wirtschaft“ identifiziert. Das „s“ zwischen beiden Bestandteilen ist eine sog. Fugung (Infix), die in der Suffixliste definiert ist. Die Identifizierung über Zerlegung wird von wörterbuchgestützten Indexierungssystemen mit großer Zuverlässigkeit auch für Komposita mit mehr als zwei Elementen geleistet. Unerwünschte, aber mögliche Zerlegungen lassen sich vermeiden, indem die betreffenden Komposita lexikalisiert werden: „wirtschaft“ ist Wörterbucheintrag, um die Zerlegung in „wirt“ und „schaft“ zu verhindern. Für das Information Retrieval stellt die Kompositumzerlegung als Indexterme sowohl die Grundform des Kompositums („Informationswirtschaft“) als auch dessen Bestandteile („Information“ und „Wirtschaft“) bereit.
B 11: Automatische Indexierung
279
B 11.3.2.3 Mehrworterkennung und Synonymbehandlung Der Einsatz von Wörterbüchern legt Funktionen nahe, die auf dem Einsatz vorhandener, ggf. normierter Terminologie aufbauen. Deren Verwendung kann im Rahmen der Erkennung von Mehrwortgruppen und bei der Erkennung und/oder Zuteilung von Synonymen von Nutzen sein. Die Mehrworterkennung verlässt die auf den einzelnen Term bezogene Verarbeitung von Texten und identifiziert – wiederum wörterbuchgestützt – Wortgruppen, die semantisch zusammen gehören. Die Wortgruppe „Zweites Deutsches Fernsehen“ wäre durch die drei in einer reinen Grundformerzeugung generierten Grundformen „zwei“, „deutsch“ und „Fernsehen“ unzureichend indexiert, weil die Mehrwortgruppe als Eigenname eine feststehende Bedeutung hat. Personennamen und Namen von Körperschaften sind häufig mehrwortig, sodass deren korrekte Identifizierung und Extraktion wichtig ist. Für Personennamen und Namen von Körperschaften existieren hervorragende Quellen wie z. B. die Gemeinsame Normdatei GND (Lit. 01), die für eine Lexikalisierung von Mehrwortgruppen genutzt werden können. Um Mehrwortgruppen auch flektiert identifizieren zu können („des Zweiten Deutschen Fernsehens“), ist eine explizite Lexikalisierung aller Varianten aller Mehrwortgruppen ein unattraktiver Weg. Werden die Fähigkeiten der Grundformerzeugung mit der Mehrworterkennung kombiniert, lässt sich jedoch ein Mehrwortlexikon aufbauen, das Mehrwortgruppen ausschließlich in Grundform enthält und dadurch auch flektierte Mehrwortgruppen erkennt. Für den Eigennamen „Zweites Deutsches Fernsehen“ wäre „zwei deutsch fernsehen = zweites deutsches fernsehen“ der durch Grundformerkennung generierte Lexikoneintrag. Im Zusammenspiel mit den Suffixinformationen lässt sich mit diesem Eintrag jede Variante der Mehrwortgruppe identifizieren. Eine zweite terminologische Quelle, die für die Zwecke einer automatischen Indexierung genutzt werden kann, sind genormte Vokabulare in Thesauri. Deren Synonyme dienen üblicherweise der semantischen Zusammenführung im Kontext der intellektuellen Erschließung, ähnliche Funktionen können sie aber auch als Indexterme im Retrieval erfüllen. Synonymie, d. h. die Existenz verschiedener gleichwertig zu benutzender Benennungen für einen Sachverhalt, führt zu einer fehlenden Zusammenführung von sprachlichen Bezeichnungen im Information Retrieval: eine Suche mit „Müllbeseitigung“ findet keine Dokumente mit „Abfallbeseitigung“ oder „Müllentsorgung“. Während die fehlende sprachliche Zusammenführung durch die grammatikalischen Funktionen der automatischen Indexierung gelöst wird, ist das durch Synonyme verursachte Retrievalproblem ein Problem auf der Ebene der Begriffe (Lit. 21). Eine intellektuelle Erschließung löst das Problem durch die Zuteilung von Vorzugsbenennungen zum Dokument, die gemeinsam mit den relationierten Synonymen dafür sorgen, dass unabhängig vom gewählten Suchbegriff immer alles zum Thema gefunden wird. Unter den Bedingungen einer automatischen Indexierung werden Synonymbeziehungen dazu genutzt, zusätzliche Indexterme zu generieren. Dies kann in der einfachsten Variante bedeuten, dass die Indexierung zu einem potenziellen Indexterm alle bekannten Synonyme als zusätzliche Indexterme generiert: bei Identifizierung eines der Terme aus der Äquivalenzklasse „Müllbeseitigung“, „Abfallbeseitigung“, „Müllentsorgung“ im Dokument werden zusätzlich die zwei anderen zu Indextermen. Jede Suche auf einen der drei Terme führt dadurch zur gleichen Treffermenge. Mehrworterkennung und Synonymgenerierung basieren auf automatischen Techniken, hängen in der Qualität des Ergebnisses allerdings stark von den verfügbaren terminologischen Ressourcen ab. Ihr Einsatz ist einer der wenigen echten Schnittpunkte zwischen intellektuellen Erschließungsverfahren und automatischen Indexierungstechniken.
B 11.4 Textstatistische Verfahren Der älteste Ansatz automatischer Indexierung ist aus der Textstatistik hervorgegangen und basiert auf einer quantitativen Analyse von Texten und der plausiblen Überlegung, dass nicht alle Wörter eines Dokuments gleich wichtig sein können. Zipf gelang es schon in den 1930er und 1940er Jahren,
280
B 11: Klaus Lepsky
eine konstante Beziehung zwischen der Auftretenshäufigkeit von Wörtern in Texten und dem Rang der Wörter in einer Häufigkeitsliste nachzuweisen. Diese Gesetzmäßigkeit wurde als Zipfsches Gesetz bekannt und ermöglichte es später Luhn, seine These über den Zusammenhang zwischen der Häufigkeit von Wörtern in Texten und dem Inhalt dieser Texte zu entwickeln (Lit. 16). Grundlage für die Ermittlung wichtiger Terme in Dokumenten ist die Berechnung der Worthäufigkeiten der Terme, die sich auf zwei Grundannahmen stützt: –– Je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist er für dessen Inhalt. –– Je häufiger ein Term in der gesamten Dokumentkollektion vorkommt, desto weniger wichtig ist er als Indexterm. Die erste Annahme führt zu Berechnungsmodellen für die Auftretenshäufigkeit eines Terms in einem einzelnen Dokument. Die absolute (oder: einfache) Termhäufigkeit, als term frequency (TF) bekannt, zählt einfach die Häufigkeit, mit der ein Term in einem Dokument vorkommt. Ein Term, der in einem Dokument häufig vorkommt, erhält so ein höheres Termgewicht als ein seltener Term. Die über TF ermittelten Termgewichte lassen sich zum Beispiel nutzen, um für Suchergebnisse ein Relevance Ranking der Treffermenge zu generieren. Dabei sortieren die Dokumente mit den höchsten Werten für TF an der Spitze der Liste. Bei einer solchen Nutzung wird kaum auffallen, dass die so ermittelten Termgewichte die höchsten Werte für Terme produzieren, die in nahezu allen Dokumenten mit großer Häufigkeit auftreten. Diese Terme, auch Hochfrequenzterme genannt, sind in der Regel für den Inhalt von Dokumenten unbedeutend, weil sie in erster Linie Satz-Funktionen haben: Artikel, Konjunktionen, Präpositionen etc. Eine nach Relevanz auf der Basis von Termgewichten sortierte Treffermenge stören sie selten, weil nach ihnen nicht gesucht wird. Die zweite Grundannahme führt zur Berechnung der Häufigkeit eines Terms bezogen auf die gesamte Dokumentkollektion. Die Dokumenthäufigkeit berechnet für einen Term die Zahl der Dokumente, in denen er vorkommt. Die Dokumenthäufigkeit ist dann am größten, wenn ein Term in vielen Dokumenten einer Kollektion vorkommt. Das häufig verwendete kollektionsbezogene Standardgewicht der Inversen Dokumenthäufigkeit (IDF) verrechnet Termhäufigkeit und Dokumenthäufigkeit zu einem Gesamtgewicht: TF * IDF = TF/Dokumenthäufigkeit
Das so berechnete Termgewicht ergibt die besten Werte für Terme, die nur in wenigen Dokumenten vorkommen, dort jedoch relativ häufig sind. In der Praxis haben sich eine Reihe von deutlich komplexeren Varianten etabliert (Lit. 25, S. 318ff), die oft die Verarbeitungsgrundlage für anspruchsvollere Indexierungsverfahren oder Retrievalsysteme sind (Lit. 22, Lit. 23, vgl. auch B 15 Modelle im Information Retrieval).
B 11.5 Automatische Indexierung und Informationserschließung Durch linguistische und textstatistische Verfahren zur automatischen Indexierung ermittelte Ergebnisse werden im Rahmen des Information Retrievals in unterschiedlicher Form genutzt. Im einfachsten Fall lässt sich deren Ziel als eine Überarbeitung des Index auffassen: sprachlich uneinheitliche und in ihrer Wichtigkeit gleichrangige Indexterme werden im überarbeiteten Index durch die Zusammenführung von Varianten vereinheitlicht und gemäß ihrer Wichtigkeit ausgezeichnet. Der Nutzen liegt in einer Verbesserung des Retrievalergebnisses durch erhöhten Recall (Lit. 05, Kap. 6) und der Möglichkeit, Treffermengen durch ein Relevance Ranking leichter durchsuchen zu können. Darüber hinaus gehende Zielsetzungen versuchen die Ergebnisse der automatischen Indexierung im Sinne einer Erschließungsleistung zu nutzen. Intellektuelle Erschließungsverfahren basieren grundsätzlich auf dem Prinzip der Zuteilung. Der Inhalt des Dokuments wird analysiert und auf dieser Basis werden z. B. Deskriptoren eines Thesaurus zugeteilt. Das Ziel der Erschließung besteht
B 11: Automatische Indexierung
281
in einer Informationsverdichtung, die offensichtlich wird in der ungleichen Relation zwischen wenigen zugeteilten Erschließungsmerkmalen und der hohen Zahl der in den Dokumenten enthaltenen Terme. Automatische Indexierungsverfahren basieren grundsätzlich auf dem Prinzip der Extraktion, insofern die in den Dokumenten vorhandenen Zeichenketten immer die Basis für die Verarbeitung darstellen (müssen). Diese Zeichenketten können entnommen und verarbeitet werden, es können dadurch auch neue Indexterme abgeleitet werden. Automatische Verfahren bleiben dabei immer abhängig von der Qualität der bereits vorhandenen Terme – der Inhalt eines Dokuments ist ihnen nicht zugänglich. Dennoch gibt es Ansätze, automatische Indexierung mit Informationsverdichtung und zuteilender Erschließung zu verbinden. Ein nahe liegender erster Schritt besteht in der Anwendung von Selektionskriterien für extrahierte Terme. Wenn es möglich ist, durch textstatistische Verfahren die Wichtigkeit eines Terms für ein Dokument zu berechnen, dann sollte es auch gelingen, die wichtigen Terme von den unwichtigen zu trennen und letztere vom Retrieval auszuschließen. Stellt man sich die Häufigkeitsverteilung aller Terme einer Kollektion auf einer Skala vor, gibt es an der Spitze sehr wenige Terme, die extrem häufig sind (Hochfrequenzterme), einen großen unteren Bereich mit Termen, die extrem selten vorkommen und einen mittleren Bereich, der auch die gemäß IDF idealen Terme umfasst, die in relativ wenigen Dokumenten relativ häufig sind. Diese Verteilung hat zu Überlegungen geführt, Schwellenwerte für gute Indexterme zu definieren und ggf. außerhalb des Bereichs liegende Terme auszuschließen. Zumindest für die inhaltlich unbedeutenden Hochfrequenzterme scheint dies gefahrlos möglich, weshalb immer wieder versucht wird, sie zu einem frühen Zeitpunkt aus der Verarbeitung zu entfernen und gar nicht erst als potenzielle Indexterme zu betrachten. Unter der Bezeichnung Eliminierung von Stoppwörtern werden sog. Stoppwortlisten geführt, die alle Terme enthalten, die vom Indexaufbau ausgeschlossen werden sollen. Der Erfolg besteht in einer beschleunigten Indexierung. Allerdings ist die Gefahr groß, dass auch taugliche Indexterme ausgeschlossen werden, sogar im Fall der Hochfrequenzterme, weil Zeichenketten mehrdeutig sein können. Der Term „die“ kann in einem deutschsprachigen Dokument ein Artikel sein, er kann aber auch ein Akronym sein, z. B. für das „Deutsche Institut für Erwachsenenbildung“ oder das „Deutsche Institut für Entwicklungspolitik“. Das mag durch Berücksichtigung von Groß- und Kleinschreibung gelöst werden, aber sobald man es mit multilingualen Dokumentkollektionen zu tun hat, wird die Frage, ob ein Hochfrequenzterm in einer bestimmten Sprache gestoppt werden darf, unbeantwortbar. Im Englischen ist „die“ ein Verb. Suchmaschinenanbieter wie Google kennen diese Zusammenhänge und indexieren daher ohne jede Selektion. Die Selektion von Indextermen als vorsichtiger erster Schritt hin zu einer Informationsverdichtung führt nicht zum gewünschten Ziel. Der Nutzen gewichteter Indexterme muss, neben dem Relevance Ranking, in anderen Szenarien gesucht werden. Eines der möglichen Szenarien besteht in der Verbindung von Termgewichtung und zuteilenden Verfahren. Dabei wird die Nutzung und Zuteilung vorhandener Terminologie, anders als in der direkten Synonymgenerierung durch linguistisch basierte Verfahren, an die Bedingung einer ausreichend signifikanten Termgewichtung geknüpft. Eine Möglichkeit besteht darin, dass Deskriptoren eines Thesaurus einem Dokument als Indexterm zugeteilt werden, wenn dessen hoch gewichtete Terme einem Synonym oder dem Deskriptor entsprechen (vorherige linguistische Normierung vorausgesetzt). Solche automatischen Verschlagwortungssysteme werden in der Praxis eingesetzt, in experimentellen Umgebungen hat sich aber auch für diesen Ansatz als Hauptschwierigkeit die Festlegung geeigneter Schwellenwerte für die Differenzierung von wichtigen und unwichtigen Termen herausgestellt (Lit. 15). Die Verbindung von linguistischen und statistischen Verfahren zu einem mit hoher Zuverlässigkeit zuteilenden automatischen Indexierungssystem ist im Rahmen des Forschungsprojekts AIR/PHYS in den 1980er Jahren gelungen (Lit. 09). Ziel war die Entwicklung eines Systems, das für die Fachdatenbank PHYS (Fachgebiet Physik, englischsprachig) automatisch Deskriptoren aus einem Fachthesaurus zuteilt. Dabei konnte auf die Auswertung einer großen, bereits intellektuell
282
B 11: Klaus Lepsky
erschlossenen Menge an Dokumenten zurückgegriffen werden. Basierend auf dieser Auswertung wurde ein Indexierungssystem realisiert, das die durch intellektuelle Erschließung erzeugten Ergebnisse möglichst getreu simuliert. Kern von AIR/PHYS war der Gedanke, aus den bereits erschlossenen Dokumenten abzuleiten, mit welcher Wahrscheinlichkeit ein Deskriptor vergeben werden kann, wenn bestimmte Terme in der Dokumentbeschreibung vorkommen (es handelte sich um bibliografische Datensätze mit Abstracts). Für dieses Wahrscheinlichkeitsmaß wurde für alle erschlossenen Dokumente der Datenbank das gemeinsame Auftreten von Term und Deskriptor ermittelt und daraus ein Indexierungswörterbuch mit allen Auftretenswahrscheinlichkeiten erstellt, die größer als 30 % waren. Zusätzlich wurde der vorhandene Thesaurus genutzt, um auf linguistischer Basis vor der eigentlichen Indexierung Synonyme zu vereinheitlichen. Die Textwörter waren zuvor linguistisch normiert worden. Die Neuindexierung nicht erschlossener Dokumente erfolgte in einem Stufenprozess, in dem nach der linguistischen Vorverarbeitung aller Texte für alle Terme durch das Indexierungswörterbuch AIR/PHYS Deskriptoren zugeteilt wurden, wenn ein Eintrag im Wörterbuch vorhanden war. Wie bei jedem automatischen Verfahren gab es auch bei AIR/PHYS Probleme, die durch Homonymie verursacht wurden. Es konnte also sein, dass Deskriptoren automatisch zugeteilt wurden, weil der Ursprungsterm im Dokument ein Homonym zum Wörterbucheintrag war. Dieses Problem versuchte man dadurch zu lösen, dass zusätzlich alle Deskriptor-Deskriptor-Beziehungen in den erschlossenen Dokumenten ausgewertet wurden. Dadurch war es möglich, Wahrscheinlichkeiten für das gemeinsame Auftreten von Deskriptoren zu ermitteln, insbesondere aber in einem Indexierungslauf festzustellen, dass bestimmte Deskriptoren normalerweise nie zusammen beim Dokument stehen. Die Ausnutzung der Deskriptor-Deskriptor-Beziehungen erlaubte die Bereinigung und Verfeinerung der automatisch erzeugten Deskriptoren um unpassende Kandidaten. AIR/PHYS ist gut dokumentiert und die mit dem System erzielten Ergebnisse sind in einem umfangreichen Retrievaltest überprüft worden. Dabei hat sich eine Indexierungsqualität bestätigt, die der intellektuellen Indexierung vergleichbar ist. AIR/PHYS lässt dennoch nicht den Schluss zu, dass automatische Indexierung die intellektuelle Erschließung ersetzen kann, denn es gibt zu viele Rahmenbedingungen, deren Einfluss auf das gute Ergebnis nur schwer einzuschätzen ist, insbesondere die fachliche Domain der Kollektion. AIR/PHYS berechtigt aber zu der Erwartung, dass es möglich ist, automatische Indexierungssysteme zu schaffen, die geeignet sind, intellektuelle Erschließungsleistung angemessen zu integrieren. Umso bedauerlicher ist es, dass der in AIR/PHYS verfolgte und im Einsatz des Fachinformationszentrum Karlsruhe eine Weile erprobte Ansatz keine Nachahmer bzw. keine weitere Anwendung gefunden hat. Akzeptanz von automatischen Verfahren beruht auf vielen Kriterien, nicht nur technischen. Oft fehlt auch die Kapazität für die kontinuierliche Pflege der Software.
B 11.6 Semantik in Automatischer Indexierung und Information Retrieval Die traditionellen auf Textstatistik und Informationslinguistik beruhenden Verfahren der automatischen Indexierung werden zunehmend in Indexierungs- und Retrievalumgebungen eingesetzt, in denen eine semantische Verarbeitung angestrebt wird. Was im jeweiligen Kontext genau unter semantisch verstanden wird, bewegt sich auf einer größeren, wenig festgelegten Skala. Gemeinsames Merkmal der unterschiedlichen Ansätze ist jedoch, dass eine Verarbeitung auf der reinen Ebene des Textworts als unzureichend betrachtet wird. Semantik im Sinne dieses Beitrags ist fokussiert auf die begriffliche Ebene und damit die Erkennung, Berücksichtigung und Differenzierung der Bedeutung von Wörtern und der Inhalte von Dokumenten. Die Abbildung von Bedeutung im Sinne eines begrifflichen Wissens über die Welt (oder zumindest über kleinere Ausschnitte der Welt) und dessen Einsatz in automatischen Systemen ist Gegenstand der Wissensrepräsentation in der Künstlichen Intelligenz (Lit. 03). Wissensrepräsentation modelliert für die Verarbeitung durch (oder in) Maschinen einen Interpretationsrahmen, innerhalb
B 11: Automatische Indexierung
283
dessen explizit festgelegt ist, welche Bedeutung ein Begriff hat und welche Beziehungen zu anderen Begriffen existieren. Beispiele für solche Rahmen sind semantische Netze oder Ontologien (Lit. 26; vgl. B 6 Ontologien). Für die Zwecke des Information Retrievals bzw. des automatischen Indexierens sind die auf Bedeutung zielenden Ansprüche niedriger anzusetzen. Vordringliches Ziel bleibt die Zusammenführung zusammengehöriger Objekte für das Retrieval, technisch soll sich dies in höherem Recall und verbesserter Precision niederschlagen. So bewirkt eine Zusammenführung unterschiedlicher Wortformen zu einer Grundform durch den Einsatz informationslinguistischer Verfahren eine deutliche Recall-Erhöhung, weil Dokumente mit enthaltenen Grundformvarianten nun mitgefunden werden. Dass diese Zusammenführung von Wortvarianten auch für Homographen der Grundform und deren Varianten geschieht (und damit zur Verminderung von Precision führen kann), muss auf der Ebene der Verarbeitung von Einzelwörtern immer billigend in Kauf genommen werden und ist daher eines der Argumente für die Erkennung von Mehrwortgruppen. Selbst die informationslinguistisch begründete Zusammenführung von Synonymen ist vom Problem möglicher Mehrdeutigkeiten der verarbeiteten Zeichenketten betroffen, weil die Bedeutung, die Rolle oder der Kontext des einzelnen Wortes unberücksichtigt bleiben müssen. Semantische Verfahren im Information Retrieval gehen über das Zusammenführen von Zeichenketten hinaus und leisten eine Zusammenführung von Wörtern auf der begrifflichen Ebene bzw. eine Zusammenführung von Dokumenten auf der begrifflichen oder inhaltlichen Ebene. Dazu ist entweder das Verlassen der Einzelwortebene nötig oder die kollektionsbezogene Auswertung von Dokumenteigenschaften. Ersteres geschieht in einer Reihe von Ansätzen zur Informationsextraktion bzw. Terminologieextraktion, letzteres bei Verfahren des Latent Semantic Indexing (LSI) und der automatischen Klassifikation. Informationsextraktion entnimmt Dokumenten Information in einer Form, die für eine Weiterverarbeitung in anderen Systemen, z. B. Datenbanksystemen oder Retrievalsystemen, genutzt werden kann (Lit. 03, S. 205-229). Dies setzt eine eindeutige und zuverlässige Identifizierung der Information voraus; die Erkennung von Personendaten sollte für Varianten funktionieren und möglichst nicht mit anderen Informationen verwechselt werden: „Albert Einstein“, „Einstein, Albert“, „Albert-Einstein-Straße“, „Einstein-Turm“, „Einstein-Konstante“, „Einsteins politisches Engagement“, „Einstein als Philosoph“. Dazu ist ein Wissen darüber nötig, dass es unterschiedliche Typen von Information gibt (Personennamen, Geografika, Eigennamen von Objekten, Sachbegriffe etc.) und Kenntnis über die verschiedenen Formen, in denen sie in Texten auftauchen können. Die eindeutige Zuordnung zu einem Typ löst dabei gleichzeitig das Problem der (potenziellen) Mehrdeutigkeit. Ein Weg, dies zu erreichen, besteht in einer syntaktischen Analyse der Dokumenttexte. Dabei kommen z. B. Parser zum Einsatz, die algorithmisch die Satzstruktur analysieren und den einzelnen Wörtern ihre Funktion im Satz zuweisen (POS – part of speech tagging). Vor allem für die Identifizierung potenziell zusammengehöriger Wörter hat eine Syntaxanalyse großen Nutzen, indem sie etwa Adjektiv-Substantiv-Verbindungen (der „politische Einstein“) als Satzelement identifiziert. Ein Parsing in Verbindung mit einfachen typisierten Wortlisten und einem vorangestellten Stemming ist für das Englische ein probates Instrument für die Erkennung bedeutungstragender Mehrwortgruppen (Lit. 24). Auch die syntaktische Variation innerhalb der Mehrwortgruppe ist ein lösbares Problem, wenn die Parsing- bzw. Extraktionsalgorithmen in der Lage sind, Umstellungen innerhalb des Satzes zu erkennen und betroffene Mehrwortgruppen aufeinander abzubilden: „information retrieval – retrieval of information“ (Lit. 08). Im Prinzip strebt die vollständige korrekte Syntaxanalyse von Sätzen mehr an als für eine Informationsextraktion benötigt wird, die Identifizierung der im Satz wesentlichen Information genügt völlig. Für ein Information Retrieval sind das z. B. alle Satzbestandteile, die der Fachterminologie zugerechnet werden können. Um diese sicher zu erkennen, können auch wörterbuchbasierte Systeme eingesetzt werden. Die durch sie geleistete Grundformerkennung führt zu einem Auszeichnen (Tagging) aller erkannten Grundformen mit ihrer Wortklasse (Adjektiv, Substantiv, Eigenname etc.). Die so erzeugte Satzstruktur in Form von Tagging-Folgen („Der Himmel ist blau“ – ART SUB
284
B 11: Klaus Lepsky
VER ADJ) kann auf Muster von Tag-Sequenzen durchsucht werden, die symptomatisch für inhaltstragende Mehrwortgruppen sind. So besteht z. B. in der Mathematik die Fachterminologie aus einer Abfolge von Adjektiven (A), Substantiven (S) und Eigennamen (E): nonlinear schrödinger equation (ANS) algebraic riccati equation (ANS) stochastic partial differential equation (AAAS) ergodic hamilton-jacobi-bellman equation (AEEES) krasnoselskii fixed point theorem (EASS) einstein-yang-mills-higgs equations (EEEES)
Mit solchen Suchsequenzen kann mathematisches Fachvokabular (auch zuvor nicht bekanntes) mit hoher Zuverlässigkeit extrahiert und für ein Retrieval bereitgestellt werden (Lit. 04). In Verbindung mit weiteren wörterbuchgestützten Ressourcen, z. B. Thesauri, ist darüber hinaus eine Zusammenführung syntaktischer Varianten möglich. Latent Semantic Indexing (LSI) ist ein auf semantische Einheiten oder Konzepte zielendes Verfahren, das auf dem Vektorraum-Retrievalmodell aufsetzt (Lit. 02). Das Vektorraummodell des Information Retrievals repräsentiert Dokumente über die in ihnen enthaltenen hochgewichteten Terme in einem n-dimensionalen Vektorraum. Im Vektorraum lässt sich über eine Ähnlichkeitsfunktion die Stärke der Beziehungen zwischen Dokumenten berechnen, wobei Dokumente mit gemeinsamen hochgewichteten Termen als ähnlich eingestuft werden (Spielarten sind möglich, so können z. B. auch ungewichtete Terme verwendet werden). Grundlage für die Berechnung ist eine Term-Dokument-Matrix für alle enthaltenen (oder berücksichtigten) Terme in allen Dokumenten. In Information Retrieval-Prozessen lässt sich dieses Wissen über die Beziehungen zwischen Dokumenten z. B. nutzen, um Relevance-Feedback-Modelle zu steuern, die zu gefundenen Dokumenten ähnliche suchen. Die Ähnlichkeitsbeziehungen lassen sich aber auch für ein DokumentClustering großer Dokumentkollektionen verwenden. So lassen sich etwa große Treffermengen in Dokumentcluster von thematisch zusammengehörigen Dokumenten zerlegen. Durch die Analyse der Beziehungen zwischen gemeinsam auftretenden Termen (Kookkurenzen) in ähnlichen Dokumenten lässt sich die Stärke der Beziehung zwischen Termen berechnen, was die Zusammenführung ähnlicher Terme zu Konzepten oder Themen erlaubt (Lit. 20). LSI löst u. a. das Synonymproblem, da in den Term-Clustern auch Synonyme vorhanden sein werden (in Abhängigkeit von ihrem hinreichend signifikanten Vorkommen in den Dokumenten). Die Entwicklung semantischer Indexierungsmodelle ist durch den Einsatz rechenintensiver Analyseinstrumente ebenso möglich wie durch sprachorientierte Ansätze. Zwischen den Anhängern beider Ansätze gibt es derzeit noch eine gewisse Kommunikationsbarriere. Nicht anders ist zu erklären, dass bislang keine ambitionierten Systeme existieren, die das gesamte Leistungsvermögen beider Methoden kombinieren. Eine vorgeschaltete Identifizierung von Mehrwortsequenzen sollte auch für ein LSI zu deutlich verbesserten Resultaten führen, die Zusammenführung von im Rahmen von LSI gefundenen Termbeziehungen mit genormter Terminologie kann für eine begriffliche Differenzierung von Nutzen sein. Weiteres Entwicklungspotenzial ist also vorhanden.
Literatur 01 Behrens-Neumann, Renate: Die Gemeinsame Normdatei (GND): ein Projekt kommt zum Abschluss. Dialog mit Bibliotheken 1 (2012), 25-28 02 Deerwester, Scott u. a.: Indexing by latent semantic analysis. Journal of the American Society for Information Science 41.6 (1990)391-407 03 Dengel, Andreas: Semantische Technologien: Grundlagen. Konzepte. Anwendungen. Heidelberg: Spektrum Akademischer Verlag, 2010
B 11: Automatische Indexierung
285
04 Gödert, Winfried: Detecting multiword phrases in mathematical text corpora. 2012 (arXiv:1210.0852 [cs. CL] 2 Oct 2012 (http://arxiv.org/abs/1210.0852)) 05 Gödert, Winfried; Lepsky, Klaus; Nagelschmidt, Matthias: Informationserschließung und Automatisches Indexieren: ein Lehr- und Arbeitsbuch. Berlin u. a.: Springer, 2012 06 Grishman, Ralph: Computational linguistics: an introduction. Cambridge: Cambridge University Press, 1986 07 Hausser, Roland: Grundlagen der Computerlinguistik: Mensch-Maschine-Kommunikation in natürlicher Sprache. Berlin u. a.: Springer, 2000 08 Jacquemin, Christian: Spotting and discovering terms through natural language processing. Cambridge: MIT Press, 2001 09 Knorz, Gerhard: Automatische Indexierung. Wissensrepräsentation und Information Retrieval. Potsdam: Universität, 1994, S. 138-196. (Berufsbegleitendes Ergänzungsstudium im Tätigkeitsfeld Wissenschaftliche Information und Dokumentation (BETID): Lehrmaterialien; 3) 10 Knorz, Gerhard: Informationsaufbereitung II: Indexieren. Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. 5. Ausgabe. München 2004, Band 1, 179-188 11 Kuhlen, Rainer: Experimentelle Morphologie in der Informationswissenschaft. München: Verlag Dokumentation, 1977 (DGD-Schriftenreihe 5) 12 Lepsky, Klaus: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen. Böhlau: Köln, 1994 (Kölner Arbeiten zum Bibliotheks- und Dokumentationswesen 18) 13 Lepsky, Klaus; Vorhauer, John: Lingo: ein open source System für die automatische Indexierung deutschsprachiger Dokumente. ABI-Technik 26(2006), 18-29 14 Linguistic Engine EXTRAKT: http://textec.de/extrakt/ (zuletzt überprüft am 28.9.2012) 15 Lohmann, Hartmut: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung: Projektbericht und Ergebnisse des Retrievaltests. Düsseldorf: Universitäts- und Landesbibliothek, 2009 (Schriften der Universitäts- und Landesbibliothek Düsseldorf 13) 16 Luhn, Hans-Peter: A statistical approach to the mechanical encoding and searching of literary information. IBM journal of research and development 1 (1957), 309-317 17 Maybury, Mark .T.; Kowalski, Gerald J.: Information storage and retrieval systems: theory and implementation. 2nd ed. Boston, MA: Kluwer Academic Publ., 2000 18 Nohr, Holger: Grundlagen der automatischen Indexierung: ein Lehrbuch. 3. Aufl. Berlin: Logos, 2005 19 Porter, Martin F.: An algorithm for suffix stripping. Program 14 (1980), 130-137 20 Řehůřek, Radim; Sojka, Petr: Software framework for topic modelling with large corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. Valletta, Malta: ELRA, 2010, 45-50 21 Sachse, Elisabeth; Liebig, Martina; Gödert, Winfried: Automatische Indexierung unter Einbeziehung Semantischer Relationen: Ergebnisse eines Retrievaltests zum MILOS-II-Projekt. Köln: Fachhochschule Köln, 1998 (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft 14) 22 Salton, Gerard; McGill, Michael J.: Introduction to modern information retrieval. New York: McGraw-Hill, 1983 23 Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. Hamburg u. a.: McGraw-Hill, 1987 24 Sproat, Richard W.: Morphology and computation. Cambridge: MIT Press, 1992 25 Stock, Wolfgang: Information Retrieval: Informationen suchen und finden. München: Oldenbourg, 2007 26 Stuckenschmidt, H.: Ontologien: Konzepte, Technologien und Anwendungen. Berlin u. a.: Springer, 2009
Udo Hahn
B 12 Automatisches Abstracting B 12.1 Einleitung Das automatische Abstracting ist eine Form der informationellen Transformation von (primär schriftlich verfassten) Texten, die auf deren inhaltliche Verdichtung abzielt (vgl. die Übersichten in Lit. 41 und Lit. 45). Sie steht in engem Zusammenhang zu der Aufgabe der Textzusammenfassung, die in der kognitiven Psychologie allgemein – neben der Paraphrase und der Fragebeantwortung – als ein zwar operationalisierbarer, wenngleich sehr komplexer Indikator für das Verstehen von Sprache gilt (Lit. 80). Dies mag die Schwierigkeit der Aufgabe andeuten, diesen Prozess adäquat algorithmisch zu rekonstruieren. Nicht zuletzt zeigt auch die umfangreiche Literatur für Dokumentare und andere Informationsdienstleister, dass ein nicht geringer Anleitungsbedarf besteht, um Gebrauchstexte (wissenschaftliche Publikationen, Geschäftsberichte, Zeitungs- und Zeitschriftentexte usw.) angemessen zusammenzufassen (Lit. 35, Lit. 07). Somit kann Abstracting als ein Spezialfall der Textzusammenfassung – mit dem Schwerpunkt auf Gebrauchstexten – betrachtet werden. Wiewohl es Überlegungen zu Gemeinsamkeiten zwischen menschlicher Textzusammenfassung und automatischem Abstracting gibt (Lit. 54, Lit. 32), streben die Entwickler von Abstracting-Systemen nicht die Simulation menschlicher Zusammenfassungsroutinen, sondern eine algorithmische Realisierung der Textkondensierungsfunktion an. Die Art und Weise, wie die inhaltliche Verdichtung zu gestalten ist, variiert je nach informationellem Verwendungskontext. Im Rahmen generischer Abstracts ist eine wesentliche Anforderung an die Textkondensierung, dass allgemein die aus Autorensicht relevantesten Inhalte des Originaltextes sich auch im Abstract möglichst maßstabsgetreu wiederfinden, während benutzer- bzw. themenspezifische Abstracts auf der Grundlage eines individuellen Interessenprofils des Verwenders eines Abstracts erstellt werden. Abstracts müssen zudem das Resultat der inhaltlichen Reduktion kohärent und verständlich darstellen – dies geschieht dann überwiegend wiederum textuell, also durch einen den Originaltext zusammenfassenden Kurztext in natürlicher Sprache, aber es eignen sich hierzu auch strukturierte Tabellenformate, wie sie häufig im Rahmen der Informationsextraktion verwendet werden oder gar visuelle (graphische) Darstellungsformen. Das Ausmaß der Verdichtung – üblicherweise durch einen wort- oder satzbezogenen Kompressionsquotienten ausgedrückt – ist variabel, liegt aber häufig im Bereich von 10 % oder weniger des Originaltextes. Neben diese quantitative Sicht kann auch eine qualitative gestellt werden, die den informationellen Mehrwert eines Abstracts für seinen Verwender genauer charakterisiert (Lit. 07): Indikative Abstracts geben einen globalen thematischen Überblick über einen Text, weisen also wie Indexate orientierend auf einen möglicherweise relevanten Text hin, der dann jedoch einer genaueren Lektüre bedarf, während informative Abstracts die wesentlichen Aussagen enthalten (ggf. zusammen mit zentralen quantitativen Befunden, experimentellen Kenndaten usw.) und somit im günstigsten Fall die Lektüre des Ausgangstexts ersetzen; kritische Abstracts enthalten darüber hinaus noch eine Bewertung der zur Gewinnung dieser Befunde verwendeten Methoden (Gültigkeit von Experimenten, Angemessenheit statistischer Ansätze oder des Literaturstands etc.). Eine letzte grundlegende Unterscheidung ist die zwischen extraktiven Abstracts (Extracts), in die nur solche verbalen Fragmente eingehen, die wortwörtlich auch im Originaltext – als Satz, Satzfragment oder Phrase – stehen, und derivativen Abstracts, die sich ausdruckssprachlich vom Originaltext lösen und meist das Resultat einer auf einer konzeptuellen Interlingua beruhenden inhaltlichen Verdichtung sind.
B 12: Automatisches Abstracting
287
B 12.2 Methoden des automatischen Abstractings Im folgenden Abschnitt werden unterschiedliche methodische Zugänge beschrieben, wie Langtexte auf korrespondierende Kurztexte (Abstracts) inhaltlich komprimiert werden können. B 12.2.1 Lexikalische Methoden Im Zentrum der lexikalischen Methoden steht das Wort als kleinste inhaltsbezogene Einheit von Texten. Die grundlegende Hypothese ist hierbei, durch überwiegend lexikalische Evidenzen genügend Hinweise für die Erstellung eines Extracts zu bekommen. Folgende Eigenschaften sind am Bedeutendsten: –– die Häufigkeit eines Texttokens ti (FREQ(ti)) in einem Dokument – dieses Kriterium ist eine direkte Übernahme von bekannten Hypothesen zur Bestimmung der Relevanz von lexikalischen Einheiten für das automatische Indexing (vgl. B 11 Automatische Indexierung) auf das automatische Abstracting. Es kommen hierbei die grundlegenden Formen der Frequenzberechnung auf morphologisch normalisierten Texttoken zum Zuge – absolute und relative Häufigkeiten, TF-IDF-Dämpfung sowie das Zipfsche Gesetz usw. –– die Positiv- und Negativ-Listung eines Texttokens ti (LIST(ti)) – dieses Kriterium fußt auf der Hypothese, dass das Auftreten bestimmter Signalwörter ein bedeutender Indikator dafür sein kann, dass ein Satz in ein Abstract eingefügt oder von einem solchen Abstract ausgeschlossen werden soll. Typische Formen von Listen sind: –– Bonus-Listen – in ihnen werden Wörter aufgeführt, die als „positiver“ rein lexikalischer Indikator für die mögliche Auswahl von Sätzen für Extracts gelten, falls ein gelistetes Bonus-Wort in einem Satz des Originaltextes auftritt. Naturgemäß sind Bonus-Listen ganz überwiegend themenspezifisch (wenn beispielsweise Texte zusammengefasst werden sollen, die im medizinischen Themenbereich angesiedelt sind, sollte die Bonus-Liste beispielsweise „Arznei“ und „Krankheit“ enthalten) und entsprechen somit in gewisser Weise der Verwendung von Anfragetermen in Suchfragen beim Dokumenten-Retrieval; –– Positiv-Phrasen-Listen – eine besondere Form der Bonus-Liste, in denen feste Phrasen aufgeführt sind, die ein Indiz dafür sind, dass der Satz, in dem sie auftreten, ein sprachliches Signal für zusammenfassende Bemerkungen im laufenden Text, eine sog. in-textsummary, enthält. Dies ist üblicherweise ein sehr starker „positiver“ Anzeiger für die Aufnahme solcher Sätze in Extracts. Positiv-Phrasen-Listen (sie enthalten etwa Ausdrücke der Form „zusammenfassend kann gesagt werden“, „in einem Wort“, „allgemein gilt“, „es ist wichtig, darauf hinzuweisen, dass“) sind einerseits themenunspezifisch, andererseits aufwändig zu erstellen, wenn eine möglichst weitreichende Abdeckung vieler Varianten erreicht werden soll; –– Malus-Listen – in ihnen werden Wörter aufgeführt, die als „negativer“ rein lexikalischer Indikator für die mögliche Auswahl von Sätzen gelten, falls ein gelistetes Malus-Wort in einem Satz des Originaltextes auftritt; sie leisten also einen Beitrag zur Zurückweisung des so markierten Satzes vom zu erstellenden Extract. Malus-Listen haben natürlich einen themenspezifischen Teil (und ähneln damit dem NOT-Operator im konventionellen Dokumenten-Retrieval, der nicht-gewünschte Dokumente über ausschließende Token unterdrückt), aber es gibt auch themenunspezifische Segmente darin (zum Beispiel werden häufig Negationen („nicht“, „keinerlei“ „kaum“ usw.) als Indikator für die Zurückweisung von Sätzen verwendet). –– die Position eines Texttokens ti (POS(ti)) im Dokument – dieses Kriterium trägt der intuitiv plausiblen Beobachtung Rechnung, dass der Textort, an dem ein Texttoken auftritt, großen Einfluss auf seine informationelle Wertigkeit ausübt. Texttoken im Titel eines Dokuments zeigen üblicherweise eine hohe Relevanz an, genau wie deren Auftreten in einem Einführungs-
288
B 12: Udo Hahn
und Schlussabschnitt eines Dokuments (typische Bezeichnungen solcher Abschnitte sind im fachwissenschaftlichen Bereich etwa „Introduction“, „Conclusions“, „Final remarks“) oder der jeweilige erste oder letzte Absatz bzw. Satz eines Abschnitts (die Annahme ist hier, dass sich in diesen Textsektoren resümierende Beschreibungen finden). Die meisten dieser Positionsheuristiken sind textsortenabhängig und müssen jeweils entsprechend angepasst werden. All diese unterschiedlichen Arten von lexikalischen Evidenzen lassen sich in einer Linearkombination zusammenfügen, um einen Selektionswert (SCORE(sk)d) für jeden Satz k eines Dokuments d zu bestimmen (hierbei sind FREQ, LIST und POS geeignet normiert, zum Beispiel auf einem Intervall [0,1]; |k| ist die Länge des k-ten Satzes s aus d; α, β, γ sind frei wählbare (oder lernbare) Gewichtungsparameter, um jeder der drei Bestimmungsgrößen einen individuellen Einfluss auf den gesamten Selektionswert zuzugestehen): SCORE (sk)d = Σi=1|k| [ ( α * FREQ(ti) ) + ( β * LIST(ti) ) + ( γ * POS(ti) ) ] Das Selektions- und damit Extracting-Kriterium für Sätze kann nun über eine fallende Rangfolge aller SCOREs von Dokument d gebildet werden. Die gebräuchlichsten Verwendungen sind: –– ein a priori festgelegter Extracting-Cut-off-Wert, cut, bewirkt, dass alle Sätze von d, deren SatzScores größer als cut sind, Teil des Extracts und alle übrigen Sätze von d nicht Teil des Extracts sind; –– ein Kompressionsquotient, d. i. die (benutzerwählbare) prozentuale Reduktionsquote für einen Originaltext, legt die gewünschte Länge des Extracts (auf der Basis von Wort- oder Satzzählung) fest. Da jedem Satz k eines Dokuments d seine Länge, |k|, zugeordnet ist, bilden nun alle Sätze rangfolgenkonform das Extract, deren additive Länge (in Wörtern oder Sätzen) dem Kompressionsquotienten noch genügt. Also wird der 1., 2., …, p-te Satz aus der fallenden Rangfolge der Satz-Scores für Dokument d gezogen und dem Extract (in der Reihenfolge ihres Erscheinens im Originaltext) zugeordnet. Das Extract mit p Sätzen erfüllt die Anforderung des Kompressionsquotienten, bereits die Hinzunahme des (p+1)-ten Satzes (und erst recht jedes weiteren) würde sie verletzen. Die Einfachheit dieser Kriterien (die statistischen Überlegungen gehen auf Luhn (Lit. 40) zurück, die Listen- und Positionskriterien auf Edmundson (Lit. 15), Mathis et al. (Lit. 49) und Pollock & Zamora (Lit. 60)) ist verblüffend, aber sie bilden bis in die heutige Zeit, gerade auch für AbstractingVerfahren, die sich Methoden des maschinellen Lernens bedienen (Lit. 76, Lit. 36), eine nicht zu unterschätzende Basis für die Bestimmung lernrelevanter Merkmale. Prototypische Systeme, die viele dieser Kriterien für die Textzusammenfassung benutzen, sind etwa MEAD (Lit. 61) und SUMMARIST (Lit. 29). In MEAD wurden diese Konstrukte um vektorielle Modelle der Dokumentenrepräsentation und Cluster-Verfahren zur Bestimmung der Ähnlichkeit (Zentralität) von Sätzen auf der Basis rein lexikalischer Evidenzen ergänzt, während für SUMMARIST eine spezielle lexikalische Metrik, sog. Themen-Signaturen (topic signatures), für das Abstracting entwickelt wurde. Lexikalische Verfahren taugen ausschließlich für die Erstellung extraktiver Abstracts, erlauben mit der Spezifikation von Listen zugleich benutzerspezifische Abstracts, ggf. mit variabler Länge (vgl. das zuletzt betrachtete Verdichtungskriterium über den Kompressionsquotienten). B 12.2.2 Linguistische Methoden Linguistische Methoden rücken zwei Beschreibungsebenen in den Mittelpunkt der Betrachtung, die von lexikalischen Ansätzen nicht erfasst werden können. Es ist einerseits die syntaktische Struktur von Sätzen, andererseits sind es konstituierende Eigenschaften von Texten als eine kohäsive (referenziell verknüpfte) und kohärente (rhetorisch plausible) Folge von Sätzen. Die grundlegende Über-
B 12: Automatisches Abstracting
289
legung ist hierbei, dass allein aus der Satz- bzw. Textstruktur Rückschlüsse auf die Wertigkeit von Satz- oder Textfragmenten für die Zwecke der Zusammenfassung gezogen werden können. B 12.2.2.1 Satzbezogene Methoden Satzbezogene linguistische Methoden versuchen auf dem Wege der lexikalischen oder Phrasen-Eliminierung solche Passagen komplexer Einzelsätze zu eliminieren, die (durch Relativsatzeinbettung oder extensive Partizipialkonstruktionen, aber auch durch Adjektiv-Attribution usw.) Verfeinerungen einer Basisaussage enthalten. Die Hypothese ist hierbei, dass solche Verfeinerungen zwar informationellen Mehrwert enthalten, aber für die Zwecke der Zusammenfassung verzichtbar sein können. Beispiel 1 mag diese Überlegungen verdeutlichen. Es baut auf einer phrasenstrukturellen Satzanalyse auf, die mittels Parsing berechnet wurde und in Abbildung 1 illustriert ist. Die grundlegenden phrasenstrukturellen Gruppierungen sind Nominalphrasen (NP), Präpositionalphrasen (PP) und Adjektivphrasen (AP) sowie die Markierung von Relativsätzen (RelS). Schränkt man die Betrachtung auf Phrasenstrukturen und die mit ihnen einhergehenden Dominanzrelationen in Syntaxbäumen wie in Abbildung 1 ein, dann fällt die Hierarchie von Abhängigkeiten von Teilsätzen auf, die im Zentrum einer phrasenbasierten Eliminierungsheuristik steht. Der am weitesten vom Startknoten „S“ entfernte Phrasenkomplex ist „RelS’’“, der auf direkte Weise „Sitzung“ und auf indirekte Weise „Vertrag“ modifiziert. Die Eliminierung dieses Relativsatzes (Schritt 1 in Abbildung 1), führt zur ersten Reduktion in Beispiel (1-b). Im nächsten Reduktionsschritt (2 in Abbildung 1) wird der Phrasenkomplex „RelS’“, der „Vertrag“ auf direkte Weise modifiziert, eliminiert, woraus Beispiel (1-c) entsteht. Die jetzt verbliebenen, hierarchisch am weitesten vom Startknoten „S“ entfernten Phrasen sind in Abbildung 1 mit (3a), eine AP, und (3b), eine PP, markiert. Wiederum handelt es sich hier um Details beschreibende Aussagen, die in Beispiel (1-d) eliminiert sind. Schließlich verbleiben noch die APs, die die Nomen in den zugehörigen subjekt- und objekt-bildenden NPs modifizieren. Deren Eliminierung (Schritte (4a) und (4b) in Abbildung 1) führt zu Beispiel (1-e), dem Aussagekern des Satzes (1-a). (1-a) [der [von der [äußerst angespannten]AP Kanz1erin [in höchster Eile]pp unterrichtete]AP Präsident]NP unterschreibt [den [kurzfristig vorgelegten]AP Vertrag]NP [, der [vom Bundestag]pp [mit Zweidrittelmehrheit]pp [in einer [au ßerplanmäßigen]AP Sitzung [, bei der [10 Parlamentarier der eigenen Frakti on]NP [aus unklaren Gründen]pp fehlten ,] RelS ]pp befürwortet wurde ]RelS. (1-b) [der [von der [äußerst angespannten]AP Kanz1erin [in höchster Eile]pp unterrichtete]AP Präsident]NP unterschreibt [den [kurzfristig vorgelegten]AP Vertrag]NP [, der [vom Bundestag]pp [mit Zweidrittelmehrheit]pp [in einer [au ßerplanmäßigen]AP Sitzung ]pp befürwortet wurde ]RelS. (1-c) [der [von der [äußerst angespannten]AP Kanz1erin [in höchster Eile]pp unterrichtete]AP Präsident]NP unterschreibt [den [kurzfristig vorgelegten]AP Vertrag]NP. (1-d) [der [von der Kanz1erin unterrichtete]AP Präsident]NP unterschreibt [den [kurzfristig vorgelegten]AP Vertrag]NP. (1-e) [der Präsident]NP unterschreibt [den Vertrag]NP. Beispiel 1: Lexikalische und Phrasen-Eliminierung auf der Grundlage der Syntaxstruktur eines Satzes
290
B 12: Udo Hahn
S VP
NP
NP Det
AP 4a
der
Nom
Verb
Det
Präsident
unterschreibt
den
[von der AP Kanzlerin PP]PP unterrichtete]
3a [äußerst angespannt]
AP
Nom
4b
Vertrag
[kurzfristig vorgelegten]
3b
ReIS‘ 2
[in höchster Eile]
[der [vom Bundestag]PP ... in einer Sitzung ReIS‘]PP‘ befürwortet wurde] 1
[bei der [10 Parlamentarier der eigenen Fraktion]NP [aus unklaren Gründen]PP fehlten]
Abb. 1: Phrasenstrukturbaum zur satzstrukturell motivierten Phrasen-Eliminierung (Beispiel 1)
Die hier vorgenommenen Reduktionen sind ausschließlich über die explizite strukturelle Form des Satzes und die Dominanzbeziehungen im Phrasenstrukturbaum motiviert, die aber auch eine implizite semantische Dimension haben. Dieser Zusammenhang wird hier jedoch ohne Rekurs auf jedwede semantische Interpretationsmittel ausgenutzt. Man beachte, dass die illustrierte Eliminationsheuristik eine Reduktionsquote von 86 % erbringt (der ursprüngliche Satz (1-a) war 42 Wörter lang, die größtmögliche Reduktion enthält nur noch 6 Wörter, inklusive Interpunktionszeichen). Die beschriebene strukturbezogene Eliminationsmethode (sie geht grundlegend auf Climenson et al. (Lit. 16) und Nistor & Roman (Lit. 55) zurück; einen statistischen Ansatz zur Rückschneidung von Parse-Bäumen beschreiben Knight und Marcu in Lit. 34) ist, da Satzelemente nur gestrichen werden, extraktiv, jedoch flexibel insofern, als dass keine festen Einheiten (etwa vollständige Sätze wie beim lexikalischen Ansatz) extrahiert werden. Ein individueller Zuschnitt der Extrakte ist nicht möglich, da die Elimination nur satzstrukturell, nicht aber explizit semantisch motiviert ist. Auch ist zu beachten, dass es kein Eliminationskriterium für ganze Sätze gibt. Letztlich bildet die finale Reduktion jedes Einzelsatzes auf sein Subjekt-Verb-Objekt-Gerüst die maximale Kondensationsstufe bei diesem Vorgehen. B 12.2.2.2 Textbezogene Methoden Bei den bisherigen Betrachtungen ist völlig außer Acht gelassen worden, dass die zusammenzufassenden Dokumente eigenständige Eigenschaften als Texte besitzen, die sich ebenfalls für die Zwecke der Kondensierung ausnutzen lassen. Zwei grundlegende Ebenen von Textphänomenen sind hier zu unterscheiden: Die Kohäsion von Texten sorgt für die Mikrobindung zwischen Sätzen durch im weitesten Sinne referenzielle Bezüge (sog. Anaphern), während die Kohärenz Organisationsmittel zur rhetorischen Makrostrukturierung von Texten bereit hält, wie also Aussagen in einer (beispielsweise argumentativ) plausiblen Weise strukturiert werden. Beide Ebenen illustrieren die Beispiele 2 und 3 am gleichen Text.
B 12: Automatisches Abstracting
291
Die angesprochene kohäsive Bindung zwischen Sätzen beruht einerseits auf dem anaphorischen Prinzip, ein einmal in den Diskurs eingeführtes Diskursobjekt (das Antezedens) mit unterschiedlichen Formen der Wiederaufnahme (über Referenten) wieder aufzugreifen. Die sprachliche Form der Referenz variiert. So wird in Beispiel 2 die Instanz „XP7“ über seinen Klassenbegriff („High-End-Smartphone“), aber auch über pronominale Formen („seinem“, „es“) angesprochen (vgl. die getrichelte Textunterstreichung). „Smartphones“ bzw. „Sony“ wiederum werden im Sinne nominaler Anaphern als „Produktsegment“ bzw. „Technikunternehmen“ beschrieben (s. die gepunktete Textunterstreichung); hierbei wird auf semantische Spezialisierungsbeziehungen wie zwischen „Smartphone“ (Unterbegriff) und „Produktsegment“ (Oberbegriff) oder Klasse-Instanzbeziehungen wie zwischen „XP7“ und „Jelly-TP“ (als Instanzen) und „Smartphone“ (als Klasse) (analog: „Sony“ als Instanz der Klasse „Technikunternehmen“) Bezug genommen. Ein Beispiel einer nicht-referenziellen Kohäsionsstruktur mittels sog. Brückenanaphern verdeutlicht der Bezug zwischen „Sony“ und dem zu Sony gehörigen Produktionsstandort „Japan“ (s. doppelte Textunterstreichung), wobei charakteristische Eigenschaften bzw. Merkmalsausprägungen (häufig im Sinne von Teil-GanzesBeziehungen) angesprochen werden. (1-a) Der XP7 ist das neueste High-End-Smartphone von Sony. Mit seinem (= XP7) Ausgabepreis von 1250€ spricht es (= XP7) wohl nur einen kleinen Kreis von Technik-Aficionados an, die sich als „early adaptors“ begreifen. Japans innovativstes Technikunternehmen (= Sony) sieht sich jedoch in diesem Produktsegment (= Smartphones) einem harten Wettbewerb mit seinem koreanischen Kontrahenten Samsung (= Technikunternehmen) ausgesetzt. Deren (= Samsung) letzte Attacke mit dem wesentlich günstigeren Jelly-TP (= Smartphone) (immerhin schlappe 300€ weniger) steckt den Japanern (= Sony) immer noch in den Knochen. Beispiel 2: Kohäsion in Texten
Um Kohäsion in Texten zu berechnen, d. h. Anaphern aufzulösen, ist für pronominale Anaphern vor allem grammatisches Wissen (wie Genus- und Numerus-Kongruenz) nötig, während nominale Anaphern auf taxonomisches Wissen und Brückenanaphern auf partonomisches Wissen rekurrieren, das in Lexika oder Terminologien spezifiziert ist. Der Nutzen dieser Berechnungen besteht für die Textzusammenfassung darin, dass Abhängigkeiten zwischen größeren zusammenhängenden Textsegmenten über Referenzketten identifiziert und die Inhaltsschwerpunkte über diese kohäsive Ausdehnung einzelner Textsegmente genauer bestimmt werden können (Lit. 73, Lit. 04). Aufbauend auf einer Lösung des Kohäsionsproblems illustriert Beispiel 3 die „textlogische“ Dimension der Textkonstitution auf der Ebene der Kohärenz. Damit ist gemeint, dass einzelne inhaltliche Aussagen nach Regeln der argumentativen Wohlgeformtheit, d. h. plausibel und rhetorisch opportun in Texten organisiert sind. Diese Organisationsform kann für die Zwecke des Abstractings gezielt ausgenutzt werden, indem etwa Elaborationen von Argumenten, Beispiele und andere eher periphere Auslassungen ausgeblendet werden. In Beispiel 3 sind drei grundlegende parallele Beschreibungsstrukturen realisiert – die zwischen XP7 und Jelly-TP (s. getrichelte Textunterstreichung) sowie die zwischen Sony und Samsung (s. doppelte Textunterstreichung) und den Preisen dieser beiden Produkte (s. gewellte Textunterstreichung). Eine textlogisch sehr bedeutende Relation ist die der Begründung – hier am Beispiel, warum Sony mit Samsung in einem harten Wettbewerb steht. Im konkreten Fall von Beispiel 3 liegt der Grund des harten Wettbewerbs zwischen Sony und Samsung (der Kernaussage des Beispieltextes und damit wesentliches Element jedes Abstracts) darin, dass im gleichen Marktsegment (High-End-Smartphones: XP7 vs. Jelly-TP) die Firma Samsung die Firma Sony im Verkaufspreis (1250 vs. (1250-300=) 950) gravierend unterbietet.
292
B 12: Udo Hahn
(1-a) Der XP7 ist das neueste High-End-Smartphone von Sony. Mit seinem (= XP7) Ausgabepreis von 1250€ spricht es (= XP7) wohl nur einen kleinen Kreis von Technik-Aficionados an, die sich als „early adaptors“ begreifen. Japans innovativstes Technikunternehmen (= Sony) sieht sich jedoch in diesem Produktsegment (= Smartphones) einem harten Wettbewerb mit seinem koreanischen Kontrahenten Samsung (= Technikunternehmen) ausgesetzt. Deren (= Samsung) letzte Attacke mit dem wesentlich günstigeren Jelly-TP (= Smartphone) (immerhin schlappe 300€ weniger) steckt den Japanern (= Sony) immer noch in den Knochen. Beispiel 3: Kohärenz in Texten
Für solche Kohärenzbezüge lassen sich Diskursbäume (s. Abbildung 2) ähnlich dem syntaktischen Beispiel in Abbildung 1 konstruieren, aber mit Beschreibungskategorien, die der inhaltlichen Form der Kohärenzbeschreibung geschuldet sind. Im Folgenden werden rhetorische und argumentative Makrostrukturen betrachtet (Lit. 47, Lit. 48), die auf die Rhetorical Structure Theory von Mann & Thompson (Lit. 46) zurück gehen. Ihr gemeinsames Merkmal ist die Nukleus-Satellit-Struktur, d. h. der (zusammenfassungsrelevante) Kern der Aussage (Nukleus) wird durch eine weitere Aussage, den (zusammenfassungsrelevanten) Satelliten, in Form einer von mehreren kanonischen Kohärenzrelationen modifiziert. Die in Abbildung 2 auftretenden Relation sind: Hintergrund – der Satellit beschreibt Hintergrundinformationen in Bezug auf den Nukleus; Elaboration gibt nähere Informationen (Satellit) zu einem Thema (Nukleus), Evidenz gibt faktische Belege (Satellit) für eine Aussage (Nukleus) an und Begründung gibt einen kausalen Grund (Satellit) für eine Behauptung (Nukleus) an. Für die automatische Erstellung einer Zusammenfassung wesentlich ist die Tilgung von Baumstrukturen nach inhaltlichen Erwägungen der funktionalen Rolle und rhetorischen Wertigkeit der Diskursrelationen einerseits und den Dominanzbezügen zwischen geschachtelten Diskursrelationen (Lit. 48) andererseits. So kann ähnlich wie beim Parse-Baum in Abbildung 1 die Baumtiefe ein Tilgungskriterium sein: Dann wären lediglich die Aussagen (1) und (4) Teil der Zusammenfassung. Es können aber auch textfunktional herausragende Kohärenzrelationen, wie die Begründung eines Nukleus (4), einen Sonderstatus für die Nicht-Elemination erhalten oder die Binnenstruktur von Relationen ausgenutzt werden, also etwa die Elimination von Satelliten und Beibehaltung von Nuklei, dann würden etwa (1), (3) und (4) oder nur (1) die Zusammenfassung bilden. In drei dieser vier Fälle wäre der intuitiven Interpretation, die Konkurrenzbeziehung zwischen Sony und Samsung im Abstract darzustellen – also auf Aussagekomplex (4) zu fokussieren –, Genüge getan.
Hintergrund 1-3
4-7 Elaboration
Begründung 2-3
1
4
Evidenz 2
5-7
3
Abb. 2: Diskursbaum mit rhetorischen Relationen zu Beispiel 3
Elaboration 5, 7
6
B 12: Automatisches Abstracting
293
1. Der XP7 ist das neueste High-End-Smartphone von Sony. Mit seinem (= XP7) 2. Mit seinem (= XP7) Ausgabepreis von 1250€ 3. spricht es (= XP7) wohl nur einen kleinen Kreis von Technik-Aficionados an, die sich als „early adaptors“ begreifen. 4. Japans innovativstes Technikunternehmen (= Sony) sieht sich jedoch in diesem Produktsegment (= Smartphones) einem harten Wettbewerb mit seinem koreanischen Kontrahenten Samsung (= Technikunternehmen) ausgesetzt. 5. Deren (= Samsung) letzte Attacke mit dem wesentlich günstigeren Jelly-TP (= Smartphone) 6. (immerhin schlappe 300€ weniger) 7. steckt den Japanern (= Sony) immer noch in den Knochen. B 12.2.3 Wissensbasierte Methoden Die wissensbasierten Methoden unterscheiden sich grundlegend von den bisher betrachteten Ansätzen, da sie im stärksten von der sprachlichen Ausgestaltung an der Textoberfläche abstrahieren. Ähnlich dem Interlingua-Konstrukt bei der maschinellen Übersetzung (vgl. B 14 Spracherkennung) ist das Ziel der wissensbasierten Textanalyse, die natürlichsprachig kodierten inhaltlichen Aussagen (das semantische Substrat) auf eine formale Wissensrepräsentationssprache zur Repräsentation der Bedeutung von Aussagen abzubilden und automatisch Schlussfolgerungen (Inferenzen) auf diesen Strukturen zu ziehen. Für die automatische Textzusammenfassung sind eine Fülle formaler Systeme zur Wissensrepräsentation verwendet worden – sie reichen von eher „semantischen“ Datenstrukturen wie Scripts (Lit. 17) und Templates (Lit. 63) über formal spezifizierte Frame-Sprachen und die Verwendung von Kondensationsoperatoren im Kontext von Beschreibungslogiken (Lit. 26) bis hin zu (prädikaten)logischen Ansätzen (Lit. 24). Die Essenz dieser Vorgehensweise ist in Abbildung 3 beschrieben. Sie illustriert unter Bezug auf das Beispiel 2 bzw. 3 eine solche Interlingua als eine strukturierte Wissensbasis, die einen Weltausschnitt mit einer Menge von Frames repräsentiert. Die Konzepte sind mit zwei verschiedenen Sorten von Relationen verbunden – „Is-A“ steht für die Unter-/Oberbegriffsrelation, während „Instanzvon“ die Beziehung zwischen Elementen einer Klasse festlegt, beides taxonomische Beziehungen. Ein wesentlicher Aspekt dieser Beschreibungsform ist die Vererbung von Eigenschaften (ererbte Eigenschaften sind grau schattiert dargestellt) von generellen auf spezielle Konzepte. Ferner sind verschiedene Beispiele gegeben, warum ein Konzept formal spezieller als ein anderes ist. „Smartphone“ ist etwa eine spezielle Form der „Unterhaltungselektronik“, weil es mindestens ein Attribut (in Winkelklammern) hat, das der Oberbegriff nicht hat (zum Beispiel: „Kamera“). „Unterhaltungselektronik-Unternehmen“ sind wiederum eine spezielle Form von „Unternehmen“ (und damit ein Unterbegriff davon), weil ihre Produktpalette nicht beliebig divers, sondern auf Produkte aus dem Bereich „U-Elektronik“ (linker Teil in Abbildung 3) eingeschränkt ist. Schließlich sind Instanzen (wie „XP7“ oder „Sony“) zunächst Begriffskopien ihrer unmittelbaren Klassenkonzepte („Smartphone“ bzw. „U-Elektronik-Unternehmen“), aber haben konkrete Attributwerte (etwa „Sony“ als Hersteller des Smartphones „XP7“ oder „Japan“ als Sitz von „Sony“) statt genereller Attributintervalle (angezeigt durch „{…}“), die alle möglichen Werte beschreiben (wie dies für Klassenkonzepte gilt).
294
B 12: Udo Hahn
U-Elektronik < Hersteller: > < Preis: > < Gewicht: > Is-A Smartphone #2 < Hersteller: > < Preis: > < Gewicht: > < Akkulaufzeit: > < Speicherplatz: > < Kamera: > Instanz-von XP-7 #3 < Hersteller: Sony #1 > < Preis: 1250 € #1 > < Gewicht: > < Akkulaufzeit: > < Speicherplatz: > < Kamera: >
Jelly-TP #2 < Hersteller: Samsung #1 > < Preis: 950 € #1 > < Gewicht: > < Akkulaufzeit: > < Speicherplatz: > < Kamera: >
Unternehmen < Sitz: > < Umsatz: > < Gewinn: > < Produkte: > Is-A U-Elektronik-Unternehmen < Sitz: > < Umsatz: > < Gewinn: > < Produkte: {U-Elektronik} >
Instanz-von Sony #3 < Sitz: Japan #1 > < Umsatz: > < Gewinn: > < Produkte: XP7 #1 >
Samsung #3 < Sitz: Süd-Korea #1 > < Umsatz: > < Gewinn: > < Produkte: Jelly-TP #1 >
Abb. 3: Instanziierte Wissensbasis zum Weltausschnitt „Smartphones“ bzgl. Beispiel 2/3
In Abbildung 3 wird ferner der Zustand des Domänenfragments beschrieben, wie er sich durch die automatische Analyse von Beispieltext 2/3 als semantische Interpretation ergibt (die gewählte Darstellung ist eng an Hahn & Reimer (Lit. 26) angelehnt). Die für eine solche Analyse notwendigen einzelnen Systemkomponenten – Satzsegmentierer, Token-Splitter, morphologische Normalisierer bzw. POS-Tagger, Chunker oder Parser, Anaphernauflöser – sind in B 11 Automatische Indexierung beschrieben. Der Effekt der hier angenommenen Analyse ist zweiseitig: Zum Einen werden die Attribute der Frames (Slots; in Winkelklammern notiert) mit passenden Slot- bzw. Attributwerten gefüllt, zum Anderen wird jede Füllungsoperation über einen Aktivierungszähler (in Abbildung 3 mit „#“ angezeigt) protokolliert. Zu beachten ist hierbei, dass durch die Auflösung der Anaphern (wie in Beispiel 2/3 über Gleichheitszeichen in Klammern ausgedrückt) nicht die wortwörtliche Erwähnung auf der Textoberfläche, sondern die intendierte begriffliche Aktivierung adäquat repräsentiert wird. Relationseigenschaften (wie die Transitivität von „Is-A“) und Aktivierungsmuster können nun in vielfältiger Weise für die Zwecke der Textzusammenfassung ausgenutzt werden. Beispielsweise könnten alle Aktivierungen auf dem Niveau von „1“ eliminiert werden. Dann bestünde das Abstract aus den Konzepten „Smartphone“, „XP7“ und „Jelly-TP“ sowie „Sony“ und „Samsung“. Alternativ könnten Relationeneigenschaften ins Spiel gebracht werden, indem auf die Klassenkonzepte „Smartphone“ und „Unterhaltungselektronik-Unternehmen“ über terminologische Schlussfolgerungen auf der Grundlage von semantischen Hierarchien hin abstrahiert wird (vgl. auch Lit. 37). Interessant ist hierbei, dass „Smartphone“ im Text explizit erwähnt wird, „Unterhaltungselektronik-Unternehmen“ aber nicht. Es sind diese Formen begrifflicher Abstraktion, die den wissensbasierten Ansatz so attraktiv für das derivative Abstracting machen (eine ausführliche Darstellung mit einer Fülle von Kondensierungsoperatoren im Rahmen einer terminologischen Logik geben Hahn & Reimer in Lit. 26). Trotz dieser für das Abstracting sehr positiven Eigenschaften hängen den wissensbasierten Methoden Nachteile an. Der vielleicht problematischste Aspekt dieses Ansatzes, der methodisch zugleich seine größte Stärke ist, liegt in der Bereitstellung großer Wissensbasen für viele Domänen. Es ist bislang nicht gelungen, diese berechtigte Forderung nach Skalierbarkeit – von kleinen (Spiel-) Wissensbasen zu großen (Realwelt-)Wissensbasen zu gelangen – einzulösen. Diese Beschränkung
B 12: Automatisches Abstracting
295
ist auch ein Grund, warum wissensbasierte Abstracting-Systeme bislang keiner profunden Evaluation unterzogen werden konnten, da in gängigen Evaluationsszenarien eine vergleichsweise große Domänenabdeckung gefordert wird. B 12.2.4 Lernbasierte Methoden In den vorangegangenen Methoden-Abschnitten wurden klar voneinander abgrenzbare lexikalische, satz- und textstrukturelle und wissensbezogene Kriterien für die Textzusammenfassung vorgestellt. All diese Verfahren verlangen an bestimmten Punkten der Analyse die Erfüllung von Schwellwerten, Gewichten, syntaktischen (Tilgungs-)Mustern usw., die von menschlichen Systemexperten gesetzt werden. Bei den lernbasierten Methoden für das Abstracting werden die bekannten Kriterien in Form von Merkmalen grundsätzlich übernommen und nur marginal neue Kriterien entwickelt. Im Wesentlichen besteht die methodische Innovation von lernbasierten Methoden im automatischen Lernen eines Entscheidungsverfahrens, aufgrund welcher Verteilungen dieser Merkmale in geeignet gewählten Merkmalsrepräsentationen von Dokumenten welche textuellen Einheiten (überwiegend Sätze) Bestandteil der Zusammenfassung sind und welche nicht. Somit besteht die Aufgabe beim Entwurf eines lernbasierten Abstracting-Verfahrens darin, a) die relevanten Merkmale für die Entscheidungsaufgabe (intellektuell) zu bestimmen und b) die ausgewählten Merkmale in einem geeigneten Repräsentationsformat zu spezifizieren und c) ein Lernverfahren auszuwählen (Übersicht Lit. 02), das die Merkmale und ihre Verteilungen im Datenraum automatisch zu einem entsprechenden Entscheidungsverfahren (statistisches Modell) umrechnet. Dieser Ansatz benötigt im überwachten Lernmodus ein Korpus, das Volltexte und ihre dazugehörigen Abstracts enthält (Lit. 47). Es wird dann eine Trainingsmenge aus diesem Goldstandard bestimmt, auf dem ein Lernalgorithmus ein Entscheidungsmodell lernt. Dieses dann fixe Modell wird nachfolgend auf alle ungesehenen Texte angewandt (exemplarisch für diesen Ansatz Lit. 36). Der so skizzierte Ansatz ist der aktuell dominierende im Bereich der automatischen Textzusammenfassung (vgl. Lit. 83, Lit. 03, Lit. 42).
B 12.3 Bewertung automatischer Abstracting-Systeme Die Bestimmung der Güte und Qualität einer Zusammenfassung ist ein schwer lösbares methodisches Problem (einen Überblick über die verschiedenen Dimensionen der Evaluierung automatischer Abstracting-Systeme gibt Sparck Jones in Lit. 74). Das zeigt sich nicht zuletzt daran, dass Menschen unterschiedliche Formen von Zusammenfassungen für den gleichen Text erzeugen (Lit. 54, Lit. 81). Selbst bei einer der scheinbar einfachsten Zusammenfassungsaufgaben, Sätze für eine extraktive Zusammenfassung zu bestimmen, stimmen menschliche Akteure in bemerkenswerter Weise in Bezug auf Satzüberlappung nicht überein (Lit. 66). Es ist diese Variabilität im Zusammenfassungsverhalten von Menschen (Lit. 28), die der Entwicklung verlässlicher Goldstandards für Textzusammenfassungen am meisten entgegen steht (Lit. 58). Metriken für die Bewertung von Textzusammenfassungen zielen auf zwei Dimensionen – deren Form und Inhalt. Bei form-orientierten Metriken wird die Akzeptabilität und Grammatikalität des Abstracts im Sinne seiner sprachlichen Ausgestaltung gemessen. Dies ist jedoch nur eine sekundäre Bewertungsdimension, da die inhaltlichen Anforderungen an eine angemessene Verdichtung zweifellos überwiegen. Entsprechende inhaltsbezogene Metriken sind naturgemäß schwerer zu definieren. Ein eher kruder, aber letztlich von der Community akzeptierter Versuch, die Güte von Textzusammenfassungen gegenüber ihren korrespondierenden Volltexten automatisch zu berechnen, beruht auf n-Gramm-Modellen, die ein Abstract (üblicherweise Extract) satz- bzw. phrasenweise parallel mit dem jeweiligen Bezugs-, d. h. Volltext vergleichen. Die von Lin & Hovy (Lit. 39) vorgeschlagene ROUGE-Metrik vergleicht etwa identische 2-er-, 3-er- oder 4-er-Wortfolgenab-
296
B 12: Udo Hahn
schnitte sowie die geringsten gemeinsamen Teilketten (least common substrings) zwischen Abstract und Volltext in einem Gleitfenster über die gesamten Texte (Lit. 38). Auch konnte von Lin der Nachweis erbracht werden, dass diese einfache Vorgehensweise mit menschlichen Urteilen zur Qualität von Zusammenfassungen korrespondiert. Damit ist dieses Maß im Grunde vor allem auf extraktiv gewonnene Abstracts anwendbar. Daneben finden in den Bewertungsexperimenten die aus dem klassischen Information Retrieval bekannten Recall/Precision-Maße Verwendung (siehe C 3 Evaluierung im Information Retrieval). Da eine intrinsische Validierung von Abstracts, also eine, die auf einem Goldstandard „korrekter“ Zusammenfassungen beruht, aufgrund des prinzipiellen Mangels an verlässlichen Daten wenig erfolgversprechend erscheint, sind zunehmend extrinsische Validierungen in das Zentrum des Interesses gerückt. Damit ist gemeint, dass die funktionale Effektivität, also der Nutzen von (manuell oder automatisch erzeugten) Zusammenfassungen anhand von konkreten Aufgaben gemessen und bei hohem Nutzen (eine Aufgabe kann beispielsweise schneller oder genauso gut mit einer Zusammenfassung wie mit einem entsprechenden Volltext gelöst werden) auf die hohe Güte der zugrundeliegenden Abstracts geschlossen wird. Beide Formen der Evaluation wurden im Kontext von Evaluationswettbewerben wie SUMMAC (Lit. 44), den NTCIR-Workshops (Lit. 56), DUC (Lit. 59) oder TAC (Lit. 57, Lit. 13) intensiv untersucht. Um etwa in SUMMAC die Leistungsfähigkeit von Textzusammenfassungssystemen zu messen, wurden neben intrinsischen vor allem extrinsische Validierungen vorgenommen. Die drei zentralen extrinsischen Aufgaben waren (Lit. 23): 1. Klassifikationsaufgabe: Wie gut können Menschen eine Zusammenfassung gegenüber ihrem Bezugstext (Volltext) klassifizieren? 2. Ad-hoc-Aufgabe: Wie gut können Menschen entscheiden, ob ein Volltext relevant für ein Informationsproblem ist, wenn nur der dazugehörige Abstract vorliegt? 3. Frageaufgabe: Wie gut können Menschen Fragen zu den wesentlichen Inhalten eines Volltexts beantworten, wenn ihnen nur der dazugehörige Abstract vorliegt? Die ersten beiden Fragen konnten in SUMMAC zugunsten von automatisch erzeugten Abstracts entschieden werden (zumindest für die besten Systeme im Wettbewerb), die dritte Problemstellung zeigte eine (zu) große Varianz über die verschiedenen Themen, um zu einer verlässlichen Beurteilung zu gelangen. Die DUC-Evaluierung (Lit. 59) war umfassender als SUMMAC und lief über mehrere Runden. Sie umfasste Einzel- und Mehr-Dokumenten-Bewertung extraktiver und derivativer Zusammenfassungen, einfache „offene“ und anspruchsvolle „geschlossene“ Fragestellungen für das Frage-Antwort-Szenario, maschinelle Übersetzung zwischen Quell-Volltexten und Ziel-Zusammenfassung (etwa arabisch-englisch) etc. In diesem funktional reichen Kontext zeigte sich, dass die Systeme im Schnitt den Baselines (sehr einfachen Basissystemen) überlegen, der Performanz menschlicher Zusammenfasser aber weit unterlegen waren. Ein Schwachpunkt der bisherigen Evaluierung ist sicher deren Textsortenahhängigkeit, d. h. die nahezu ausschließliche Betrachtung von Zeitungstexten (prototypisch hierfür Lit. 64, Lit. 50). Vergleichsweise wenige Systeme operieren auf technisch-wissenschaftlichen Dokumenten (etwa Lit. 67, Lit. 69, Lit. 77. Lit. 60), juristische Dokumente behandeln Lit. 20 und Lit. 25. Brandow et al. (Lit. 08) sorgten beispielsweise für einen Paukenschlag bei der Evaluation eines Zusammenfassungssystems für Zeitungstexte, weil ihre Baseline der sog. lead sentence(s) (man nehme lediglich die ersten n Sätze des Dokuments) das eigene System um Längen schlug. Nur muss man dazu fairerweise erwähnen, dass es zu den grundlegenden Schreibrichtlinien für amerikanische Journalisten zählt, die Zusammenfassung des Artikels in den ersten n Sätzen zu formulieren. Damit ist dieses Prinzip für nahezu alle anderen Textsorten eher nicht anwendbar.
B 12: Automatisches Abstracting
297
B 12.4 Neue Formen des automatischen Abstractings Das lange Zeit gültige Szenario für das Abstracting ging davon aus, dass für ein textuelles Dokument eine textuelle Zusammenfassung erzeugt wird. Diese Annahme wurde in neuerer Zeit vielfältig aufgebrochen: 1. Bei der sog. Mehr-Dokumenten-Zusammenfassung werden mehrere inhaltlich zusammenhängende, oft auch thematisch zentrierte Dokumente – meist unter einer zeitlichen Ordnungsperspektive (wie aufeinander folgende Zeitungsberichte über ein Erdbeben oder einen Terroranschlag) – zusammengefasst und der aktuellste Informationsstand zum Ereignis in der Zusammenfassung dargestellt (Lit. 27). Besondere methodische Probleme dieser Arbeiten, die neben der Kondensierung auch die Fusion von aufeinander bezogenen, überlappenden Informationen betreffen, sind (a) redundante Textpassagen auf der Basis von Ähnlichkeitsmessungen zu erkennen (Lit. 62, Lit. 10); (b) relevante inhaltliche Unterschiede zu erkennen (Lit. 43, Lit. 63); (c) die Zeitdimension (Lit. 01) und Ereignisabfolgen (Lit. 22) im Fluss der Beiträge korrekt wiederzugeben und (d) die aus vielen Einzelquellen extraktiv gewonnenen Textfragmente in einer sprachlich kohärenten Zusammenfassung wiederzugeben (Lit. 05). 2. Die Mehr-Dokumenten-Zusammenfassung wird zu einem besonderen Desiderat, wenn klassische Textsorten (Zeitungsartikel, wissenschaftliche Publikationen usw.) ersetzt werden durch elektronisch vermittelte Textketten, etwa Blogs (Lit. 31), insbesondere Microblogs wie Twitter (Lit. 72), E-Mails (e-mail threading) (Lit. 65, Lit. 14, Lit. 79), aber auch Kundenbewertungen in Online-Portalen (Lit. 30), Web-Seiten (Lit. 06) usw. Weitere bedeutende Anwendungen sind patienten-orientierte Zusammenfassungen medizinischer Berichte (Lit. 33, Lit. 18) oder biographische Synopsen (Lit. 71). 3. Eine besondere Herausforderung bilden mediale Formen jenseits des schriftlichen Texts im Rahmen sog. Multi-Media-Zusammenfassungen. Damit sind zunächst Formen der gesprochenen Sprache (Lit. 53) gemeint, aber auch (Informations-)Graphiken bzw. Bilder (Lit. 09) und Videos (Lit. 12, Lit. 75). Besondere Anforderungen ergeben sich für die Zusammenfassung gesprochener Sprache bei diversen Formen von Gruppendiskursen wie (Online-)Diskussionen (Lit. 78, Lit. 21, Lit. 84), Chats (Lit. 85) oder Verhandlungsprotokollen (Lit. 11, Lit. 52, Lit. 68). Das automatische Abstracting alterniert seit dem Beginn seiner Methodenentwicklung zwischen den Zielstellungen des Extractings und Abstractings, wobei die extraktiven Ansätze derzeit in nahezu allen Anwendungskontexten dominieren. Dazu hat auch nicht wenig der Einfluss von maschinellen Lernverfahren beigetragen, die das Abstracting als Klassifikationsproblem betrachten (gehört der Satz/die Phrase des Volltextes zur Zusammenfassung oder nicht?) und nahezu ausschließlich lernrelevante Merkmale verwenden, die bereits in der frühen Extracting-Forschung eine große Rolle spielten (Distributions-, Positions- und lexikalische Merkmale). Als relevant identifizierte Sätze werden nachträglich einer linguistisch motivierten Säuberung (Eliminierung redundanten Materials, Anpassung von Satzfragmenten an sprachliche Akzeptabilitätsnormen usw.) unterzogen. Derivatives Abstracting und tiefere Formen der Inhaltsanalyse finden nur in wenigen, rein experimentellen Systemen Verwendung. Ein grundlegendes Problem jeder Form von automatischer Textzusammenfassung ist die Tatsache, dass sich Menschen über die Inhalte eines „guten“ Abstracts als Zielvorgabe für das automatische Abstracting grundlegend uneinig sind. Das erschwert ungemein eine adäquate Bewertung automatisch erzeugter Textzusammenfassungen, da geeignete Vergleichsmaßstäbe im Sinne eines Goldstandards fehlen. Näherungen an die Lösung dieses Problems finden sich in einer Serie von Textzusammenfassungswettbewerben, die für die Entwicklung und experimentelle Bewertung von Abstracting-Techniken von großer Bedeutung waren und sind. Neben einer intrinsischen Qualitätsbewertung definieren diese Wettbewerbe vor allem auch extrinsische Aufgaben und erlauben es somit, von der Lösungsqualität für diese Aufgaben auf die Leistungsstärke von Textzusammenfassungssystemen zurückzuschließen.
298
B 12: Udo Hahn
Automatische Textzusammenfassungssysteme fassen zunehmend mehrere Dokumente eines inhaltlichen Strangs zusammen. Die Mehr-Dokumenten-Zusammenfassung ist für zeitlich aufeinanderfolgende, thematisch fokussierte Textserien (etwa fortlaufende Berichte über Katastrophen, Firmenentwicklungen, Seuchen, aber auch klinische Berichte als Teil einer Patientenakte oder E-Mail-Threads) besonders angemessen, stellen aber auch neue, gehaltvolle Methodenprobleme wie Redundanz- und Neuigkeitserkennung sowie die Beachtung und Wahrung der den Ereignissen inhärenten logischen Zeitfolge. Zunehmend ist die Textzusammenfassung eine von mehreren Leistungen in hybriden Systemen, in denen weitere Informationsdienstleistungen wie die maschinelle Übersetzung oder die Integration von verschiedenen Medientypen (Bilder, Grafiken, Video und Audiodaten) realisiert wird. Die große methodische Forschungsfrage lautet aber, wie sich das automatische Abstracting vom sprachbehafteten extraktiven zum inhaltsbezogenen derivativen Abstracting weiter entwickeln kann.
Literatur 01 J. Allan; R. Gupta; V. Khandelwal: Temporal summaries of news topics. SIGIR 2001 – Proc. of the 24th Annual Intl. ACM SIGIR Conf. on Research and Development in Information Retrieval, 10-18 02 E. Alpaydin: Introduction to Machine Learning. 2nd edition. MIT Press. 2009 03 C. Aone; M. Okurowski; J. Gorlinsky; B. Larsen: A trainable summarizer with knowledge acquired from robust NLP techniques. I. Mani, M. Maybury, editors, Advances in Automatic Text Summarization. MIT Press, 71-80, 1999 04 R. Barzilay; M. Elhadad: Using lexical chains for text summarization. I. Mani, M. Maybury, editors, Advances in Automatic Text Summarization. MIT Press, 111-121, 1999 05 R. Barzilay; K. McKeown: Sentence fusion for multidocument news summarization. Computational Linguistics 31 (3), 297-328, 2005 06 A. Berger; V. Mittal: OCELOT: a system for summarizing Web pages. SIGIR 2000 – Proc. of the 23rd Annual Intl. Conf. on Research and Development in Information Retrieval, 144-151, 2000 07 H. Borko; C. Bernier: Abstracting Concepts and Methods. Academic Press, 1975 08 R. Brandow; K. Mitze; L. Rau: Automatic condensation of electronic publications by sentence selection. Information Processing & Management 31 (5), 675-685, 1995 09 S. Carberry; S. Elzer; N. Green; K. McCoy; D. Chester: Extending document summarisation to information graphics. Proc. of the ACL-2004 Workshop ‘Text Summarization Branches out’, 3-9 10 J. Carbonell; J. Goldstein: The use of MMR, diversity-based reranking for reordering documents and producing summaries. SIGIR-98 – Proc. of the 21st Annual Intl. ACM SIGIR Conf. on Research and Development in Information Retrieval, 335-336 11 G. Carenini; G. Murray; R. Ng: Methods for Mining and Summarizing Text Conversations. Morgan & Claypool, 2011 12 M. Christel: Assessing the usability of video browsing and summarization techniques. A. Divakaran, editor, Multimedia Content Analysis. Theory and Applications, Springer, 1-34, 2009 13 J. Conroy; J. Schlesinger; P. Rankel; D. O’Leary: CLASSY 2010: summarization and metrics. Proc. of the 3rd Text Analysis Conf. National Institute of Standards and Technology, 2010 14 S. Corston-Oliver; E. Ringger; M. Gamon; R. Campbell: Task-focused summarisation of email. Proc. of the ACL-2004 Workshop ‘Text Summarization Branches out’, 43-50, 2004 15 H. Edmundson: New methods in automatic extracting. Journal of the Association for Computing Machinery 16 (2), 264-285, 1969 16 W. Climenson; N. Hardwick; S. Jacobson: Automatic syntax analysis in machine indexing and abstracting. American Documentation 12 (3), 178-183, 1961 17 G. DeJong: An overview of the FRUMP system. W. Lehnert, M. Ringle, editors, Strategies for Natural Language Processing. L. Erlbaum, 149-176, 1982 18 N. Elhadad; K. McKeown: Towards generating patient specific summaries of medical articles. Proc. of
B 12: Automatisches Abstracting
299
Workshop on Automatic Summarization, NAACL-2001, 32-40 19 G. Erkan; D. Radev: Lexrank: graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research 22, 457-479, 2004 20 A. Farzinder; G. Lapalme: Legal text summarisation by exploration of the thematic structure and argumentative roles. Proc. of the ACL-2004 Workshop ‘Text Summarization Branches out’, 27-34 21 D. Feng; E. Shaw; J. Kim; E. Hovy: Learning to detect conversation focus of threaded discussions. HLT-NAACL 2006 – Proc. of the Human Language Technology Conf. of the North American Chapter of the ACL, 208-215 22 E. Filatova; V. Hatzivassiloglou: Event-based extractive summarisation. Proc. of the ACL-2004 Workshop ‘Text Summarization Branches out’, 104-111, 2004 23 T. Firmin; M. Chrzanowski: An evaluation of automatic text summarization systems. I. Mani, M. Maybury, editors, Advances in Automatic Text Summarization. MIT Press, 325-336, 1999 24 D. Fum; G. Guida; C. Tasso: Evaluating importance: a step towards text summarization. IJCAI’85 – Proc. of the 9th Intl. Joint Conf. on Artificial Intelligence, 840-844 25 C. Grover; B. Hachey; C. Korycinski: Summarising legal texts: sentential tense and argumentative roles. Proc. of the NAACL/HLT-03 Workshop on Automatic Summarization, 33-40 26 U. Hahn; U. Reimer: Knowledge-based text summarization: salience and generalization operators for knowledge base abstraction. I. Mani, M. Maybury, editors, Advances in Automatic Text Summarization. MIT Press, 215-232, 1999 27 S. Harabagiu; A. Hickl; F. Lacatusu: Satisfying information needs with multi-document summaries. Information Processing & Management 43 (6), 1619-1642, 2007 28 D. Harman; P. Over: The effects of human variation in DUC summarisation evaluation. Proc. of the ACL-2004 Workshop ‘Text Summarization Branches out’, 10-17 29 E. Hovy; C.-Y. Lin: Automated text summarization in SUMMARIST. I. Mani, M. Maybury, editors, Advances in Automatic Text Summarization. MIT Press, 81-94, 1999 30 M. Hu; B. Liu: Mining and summarizing customer reviews. KDD '04 – Proc. of the 10th ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining, 168-177, 2004 31 M. Hu; A. Sun; E.-P. Lim: Comments-oriented blog summarization by sentence extraction. CIKM ’07 – Proc. of the 16th ACM Conf. on Information and Knowledge Management, 901-904, 2007 32 H. Jing: Using hidden Markov modeling to decompose human-written summaries. Computational Linguistics 28 (4), 527-543, 2002 33 D. Jordan; G. Whalen; B. Bell; K. McKeown; S. Feiner: An evaluation of automatically generated briefings of patient status. MedInfo 2004 – Proc. of the 11th World Congress on Medical Informatics, 227-231 34 K. Knight; D. Marcu: Summarization beyond sentence extraction: a probabilistic approach to sentence compression. Artificial Intelligence 139 (1), 91-107, 2002 35 R. Kuhlen: Informationsaufbereitung III: Referieren (Abstracts – Abstracting – Grundlagen). R. Kuhlen, T. Seeger, D. Strauch, editors, Grundlagen der praktischen Information und Dokumentation. Band 1: Einführung in die Informationswissenschaft und -praxis. 5. Ausgabe, Saur, 189-206, 2004 36 J. Kupiec; J. Pederson; F. Chen: A trainable document summarizer. SIGIR ’95 – Proc. of the 18th ACM/SIGIR Annual Intl. Conf. on Research and Development in Information Retrieval, 68-73 37 C-Y. Lin: Topic identification by concept generalization. ACL-95 – Proc. of the 33rd Conf. of the ACL, 308-310, 1995 38 C.-Y. Lin: Looking for a few good metrics: ROUGE and its evaluation. Proc. of NTCIR Workshop, 1765-1776, 2004 39 C.-Y. Lin; E. Hovy: Automatic evaluation of summaries using n-gram co-occurrence. HLT-NAACL 2003 – Proc. of the 2003 Human Language Technology Conf. of the North American Chapter of the ACL, 71-78 40 H. Luhn: The automatic creation of literature abstracts. IBM Journal of Research and Development 2 (2), 159-165, 1958 41 I. Mani: Automatic Summarization. John Benjamins, 2001 42 I. Mani; E. Bloedorn: Machine learning of generic and user-focused summarization. AAAI-98 – Proc. of the 15th National Conf. on Artificial Intelligence, 821-826 43 I. Mani; E. Bloedorn: Summarizing similarities and differences among related documents. Information
300
B 12: Udo Hahn
Retrieval 1 (1), 1-23, 1999 44 I. Mani; Th. Firmin; D. House et al.: SUMMAC: a text summarisation evaluation. Natural Language Engineering 8 (1), 43-68, 2002 45 I. Mani; M. Maybury, editors: Advances in Automatic Text Summarization. MIT Press, 1999 46 W. Mann; S. Thompson: Rhetorical Structure Theory: toward a functional theory of text organization. Text 8 (3), 243-281, 1988 47 D. Marcu: The automatic construction of large-scale corpora for summarization research. SIGIR'99 – Proc. of the 22nd Intl. ACM SIGIR Conf. on Research and Development in Information Retrieval, 137-144 48 D. Marcu: The Theory and Practice of Discourse Parsing and Summarization. MIT Press, 2000 49 B. Mathis; J. Rush; C. Young: Improvement of automated abstracts by the use of structural analysis. Journal of the American Society for Information Science 24 (2), 101-109, 1973 50 K. McKeown; R. Barzilay; D. Evans et al.: Tracking and summarizing news on a daily basis with Columbia's Newsblaster. HLT '02 – Proc. of the 2nd Intl. Conf. on Human Language Technology Research, 280-285 51 K. McKeown; J. Robin; K. Kukich: Generating concise natural language summaries. Information Processing & Management 31 (5), 703-733, 1995 52 G. Murray; G. Carenini: Summarizing spoken and written conversations. EMNLP ’08 – Proc. of the 2008 Conf. on Empirical Methods in Natural Language Processing, 773-782 53 G. Murray; S. Renals; J. Carletta; J. Moore: Incorporating speaker and discourse features into speech summarization. HLT 2006 – Proc. of the Human Language Technology Conf. of the North American Chapter of the ACL, 367-374 54 A. Nenkova; R. Passonneau; K. McKeown: The pyramid method: incorporating human content selection variation in summarization evaluation. ACM Transactions on Speech and Language Processing 4 (2), 4, 2007 55 E. Nistor; E. Roman: Constructing automatical abstracts from kernel-sentences. Cahiers de Linguistique Théorique et Appliquée 8, 249-256, 1971 56 M. Okumura; T. Fukusima; H. Nanba: Text Summarization Challenge 2: text summarization evaluation at NTCIR Workshop 3. Proc. of the NAACL/HLT-03 Workshop on Automatic Summarization, 49-56, 2003 57 K. Owczarzak; H. Dang: Overview of the TAC 2011 Summarization Track: guided task and AESOP task. Proc. of the 4th Text Analysis Conf. National Institute of Standards and Technology 58 K. Owczarzak; P. Rankel; H. Dang; J. Conroy: Assessing the effect of inconsistent assessors on summarization evaluation. ACL 2012 – Proc. of the 50th Annual Meeting of the ACL, 359-362 59 P. Over; J. Yen: Introduction to DUC 2004. Intrinsic evaluation of generic news text summarisation systems. DUC’04 – Proc. of the Document Understanding Conf., 1-21 60 J. Pollock; A. Zamora: Automatic abstracting research at the Chemical Abstracts Service. Journal of Chemical Information and Computer Sciences 15 (4), 226-232, 1975 61 D. Radev; T. Allison; S. Blair-Goldensohn et al.: MEAD: a platform for multidocument multilingual text summarization. LREC 2004 – Proc. of the 4th Intl. Conf. on Language Resources and Evaluation, 699-702 62 D. Radev; H. Jing; M. Sty's; D. Tam: Centroid-based summarization of multiple documents. Information Processing & Management 40 (6), 919-938, 2004 63 D. Radev; K. McKeown: Generating natural language summaries from multiple on-line sources. Computational Linguistics 24 (3), 469-500, 1998 64 D. Radev; J. Otterbacher; A. Winkel; S. Blair-Goldensohn: NewsInEssence: summarizing online news topics. Communications of the ACM 48 (10), 95-98, 2005 65 O. Rambow; L. Shrestha; J. Chen; C. Lauridsen: Summarizing email threads. HLT-NAACL ’04 – Proc. of the Human Language Technology Conf. of the North American Chapter of the ACL, 105-108 66 G. Rath; A. Resnick; T. Savage: The formation of abstracts by the selection of sentences. American Documentation 12 (2), 139-143, 1961 67 L. Reeve; H. Han; A. Brooks: The use of domain-specific concepts in biomedical text summarization. Information Processing & Management 43 (6), 1765-1776, 2007 68 N. Reithinger; M. Kipp; R. Engel; J. Alexandersson: Summarizing multilingual spoken negotiation dialogues. ACL-2000 – Proc. of the 38th Annual Meeting of the ACL, 310-317
B 12: Automatisches Abstracting
301
69 H. Saggion; G. Lapalme: Generating indicative-informative summaries with SumUM. Computational Linguistics 28 (4), 497-526, 2002 70 G. Salton; A. Singhal; M. Mitra; C. Buckley: Automatic text structuring and summarization. Information Processing & Management 33 (3), 193-207, 1997 71 B. Schiffman; I. Mani; K. Concepcion: Producing biographical summaries: combining linguistic knowledge with corpus statistics. EACL-2001 – Proc. of the 10th Conf. of the European Chapter of the ACL, 450-457 72 B. Sharifi; M.-A. Hutton; J. Kalita: Summarizing microblogs automatically. NAACL-HLT 2010 – Human Language Technologies: Proc. of the 2010 Annual Conf. of the North American Chapter of the ACL, 685-688 73 H. Silber; K. McCoy: Efficiently computed lexical chains as an intermediate representation for automatic text summarization. Computational Linguistics 28 (4), 487-496, 2002 74 K. Sparck Jones: Automatic summarising: the state of the art. Information Processing & Management 43 (6), 1449-1481, 2007 75 C. Taskiran; Z. Pizlo; A. Amir; D. Ponceleon; E. Delp: Automated video program summarization using speech transcripts. IEEE Transactions on Multimedia 8 (4), 775-791, 2006 76 S. Teufel; M. Moens: Sentence extraction as a classification task. Proc. of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization, 58-65 77 S. Teufel; M. Moens: Summarizing scientific articles: experiments with relevance and rhetorical status. Computational Linguistics 28 (4), 409-445, 2002 78 A. Tigelaar; R. Op den Akker; D. Hiemstra: Automatic summarisation of discussion fora. Natural Language Engineering 16 (2), 161-192, 2010 79 E. Tzoukermann; S. Muresan; J. Klavans: Combining linguistic and machine learning techniques for email summarization. CoNLL-2001 – Proc. of the Conf. on Natural Language Learning, 152-159 80 T. van Dijk: Recalling and summarizing complex discourse. W. Burghardt. K. Hölker, editors, Text Processing. de Gruyter, 49-118, 1979 81 H. van Halteren; S. Teufel: Examining the consensus between human summaries: initial experiments with factoid analyses. Proc. of the NAACL/HLT-03 Workshop on Automatic Summarization, 57-64 82 S. Wan; K. McKeown: Generating overview summaries of ongoing email thread discussions. COLING’04 – Proc. of the 20th Intl. Conf. on Computational Linguistics, 549-556 83 K. Wong; M. Wu; W. Li: Extractive summarization using supervised and semi-supervised learning. COLING 2008 – Proc. of the 22nd Intl. Conf. on Computational Linguistics, 985-992 84 K. Zechner: Automatic summarization of open-domain multiparty dialogues in diverse genres. Computational Linguistics 28 (4), 447-485, 2002 85 L. Zhou, E. Hovy: Digesting virtual ‘geek’ culture: the summarisation of technical internet relay chat. ACL 2005 – Proc. of the 43rd Annual Meeting of the ACL, 298-305
Ulrich Heid
B 13 Maschinelle Übersetzung B 13.1 Einleitung Maschinelle Übersetzung ist eine der ältesten und eine der komplexesten Anwendungen von computerlinguistischen Techniken. Erste Forschungsansätze gab es schon in den 1950er Jahren, mittlerweile gibt es Systeme mit verschiedenen technologischen Herangehensweisen auf dem Markt, zum Teil auch als Dienste im Internet. Gleichzeitig ist der Bedarf an Übersetzungen in den letzten Jahrzehnten beständig gestiegen, und er wird aller Voraussicht nach weiter steigen. Die Europäische Union betreibt beispielsweise den weltweit größten Übersetzungsdienst einer Behörde (Centre de traduction des organes de l’Union européenne, CdT) und ist an Forschungen zur maschinellen Übersetzung sehr interessiert. Professionelle Übersetzer nutzen allerdings bis heute eher selten vollautomatische maschinelle Übersetzungssysteme; dafür arbeiten aber fast alle Übersetzer mit Werkzeugen zur computergestützten Übersetzung (sog. CAT-Tools, computer-assisted translation). Der vorliegende Artikel soll einen allgemeinen Überblick über (vollautomatische) maschinelle Übersetzung geben. Dazu wird zunächst auf grundlegende Unterscheidungen innerhalb der maschinellen Übersetzung eingegangen, dann auf regelbasierte und statistische Verfahren (Abschnitte B 13.2 und B 13.3) und schließlich auf die Evaluierung von Ergebnissen der maschinellen Übersetzung (Abschnitt B 13.4). Den Abschluss bilden Überlegungen zur weiteren Entwicklung der maschinellen Übersetzung. B 13.1.1 Grundbegriffe Sowohl bezüglich der Systeme als auch der Methodik muss zwischen maschineller Übersetzung (MÜ; machine translation, MT) und computergestützter Übersetzung (computer-assisted translation, CAT) unterschieden werden. MÜ ist vollautomatisch, CAT-Werkzeuge dienen der Unterstützung von Übersetzern bei der manuellen Anfertigung von Übersetzungen. Zu den CAT-Werkzeugen gehören Werkzeuge zum satz(paar-)weisen Archivieren von Übersetzungen (Translation-Memory-Systeme), Hilfsmittel zur Ablage und Strukturierung von Fachterminologie (Terminologische Datenbanken, Termbanken) und zur Terminologie-Extraktion aus Texten, in einem weiteren Sinne aber auch spezialisierte Workflow-Unterstützungssysteme. Übersetzung ist typischerweise der Vorgang der Übertragung eines Texts einer Quellsprache (source language, SL) in eine Zielsprache (target language, TL), wobei eine Vielzahl von Aspekten der Äquivalenz von Wörtern, Wortgruppen, Sätzen oder Textbausteinen zu berücksichtigen sind. Die zielsprachlichen Äquivalente sollen dieselbe Bedeutung haben wie die quellsprachlichen Wörter; sie sollen dieselbe Konnotation aufweisen: mitverstandene Aspekte, z. B. der Positionierung des Sprechers zum Gesagten, sollen wiedergegeben werden (Hund und Köter bezeichnen dasselbe, aber die Einstellung dazu ist unterschiedlich). Der Zieltext soll beim Zielpublikum dieselbe Funktion haben, wie sie der Quelltext beim quellsprachlichen Publikum hat, und der Zieltext soll den für entsprechende Texte normalen Formulierungsweisen und Textstrukturen entsprechen (z. B. Bedienungsanleitungen). Die hier informell dargestellten Anforderungen werden in der Übersetzungswissenschaft breit diskutiert. Unsere Anforderungsliste ist an die Bezugsrahmen für Äquivalenz angelehnt, die Koller (Lit. 16) formuliert hat. Die Übersetzung stellt also, speziell aus übersetzungswissenschaftlicher Sicht, komplexe Anforderungen, die automatische Systeme auf absehbare Zeit nicht werden komplett erfüllen können. Trotzdem wird an maschineller Übersetzung mit großem Aufwand geforscht, und trotzdem sind MÜ-Systeme in begrenzten Anwendungsbereichen bereits eine sinnvolle Alternative zur manuellen Übersetzung. Das Ziel der „fully accurate high quality translation“ (FAHQT), das in den An-
B 13: Maschinelle Übersetzung
303
fangsjahren als anstrebenswert und erreichbar galt – MÜ-Systeme sollten die oben angesprochenen Faktoren berücksichtigen und eine Qualität liefern, die der von menschlichen Übersetzern entsprechen sollte – ist längst einer realistischeren Einschätzung gewichen: in eingeschränkten Gegenstandsbereichen, deren (relativ abgeschlossenes) Lexikon dem System bekannt ist bzw. für grammatisch und lexikalisch kontrollierte Sprache (controlled language) lassen sich Ergebnisse erzielen, die nahezu keine menschliche Nachbearbeitung mehr brauchen. Umgekehrt gibt es auch Anwendungen, bei denen eine qualitativ hochwertige Übersetzung nicht unabdingbar ist, eine schnell verfügbare Rohübersetzung jedoch professionelle Arbeitsabläufe erleichtert. Das ist der Fall, wenn eine Rohübersetzung (z. B. von Fachliteratur oder von deren Zusammenfassungen) als Basis für eine Entscheidung darüber genommen wird, ob ein Text genug Relevantes enthält, als dass sich eine manuelle Übersetzung lohnt. Ähnliches gilt bei der Rohübersetzung von E-Mails in multinationalen Unternehmen (z. B. als Service im Intranet). Als Forschungsgegenstand ist maschinelle Übersetzung deswegen besonders interessant, weil sie sehr viele verschiedene Aspekte der Verarbeitung natürlicher Sprache involviert: einsprachige und zweisprachig-kontrastive (d. h. monolinguale und bilinguale) Beschreibung, alle Ebenen der linguistischen Beschreibung (von der sprachlichen Oberfläche bis zur abstrakten Inhaltsrepräsentation), sprachliche Einheiten unterschiedlicher Größe (vom Wort über den Satz bis zum Text) usw. Aus der Sicht der Implementierung sind die Systeme interessant, weil verschiedene Module, verschiedene Techniken und verschiedene Repräsentationen zusammenwirken und integriert werden müssen. B 13.1.2 Warum ist (maschinelle) Übersetzung ein schwieriges Problem? In der Pionierzeit der 1950er Jahre war man davon ausgegangen, dass die oben angesprochene FAHQT möglich sei; man war der Ansicht, dass eine fremde Sprache wie eine verschlüsselte Meldung vollständig regelhaft in die eigene Sprache umsetzbar sei („If we have useful methods for solving almost any cryptographic problem, may it not be that with proper interpretation we already have useful methods for translation?“ – Lit. 25). Dem steht aber der sehr große Bedarf an Wissen im Weg, das nötig ist, wenn der Inhalt eines Texts erfasst und auf dieser Grundlage ein Text übersetzt werden soll. Zu diesem Wissen gehört Wissen über die Grammatik und den Wortschatz von Quellund Zielsprache und über die Abbildung zwischen beiden, aber auch Fachwissen, ohne das eine Übersetzung vieler Fachtexte nicht möglich ist, und nicht zuletzt auch sogenanntes Weltwissen aus der Alltagswelt, ohne das hoch-qualitative Übersetzungen nicht möglich sind. In der maschinellen Übersetzung wird, vereinfacht ausgedrückt, das sprachliche Wissen auf zwei alternative Arten approximiert: in regelbasierten Systemen durch eine detaillierte linguistische Modellierung von Quell- und Zielsprache und den Entsprechungen dazwischen, in statistischen und beispiel-basierten Systemen durch Lernen aus großen Datenmengen. Beide Ansätze, regelbasierte MÜ (rule-based MT, RBMT) und statistische MÜ (statistical MT, SMT), werden unten näher diskutiert. Für beide Architekturtypen, vor allem aber für die regelbasierte maschinelle Übersetzung, stehen zwei Probleme im Vordergrund, die die Übersetzung kompliziert machen. Das eine liegt zum Teil in der Quellsprache, zum Teil in der Abbildung zwischen Quell- und Zielsprache: die in der Sprache allgegenwärtige Mehrdeutigkeit (Ambiguität) sprachlicher Ausdrücke. Das zweite Problem ist die Zuordnung von Teilstrukturen der Quellsprache zu Teilstrukturen der Zielsprache. Mehrdeutigkeiten können am zufälligen Zusammenfall von Wortformen (Homonymie) liegen: die Form betrüge kann von betragen (Konjunktiv) oder von betrügen kommen; häufiger sind Fälle, wo Wörter mehrere Lesarten haben: DE einstellen kann unter anderem eine Bedeutung haben, die mit EN stop übersetzt werden kann, aber auch eine, die EN hire entspricht. DE Betrieb kann unter anderem dem Englischen company, business oder EN operation entsprechen. Im deutschen Satz stellen Sie den Betrieb des Geräts beim Auftreten ungewöhnlicher Betriebsgeräusche sofort ein ist stop the operation… korrekt, hire the business… aber natürlich nicht. Für ein regelbasiertes System muss Betrieb/operation so klassifiziert sein (z. B. über eine semantische Sortenangabe), dass es mit der
304
B 13: Ulrich Heid
Lesart stop/einstellen kompatibel ist (über sog. Selektionsrestriktionen), während es mit der Lesart hire/einstellen (die als grammatisches Objekt nur Bezeichner von Personen erlaubt) gerade nicht zusammenpasst. Für ein statistisches System muss genug Textmaterial der relevanten Sorte (das obige Beispiel stammt aus einer Bedienungsanleitung) vorhanden sein, damit die korrekte Abbildung gelernt werden kann. Mehrdeutigkeiten kommen auch bei der Abbildung zwischen Sprachen zum Tragen: Wenn die Zielsprache mehr Unterscheidungen macht als die Quellsprache, ist das Wissen, das aus dem zu übersetzenden Satz genommen werden kann, in manchen Fällen nicht ausreichend: dem deutschen Wand bzw. Mauer entsprechen im Italienischen muro und parete, wobei letzteres nur Wände innerhalb von Gebäuden (von innen gesehen) bezeichnet. Dem Übersetzungssystem fehlt oftmals das Wissen darüber, welche Lesart gemeint ist. Die Zuordnung von Teilstrukturen zwischen Sprachen ist ein Problem, das in der Regel für jedes Sprachpaar (oder für Sprachen aus spezifischen typologischen Gruppen) einzeln auftritt. Während Deutsch und die anderen germanischen Sprachen Nominalkomposita bilden (Stromproduktion, Windenergie, …), entsprechen in den romanischen Sprachen diesen Komposita Wortgruppen aus Nomen, Präposition und Nomen (FR production d'électricité) oder aus Nomen und Adjektiv (ES energía eólica, FR énergie éolienne) usw. Solche Zuordnungen sind im MÜ-System zu beschreiben und in geeigneter Weise in den Zielsatz einzubauen. Die bei der Abbildung zu berücksichtigenden Strukturunterschiede sind außer bei sehr eng verwandten Sprachen (z. B. Katalanisch und Spanisch, Dänisch und Norwegisch etc.) eher die Regel als die Ausnahme. Sie betreffen einzelne Wörter und ihre Kategorie (DE gerne vs. EN like to + Infinitiv), die grammatische Konstruktion von Wörtern (EN I want you to… vs. FR je voudrais que vous…, also Infinitiv vs. Nebensatz) oder beide Aspekte (EN [to] bottle wine vs. DE Wein in Flaschen abfüllen, wo in Flaschen im EN Verb „enthalten“ ist und somit nicht nochmals ausgedrückt wird). Das zweisprachige Wissen für ein symbolisches, regelbasiertes MÜ-System muss solche Phänomene berücksichtigen. Für eine korrekte Behandlung in der statistischen maschinellen Übersetzung muss genug Textmaterial vorhanden sein, damit die Phänomene erfasst werden können. B 13.1.3 Ansätze und Architekturen für die maschinelle Übersetzung Generell kann zwischen regelbasierten und statistischen MÜ-Systemen unterschieden werden. Diese beiden grundlegenden Designansätze können weitergehend unterteilt werden. Symbolische Ansätze der frühen Zeit werden als direkte maschinelle Übersetzung bezeichnet. Diese erste Generation solcher Systeme wurde in den 1950er und 1960er Jahren entwickelt. Zur zweiten Generation symbolischer Systeme gehören transferbasierte MÜ-Systeme, ebenso wie experimentelle Systeme auf der Grundlage einer Interlingua, d. h. einer abstrakten Repräsentation, die als Generalisierung über die zu behandelnden Sprachen angenommen wurde. Die Entwicklung solcher Systeme hat ihre Wurzeln in den 1960er Jahren und wurde in den 1980er und 1990er Jahren weiter getrieben. Viele kommerziell verfügbare regelbasierte MÜ-Systeme wie z. B. Systran, Lingenio translate, Personal Translator (Linguatec) etc. sind transferbasiert. Seit den späten 1990er Jahren wird vor allem die Entwicklung statistischer maschineller Übersetzungssysteme vorangetrieben (dritte Generation). Google translate ist der bekannteste Vertreter dieses Ansatzes. In der Forschung am meisten benutzt wird der frei verfügbare System-Baukasten Moses (URL1). Auf anderen Prinzipien als die klassische statistische MÜ, aber auch auf der Nutzung großer Textmengen, setzt die beispiel-basierte MÜ (example-based MT, EBMT) auf: Ziel ist hier, aus Paralleltext linguistisch plausible mehrwortige Einheiten zu lernen und diese ggf. durch symbolische Muster zu beschreiben und zu generalisieren; bei SMT wird dagegen nur auf statistisch signifikante Wortsequenzen geachtet. Obwohl näher an der linguistischen Intuition, konnte für EBMT-Ansätze bisher kein deutlicher Qualitätsvorsprung gegenüber SMT gezeigt werden; die Arbeiten sind bislang im Wesentlichen experimentell (vgl. Lit. 03).
B 13: Maschinelle Übersetzung
305
B 13.2 Symbolische MÜ-Ansätze Die symbolischen MÜ-Ansätze zeichnen sich durch die Verwendung von Regelsystemen und von Lexika zur Modellierung grammatischer Strukturen aus. Unterschiede ergeben sich hinsichtlich der „Tiefe“ der Verarbeitung (d. h. der benutzten linguistischen Beschreibungsebenen: Morphosyntax, Syntax, Semantik, Pragmatik), aber auch hinsichtlich des Abstraktionsgrads der Repräsentationen, auf denen die kontrastive (zweisprachige) Abbildung operiert, und hinsichtlich der eingesetzten Verfahren zu Prozessierung und Kontrolle. B 13.2.1 Direkte Übersetzung Die ersten Experimente zur maschinellen Übersetzung beruhten im Wesentlichen auf zweisprachigen Wörterbüchern und Regeln für die Abbildung von Teilstrukturen von Sätzen zwischen Quellund Zielsprache. Das kommerzielle System Systran (vgl. URL2 und URL3) weist sehr große Wörterbücher auf, die in der frühen Phase der 1960er Jahre zusammen mit Regeln für die Übersetzung von Nominalphrasen und Verbphrasen, für die lokale (d. h. primär in den Grenzen der Phrasen ablaufende) Auflösung von Mehrdeutigkeiten und für die schrittweise lexikonbasierte Zuordnung von quell- und zielsprachlichen Teilstrukturen verwendet wurden. Später wurde dieser Ansatz durch einen Transferansatz ergänzt (siehe nächsten Abschnitt). Die großen Wörterbücher, die insbesondere viele Wortverbindungen und Fachausdrücke enthalten, werden aber weiterhin benutzt. Sie wurden in Anwendungen von Systran in verschiedenen Kontexten entwickelt und gepflegt. Die stark einzelfallbezogene Herangehensweise der ersten Forschungen zur maschinellen Übersetzung wurde, nach ersten Anfangserfolgen, in den USA ab Mitte der 1960er Jahre zunehmend kritisch gesehen. Der ALPAC-Report von 1966 (Automatic Language Processing Advisory Committee, Lit. 22) stellte den Mangel an theoretischer Fundierung der ersten Arbeiten heraus und führte dazu, dass in den USA weniger MÜ und mehr theoretische Linguistik gefördert und betrieben wurde. B 13.2.2 Transfer-basierte Ansätze In verschiedenen Projekten der 1980er Jahre wurden maschinelle Übersetzungsprototypen entwickelt, die auf einer Einteilung des Übersetzungsvorgangs in drei Phasen beruhten: 1. Analyse des quellsprachlichen Inputs und Erzeugung einer abstrakten quellsprachlichen Repräsentation; 2. Abbildung der abstrakten Repräsentation des QS-Texts auf eine abstrakte Repräsentation des äquivalenten zielsprachlichen Texts (= Transfer); 3. G enerierung des zielsprachlichen Texts aus der vom Transferschritt erzeugten Repräsentation. Diese Architektur trennt, anders als die direkte Übersetzung, prinzipiell zwischen einsprachigen Komponenten (Analyse, Generierung) und dem kontrastiven, zweisprachigen Schritt des Transfers. Sie setzt außerdem mehrheitlich eine satzweise Verarbeitung von Texten voraus: anders als bei der direkten Übersetzung, die eher auf Teilstrukturen als auf ganzen Sätzen operierte, ist bei Transfersystemen der Satz die grundlegende Einheit der Beschreibung. Diese Sichtweise entspricht auch derjenigen der meisten computerlinguistischen Ansätze und Theorien zur syntaktischen Verarbeitung bis hin zur Schnittstelle zwischen Syntax und Semantik. Beispiele sind die Lexikalisch-Funktionale Grammatik (LFG, Lit. 12), die Head-Driven Phrase Structure Grammar (HPSG) usw. Als Beschreibungsgrundlage für die Analyse und die Generierung und damit als Grundlage der Repräsentationen, auf denen der Transfer operiert, wurden unterschiedliche syntaktisch-semantische Modellierungen benutzt. Von Phasenstrukturgrammatiken inspiriert sind die Repräsentatio-
306
B 13: Ulrich Heid
nen, die den ersten Versionen des MÜ-Systems METAL zugrunde liegen, das aus einem Projekt der Universität Austin, Texas, hervorging und später von Siemens vorangetrieben wurde. Auf dependenzgrammatischen Analysen und auf Repräsentationen, die grammatische Funktionen als Grundbausteine benutzen (Subjekte, Objekte, Satz- und Infinitivkomplemente usw.) beruht z. B. das System translate (Fa. Lingenio, Heidelberg). Ebenso wurde mit einem Übersetzungsansatz experimentiert, der auf der Theorie und Implementierung der Lexikalisch-Funktionalen Grammatik (LFG) aufsetzt (Lit. 12). Die Ein- und Ausgabe des Transfers sind hier funktionale Strukturen der LFG, d. h. Repräsentationen, die Prädikat-Argument-Strukturen von Sätzen darstellen. Im Eurotra-Projekt der Europäischen Kommission wurde in den 1980er und 1990er Jahren ein Transferansatz verfolgt, der eine strikte Trennung einzelner linguistischer Beschreibungsebenen verfolgte (morphologische Beschreibung – Konstituentenstruktur – Dependenzstruktur – in Eurotra: „relationale Struktur“). Für jede Ebene wurden Konsistenzkriterien definiert, und für jeden Übergang wurden Abbildungsregeln realisiert. Das Modell war sehr klar und systematisch konzipiert. Es war allerdings mühsam zu implementieren und hat nur zu Prototypen, nicht zu einem umfangreichen lauffähigen System geführt. In Eurotra wurde aber, dem Ziel einer Übersetzung zwischen den neun involvierten Sprachen entsprechend (DE, DK, EN, ES, FR, GR, IT, NL, PT), für alle diese Sprachen (zum Teil zum ersten Mal) eine formale Beschreibung erstellt. Diese Arbeiten waren eine der Grundlagen für weitere computerlinguistische Forschungen in vielen der beteiligten Länder. Die Mehrzahl der heute am Markt befindlichen symbolischen MÜ-Systeme sind transferbasiert. Die Transferarchitektur unterstützt einen modularen Systemaufbau, weil die einsprachigen Komponenten für Analyse und Generierung von der zweisprachigen Transferkomponente getrennt gehalten werden können. Zum Transfer gehören lexikalische und grammatische Abbildungen, d. h. zweisprachige Wörterbucheinträge für Wörter und Wortverbindungen und Regeln dafür, wie Teilstrukturen von Quell- und Zielsprache einander zugeordnet werden können. B 13.2.3 Interlingua-basierte Systeme Ein engineering-bezogener Nachteil von Transfersystemen ist die Tatsache, dass die zweisprachigen Abbildungsregeln, mit denen sie im Transferschritt arbeiten, sprachrichtungsabhängig sind. Man benötigt also in der Regel für ein System zur Übersetzung in beiden Richtungen, z. B. zwischen Deutsch und Englisch, zwei Transferkomponenten. Bei multilingualen Systemen führt dies zu erheblichem Aufwand. Als Konsequenz wurden Entwicklungen in zwei Richtungen durchgeführt: einerseits mit dem Ziel, bidirektionale Transferkomponenten zu schaffen, die mit einem Wörterbuch und einem kontrastiven Regelsatz beide Sprachrichtungen abdecken (vgl. z. B. Lit. 01), andererseits interlingua-basierte Systeme. Als Interlingua wird dabei eine Repräsentation verstanden, die eine Generalisierung über die Sprachen bietet, zwischen denen übersetzt werden soll. Die Repräsentation wird bei der Analyse der jeweiligen Quellsprache erzeugt und kann unmittelbar, ohne kontrastiven Zwischenschritt, als Eingabe für die Generierung in der gewählten Zielsprache dienen. Als Interlingua-Repräsentationen wurden angereicherte Prädikat-Argument-Strukturen (also eine flache, ggf. unterspezifizierte semantische Repräsentation) oder Repräsentationen mit reichhaltiger diskurssemantischer und pragmatischer Information benutzt (vgl. Lit. 09 und Lit. 19), aber auch – experimentell – Repräsentationen auf der Basis von Plansprachen wie Esperanto (vgl. Lit. 23 und URL4). Das oben angesprochene Problem der verschiedenen sprachrichtungsabhängigen Transferkomponenten entfällt natürlich bei der Nutzung einer Interlingua vollständig, weil das MÜ-System dann nicht mehr aus den drei Bausteinen Analyse, Transfer und Generierung besteht, sondern nur mehr aus Analyse- und Generierungskomponenten. Andererseits ist der Aufbau der reichhaltigeren Interlingua-Repräsentationen aufwendiger als bei Transfersystemen.
B 13: Maschinelle Übersetzung
307
Ausführliche Experimente mit einer reichhaltigen Interlingua wurden im Projekt KBMT, Knowledge-based Machine Translation (Lit. 09 und Lit. 19) angestellt. Wenn die Interlingua zu abstrakt und zu stark unterspezifiziert ist, ergibt sich bei der Generierung ein Problem: die Interlingua-Repräsentation stellt nicht nur Sätze dar, die strukturell den Quellsprachsätzen entsprechen, sondern ggf. auch Sätze, die eine andere Struktur haben. Es kann dann außerdem dazu kommen, dass Kriterien für die Auswahl aus den Alternativen fehlen. Die deutsche Wort- und Konstituentenstellung ist ein Beispiel hierfür: Der Satz „er hat die Firma seinem Sohn vermacht“ hat dieselbe Prädikat-Argument-Struktur wie „seinem Sohn hat er die Firma vermacht“. Die Information, dass der zweite Satz wegen der Voranstellung des indirekten Objekts („seinem Sohn“) einen Kontrast ausdrückt (im Sinne von „seinem Sohn, nicht seiner Tochter“), geht verloren, wenn nur die Prädikat-ArgumentStruktur als Interlingua genommen wird. Man hat daher in die ursprüngliche Interlingua von KBMT Merkmale für die Informationsstruktur, für das Verhältnis von Sprecher und Angesprochenem und für verschiedene andere textsemantische und pragmatische Eigenschaften aufgenommen und diese in Analyse und Generierung berücksichtigt. Dies hat in den Experimenten gut funktioniert, erwies sich aber für Anwendungen mit größerem Wortschatz als zu aufwendig. Die anwendungsorientierten Nachfolge-Systeme von KBMT nutzen daher wesentlich grobkörnigere Repräsentationen und sind, u. a. um die Menge der Generierungsalternativen einzuschränken, in der Regel stark domänen- und textsortenspezifisch: für einen gegebenen Gegenstandsbereich und eine bestimmte Textsorte genügt eine eingeschränkte Menge an Formulierungsalternativen, und nur diese werden in der Grammatik erfasst. Mit solchen KBMT-Nachfolgesystemen sind auch erfolgreich Experimente zur maschinellen Übersetzung von kontrollierter Sprache angestellt worden (vgl. Lit. 20). Sie wurden insbesondere für die Erstellung multilingualer Dokumentation konzipiert. Komplexere Systeme, wie z. B. Verbmobil (vgl. Lit. 24), enthalten mitunter einzelne interlinguabasierte Elemente: Die Übersetzung von Präpositionen erfolgt in Verbmobils Transferansatz nicht über bilinguale Wörterbucheinträge, sondern durch Abbildung der Präpositionsbedeutung auf ein Prädikat (z. B. „lokal“ vs. „direktional“), für das in der Zielsprachgrammatik kontextabhängig die richtige Präposition eingesetzt wird (vgl. Lit. 06).
B 13.3 Statistische MÜ-Systeme Wie oben angedeutet gehören sowohl statistische maschinelle Übersetzung im engeren Sinne als auch beispielbasierte MÜ (EBMT, vgl. Lit. 03) zu den statistischen MÜ-Verfahren. Sie beruhen beide auf der Anwendung von Verfahren zum Lernen von Zusammenhängen aus Korpusdaten. Hier diskutieren wir nur statistische MÜ-Systeme (SMT-Systeme). Ein gutes Überblicksbuch zu SMT ist Koehn (Lit. 14); unter URL1 finden sich die wichtigsten Informationen zur statistischen MÜ. B 13.3.1 Grundlagen und Wissensquellen SMT-Systeme beruhen auf dem Lernen von Äquivalenten und von Wortsequenzen aus Korpora. Wenn geeignete parallele Korpora und ausreichend große monolinguale zielsprachliche Korpora verfügbar sind, lässt sich ein SMT-System relativ leicht erstellen, weil Baukästen wie etwa das Moses-System (URL1) eine weitgehende Automatisierung der Erstellung erlauben. Für die Erstellung eines regelbasierten Systems ist dagegen mit mehr Aufwand zu rechnen, insbesondere für die Kontrolle von komplexen Regelinteraktionen und die Behandlung von Ausnahmen. Die zentralen Ressourcen für ein SMT-System sind ein Parallelkorpus aus Humanübersetzungen und ein monolinguales zielsprachliches Korpus. Je größer beide sind (Umfang an laufenden Wörtern), desto besser. Beide Korpora dienen dem Training des Systems. Aus dem Parallelkorpus werden Wortäquivalenzen gelernt, zusammen mit ihrer Wahrscheinlichkeit; hinzu kommen Äqui-
308
B 13: Ulrich Heid
valenzrelationen zwischen Wortgruppen: Paare, Tripel usw. Die aus dem Traningskorpus abgeleiteten Daten sind nach der Wahrscheinlichkeit absteigend sortierte Listen aus einander zugeordneten quell- und zielsprachlichen Wortformen oder Wortformsequenzen, eine Art probabilistisches Wörterbuch. Letztere Daten nennt man das „Übersetzungsmodell“. Aus dem zielsprachlichen Korpus werden N-Gramme gelernt, also Wortpaare, Worttripel usw., die wiederum zusammen mit Daten zu ihrer Auftretenshäufigkeit abgelegt werden. Dieses Wissen (das zielsprachliche „Sprachmodell“) wird dazu benutzt, um typische Wortsequenzen zu bestimmen und um im eigentlichen Übersetzungsvorgang aus den Vorschlägen für Wortsequenzen auszuwählen, die das Übersetzungsmodell anbietet. Obwohl diese Wortsequenzen in der englischsprachigen Literatur als „phrases“ bezeichnet werden, handelt es sich nicht notwendig um Phrasen im Sinne der Linguistik, sondern um beliebige Sequenzen. Phrase-based SMT, die aktuell benutzte Variante von statistischer maschineller Übersetzung, die essenziell auf Wortsequenzmodellen aufsetzt, verwendet denselben Phrasenbegriff. Für die eigentliche Übersetzung wird zunächst das Übersetzungsmodell eingesetzt. Der Decoder liefert für einen quellsprachlichen Satz eine Menge möglicher zielsprachlicher WortfolgeVorschläge mit ihren jeweiligen Wahrscheinlichkeiten. Daraus kann eine beste zielsprachliche Kette und eine Rangfolge möglicher Alternativen abgeleitet werden. Hier kommt das zielsprachliche Sprachmodell zum Einsatz: es erlaubt, diejenigen zielsprachlichen Sequenzen zu bestimmen, die im monolingualen zielsprachlichen Korpus am häufigsten sind und daher der zielsprachlichen Grammatik und der typischen zielsprachlichen Redeweise am besten entsprechen (fluency). B 13.3.2 Alignment Damit aus einem Parallelkorpus Äquivalenzpaare extrahiert werden können, muss dieses Korpus aligniert werden, d. h. es muss eine Zuordnung errechnet werden, zunächst zwischen äquivalenten Sätzen, dann zwischen äquivalenten Wortformen und Sequenzen von Wortformen. Hierzu dienen Systeme zum Satzalignment und zum Wortalignement. Erstere sind auch für die Aufbereitung von Daten aus manuellen Übersetzungen notwendig, z. B. für die Anlage von Translation-Memory-Systemen aus quellsprachlichem und übersetztem Material. Satzalignment beruht im Allgemeinen auf einem Vergleich der Satzlänge von quellsprachlichem und zielsprachlichem Satz (Anzahl der Zeichen) und auf der Nutzung von sog. Ankerpunkten, deren Zuordnung zu einem gegebenen Satz sich das System merkt. Ankerpunkte sind Zeichenketten, die in Quell- und Zielsprache gleich sind und also in Sätzen vorkommen, die Äquivalente voneinander sind. Typische Ankerpunkte sind Namen, Datumsangaben, Internationalismen usw. Oft wird auch das allgemeine Längenverhältnis zwischen den beiden zu alignierenden Sprachen berücksichtigt: auf große Parallelkorpora gerechnet ist Englisch etwas „kompakter“ als Deutsch, d. h. englische Sätze sind etwas kürzer als deutsche. Satzalignment kann eins-zu-eins-Entsprechungen ermitteln, aber auch mit Fällen umgehen, bei denen ein Satz der einen Sprache durch mehrere Sätze der anderen übersetzt wird (1:n-Alignment). Ein einflussreiches Papier dazu war Lit. 13. Wortalignment dient dazu, Wortäquivalenzpaare zu ermitteln. Dabei werden nicht nur Einzelwortäquivalenzen ermittelt, sondern auch mehrwortige Zuordnungen. Außerdem variiert die Wortstellung zwischen Sprachen in der Regel erheblich, sodass (anders als auf Satzebene) überkreuzende Zuordnungen erlaubt (und der Regelfall) sind. Wortalignment ist erheblich schwieriger zu ermitteln als Satzalignment. Manche Wörter werden durch Mehrwortausdrücke übersetzt, andere haben im Trainingskorpus gar kein Äquivalent. Für das Wortalignment im Rahmen von Moses wird das Werkzeug GIZA++ (URL1) verwendet.
B 13: Maschinelle Übersetzung
309
B 13.3.3 Übersetzungsvorgang und Forschungsfragen Der Ablauf der statistischen maschinellen Übersetzung besteht, wie oben bereits angedeutet, aus einem Trainingsschritt und dem eigentlichen Übersetzungsschritt. Im Training werden Übersetzungsmodell und Sprachmodell berechnet. Das Übersetzungsmodell wird aus satz- und wortalignierten Texten von Quell- und Zielsprache berechnet, das Sprachmodell aus Wortsequenzen der Zielsprache. Der eigentliche Übersetzungsvorgang besteht wiederum aus zwei Schritten: der Dekodierung mithilfe des Übersetzungsmodells (Ermittlung von zielsprachlichen Wortsequenzkandidaten) und der Ermittlung der optimalen zielsprachlichen Wortreihenfolge mithilfe des Sprachmodells. Während die Erstellung eines solchen SMT-Systems, beispielsweise mit dem Moses-Baukasten, relativ einfach ist, gibt es eine Reihe von Schwierigkeiten, die in den letzten Jahren zu umfangreichen Forschungsaktivitäten und einer breiten Literatur geführt haben. Schwierig ist es, Gründe für Übersetzungsfehler ausfindig zu machen: die verschiedenen statistischen Teilmodelle interagieren in komplexer und nicht ohne weiteres nachvollziehbarer Weise. Das kann auch dazu führen, dass Verbesserungen an einer bestimmten Stelle im System nicht notwendig zu einer Verbesserung der Gesamt-Übersetzungsleistung führen (vgl. nächsten Abschnitt zur Evaluierung von MÜ-Systemen). Weiterhin ist die Übersetzung aus und in morphologisch reiche/n Sprachen, also solche, die eine reichhaltige Flexionsmorphologie haben (wie viele slawische Sprachen) oder solche, deren Wortbildung sehr produktiv ist (wie Deutsch und andere germanische Sprachen), relativ schwierig. Der morphologische Reichtum führt zwangsläufig dazu, dass Wortformen zu übersetzen sind, die das System nicht aus den Trainingsdaten „kennt“ (vgl. z. B. Lit. 07). Es wird daher unter anderem daran geforscht, die Übersetzung mit solchen Sprachen auf der Basis von Lemmata statt von flektierten Formen zu realisieren und eine morphologische Analyseoder Generierungskomponente vor oder nach dem Übersetzungsprozess anzuschließen. Für die Wortkomposition (etwa des Deutschen als Quellsprache) wird ebenfalls eine Vorverarbeitung benutzt: Komposita werden in ihre Bausteine zerlegt (vgl. Lit. 15, Lit. 08), die dann einzeln übersetzt werden; dies funktioniert bei regelmäßig gebildeten kompositionellen Komposita relativ gut, sofern sie kompositionelle mehrwortige Äquivalente haben; ein deutsches Kompositum wie Energieproduktion kann in Energie und Produktion zerlegt und dann ins Französische mit production d'énergie übersetzt werden. Zur Generierung von Komposita laufen ebenfalls Vorhaben. Denkbar ist auch, statt deutscher Komposita ungefähr äquivalente mehrwortige Ausdrücke in der Zielsprache zu verwenden. Für production d'énergie würde das System dann im Deutschen Produktion von Energie setzen. Parallele Korpora sind die grundlegende Ressource von SMT-Systemen. Anders als große monolinguale gemeinsprachliche Korpora sind sie aber nicht leicht zu erhalten. Beliebt sind die vom Übersetzungsdienst der Europäischen Union erstellten und über die Webseite OPUS bzw. das Joint Research Centre der EU bereitgestellten Parallelkorpora der Debatten des europäischen Parlaments (Europarl) und der Erlasse, Durchführungsbestimmungen und Handreichungen der EU (Acquis Communautaire) oder die mehrsprachigen Texte der UNO. Noch Forschungsgegenstand sind aber die Verfahren, mit denen SMT-Systeme in optimaler Weise auf spezifische Textsorten (z. B. Patente, technische Anleitungen) oder auf spezifische Domänen und deren Terminologie angepasst werden können (domain adaptation). Relativ deutlich ist, dass die Bereitstellung von Äquivalentkandidaten für mehrwortige Termini, z. B. aus bestehenden Listen von Fachwortschatz, dann nützlich ist, wenn diese Angaben dem System als Alternativen zu den vom Übersetzungsmodell errechneten Äquivalentkandidaten angeboten werden. Generell wird derzeit intensiv an der Frage gearbeitet, ob es sinnvoll ist, linguistisches Wissen in ein SMT-System einzubinden, wie eine solche Einbindung realisiert werden kann und welche Auswirkungen sie hat.
310
B 13: Ulrich Heid
B 13.4 Evaluierung von maschineller Übersetzung Es besteht sowohl unter (potenziellen) Endbenutzern als auch unter Systementwicklern ein großes Interesse daran, die Qualität des Outputs von maschinellen Übersetzungssystemen zu messen, sei es vergleichend zwischen verschiedenen Systemen oder sei es im Laufe des Entwicklungs- oder Verbesserungsvorgangs. Einen ersten, vorwissenschaftlichen Eindruck von der Leistungsfähigkeit eines oder mehrerer Systeme kann man sich verschaffen, wenn man einen für den zukünftígen Einsatzbereich typischen Text übersetzen lässt und kritisch betrachtet. Die Wortschatzabdeckung kann in ähnlicher Weise anhand einer Wörterliste annähernd identifiziert werden. Solche Experimente lassen sich aber nicht systematisieren oder vergleichen, sondern können allenfalls als adhoc-Impressionen taugen. Auch die Bewertung von Übersetzungen durch professionelle Übersetzer gestaltet sich schwierig: es kann sehr viele „gute“ Übersetzungen eines Textes geben, die sich in Grammatik und Wortwahl unterscheiden. Andererseits ist unklar, welches relative Gewicht bestimmte Typen von Fehlern haben sollen: sind morphologische Fehler weniger schwerwiegend als Wortwahlfehler? Schließlich ist die manuelle Evaluierung von Übersetzungen aufwendig und daher teuer. Für symbolische MÜSysteme wird, insbesondere entwicklungsbegleitend, mit Testsatzsammlungen (sog. Testsuites) gearbeitet; SMT-Systeme werden in der Regel automatisch evaluiert, mit BLEU (Lit. 21) oder einem seiner Nachfolgersysteme. Beide werden im Folgenden kurz diskutiert. B 13.4.1 Testsuites für die MÜ-Evaluierung Testsuites werden in der Computerlinguistik bei verschiedenen Entwicklungsaufgaben zur Kontrolle der automatischen Analyseergebnisse eingesetzt, z. B. bei der Bewertung von monolingualen Analysen. Dazu werden Beispiele systematisch nach den zu testenden Kriterien zusammengestellt (Stimuli), jeweils mit der für ideal gehaltenen Lösung (Gold-Standard). Das System muss dann die Stimuli verarbeiten, und ein Programm vergleicht den System-Output mit dem vorab definierten Gold-Standard. So können einzelne Fälle aufgeworfen werden, die dem System Probleme bereiten, und man kann nach einer Systemänderung oder -ergänzung effizient überprüfen, ob der Leistungsstand von vor der Änderung noch in vollem Umfang erreicht wird (Regressionstests). Die Erstellung von Testsuites ist relativ zeitaufwendig und lohnt insbesondere, wenn die Evaluierung die Weiterentwicklung eines symbolischen MÜ-Systems über einen längeren Zeitraum hinweg begleiten soll. Wegen der komplexen Interaktion der einzelnen Komponenten und Wissensquellen eines symbolischen Systems sind solche regelmäßigen Tests angebracht. Typischerweise wird man in Testsuites versuchen, pro Stimulus nur ein (oder sehr wenige) Einzelprobleme einzubauen; auch ist es sinnvoll, grammatische Phänomene mit einer Testsuite zu prüfen, die nur dem System bekanntes und in dessen Lexika gut beschriebenes Wortmaterial enthält. B 13.4.2 BLEU und andere Evaluationsverfahren für SMT Für die statistische MÜ wurde 2001 das Verfahren BLEU (Bilingual Evaluation Understudy, Lit. 21) vorgeschlagen. BLEU wird auf Texte und deren maschinelle Übersetzungen angewendet und setzt einen oder besser mehrere manuell erstellte Referenzübersetzungen voraus, gegen die abgeglichen wird. Übereinstimmungen ergeben Punkte, die zu einem Wert (BLEU-Score) verrechnet werden. Auf Übereinstimmung geprüft werden Einzelwörter (sind die Wörter aus der Maschinenübersetzung auch in den Referenztexten zu finden?) und Wortsequenzen (Bi-, Trigramme etc.) sowie das Längenverhältnis von maschineller und Referenzübersetzung (damit Fälle aufgedeckt werden, wo das System Teilsätze ausgelassen hat).
B 13: Maschinelle Übersetzung
311
Die Entwickler von BLEU behaupten, dass das Verfahren in der vergleichenden Evaluierung verschiedener Systeme Werte liefert, die gut mit menschlichen Bewertungen korrelieren, insbesondere, wenn mehrere Referenztexte verwendet werden. Der Vergleich von Einzelwörtern soll (terminologische) Übersetzungstreue (adequacy) ermitteln, der von mehrwortigen Sequenzen die Flüssigkeit und Idiomatizität des automatisch erstellten Texts (fluency). Die Parallele zum Übersetzungsmodell (Wort- und Wortgruppenäquivalenz) der SMT und zu deren zielsprachlichem Sprachmodell (auch dort n-Gramme) liegt auf der Hand. Dementsprechend wird BLEU auch insbesondere für die entwicklungsbegleitende Evaluierung von SMT-Systemen (ein System, Stand vor und nach der Einführung einer bestimmten Wissensquelle oder von bestimmten Verfahren) oder für deren Vergleich herangezogen. Ein Vergleich von regelbasierten mit statistischen Systemen auf der Grundlage von BLEU ist weniger ratsam. Es wurde argumentiert, dass BLEU die SMT-Systeme bevorzugt. Auch zeigt sich, dass sich die Art und relative Häufigkeit der Fehler zwischen regelbasierter und statistischer Übersetzung stark unterscheidet. Die Nutzung mehrerer Referenztexte soll der natürlichen Variation in Übersetzungen Rechnung tragen: das Ergebnis eines einzigen Übersetzers soll nicht als Gold-Standard für ein System genommen werden. Die Übereinstimmung mit menschlichen Bewertungen wurde in den letzten Jahren kontrovers diskutiert. Ebenso wurde auf Lücken oder „Ungerechtigkeiten“ in BLEU aufmerksam gemacht: wenn die Einzelwörter zwischen Maschinenübersetzung und Referenz übereinstimmen, werden z. B. Wortstellungsfehler bzw. eine unsinnige Umstellung von Konstituenten nur über die Auszählung der Wortsequenzen (n-Gramme) erfasst und so relativ „milde“ bewertet. Die Verwendung von (akzeptablen) Synonymen, die (zufällig) nicht im Referenztext verwendet worden sind, wird dagegen bestraft, usw. (Lit. 02). Bemerkenswert ist auch, dass man SMT-Systeme auf BLEU trainieren kann. Einige dieser Probleme sind in den Evaluierungsverfahren von NIST (National Institute of Standards and Technology, USA), in Varianten von BLEU oder im METEOR-Verfahren behoben worden.
B 13.5 Schlussbemerkungen Die maschinelle Übersetzung (MÜ) gehört zu den Bereichen der maschinellen Sprachverarbeitung, die die längste Forschungstradition haben. Ergebnis der Bemühungen zur regelbasierten MÜ sind kommerzielle Systeme, die, entsprechende lexikalische Wissensquellen vorausgesetzt, für Fachtexte eine relativ gute Übersetzungsqualität liefern; sie werden zum Teil in Unternehmen eingesetzt, zum Teil als Werkzeug zur Bereitstellung von Rohübersetzungen oder in mehrsprachigem Information Retrieval. Aktuelle Forschungsschwerpunkte betreffen die statistische maschinelle Übersetzung und Experimente zu hybriden Verfahren, d. h. zu geeigneten Kombinationen von statistischen und symbolisch-regelbasierten Ansätzen: Einerseits wird versucht, SMT weiter zu verbessern, unter anderem indem man morphologisches und ggf. syntaktisches Wissen in SMT-Systeme einbindet, andererseits werden zunehmend Verfahren des maschinellen Lernens für die Beschaffung von lexikalischem Wissen für regelbasierte Systeme eingesetzt. Die besten statistischen Systeme sind inzwischen ungefähr so gut wie gute regelbasierte Systeme. Da die Entwicklung rasch vorangeht, und da immer mehr Textmaterial als Grundlage für statistische Verfahren verfügbar wird, ist mit weiteren Qualitätsverbesserungen zu rechnen – aber auch die Forschungslandschaft bleibt spannend.
Literatur 01 Barnett, James; Mani, Inderjeet; Martin, Paul; Rich, Elaine: Reversible Machine Translation: What To Do When The Languages Don't Line Up. Reversible Grammar in Natural Language Processing, Dordrecht, 1994 02 Callison-Burch, Chris, Osborne, Miles; Koehn, Philipp: Re-evaluating the Role of BLEU in Machine Translation Research. 11th Conference of the European Chapter of the Association for Computational
312
B 13: Ulrich Heid
Linguistics: EACL, 2006, 249-256 03 Carl, Michael Ed; Way, Andy: Recent Advances in Example-Based Machine Translation, Berlin, 2003 04 Carstensen Kai-Uwe; Ebert, Christian; Ebert, Cornelia; Jekat, Susanne; Klabunde, Ralf; Langer, Hagen (Eds.): Computerlinguistik und Sprachtechnologie. Eine Einführung, Heidelberg 2010 05 Dorr, Bonnie Jean: Machine translation. A view from the lexicon, Cambride, MA, 1993 06 Emele, Martin C.; Dorna, Michael; Lüdeling, Anke; Zinsmeister, Heike; Rohrer, Christian: Semantic-Based Transfer. In Lit. 24, 359-376 07 Fraser, Alexander; Weller, Marion; Cahill, Aoife; Cap, Fabienne: Modeling Inflection and Word-Formation in SMT. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL), 2012, 664-674 08 Fritzinger, Fabienne; Fraser, Alexander: How to Avoid Burning Ducks: Combining Linguistic Analysis and Corpus Statistics for German Compound Processing. Proceedings of the ACL 2010 Joint 5. Workshop on Statistical Machine Translation and Metrics MATR, 2010, 224-234 09 Goodman, Kenneth; Nirenburg, Sergei (Eds.): The KMBT project: a case study in knowledge-based Machine Translation, San Mateo, CA, 1991 10 Hutchins, William John; Somers, Harold: An introduction to machine translation, Chichester, 1/1992, 2/1997 11 Jekat, Susanne; Volk, Martin: Maschinelle und computergestützte Übersetzung. In Lit. 04, 642-658 12 Kaplan, Ronald M.; Netter, Klaus; Wedekind, Jürgen; Zaenen, Annie: Translation By Structural Correspondences. Dalrymple, Mary et al. (Eds.): Formal Issues in Lexical-Functional Grammar, Stanford, 1995, 311-329 13 Kay, Martin; Röscheisen, Martin: Text-translation alignment. Computational Linguistics – Special issue on using large corpora (1), 121-142, 1993 14 Koehn, Philipp: Statistical Machine Translation, Cambridge, UK, 2009 15 Koehn, Philipp; Knight, Kevin: Empirical Methods for Compound Splitting. Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL), 2003, 187-193 16 Koller, Werner: Einführung in die Übersetzungswissenschaft, Heidelberg/Wiesbaden, 1992 17 Locke, William N.; Booth, Donald A. (Eds.): Machine Translation of Languages. Cambridge, MA, 1955 18 Nirenburg, Sergei (Ed.): Machine Translation. Theoretical and methodological issues, Cambridge UK, 1987 19 Nirenburg, Sergei; Carbonell, Jaime; Tomita, Masaru; Goodman, Kenneth: Machine Translation: A knowledge-based approach, San Mateo, CA, 1992 20 Nyberg, Eric; Mitamura, Teruko; Carbonell, Jaime G.: The KANT Machine Translation System: From R&D to Initial Deployment, Carnegie Mellon University, Computer Science Department. Paper 339. (http:// repository.cmu.edu/compsci/339) 21 Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing: BLEU: a method for automatic evaluation of machine translation. ACL-2002: 40th Annual meeting of the Association for Computational Linguistics, 2002, 311-318 22 Pierce, John R.et al.: Language and Machines – Computers in Translation and Linguistics. ALPAC report, National Academy of Sciences, National Research Council, Washington, DC, 1966 (http://www.nap.edu/ openbook.php?record_id=9547) 23 Schubert, Klaus: Esperanto as an Intermediate Language for Machine Translation. Newton, John (Ed.): Computers in Translation. London/New York, 78-95, 1992 24 Wahlster, Wolfgang (Ed.) Verbmobil: Foundations of Speech-to-Speech Translation, Berlin, 2000 25 Weaver, Warren: Translation. In Lit. 17, 15-23
URL-Verzeichnis URL1 http://www.statmt.org URL2 http://www.systransoft.com URL3 http://www.systran.de URL4 http://www.klausschubert.de/forschung/fo_dlt.htm
Bernd Ludwig
B 14 Spracherkennung B 14.1 Aufgabenstellung, Ziele und aktuelle Lösungen Automatische Erkennung gesprochener Sprache (Spracherkennung oder Englisch speech recognition) ist ein Anwendungsgebiet der Mustererkennung, einer Teildisziplin der Informatik. Über geeignete Hardwareschnittstellen für Audiosignale ist es einfach, über ein Mikrophon Sprachsignale aufzunehmen und digitalisiert in einem Rechner zu speichern (Lit. 03, Lit. 06). Die Aufgabe der Spracherkennung ist es nun, mit geeigneten Verfahren der Mustererkennung das Sprachsignal in eine Folge von Symbolen zu übersetzen – bei der Worterkennung sind diese Symbole die gesprochenen Wörter in der gesprochenen Reihenfolge. Andere Aufgabenstellungen interessieren sich nicht für die Wortfolge, sondern etwa für die Identifikation des Sprechers oder bestimmter Merkmale der Sprache. Letzteres ist eine in der Medizininformatik verbreitete Fragestellung (siehe etwa Lit. 09, Lit. 02, Lit. 11). Die Hauptanwendungen sind jedoch Diktiersysteme mit Standard- oder Spezialvokabular für bestimmte Branchen wie etwa Ärzte oder Anwälte, Dialogsysteme beispielsweise im KFZ oder in Call Centern. Immer mehr Verbreitung findet die Spracherkennung auch in smart phones als Ergänzung zu den graphischen Bedienschnittstellen – ein prominentes Beispiel dafür ist SIRI von Apple (Lit. 10) oder die Spracherkennung von Google. Bei allen Beispielen ist das Problem der Worterkennung zu lösen, das in zwei Facetten auftreten kann: Bei der sprecherunabhängigen Erkennung erfolgt keine Adaption des Spracherkennungssystems auf die Artikulation einzelner Sprecher, während bei der sprecherabhängigen Erkennung vor der ersten Nutzung ein Trainingslauf durchzuführen ist, bei dem durch Vorlesen eines vorgegebenen Texts Besonderheiten der Aussprache einzelner Nutzer erfasst werden, um später bessere Erkennungsergebnisse erzielen zu können. Durch dieses Training können auch erheblich größere Vokabularien als bei der sprecherunabhängigen Erkennung zum Einsatz kommen (Lit. 07).
B 14.2 Akustische Modelle für gesprochene Sprache B 14.2.1 Grundlagen der Sprachproduktion Sprache ist das akustisch wahrnehmbare Produkt des menschlichen Sprechapparats, genauer gesagt des Artikulationstrakts. Durch Kontraktion des Brustkorbs wird der Luftdruck in der Lunge erhöht. Von dort entweicht Luft durch die Luftröhre, wird in den Kehlkopf gepresst und muss die Stimmritze (Glottis) passieren. Je nach deren Stellung entstehen stimmlose Laute (bei weit geöffneter Glottis), stimmhafte Laute (bei verengter Glottis) oder der Glottisschlag (bei vollständig geschlossener Stimmritze). Der so angeregte Schall durchläuft nun den Vokaltrakt, der aus dem Mundraum und dem Nasenraum besteht. Der Mundraum ist ein Resonanzraum, dessen Form durch den weichen Gaumen (velum), Oberlippe, Oberzähne, Unterlippe, Zungenrücken und Zungenspitze verändert werden kann. Er kann Resonanzen unterschiedlicher Frequenzen erzeugen, die so genannten Formanten, aus denen die Vokale der deutschen Sprache zusammengesetzt sind. Der Nasenraum hingegen ist nicht deformierbar. Von der Luftröhre kann er durch Schließen des weichen Gaumens getrennt werden. In diesem Fall entstehen rein orale Laute, während für nasale Leute das Velum geöffnet wird, so dass auch Luft in den Nasenraum strömen kann und dort zur Schwingung angeregt wird. Laute werden in Vokale und Konsonanten unterschieden. Konsonanten, egal ob stimmhaft oder stimmlos, entstehen, indem der Luftstrom im Vokaltrakt durch die dortigen aktiven und passiven Artikulatoren, die oben genannt wurden, verändert wird. Bei der Erzeugung von Vokalen spie-
314
B 14: Bernd Ludwig
len die vertikale und horizontale Lage der Zunge, die Lippenstellung und die Dauer der Artikulation die entscheidende Rolle bei der Erzeugung der für einen Vokal charakteristischen Schwingungen des Luftstroms aus der Lunge. Weitere Details zur Sprachproduktion und ihren physiologischen Grundlagen finden sich beispielsweise in Lit. 08, Kapitel 7 oder Lit. 07, Kapitel 1.1. B 14.2.2 Das Source-Filter-Modell Für die automatische Spracherkennung ist es für deren Erfolg entscheidend, das oben kurz skizzierte physiologische Modell in ein formales, mathematisch beherrschbares abzubilden. Die digitale Signalverarbeitung (Lit. 15) bietet die dazu notwendige mathematische Theorie an. Seit Lit. 05 ist das so genannte source-filter-Modell akzeptiert, das die Stimmritze als Signalquelle und den Vokaltrakt als Filter des zu beschreibenden Sprachsignals versteht. Durch die Öffnung der Stimmritze wird im Luftstrom eine Schwingung einer bestimmten Frequenz erzeugt, die durch weitere Schwingungen (so genannte harmonische Schwingungen) überlagert wird, deren Frequenz jeweils ein Vielfaches der ursprünglichen Frequenz ist. Diese zusätzlichen Schwingungen haben aber eine niedrigere Amplitude, werden also leiser wahrgenommen. Der Vokaltrakt wirkt nun als Filter auf diese Schwingungen ein. Dabei verstärkt er die Amplitude einiger von ihnen und dämpft sie bei einigen anderen der Schwingungen – je nachdem, wie die „Röhren“ Mundraum und Nasenraum geformt werden. Bei der Erzeugung von Vokalen findet die Verformung durch die Positionierung der Zunge und der anderen Artikulatoren statt – je nach Position werden unterschiedliche harmonische Schwingungen der Grundfrequenz verstärkt, und es sind dann immer andere Vokale zu hören. Bei der Erzeugung von Konsonanten sind die Lippen und die Zähne wichtige Artikulatoren, die für die richtige Form der Resonanzräume sorgen. B 14.2.3 Mathematische Formulierung Aus der Akustik ist bekannt, dass Schwingungen, die ja als Töne wahrgenommen werden, mathematisch durch Sinusfunktionen modelliert werden. Durch die Periodizität der Sinusfunktion wird modelliert, dass eine Schwingung regelmäßig wiederholt wird, wenn ein Ton lange zu hören ist. Seine Lautstärke wird durch die Amplitude, seine Höhe durch die Frequenz der Schwingung ausgedrückt. Die Schwingung ist also eine Funktion der Zeit:
= y(t) A·sin(2πft). Dabei ist A die Amplitude und f die Frequenz der Schwingung. Informell gesprochen gibt die Frequenz die Zahl der Wiederholungen der Schwingung pro Sekunde an. Die Periode der Schwingung, also die Dauer einer kompletten Schwingung, errechnet sich also durch 1 T(f ) = . f Was hat nun dieses Modell einer Schwingung mit gesprochener Sprache zu tun? Wie oben erläutert, produziert die Stimmritze im Luftstrom eine Schwingung mit der so genannten Grundfrequenz und viele dazu harmonische Schwingungen. Diese werden im Vokaltrakt von den Artikulatoren modifiziert: ihre Amplitude wird erhöht (Verstärkung der harmonischen Schwingung) oder gesenkt (Dämpfung). Ein akustisches Signal gesprochener Sprache entsteht also durch additive Überlagerung der Schwingung in der Grundfrequenz mit den modifizierten harmonischen Schwingungen. Welche harmonische Frequenz welche Änderung der Amplitude erfährt, ist von entscheidender Bedeutung für die Spracherkennung. Denn einzelne Vokale und Konsonanten können gerade anhand dieser Werte voneinander unterschieden werden. Für diese Rekonstruktion müssen wir nochmals
B 14: Spracherkennung
315
Rachenraum
Gaumensegel
Lunge
Stimmbänder
auf das source-filter-Modell zurückkommen. Die Skizze in Abbildung 1 zeigt schematisch, wie in der Lunge durch Kompression der Luft eine Schallwelle entsteht, die aus überlagerten Schwingungen besteht und von den Stimmbändern, dem Gaumensegeln und den Artikulatoren in Mund- und Nasenraum modifiziert wird.
Nasenraum
Mundraum Schalldruck
Grundfrequenz
Modulation: Lautartikulation
Abb. 1: Schematische Darstellung der Komponenten, die an der Sprachproduktion beteiligt sind, und ihrer Bedeutung für die Schallwellen
Aus mathematischer Sicht generiert die Lunge, indem sie die Luft in ihr unterschiedlich komprimiert, eine unendliche Reihe von Schalldruckpegelwerten. Die oben beschriebene Modifikation des Pegels ist dabei als Filter zu interpretieren, dessen Einfluss berechnet wird, wie in Abbildung 2 beschrieben: Auch der Filter ist eine unendliche Reihe von Werten. Ein modifizierter Wert des Schalldruckpegels entsteht, indem jeder ursprüngliche Wert mit einem Wert des Filters linear gewichtet wird. In Abbildung 2 ist der ursprüngliche Verlauf des Schalldruckpegels durch die Funktion h(n) gegeben, der Filter durch x(n). Die Gewichtung des Pegels ist im Graphen zu x(n-k) · h(k) zu sehen. h(n) durchläuft also x(n) von links nach rechts, wobei Werte für kleines n zuerst an die Reihe kommen, weil sie ja die älteren sind und zuerst am Filter eintreffen (siehe den Graphen zu „x(n-k) and h(k)“ in Abbildung 2). Diesem Sachverhalt wird dadurch Rechnung getragen, dass für ein festes n der Filter x an der Stelle n-k ausgewertet wird, was einer Umkehrung der Reihenfolge der Werte von x gleich kommt. Der gefilterte Schalldruckpegel entsteht (wie schon der Ausgangspegel) durch eine additive Überlagerung aller ursprünglichen, jetzt aber mit x(n-k) gewichteten Schalldruckpegelwerte (siehe den untersten Graphen in Abbildung 2). Es entsteht dabei eine Schallwelle derselben Länge, wie sie die in der Lunge erzeugte Schallwelle aufweist. Jeder ihrer Pegelwerte „stößt“ dabei gegen jeden Pegelwert des Filters und wird dadurch moduliert. So entstehen die unterscheidbaren Schallwellen, die für Vokale und Konsonanten charakteristisch sind. Dieses rechnerische Modell ist ein der Mathematik sehr vertrautes Objekt, es handelt sich dabei um eine Faltung von Funktionen (siehe beispielsweise Lit. 16 für eine umfassende Darstellung).
316
B 14: Bernd Ludwig
Abb. 2: Schema der Funktionsweise eines linearen Filters (Faltung)
Mit dieser Kenntnis lässt sich nun das source-filter-Modell mathematisch fassen: der von den Stimmbändern angeregte Schall wird vom Vokaltrakt, bestehend aus Mund- und Nasenraum, und von den aktiven Artikulatoren gefiltert. Der letztlich wahrnehmbare Schall entsteht also, indem der Luftstrom aus der Lunge von den Stimmbändern, dem Vokaltrakt als System verbundener Röhren und den Artikulatoren gefiltert wird – ein Vorgang, der sich mathematisch als Faltung von drei Funktionen formulieren lässt. Das dabei entstehende Sprachsignal besteht, wie oben ausgeführt, aus überlagerten Schwingungen. Einzelne Laute entstehen, indem lautspezifische Filter auf das Ausgangssignal angewendet werden. Aufgabe der Spracherkennung ist es also, herauszufinden, in welcher Reihenfolge welche Filter zum Einsatz kamen, um daraus die artikulierte Lautfolge zu rekonstruieren. Bei der Analyse dieser Lautfolgen sind drei Dimensionen zu berücksichtigen: –– Frequenzen der für den Laut charakteristischen Schwingungen, –– ihre Amplituden und –– die zeitliche Ausdehnung des Lauts (wurde er lang oder kurz gesprochen). Die Herausforderung besteht also darin, diese Parameter aus dem zweidimensionalen Sprachsignal – es sind ja nur der aus den Überlagerungen resultierende Pegel und die Zeitdauer messbar – zu rekonstruieren. Glücklicherweise bietet die Mathematik auch hierfür ein Hilfsmittel an: Ein wichtiges Theorem aus der Analysis besagt, dass jedes Sprachsignal durch eine Überlagerung von Sinus- und Cosinuswellen approximiert werden kann (siehe etwa Lit. 01). Das bedeutet: wenn es gelingt, eine Reihe von Parametern für Frequenz und Amplitude zu finden, mit der zu jedem Zeitpunkt das Sprachsignal optimal approximiert werden kann, dann hat man eine Schätzung dafür, welche Schwingungen an der Entstehung des Lauts zu diesem Zeitpunkt beteiligt waren. Weiß man nun noch, welche Schwingungen welchen Laut charakterisieren, kann man eine plausible Hypothese abgeben, zu welchem Zeitpunkt welcher Laut artikuliert wurde. Die charakteristischen Frequenz- und Amplituden-Parameter für Laute sind bekannt (siehe etwa Lit. 14). Abbildung 3 zeigt drei Beispiele. Die x-Achse steht für die zeitliche Ausdehnung des Lauts, an der y-Achse sind Frequenzen in einem Bereich angetragen, der von der menschlichen Sprachproduktion abgedeckt wird. Die Amplitude einer Frequenz ist die dritte Dimension und durch den Farbwert angegeben. Je dunkler ein Punkt, desto höher ist die Amplitude und desto wichtiger ist diese Frequenz für den Laut. Die Frequenzen mit den beiden jeweils höchsten Ampli-
B 14: Spracherkennung
317
tuden sind in Abbildung 3 markiert; es ist zu erkennen, dass sie für jeden Vokal an typischen Positionen im Frequenzspektrum liegen. Diese Stellen sind die so genannten Formanten, die bereits erwähnt wurden. Voraussetzung für die Rekonstruktion der artikulierten Lautfolge aus einem Sprachsignal ist also dessen Transformation in eine Darstellung wie in Abbildung 3 in einer geeigneten mathematischen Formulierung, die – wie in Lit. 01 ausführlich erläutert wird – durch das Verfahren der diskreten Fourier-Transformation erzeugt wird. Die bisherige Darstellung überspringt – dem Zweck des vorliegenden Artikels geschuldet – viele technische Details, die sehr anschaulich etwa in Lit. 14 beschrieben sind. In Lit. 12 wird detailliert die mathematische Formulierung der Parameter, der so genannten Mel-Cepstrum-Koeffizienten, vorgestellt.
Abb. 3: Spektrogramm der Vokale i, u und a (Amerikanisches Englisch) (Quelle: http://commons.wikimedia. org/wiki/File:Spectrogram_-iua-.png)
B 14.3 Mathematische Modelle für gesprochene Sprache Der Überblick über die automatische Spracherkennung hier soll statt einer detaillierten Vorstellung der Merkmale für Laute fortgesetzt werden mit einer Einführung in die Thematik, wie die Aussprache ganzer Wörter modelliert wird. Wie auch bei den oben beschriebenen akustischen Merkmalen gab und gibt es in der Entwicklung der Spracherkennungstechnologie verschiedene Ansätze zur Worterkennung (einen schönen Überblick dazu gibt Lit. 13). Hier soll nur der zur Zeit am weitesten verbreitete vorgeführt werden. Die Idee dabei besteht darin, dass für einzelne Wörter Aussprachemuster existieren, wie man sie etwa aus der Lautschriftnotation in Wörterbüchern kennt. Daraus lässt sich ein Aussprachemodell für jedes Wort ableiten, d. h. eine Lautfolge dafür festlegen. Einzelne Sprecher halten sich nun zu einem großen Ausmaß an dieses Modell, nicht aber in jedem Detail. Denn es gibt unterschiedliche Sprechgeschwindigkeiten, unterschiedliche Artikulation, Unsauberheiten in der Aussprache, dialektale Verfärbung, unterschiedliche Charakteristika der Stimme von Frauen und Männern, von Kindern, Erwachsenen und älteren Personen. Die akustische Umsetzung des „idealen“ Aussprachemodells für ein Wort manifestiert sich also in vielen Varianten der konkreten Werte für die berechnete Folge von Mel-Cepstrum-Koeffizienten. Die Folgerung daraus ist, dass es keine sichere Zuordnung von Koeffizienten-Folgen zu Lauten und von Lautfolgen zu Wörtern geben kann, sondern nur plausible, aber eventuell fehlerbehaftete. Der Spracherkenner steht also in der Praxis oft vor einem Entscheidungsproblem, was er nun eigentlich beobachtet hat (durch Berechnung der Koeffizienten).
318
B 14: Bernd Ludwig
Es gibt nun ganz allgemein verschiedene algorithmische Ansätze, um mit dieser Unsicherheit umzugehen. In der Spracherkennung hat sich als Standard etabliert, die Unsicherheit bei den beiden Zuordnungsvorgängen mit Hilfe stochastischer Automaten zu modellieren. Im Folgenden soll ein Überblick über diese Idee, die in Lit. 04 ausführlich erläutert wird, gegeben werden. Die grundlegende Idee besteht darin, für ein Wort festzulegen, welcher Laut mit welcher Wahrscheinlichkeit auf welchen anderen folgt, wenn dieses Wort gesprochen wird. Für ein Wort w und ein endliches Lautinventar l1, l2, …, ln lässt sich also ein Modell nach dem Schema von Tabelle 1 aufstellen: Jede Zelle gibt die Wahrscheinlichkeit dafür an, dass in Wort w auf einen bestimmten Laut an der Position i-1 im Wort einer der bekannten Laute an der Position i folgt. w
P (lauti | lauti-1)
l1 lauti l2 … ln
lauti-1 l2 … ln
l1
P (lauti = l2 | lauti-1 = l1)
Tab. 1: Schema der Übergangswahrscheinlichkeiten eines stochastischen Automaten für das Aussprachemodell des Worts w
Würde mit einem Schema wie in Tabelle 1 die Orthographie von w modelliert werden, so fände sich in jeder Zeile genau einmal der Wert 1, nämlich gerade an der Stelle, die den korrekten, an Position i auf den korrekten an Position i-1 folgenden Buchstaben bezeichnet. Handelt es sich um Laute, so ist aus den oben angeführten Gründen die Verteilung der Wahrscheinlichkeiten für Lautfolgen eine andere. Damit ein Spracherkenner arbeiten kann, ist also für jedes Wort, das er erkennen können soll, eine Tabelle mit den worttypischen Werten für diese Wahrscheinlichkeiten festzulegen. Um zu erklären, wie mit derartigen Tabellen Spracherkennung durchgeführt werden kann, gehen wir zunächst davon aus, dass die nötigen Wahrscheinlichkeiten bekannt sind. Wie sie erhoben werden, soll dann im Anschluss skizziert werden. Wir gehen zunächst auch davon aus, dass eine Sequenz von Lauten vorliegt; wie sie ermittelt wird, soll auch im Anschluss an die Erläuterung des grundsätzlichen Prinzips der Dekodierung der Lautsequenz besprochen werden. Ziel der Erkennung eines einzelnen Worts ist es, diejenige Tabelle (und damit dasjenige Wort w) zu finden, das die höchste Wahrscheinlichkeit für die vorliegende Lautsequenz l1, l2, …, li, …, lT erzeugt. Dazu muss für w die Wahrscheinlichkeit P (l1, l2, …, li, …, lT) anhand der Tabelle für w ermittelt werden. Aus der Wahrscheinlichkeitsrechnung ist nun folgender Zusammenhang bekannt: P (l1, l2, …, li, …, lT) = P (lT | l1, l2, …, lT-1) · P (l1, l2, …, lT-1) Er kann auch wiederholt auf den zweiten Faktor rechts angewandt werden. Schließlich ergibt sich: P (l1, l2, …, li, …, lT) = P (l1) ·
T
∏ P (l , l , …, l k =2
k
1
)
k-1
Diese Formel erfordert die Kenntnis der Wahrscheinlichkeit, mit der w mit dem Laut l1 beginnt und von Übergangswahrscheinlichkeiten für Laute an den übrigen Positionen unter Kenntnis aller vorausgehenden Laute. Während erstere in der Praxis bestimmt werden kann, weil nur für alle be-
B 14: Spracherkennung
319
kannte Laute ermittelt werden muss, wie wahrscheinlich w mit irgendeinem von ihnen beginnt, sind die Übergangswahrscheinlichkeiten praktisch nicht ermittelbar. Denn für jede Sequenzlänge T müsste dann eine Wahrscheinlichkeitsverteilung bestimmt werden. In der Stochastik behilft man sich aus diesem Dilemma, indem man (näherungsweise) annimmt, dass die Wahrscheinlichkeit für einen Laut an der Position i nur von der Kenntnis des Lauts bei i-1 abhängt. Damit vereinfacht sich die Formel von oben zu: P (l1, l2, …, li, …, lT) ≈ P (l1) ·
T
∏ P (l
k
k =2
| lk-1)
Es sind also nur noch die Schemata aus Tabelle 1 erforderlich, um berechnen zu können, mit welcher Wahrscheinlichkeit die Lautsequenz das Wort w codiert. Einen Algorithmus zu definieren, der diese Wahrscheinlichkeit ermitteln kann, ist eine sehr komplizierte Aufgabe, zu deren Lösung auf die Literatur (etwa Lit. 04) verwiesen wird. Um einen Eindruck zu geben, sei beispielhaft angenommen, dass ein Spracherkenner nur über ein Inventar von zwei Lauten verfügt. Da keine Restriktionen bestehen, welche Lautfolge der Länge T dem Erkenner vorgelegt wird, sind also 2T Folgen möglich! Für einen Überblick über die Funktionsweise der Spracherkennung müssen wir uns hier einer anderen Frage zuwenden. Wir haben bisher angenommen, dass die einzelnen Laute in der vorliegenden Sequenz mit Sicherheit bestimmt werden können. Das Spektrogramm in Abbildung 3 illustriert jedoch, dass diese Sicherheit trügerisch ist. Es gibt große Überlappungsbereiche für die Formanten, und Verwechslungen oder zumindest mehrdeutige Befunde sind nicht ausgeschlossen. Außerdem verschieben sich die Maxima der Amplituden während der Zeitspanne, in der die Vokale gesprochen werden, zumindest geringfügig. Die Zuordnung der Mel-Cepstrum-Koeffizienten zu Lauten ist also wie schon die Abfolge von Lauten mit Unsicherheit behaftet! Dabei ist auch unsicher, wie viele aufeinander folgende Mel-Cepstrum-Koeffizienten einem Laut zuzuordnen sind. Die zur Zeit etablierte Lösung für diese Problematik besteht aus drei Schritten: –– Konstruktion stochastischer Automaten für Laute –– Erweiterung der Automaten um Wahrscheinlichkeiten für ermittelte Mel-Cepstrum-Koeffizienten –– Verwendung dieser Automaten zur Lauterkennung in den Automaten zur Worterkennung Der erste Schritt besteht konkret darin, für jeden Laut einen eigenen Automaten anzulegen. Er besteht aus einem Startzustand, einem Zustand für den Beginn des Lauts, einem Zustand für die Lautmitte, einem Zustand für das Ende des Lauts und einem Endzustand. Der zweite Schritt besteht darin, Wahrscheinlichkeiten dafür zu benutzen, dass an einer bestimmten Stelle im Sprachsignal konkrete Werte für die Mel-Cepstrum-Koeffizienten beobachtet wurden, wenn sich der Automat gerade im Zustand Lautbeginn, Lautmitte oder Lautende befindet. Bei jedem neu beobachteten Koeffizienten kann der Automat im aktuellen Zustand verbleiben oder von Lautbeginn zu Lautmitte bzw. Lautmitte zu Lautende wechseln oder in den Endzustand übergehen, von dem aus ein nachfolgender Laut decodiert werden kann. In diesem Automatenmodell ist also neben der Reihenfolge der beobachteten Koeffizienten c1, …, cT die mit ihnen zusammenhängende Reihenfolge der Zustände s1, …, sT zu betrachten. Die Wahrscheinlichkeit, dass eine Koeffizientenfolge c1, …, cT zu einem Laut l passt, berechnet sich damit durch: P (c1, …, cT | l ) =
∑
s1 ,…,sT
P (s1 | l ) ·
T
∏ P (s k =2
k
| sk-1, l ) · P (ck | sk, l )
Der Zustandsübergang von k-1 nach k wird also mit der Wahrscheinlichkeit, dass in sk überhaupt ck beobachtet werden kann, gewichtet. Ist die Beobachtung unwahrscheinlich, steigt also die Chance für einen Wechsel in einen anderen Zustand an. Die Summe in der Formel oben erklärt sich dadurch, dass jede Zustandsfolge der Länge T eine bestimmte Wahrscheinlichkeit bewirkt, dass c1, …, cT beobachtet werden kann. Eine ausführliche Erörterung dieses Automatenmodells, das unter dem Namen nach seinem Erfinder Hidden Markov Model genannt wird, weil eben die Folge der Zustände
320
B 14: Bernd Ludwig
unbekannt ist, während die Beobachtungen gemacht werden, findet sich in Lit. 04 oder in Lit. 08. Der dritte Schritt wird umgesetzt, indem im Aussprachemodell für ein Wort die Folge der Laute durch die Folge der Hidden Markov-Modelle ersetzt werden. Die einzelnen Modelle werden über die End- und Startzustände aneinander gekoppelt. Daraus entsteht ein Hidden Markov-Modell für jedes Wort aus dem Vokabular des Spracherkenners (siehe Lit. 08). Bisher wurde davon ausgegangen, dass die Wahrscheinlichkeiten in den Modellen bekannt sind. Natürlich ist dies zunächst nicht der Fall. Mit Hilfe von Verfahren des maschinellen Lernens, wie sie in Lit. 04 beschrieben sind, müssen sie aus Daten, in denen mögliche Beobachtungen des Erkenners von menschlichen Experten intellektuell mit dem richtigen Zustand annotiert worden sind, geschätzt werden. Die Beschreibung dieser Verfahren sprengt jedoch den Rahmen des Artikels – der Leser möge sich in der genannten Spezialliteratur (z. B. Lit. 04, Lit. 08) informieren.
B 14.4 Kontinuierliche und sprecheradaptive Spracherkennung Konzeptionell ist der Sprung von der bisher beschriebenen Erkennung von Einzelwörtern zur Erkennung kontinuierlicher Sprache ohne explizite Pausen zwischen den Wörtern nicht groß. Die Hidden Markov-Modelle für Wörter können genauso zu Modellen für Sätze konkateniert werden, wie Modelle für Laute zu Aussprachemodellen für Wörter zusammengefügt werden. Die Herausforderung liegt eher in einer algorithmischen Lösung für das Suchproblem, dessen Komplexität durch zwei Aspekte dominiert wird: –– Da keine Pausen zwischen Wörtern vorhanden sind, ist nach einer Hypothese für ein gesprochenes Wort auch eine Pause anzunehmen. –– Da nach einer Hypothese grundsätzlich jedes andere Wort gesprochen worden sein kann, entstehen sehr komplexe Suchstrukturen mit zu verfolgenden Pfaden. Bei modernen Spracherkennern für sehr große Vokabularien (z. B. Diktiersysteme mit – zum Teil weit – über 100.000 Wörtern) ist die Komplexität nicht mehr zu bewältigen, wenn Aussprachemodelle für ganze Wörter eingesetzt werden. Diese Spracherkenner verfügen daher über Aussprachemodelle für Wortbestandteile, die in vielen Wörtern vorkommen. Dadurch wird die Komplexität der Suchstruktur erheblich reduziert. Um dieses Suchproblem effizient zu lösen, wurden in der Vergangenheit verschiedene Strategien realisiert, deren Verständnis fortgeschrittene Kenntnisse in Suchverfahren der Künstlichen Intelligenz erfordert. Darüber hinaus kommen zahlreiche Heuristiken zum Einsatz, um das Wachstum der Suchstruktur zu begrenzen bzw. nachträglich zu reduzieren. Diese Thematik wird in Lit. 04 oder auch Lit. 08 ausführlich vertieft. Der letzte Punkt, der in diesem Überblick anzuschneiden ist, betrifft die Sprechervariabilität. Lit. 07 führt in einer Klassifikation von Ursachen für die Variabilität von Sprache die Problemfelder Stilvariation, Stimmqualität, Kontext, Stress und Sprechgeschwindigkeit an. Alle diese Faktoren haben Einfluss auf die Sprachproduktion und das daraus resultierende Sprachsignal. Sprecherunabhängige Systeme weisen daher große Unterschiede in der Erkennungsrate zwischen verschiedenen Sprechern und in unterschiedlichen Sprechsituationen auf. Sie werden mit akustischen Modellen parametrisiert, die einen Durchschnitt über das ganze Spektrum der Variabilitäten darstellen. Für einen konkreten Sprecher können diese Werte unangemessen sein, so dass für ihn nur unbefriedigende Erkennungsraten erzielt werden können. Die einfachste Alternative sind sprecherabhängige Parametrisierungen, wie sie in Diktiersystemen mit großen Vokabularien üblich sind. In der Praxis ist dies mit einer Trainingsphase verbunden, in der Nutzer vor dem ersten Gebrauch kontrolliert Texte mit dem mitgelieferten Mikrophon vorsprechen müssen. Aus diesen Daten werden dann bestimmte Parameter in den akustischen Modellen des Spracherkenners an die Stimmcharakteristik des Sprechers und an die technischen Gegebenheiten des Mikrophons adaptiert.
B 14: Spracherkennung
321
Neben dieser off-line-Adaption vor der eigentlichen Spracherkennung gibt es auch on-line-Verfahren, die eine Adaption während des Spracherkennungsvorgangs vornehmen, ohne dass der Nutzer davon etwas bemerkt. Dabei werden die akustischen Modelle nach jeder erkannten Äußerung aktualisiert – ein Vorgehen, dessen Erfolg extrem davon abhängt, wie gut die ursprüngliche Erkennungsrate für den Nutzer war. Hinter der on-line-Adaption stehen komplexe mathematische Optimierungsverfahren, die Lit. 04 vorstellt. Aktuelle Trends auf diesem Gebiet werden auch in Lit. 13 besprochen. Dort wird auch darüber berichtet, dass das Gebiet der Spracherkennung noch große Fortschritte zu leisten hat, um einige der system- und ansatzimmanenten Schwierigkeiten zu lösen und den Erwartungen der Kunden und Nutzer besser gerecht zu werden. Geradezu ein Paradoxon in diesem Zusammenhang sind aktuelle kommerzielle Trends: die Preise für Spracherkennungssysteme fallen in den Keller, seit sie in Desktop-Rechnern und vor allem in Smartphones zum standardmäßigen Lieferumfang der Hardware gehören. Mit den Preisen sinkt allerdings auch das Interesse in Entwicklung und Forschung auf dem Gebiet – trotz bekannter Defizite und Lösungsansätze. Man darf gespannt sein, wie sich die automatische Spracherkennung in der Zukunft entwickeln wird.
Literatur 01 Peter Bloomfield: Fourier Analysis of Time Series: An Introduction. Wiley series in probability and statistics: Applied probability and statistics. Wiley, 2004. ISBN 9780471653998 02 Tobias Bocklet; Korbinian Riedhammer; Elmar Nöth; Ulrich Eysholdt; Tino Haderlein: Automatic intelligibility assessment of speakers after laryngeal cancer by means of acoustic modeling. Journal of Voice 26 (3), 390–397, 2012 03 Marina Bosi; Richard E. Goldberg: Introduction to Digital Audio Coding and Standards. Springer, 2003. 04 Renato De Mori; Bianca Angelini: Spoken Dialogues With Computers. Signal processing and its applications. Academic Press, 1998. ISBN 9780122090554 05 Gunnar Fant: Acoustic Theory of Speech Production. Mouton, The Hague, 1960 06 Emmanuel C. Ifeachor; Barrie W. Jervis: Digital Signal Processing: A Practical Approach. Pearson Education Limited, 2002 07 Jean-Claude Junqua; Jean-Paul Haton: Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer international series in engineering and computer science. Springer, 1995. ISBN 9780792396468 08 Daniel Jurafsky; James H. Martin: Speech and Language Processing (2nd Edition) (Prentice Hall Series in Artificial Intelligence). Prentice Hall, 2 edition, 2009. ISBN 0131873210 09 Christian Knipfer: Tobias Bocklet: Elmar Nöth; Maria Schuster; Biljana Sokol; Stefan Eitner; Emeka Nkenke; Florian Stelzle: Speech intelligibility enhancement through maxillary dental rehabilitation with telescopic prostheses and complete dentures: a prospective study using automatic, computer-based speech analysis. The International Journal of Prosthodontics 1 (25), 24-32, 2012 10 Carsten Meyer; Andreas Stiller: Gehöriges Teil. Was hinter dem Sprachassistenten Siri steckt. Mac & i, Nr. 4, 2011 11 Cornelia Moers; Bernd Möbius; Frank Rosanowski; Elmar Nöth; Ulrich Eysholdt; Tino Haderlein: Voweland Text-based Cepstral Analysis of Chronic Hoarseness. Journal of Voice, 26 (4), 416-424, 2012 12 Heinrich Niemann: Klassifikation von Mustern. 2. Edition, Mai 2003 (http://www5.informatik. uni-erlangen.de/fileadmin/Persons/NiemannHeinrich/klassifikation-von-mustern/m00-www.pdf) 13 Roberto Pieraccini: The Voice in the Machine: Building Computers that Understand Speech. MIT Press, Cambridge, MA, 2012. ISBN 978-0-262-01685-8 14 Ernst Günter Schukat-Talamazzini: Automatische Spracherkennung – Grundlagen, statistische Modelle und effiziente Algorithmen. Künstliche Intelligenz. Vieweg, 1995. ISBN 978-3-528-05492-2 15 Jean Jiang Li Tan: Fundamentals of Analog and Digital Signal Processing. AuthorHouse, 2008. ISBN 9781434356413 16 Osman Tokhi: Signals and Linear Systems Analysis. Prentice Hall, 2010
Norbert Fuhr
B 15 Modelle im Information Retrieval B 15.1 Einführung Information-Retrieval-(IR-)Modelle spezifizieren, wie zu einer gegebenen Anfrage die Antwortdokumente aus einer Dokumentenkollektion bestimmt werden. Ausgangsbasis jedes Modells sind bestimmte Annahmen über die Repräsentation von Fragen und Dokumenten. In der Regel werden die Elemente dieser Repräsentationen als Terme bezeichnet, wobei es aus der Sicht des Modells egal ist, wie diese Terme aus dem Dokument (und analog aus der vom Benutzer eingegebenen Anfrage) abgeleitet werden: Bei Texten werden hierzu in der Regel computerlinguistische Methoden (vgl. B 10 Informationslinguistik) eingesetzt, aber auch komplexere automatische Erschließungsverfahren oder manuelle Deskriptionen können zur Anwendung kommen. Repräsentationen besitzen ferner eine bestimmte Struktur. Ein Dokument wird meist als Menge oder Multimenge von Termen aufgefasst, wobei im zweiten Fall das Mehrfachvorkommen berücksichtigt wird. Diese Dokumentrepräsentation wird wiederum auf eine sogenannte Dokumentbeschreibung abgebildet, in der die einzelnen Terme gewichtet sein können; dies ist Aufgabe der in B 11 (Automatische Indexierung) beschriebenen Indexierungsverfahren. Im Folgenden unterscheiden wir nur zwischen ungewichteter (Gewicht eines Terms ist entweder 0 oder 1) und gewichteter Indexierung (das Gewicht ist eine nichtnegative reelle Zahl). Analog dazu gibt es eine Fragerepräsentation; legt man eine natürlichsprachige Anfrage zugrunde, so kann man die o. g. Verfahren für Dokumenttexte anwenden. Alternativ werden auch grafische oder formale Anfragesprachen verwendet, wobei aus Sicht der Modelle insbesondere deren logische Struktur (etwa beim Booleschen Retrieval) relevant ist. Die Fragerepräsentation wird dann in eine Fragebeschreibung überführt. Neben der Definition von Frage- und Dokumentbeschreibung (sowie der Vorschrift, wie diese aus den jeweiligen Repräsentationen abzuleiten sind) spezifiziert ein Retrievalmodell auch eine Retrievalfunktion, die jedem Paar von Frage- und Dokumentbeschreibung ein Retrievalgewicht zuordnet. Zu einer gegebenen Anfrage werden dann die Dokumente nach fallenden Werten dieses Gewichts geordnet. Ein einfaches Beispiel für ein Retrievalmodell ist der Coordination Level Match, der sowohl Fragen als auch Dokumente als Mengen von Termen repräsentiert und beschreibt; die Retrievalfunktion zählt dann einfach, wie viele Terme Frage- und Dokumentbeschreibung gemeinsam haben. Im Folgenden verwenden wir zur genaueren Beschreibung der einzelnen Modelle eine Reihe von Bezeichnungen: –– T = {t1,…,tn} bezeichnet die Menge aller Terme in der Dokumentkollektion (Indexierungsvokabular) –– q: eine Frageformulierung –– Q: die Menge aller erlaubten Anfragen des jeweiligen Retrievalmodells –– d: ein Dokument –– d = (d1,…,dn): Beschreibung des Dokumentes d als Vektor von Indexierungsgewichten, wobei di das Gewicht von d für den Term ti angibt.
B 15.2 Boolesches und Fuzzy-Retrieval Beim Booleschen Retrieval sind die Frageterme ungewichtet und durch Boolesche Operatoren miteinander verknüpft. Die Dokumente haben eine ungewichtete Indexierung. Die Menge Q der erlaubten Anfragen kann man wie folgt definieren: 1. Jeder Term ti ∈ T ist eine Anfrage.
2. 3. 4. 5.
B 15: Modelle im Information Retrieval
323
Ist q eine Anfrage, so ist auch 'NOT q' eine Anfrage. Sind q1 und q2 Anfragen, so ist auch 'q1 AND q2' eine Anfrage. Sind q1 und q2 Anfragen, so ist auch 'q1 OR q2' eine Anfrage. Das sind alle Anfragen.
Die Retrievalfunktion (q, d), die das Retrievalgewicht des Dokumentes d für die Anfrage q berechnet, kann dann analog dieser Struktur wie folgt definiert werden: 1. ti ∈ T ⇒ (ti ,d) : = di 2. (q1 AND q2 ,d) = min((q1 ,d),(q2 ,d)) 3. (q1 OR q2 ,d) : = max ((q1 ,d), (q2 ,d)) 1 − (q,d) 4. ( ¬q,d) : = Aufgrund der ungewichteten Indexierung der Dokumente liefert Boolesches Retrieval nur Retrievalgewichte von 0 und 1. Zwar ist diese scharfe Trennung zwischen gefundenen und nicht gefundenen Dokumenten von Vorteil, wenn man nach formalen Kriterien sucht; bei inhaltsbezogenen Kriterien ist das Ignorieren von Vagheit und Unsicherheit durch die fehlende Gewichtung aber von Nachteil. Zudem sind die meisten Endnutzer mit der Verwendung der Booleschen Logik überfordert. Fuzzy Retrieval verwendet die gleiche Struktur der Anfragen, allerdings in Kombination mit gewichteter Indexierung (wobei die Indexierungsgewichte aber auf das Intervall [0,1] beschränkt sind). Meist wird dieselbe Retrievalfunktion wie oben beim Boolesches Retrieval verwendet. Als Retrievalgewichte ergeben sich daher Gewichte aus dem Intervall [0,1], wodurch eine echte Rangordnung der Dokumente entsteht. Als Beispiel nehmen wir ein Dokument d mit folgenden Indexierungsgewichten an: 0.9 Alpen, 0.5 Rodeln, 0.8 Abfahrtsski, 0.3 Skilanglauf. Für die Anfrage q = 'Alpen AND (Rodeln OR Skilanglauf)' ergibt sich dann (q, d) = min (0.9, max (0.5, 0.3) = 0.5. Hätte in diesem Dokument der Term Alpen nur das Gewicht 0.5, so würde sich immer noch das gleiche Retrievalgewicht für unsere Anfrage ergeben. Dies ist intuitiv nicht einsichtig und führt auch praktisch zu relativ schlechten Retrievalergebnissen. Man kann allerdings durch andere Definitionen der Retrievalfunktion zu besseren Resultaten gelangen. Eine bessere Definition der Retrievalfunktion für AND- und OR-Verknüpfungen ist folgende (an Wahrscheinlichkeiten orientierte):
(q1 AND q= ,d) : (q1 ,d) · (q2 ,d)) 2 (q1 OR q2 ,d) =: (q1 ,d) + (q2= ,d) (q1 ,d)·(q2 ,d)
Damit erhalten wir für unser obiges Beispiel (q, d) = 0.9 · (0.5 + 0.3 - 0.5 · 0.3) = 0.584. Sänke das Gewicht für Alpen von 0.9 auf 0.5, so würde das Retrievalgewicht auf 0.325 zurückgehen. Die wenigen vorliegenden experimentellen Vergleiche von Fuzzy- und Booleschem Retrieval mit anderen Verfahren zeigen, dass erstere eine relativ schlechte Retrievalqualität liefern. Beide haben den Nachteil der wenig benutzerfreundlichen Anfragesprache, und zudem konnte bislang noch niemand den theoretischen Vorteil von Modellen mit Booleschen Anfragen gegenüber solchen mit linearen Anfragen experimentell belegen.
B 15.3 Vektorraummodell B 15.3.1 Basismodell Dem Vektorraummodell (Lit. 01) liegt eine geometrische Interpretation zugrunde, bei der Dokumente und Anfragen als Punkte in einem Vektorraum aufgefasst werden, der durch die Terme der Kollektion aufgespannt wird.
324
B 15: Norbert Fuhr
Anfragen besitzen somit eine lineare Struktur, wobei die Frageterme aber gewichtet sein können (meist geht man hierzu von einer natürlichsprachigen Anfrage aus, auf die man das gleiche Indexierungsverfahren wie für die Dokumente anwendet). Die Anfrage wird somit als Vektor = q (q1 ,…,qn ) dargestellt, wobei qi das Fragetermgewicht von q für den Term ti angibt. Als Retrievalfunktion kommen Vektor-Ähnlichkeitsmaße zur Anwendung, im einfachsten Fall das Skalarprodukt: n (q,d) = q·d = ∑ qi ·di i= 1
Betrachten wir hierzu eine Suche nach einem Wintersportort in den Alpen, der Rodeln und Skilanglauf bietet, aber möglichst keinen Heli-Ski. Tab. 1 zeigt einen möglichen Fragevektor sowie vier Beispieldokumente mit ihren Indexierungsgewichten und den zugehörigen Retrievalgewichten. Entsprechend den Retrievalgewichten werden die Dokumente in der Reihenfolge d3, d1, d4, d2 ausgegeben. ti
qi
d1
d2
d3
d4
Rodeln Skilanglauf Wintersportort Alpen Heli-Ski
2 2 1 1 -2
1 1 1
0.5 1
1 1 1 1
1 1 0.5
5
2
6
4.5
(q, dm)
i
i
1 1
i
i
Tab. 1: Beispiel zum Skalarprodukt im Vektorraum
Häufig werden Dokument- und Fragevektoren auch normiert, so dass sie alle die Länge 1 haben. Dadurch kann insbesondere verhindert werden, dass lange Dokumente beim Retrieval bevorzugt werden. Dies kann man auch durch die Anwendung des Cosinus-Maßes als Retrievalfunktion erreichen: n qi · di ∑ q·d i= 1 cos(q,d) = = n n |q|·|d| ∑ qi2 · ∑ di2 =i 1 =i 1
Geometrisch lässt sich dieses Maß als der Cosinus des Winkels zwischen Frage- und Dokumentvektor deuten, der also maximal wird, wenn beide Vektoren in die gleiche Richtung zeigen. Zahlreiche experimentelle Untersuchungen haben die hohe Retrievalqualität des Vektorraummodells belegt. Die meisten Web-Suchmaschinen basieren auf diesem Modell. Es gibt Varianten des Vektorraummodells, die versuchen, die Abhängigkeiten zwischen Termen zu berücksichtigen. Die bekannteste davon ist latent semantic indexing: Basierend auf Kookkurenzdaten wird hier eine Reduktion der Dimensionalität des Vektorraums durchgeführt. Allerdings ist das Verfahren rechnerisch sehr aufwändig und führt auch nur selten zu besseren Retrievalergebnissen. Auch Modelle, basierend auf neuronalen Netzen, versuchen (durch subsymbolische Repräsentation) Termabhängigkeiten zu berücksichtigen, liefern aber bestenfalls durchschnittliche Retrievalqualität.
B 15: Modelle im Information Retrieval
325
B 15.3.2 Relevanzrückkopplung Das Vektorraummodell ist eines der Modelle, die Relevanzrückkopplung (relevance feedback) ermöglichen. Hierbei werden dem Benutzer einige Antwortdokumente zu einer initialen Anfrage vorgelegt, die er bezüglich ihrer Relevanz beurteilen soll. Aus diesen Urteilen kann man dann eine modifizierte Frageformulierung berechnen, die in der Regel zu besseren Antworten führt.
Abb. 1: Relevanzrückkopplung: Verbindungsvektor der beiden Zentroiden
Im Falle des Vektorraummodells berechnet man einen modifizierten Fragevektor, indem man zunächst die Zentroiden (Mittelpunkte) der als relevant bzw. irrelevant beurteilten Dokumente bestimmt (Lit. 02). Bezeichne DR ( DI ) die Menge der relevanten (irrelevanten) Dokumente, dann berechnet man 1 1 I qR = d und q d ∑ R I ∑ |D | d∈DR |D | d∈DI Der theoretisch optimale Fragevektor für die Menge der beurteilten Dokumente ist dann der Verbindungsvektor der beiden Zentroiden, also qopt= qR − qI Abb. 1 zeigt ein Beispiel hierzu (relevante Dokumente sind als + dargestellt, irrelevante als –). Alle Dokumente, die auf der gepunkteten Linie liegen (die senkrecht auf dem Fragevektor steht) haben den gleichen Retrievalwert. Gleichzeitig wird deutlich, dass noch bessere Fragevektoren möglich wären, die hier relevante und irrelevante Dokumente perfekt trennen würden, die aber durch dieses Verfahren nicht gefunden werden. Schwerwiegender ist allerdings die Tatsache, dass dieser Vektor keine guten Ergebnisse liefert, wenn man mit ihm Retrieval auf der restlichen Kollektion durchführt. Daher geht man über zu einer heuristischen Kombination aus diesem theoretisch optimalen Vektor und dem ursprünglichen Vektor, wobei man zudem den Einfluss der relevanten und irrelevanten Dokumente unter schiedlich gewichtet. Bezeichne q den ursprünglichen Fragevektor, so berechnet sich der verbes serte Vektor q′ zu q′= q + α·qR − β·qI
326
B 15: Norbert Fuhr
Hierbei sind α und β heuristische Konstanten, die abhängig von der Art der Kollektion und der Anzahl der beurteilten Dokumente zu wählen sind (z. B. α=0.75 und β=0.25). In Abb. 1 ist die unter schiedliche Gewichtung positiver und negativer Relevanzurteile dargestellt, wobei der Vektor q zur Vereinfachung als Nullvektor angenommen wurde und daher hier nicht auftaucht. Insgesamt ergibt sich somit folgender Ablauf für Relevanzrückkopplung: 1. Bestimme den Fragevektor q zur initialen Anfrage des Benutzers. 2. Retrieval mit dem Fragevektor q. 3. Relevanzbeurteilung der obersten Dokumente der Rangordnung durch den Benutzer. 4. Berechnung eines verbesserten Fragevektors q′ aufgrund der beurteilten Dokumente. 5. Retrieval mit dem verbesserten Vektor. 6. Wiederholung der Schritte 3–5, bis der Benutzer zufrieden ist. Bei experimentellen Untersuchungen ergaben sich signifikante Steigerungen der Retrievalqualität beim Einsatz von Relevanzrückkopplung. Andererseits ergab sich bei Experimenten mit realen Benutzern, dass diese oft wenig bereit sind, Relevanzurteile abzugeben.
B 15.4 Probabilistisches Retrieval B 15.4.1 Probabilistisches Ranking-Prinzip Die bislang beschriebenen Retrievalmodelle berechnen unterschiedliche Arten von Ähnlichkeiten zwischen Frage- und Dokumentbeschreibungen. Dabei wird jedoch innerhalb des jeweiligen Modells keine Aussage darüber gemacht, inwieweit die jeweilige Vorschrift zur Berechnung des Retrievalwertes das angestrebte Ziel erfüllt, eine hohe Retrievalqualität zu erreichen. Man kann nur durch experimentelle Untersuchungen feststellen, in welchem Maße dies jeweils zutrifft. Im Unterschied dazu kann für probabilistische Retrievalmodelle gezeigt werden, dass ein solcher Zusammenhang zwischen Modell und Retrievalqualität tatsächlich existiert. Probabilistische Modelle schätzen die Relevanzwahrscheinlichkeit P(R|q,d), dass das Dokument d auf die Frage q als relevant beurteilt wird, und ordnen die Dokumente nach dieser Wahrscheinlichkeit. Diese Vorgehensweise beruht auf dem probabilistischen Ranking-Prinzip. Man kann nun zeigen, dass eine solche Rangordnung zu optimaler Retrievalqualität führt (Lit. 03). Hierzu wird angenommen, dass ein Benutzer die Dokumente der Rangliste von oben nach unten durchschaut und irgendwann abbricht. Bricht er nach einer vorgegebenen Anzahl von Dokumenten ab, so sind Recall und Precision maximal; will er eine bestimmte Anzahl relevanter Dokumente (vorgegebener Recall), so ist die Precision wiederum maximal. Neben der Rechtfertigung über Retrievalmaße (die theoretisch recht anspruchsvoll ist) kann man das PRP auch entscheidungstheoretisch über Kosten begründen: Hierzu nimmt man an, dass durch das Retrieval eines Dokumentes in Abhängigkeit von dessen Relevanz unterschiedliche Kosten entstehen: Bezeichne C die Kosten für das Retrieval eines relevanten Dokumentes und C die Kosten für ein irrelevantes Dokument, wobei C > C. Wenn wir nun ein Verfahren zur Schätzung der Relevanzwahrscheinlichkeit P(R|q,d) haben, so können wir auch den Erwartungswert der Kosten berechnen, die durch das Retrieval des Dokumentes d entstehen würden:
EC(q,d) = C·P(R |q,d) + C·(1 − P(R |q,d))
Führt ein Benutzer nun Retrieval durch und bricht das sequenzielle Durchschauen der Dokumente der Rangliste an beliebiger Stelle ab, so sollen die Gesamtkosten aller angeschauten Dokumente minimiert werden. Dies ist offensichtlich dann der Fall, wenn wir die Dokumente nach absteigenden (Erwartungswerten für die) Kosten ordnen: Wenn EC(q,d) C ist diese Bedingung äquivalent zu P(R|q,d) > P(R|q,d'), also eine Rangordnung nach fallender Relevanzwahrscheinlichkeit.
B 15: Modelle im Information Retrieval
327
B 15.4.2 Retrievalmodell mit binärer Unabhängigkeit Es gibt eine ganze Reihe von probabilistischen Retrievalmodellen, die dem probabilistischen Ranking-Prinzip genügt. Hier soll nur das bekannteste davon kurz vorgestellt werden. Das Retrievalmodell mit binärer Unabhängigkeit (Lit. 04) basiert auf folgenden Annahmen: 1. Eine Anfrage besteht aus einer Menge von Termen (lineare Anfragestruktur). 2. Dokumente haben eine ungewichtete (binäre) Indexierung. 3. Die Verteilung der Indexierungsterme in den relevanten und den irrelevanten Dokumenten wird jeweils als unabhängig angenommen. Anstelle der Relevanzwahrscheinlichkeit berechnet das Modell die Chancen O(R|q,d), dass d zu q relevant ist, wobei die Chancen als Quotient von Wahrscheinlichkeit und Gegenwahrscheinlichkeit definiert sind: O(R |q,d) = P(R |q,d)/P(R |q,d) (hier bezeichnet R das Ereignis, das das zugehörige Frage-Dokument-Paar als nicht relevant beurteilt wird). Im Folgenden steht qT für die Menge der Frageterme und dT für die Menge der im Dokument d vorkommenden Terme; ti bezeichnet das Ereignis, dass der Term im Dokument vorkommt, und ti das Gegenteil. Dann berechnen sich die Chancen, dass d relevant zu q ist, wie folgt: O(R |q,d) O(R |q) =
∏
ti ∈qT ∩dT
P(ti |R,q)
P(ti |R,q)
·
∏
ti ∈qT −dT
P( ti |R,q)
P( ti |R,q)
(1)
Hierbei läuft das erste Produkt über alle Terme, die Frage und Dokument gemeinsam haben, und das zweite Produkt bezieht sich auf alle Frageterme, die nicht im Dokument vorkommen. In dieser Formel kommen folgende Parameter vor: O(R|q,d) bezeichnet die Chancen, dass ein zufälliges Dokument der Kollektion relevant ist. Da dieser Faktor konstant ist für alle Dokumente zu einer Anfrage, wird er für bloßes Ranking der Antwortdokumente nicht benötigt. P(ti|R,q) ist die Wahrscheinlichkeit, dass der Term ti in einem (zufälligen) relevanten Dokument vorkommt; P( ti |R,q)= 1 − P(ti |R,q) ist die Wahrscheinlichkeit, dass der Term nicht in einem solchen Dokument vorkommt. P(ti |R,q) bezeichnet die Wahrscheinlichkeit, dass der Term ti in einem (zufälligen) irrelevanten Dokument vorkommt; P( ti |R,q)= 1 − P(ti |R,q) ist die Wahrscheinlichkeit, dass der Term nicht in einem solchen Dokument vorkommt. Obige Formel lässt sich in eine einfache log-lineare Form überführen, wenn man nur die Dokument-abhängigen Faktoren berücksichtigt. Sei ui = P(ti|R,q) und vi = P(ti |R,q) , dann erhält man (q,d) =
∑ T
T
ti ∈q ∩d
log
ui (1 − vi )
vi (1 − ui )
Die einzelnen Summenglieder kann man als Fragetermgewichte auffassen. Für ein einzelnes Dokument muss man also nur die Gewichte der darin vorkommenden Frageterme aufsummieren, um das Retrievalgewicht zu berechnen. Es bleibt das Problem der Schätzung der Parameter ui und vi. Letzteren kann man auch ohne Relevanzrückkopplung wie folgt schätzen: Sei N die Anzahl der Dokumente in der Kollektion und die Anzahl derjenigen Dokumente, in denen ti vorkommt. Da in der Regel nur sehr wenige Dokumente der Kollektion relevant zu einer Anfrage sind, nimmt man näherungsweise an, dass alle Dokumente = irrelevant sind, und schätzt vi durch die relative Dokumenthäufigkeit ab: vi P(ti |R,q) ≈ ni /N. Bei fehlender Relevanzinformation kann man für ui einen konstanten Wert annehmen, wobei sich für ui = 0.5 die diesbezüglichen Faktoren in Zähler und Nenner gegenseitig aufheben, so dass man eine Gewichtung entsprechend der inversen Dokumenthäufigkeit (inverse document frequency, idf) erhält:
328
B 15: Norbert Fuhr
n 1− i = idf (q,d) = ∑ log n N ti ∈qT ∩dT i N
∑ T
T
log
ti ∈q ∩d
N − ni ni
≈
∑ T
T
log
ti ∈q ∩d
N ni
Diese Formel lässt sich somit für die initiale Anfrage anwenden. Beurteilt der Benutzer dann einige der Antwortdokumente bezüglich ihrer Relevanz, dann kann man die Parameter ui wie folgt schätzen: Sei r die Anzahl der als relevant beurteilten Dokumente, von denen ri den Term ti enthalten, dann kann man ui = P(ti|R|q)≈ ri/r als die relative Häufigkeit des Terms in den relevanten Dokumenten abschätzen. Experimente haben gezeigt, dass aufgrund der kleinen Stichproben diese Schätzungen systematisch falsch sind und sich bessere Resultate mit der Schätzung ui = (ri+0.5) / (r+1) ergeben. Tab. 2 zeigt ein Beispiel für die Anwendung des Retrievalmodells mit binärer Unabhängigkeit bei einer Frage mit zwei Termen t1 und t2, wobei allerdings die unmodifizierten Schätzformeln angewandt wurden (also ui und vi als relative Häufigkeiten der Terme in den relevanten bzw. irrelevanten Dokumenten). Man erhält hier u1=8/12, v1=3/8, u2=7/12 und v2=4/8. Zusammen mit O(R|q)=12/8 ergeben sich dann aus Formel 1 und über die Beziehung P(x)=O(x)/(1+O(x)) die Relevanzwahrscheinlichkeiten für die vier verschiedenen Dokumentklassen (je nachdem, welche der beiden Terme im Dokument vorkommen) zu P(R|q,(1,1))=0.76, P(R|q,(1,0))=0.69, P(R|q,(0,1))=0.48 und P(R|q,(0,0))=0.4 Somit würden zuerst alle Dokumente ausgegeben, die beide Anfrageterme enthalten, dann alle, in denen nur t1 vorkommt, dann alle mit t2 und zum Schluss diejenigen, die keinen der beiden Anfrageterme enthalten. di
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
t1 t2 r (q, di)
1 1 R
1 1 R
1 1 R
1 1 R
1 1 I
1 0 R
1 0 R
1 0 R
1 0 R
1 0 I
1 0 I
0 1 R
0 1 R
0 1 R
0 1 I
0 1 I
0 1 I
0 0 R
0 0 I
0 0 I
Tab. 2: Beispiel für das Retrievalmodell mit binärer Unabhängigkeit
B 15.4.3 BM25 Das obige Beispiel zeigt eine wesentliche Beschränkung des BIR-Modells auf: Es ist nicht möglich, zwischen den verschiedenen Dokumenten mit gleichem Dokumentvektor x weiter zu differenzieren, da das Modell nur mit binärer Indexierung arbeitet. Das BM25-Modell von Robertson (Lit. 05) stellt eine heuristische Erweiterung des BIR-Modells auf gewichtete Indexierung dar. Hierzu wird die Vorkommenshäufigkeit der Terme im Dokument berücksichtigt. Statt also nur zwischen Vorkommen (xi=1) und Nicht-Vorkommen (xi=0) eines Terms ti zu unterschieden, sollen nun auch Gewichte zwischen 0 und 1 zugelassen werden. In Anlehnung an die Heuristiken des VektorraumModells hat Robertson eine ähnliche Gewichtungsformel entwickelt: Für einen Term ti bezeichne tfmi dessen Vorkommenshäufigkeit im Dokument dm, das insgesamt lm laufende Wörter enthält. Die durchschnittliche Dokumentlänge der Kollektion sei al. Zusätzlich beinhaltet die Formel noch zwei Parameter, die an die jeweilige Kollektion angepasst werden müssen: b steuert den Einfluss der Längennormalisierung (mit 0≤b≤1), und k kontrolliert die Gewichtung der Vorkommenshäufigkeit. Mit diesen Parametern berechnet man zunächst die Längennormalisierung l B = (1 − b) + b m al ,
B 15: Modelle im Information Retrieval
329
woraus sich die normalisierte Vorkommenshäufigkeit zu ntfmi=tfmi/B ergibt. Das BM25-Gewicht berechnet sich dann zu = umi
ntfmi = k + ntfmi
tfmi (2) l k (1 − b) + b m + tfmi al
Die vollständige Retrievalfunktion lautet dann
BM25 (q,dm ) =
∑
T ∩qT tidm
umici
BM25 ist derzeit die populärste Retrievalfunktion und wird insbesondere gerne als Bezugspunkt verwendet, wenn man versucht, bessere Modelle zu entwickeln. B 15.4.4 Statistische Sprachmodelle Mit der Hinwendung zu statistischen Modellen in der Computerlinguistik sind in den letzten Jahren auch im IR sogenannte language models sehr populär geworden – nicht zuletzt aufgrund ihrer hervorragenden Retrievalqualität. Ein statistisches Sprachmodell θ ist eine Wahrscheinlichkeitsverteilung über die Terme des betrachteten Vokabulars, gegeben als Wahrscheinlichkeiten P(ti|θ) für t1,…,tn. Nun nimmt man an, dass jedes Dokument d durch ein dem jeweiligen Dokument zugrunde liegendes Sprachmodell θd erzeugt wurde (wobei verschiedene Dokumente unterschiedliche Sprachmodelle haben). Eine Anfrage q ist wieder als Menge von Termen qT gegeben. Analog zu Retrieval als unsicherer Inferenz P(d→q)=P(q|d) berechnet man nun die Wahrscheinlichkeit, dass diese Anfrage vom gleichen Sprachmodell erzeugt wurde, das auch dem Dokument zugrunde liegt:
P(q|= θd )
∏ P(t | θ
ti ∈qT
i
d
)
Das Hauptproblem besteht in der Bestimmung der Wahrscheinlichkeiten des Sprachmodells θd, für das man ja nur spärliche Daten in Form eines einzelnen Dokumentes zur Verfügung hat. Um dieses Problem zu entschärfen, bestimmt man θd als Mischung aus den Dokument-spezifischen und den Kollektions-spezifischen Häufigkeitsdaten (Lit. 06). Für einen Term t bezeichne tf dessen Vorkommenshäufigkeit im Dokument d, |d| die Länge von d, N die Anzahl der Dokumente der Kollektion und n die Anzahl der Dokumente, in denen t vorkommt. Dann berechnet man
P(t | θd ) ≈ λ
tf(t,d) l(d)
+ (1 − λ )
cf(t) N
wobei λ das Mischungsverhältnis zwischen Dokument- und Kollektions-spezifischen Häufigkeiten angibt. Für Terme, die nicht im Dokument vorkommen, schätzt man hingegen
P(t | θd ) ≈ αd
cf(t) N
wobei αd eine dokumentspezifische Konstante ist. B 15.4.5 Ranking mit maschinellen Lernern Im Grunde kann man (fast) alle probabilistischen Retrievalmodelle als maschinelle Lernverfahren auffassen, bei denen das System aus Relevanzurteilen des Benutzers lernt (Lit. 07). Beim fragebezogenen Lernen (wie z. B. beim BIR-Modell) lernt das System für eine konkrete Anfrage aus den Re-
330
B 15: Norbert Fuhr
levanzurteilen zu einigen Dokumenten und kann dieses Wissen dann anwenden, um die Relevanzwahrscheinlichkeit anderer Dokumente zur gleichen Anfrage zu schätzen. Neben der Beschränkung auf eine Anfrage können wir zudem nur die Parameter für die in der Lernstichprobe (den Dokumenten mit den gegebenen Relevanzurteilen) beobachteten Terme schätzen. Sollten bei der Anwendung auf neue Dokumente andere Terme auftauchen, so ist unser Wissen dort nicht anwendbar. Analog zum fragebezogenen Lernen ist auch dokumentbezogenes Lernen denkbar, wo man für ein gegebenes Dokument aus einer Menge von Fragen lernt, auf welche Frageterme das Dokument eher relevant ist (ein solches Modell wurde schon in Lit. 08 vorgeschlagen). Beim merkmalsbezogenen Lernen wird hingegen von konkreten Fragen, Dokumenten und Termen abstrahiert, indem man deren Merkmale betrachtet. Man lernt hier aus einer Menge von Fragen und Dokumenten für die beobachtete Termmenge und kann dieses Wissen dann auf neue Fragen, Dokumente und auch Terme anwenden. Anstelle einer direkten Schätzung der Relevanzwahrscheinlichkeit aus den Beschrei x bungen von Fragen und Dokumenten wird zuerst ein Merkmalsvektor (q,d) erstellt, der dann die Grundlage für die Schätzung der Relevanzwahrscheinlichkeit P(R| x (q,d)) bildet. Zu dieser Schätzung kann man zahlreiche Methoden der automatischen Klassifikation einsetzen, die im Gebiet des maschinellen Lernens entwickelt wurden (Lit. 09). Besonders populär ist Learning to Rank beim Web-Retrieval. Abb. 2 illustriert diese Anwendung: Neben Merkmalen zu Frage, Dokument und deren Beziehung können auch Angaben über den sogenannten Page rank (der den Grad der Verknüpfung der betrachteten Webseite mit Seiten charakterisiert; siehe unten), Angaben über Ankertexte von verweisenden Seiten sowie Information über Vorlieben des Benutzers und seiner Freunde aus sozialen Netzen mit berücksichtigt werden. Anstelle von Relevanzrückkopplung werden hier sogenannte Click through-Daten zum Lernen benutzt, also darüber, welche Antwortseiten frühere Benutzer angeklickt haben. Ein automatisches Klassifikationsverfahren lernt dann aus diesen Trainingsdaten die Schätzung der Relevanzwahrscheinlichkeit (oder genauer, der Wahrscheinlichkeit, dass der Benutzer auf diese Antwort klickt).
Page Rank
Frage- und Dokumentmerkmale: BM25, Vorkommensort, Wortabstand, ...
Frage- und AnkertextMerkmale
Maschinelles Lernen / Klassifikationsverfahren
Information über Benutzer und soziales Umfeld
Click-throughDaten
P(R| x (q,d)) Abb. 2: Learning to Rank für Web-Retrieval
B 15.4.6 Logik-basiertes Retrieval: unsichere Inferenz Als eine Erweiterung der probabilistischen Modelle hat Rijsbergen eine logische Sicht auf IR-Systeme vorgeschlagen (Lit. 10). Analog zur logischen Sicht auf Datenbanken wird hier (zunächst ohne Berücksichtigung von Unsicherheit) angenommen, dass man beim Retrieval nach Dokumenten sucht, die die Anfrage logisch implizieren, also die Formel d → q gilt. Ein einfaches Beispiel für
B 15: Modelle im Information Retrieval
331
Boolesches Retrieval möge diese Sichtweise verdeutlichen: Nehmen wir an, wir hätten ein Dokument d1, das mit den Termen ‚Rodeln‘, ‚Abfahrtsski‘, ‚Skilanglauf‘ und ‚Alpen‘ indexiert sei, und die Anfrage q1 laute ‚Rodeln AND Skilanglauf‘. Betrachtet man das Dokument nun als logische Konjunktiom der darin enthaltenen Terme, so ist klar, dass das Dokument die Anfrage impliziert: Wenn die Formel ‚Rodeln AND Abfahrtsski AND Skilanglauf AND Alpen‘ wahr ist, dann ist natürlich auch ‚Rodeln AND Skilanglauf‘ wahr, also d1 → q1. Der Vorteil der logischen Sichtweise wird klar, wenn man zusätzliche Wissensquellen berücksichtigen möchte. Lautet unsere Anfrage q2 etwa ‚Wintersport AND Alpen‘, dann würde das Dokument zunächst nicht gefunden. Steht aber ein Thesaurus zur Verfügung, so kann man die darin enthaltenen hierarchischen Beziehungen als logische Implikationen auffassen, also etwa ‚Rodeln → Wintersport‘. Mit diesem zusätzlichen Wissen impliziert das Dokument auch die neue Anfrage.
Abb. 3: Retrieval als unsichere Inferenz P(d → q)
Das in Ontologien (siehe B 6 Ontologien) gespeicherte Wissen lässt sich ebenfalls als Menge logischer Formeln repräsentieren. Daher können diese ihre Stärke erst im Zusammenspiel mit logikbasierten Retrievalmodellen ausspielen. Um aber die Beschränkungen (und die bescheidene Qualität) von Booleschem Retrieval zu überwinden, muss man unsichere Inferenz zulassen. Nehmen wir etwa an, ein Dokument d2 sei nur mit dem Term Wintersport indexiert, und die Anfrage q3 laute Abfahrtsski. Auch wenn der Frageterm nicht direkt im Dokument vorkommt, so besteht dennoch eine gewisse Wahrscheinlichkeit, dass das Dokument auf die Anfrage relevant ist. Daher sollte man auch unsichere Inferenz berücksichtigen, etwa als probabilistische Implikation P (Wintersport → Abfahrtsski) = 0.5 . Mit solchem unsicheren Wissen würde das Dokument wieder die Anfrage (unsicher) implizieren: P(d2 → q3) = 0.5 . Die wesentliche Innovation von Rijsbergen besteht nun darin, die Wahrscheinlichkeit für die / q)/P(q). Implikation als bedingte Wahrscheinlichkeit zu interpretieren, also P(d → q)=P(q|d)=P(d → Abb. 3 verdeutlicht dies an einem Beispiel: Nehmen wir an, die Terme seien alle gleich wahrscheinlich, aber disjunkt, dann können wir die bedingte Wahrscheinlichkeit als Quotient der entsprechenden Termanzahlen berechnen, und wir erhalten P(d → q) = 2/3. Man kann zeigen, dass sich durch Variation der Annahmen über die Unabhängigkeit/Disjunktheit der Terme, die Wahrscheinlichkeitsverteilung über die Terme sowie die Implikationsrichtung (P(d → q) vs. (P(q → d)) die meisten bekannten Retrievalmodelle als Spezialfälle dieses allgemeinen Modells erklären lassen. Allerdings bleibt die Frage nach dem Zusammenhang zwischen der Implikationswahrscheinlichkeit P(d → q) und der Relevanzwahrscheinlichkeit P(R|q,d) noch offen. Im einfachsten Fall kann man diese gleichsetzen, oder man kann über die totale Wahrscheinlichkeit einen linearen Zusammenhang herleiten:
(
)
P(R |q,d) = P(d → q)P(R |d → q) + 1 − P(d → q) P(R |d → / q)
332
B 15: Norbert Fuhr
/ q) zwei zusätzliche Faktoren, die die Strenge der RelevanzurHierbei sind P(R|d → q) und P(R|d → teile widerspiegeln (mit welcher Wahrscheinlichkeit beurteilt der Benutzer ein Dokument als relevant, wenn es seine Anfrage impliziert bzw. nicht impliziert).
B 15.5 Modelle für strukturierte Dokumente Strukturierte Dokumente wurden in der Information-Retrieval-Forschung lange Zeit nur am Rande diskutiert, weswegen es nur wenige Modelle in diesem Bereich gibt. Wir betrachten hier drei Fälle, nämlich lineare oder Feld-Strukturen, baumförmige und Graph-Strukturen. Dabei berücksichtigen wir allerdings keine Modelle, die ein explizites Navigieren in solchen Strukturen vorsehen (wie z. B. díe XML-Anfragesprache XQuery). Da eine detaillierte Darstellung hier zu weit führen würde, beschreiben wir die verschiedenen Ansätze nur informell. B 15.5.1 Lineare Strukturen Lineare Strukturen liegen vor, wenn das Dokument aus einer festen Menge von Feldern besteht (wovon einige auch leer sein können). Solche Strukturen sind in der Dokumentationspraxis schon lange im Gebrauch. Aus Sicht des IR geht es dabei darum, die einzelnen Felder bei der Freitextsuche unterschiedlich zu gewichten (also z. B. dem Vorkommen eines Terms im Titel ein höheres Gewicht zu geben als in der Kurzfassung). Das bekannteste Modell hierfür ist BM25F (Lit. 11), eine Erweiterung des o. g. BM25-Modells. Hierbei werden in der tf-Komponente die Vorkommen in den Feldern unterschiedlich gewichtet, indem jedes Feld mit einem Gewichtungsfaktor versehen wird, mit dem die Termvorkommen in diesem Feld multipliziert werden (zusätzlich muss man noch die Berechnung der Dokumentlänge an diese Gewichtung anpassen). B 15.5.2 Baumförmige Strukturen Volltext-Dokumente sind i. a. immer hierarchisch strukturiert. Bei der Suche will man für eine gegebene Anfrage den hierzu relevanten Teil des Dokumentes lokalisieren. Dieses Problem bezeichnet man auch als fokussiertes Retrieval (Lit. 12). Dabei verfolgt man das Ziel, den kleinsten Ausschnitt aus dem Dokument-Baum zu bestimmen, der die Frage beantwortet. Im Falle von Booleschem Retrieval sind diese minimalen Teilstrukturen relativ einfach zu bestimmen. Bei den Modellen mit Gewichtung ergibt sich aber ein Tradeoff zwischen der Größe einer Antwort und ihrer Gewichtung: Würde man eine der o. g. Gewichtungsformeln unverändert auf die in Frage kommenden Dokumentteile anwenden, so hätte meist das komplette Dokument das höchste Retrievalgewicht. Daher führt man einen zusätzlichen Gewichtungsfaktor ein, der kleinere Dokumentteile belohnt. B 15.5.3 Graph-Strukturen Die bekannteste Graph-Struktur ist das Web: Dokumente stellen die Knoten des Graphen dar, und die Links dazwischen sind die gerichteten Kanten des Graphen. Hier besteht die Aufgabe darin, anhand der Struktur zwischen wichtigen und weniger wichtigen Knoten/Dokumenten zu unterscheiden. Das populärste Modell hierzu ist Page rank (Lit. 13). Dieses beruht auf dem Konzept des Random surfer, also einem Benutzer, der sich einfach zufällig durch das Web klickt. Dabei wird angenommen, dass alle von einem Dokument ausgehenden Links mit gleicher Wahrscheinlichkeit angeklickt werden. Gibt es keine ausgegebenen Links, so springt der Benutzer auf eine zufällige Seite im Web (indem er z. B. über eine Suchmaschine geht). Ferner wird noch angenommen, dass auch bei
B 15: Modelle im Information Retrieval
333
vorhandenen Links der Benutzer mit einer gewissen Wahrscheinlichkeit (z. B. 10 %) auf eine zufällige Seite geht. Mit diesen Annahmen kann man nun für jeden Knoten des Web-Graphen die Wahrscheinlichkeit berechnen, dass sich der Benutzer zu einem beliebigen Zeitpunkt dort aufhält; diesen Wert bezeichnet man als Page rank. Bei der Web-Suche könnte man nun im einfachsten Falle Boolesches Retrieval durchführen und dann die resultierende Menge von Antwortseiten nach fallendem Page rank ordnen. Üblicherweise wird aber Page rank mit anderen Gewichtungsfaktoren (z. B. BM25) verrechnet, meist in der Form des oben beschriebenen Learning to rank.
B 15.6 Modelle für interaktives Retrieval B 15.6.1 Das interaktive probabilistische Ranking-Prinzip Das oben vorgestellte klassische PRP betrachtet nur die Aufgabe des Benutzers, die relevanten Dokumente in der Antwortrangliste zu lokalisieren. Zudem wird angenommen, dass die Relevanz eines Dokumentes zu einer Anfrage unabhängig ist von anderen Dokumenten. Für interaktives Retrieval ist diese Sichtweise aber zu beschränkt. Zum einen kann sich das Informationsbedürfnis (und damit die Relevanz eines bestimmten Dokumentes) im Laufe der Suche ändern, und zum anderen besteht die Interaktion aus einer Vielzahl von Aktivitäten mit unterschiedlichem Aufwand. Das in Lit. 14 vorgestellte interaktive probabilistische Ranking-Prinzip (IPRP) versucht diese Aspekte zu berücksichtigen, indem es zwischen Aktivitäten mit variierendem Aufwand und Nutzen differenziert. Das Modell betrachtet nur die funktionale Seite, wobei als grundlegende Interaktionsform angenommen wird, dass in jeder Situation das System dem Benutzer eine lineare Auswahlliste präsentiert, die dieser sequenziell abarbeitet. Es wird angenommen, dass nur positive Entscheidungen (Annahme von Vorschlägen) dem Benutzer weiterhelfen, und in diesem Fall sich eine neue Situation ergibt, mit einer möglicherweise neuen Auswahlliste. Beispiele für solche Auswahllisten können sein: Rangliste von Dokumenten, Liste von Surrogaten, Liste von Dokument-Clustern, KWIC-Liste (Index nach dem Key Word in Context-Prinzip), Liste von Termen zur Frage-Expansion, Links zu verwandten Dokumenten usw. Formal wird dem Benutzer in jeder Situation si eine Liste von (binären) Vorschlägen < ci1, ci2, …, ci,ni > präsentiert, die er in der angezeigten Reihenfolge beurteilt. Die erste positive Entscheidung bringt den Benutzer dann in eine neue Situation sj. Für einen einzelnen Vorschlag bezeichne pij die Wahrscheinlichkeit, dass der Nutzer den Vorschlag cij akzeptiert, eij0 sei der resultierende Nutzen einer positiven Entscheidung. Dann lässt sich der erwartete Nutzen des Vorschlags cij abschätzen zu E(cij)=eij+pijaij Als ein einfaches Beispiel nehmen wir an, dass einem Benutzer nach der Eingabe einer Anfrage folgende Aktionen mit den jeweils genannten Parametertripeln (eij, pij, aij) angeboten werden: –– (−1.0,0.3,8) Füge einen vorgeschlagenen Term zur Anfrage hinzu. –– (−2.0,0.4,10) Betrachte das erste Element der Ergebnisrangliste. –– (−10.0,0.4,25) Gehe unmittelbar zum ersten Antwortdokument. –– (−5.0,0.3,20) Betrachte einer Zusammenfassung der ersten zehn Dokumente. Die Werte für Aufwand und Nutzen kann man sich dabei als Zeitangaben vorstellen – einmal den für die Beurteilung des Vorschlages, zum anderen die potenzielle Zeitersparnis (bis zum Erreichen des Suchziels) bei Annahme des Vorschlags. Als erwartete Nutzen erhält man dann gemäß vorstehender Formel (−1.0+0.3 · 8) = 1.4, (−2.0+0.4 · 10) = 2, (−10.0+0.4 · 25) = 0 und (−5.0+0.3 · 20) = 1. Somit hat der zweite Vorschlag den höchsten erwarteten Nutzen. Naheliegend wäre nun, die Vorschläge nach absteigendem Nutzen zu ordnen. Wie allerdings in Lit. 14 gezeigt wird, wird dadurch nicht der erwartete Gesamtnutzen einer Vorschlagsliste maximiert.
334
B 15: Norbert Fuhr
Eine optimale Anordnung ergibt sich hingegen, wenn man die Vorschläge nach fallenden Werten von (cij= ) ail + eil /pil ordnet – das interaktive probabilistische Ranking-Prinzip. Bisher gibt es noch keine geschlossenen Modelle, die auf dem IPRP basieren. Um es anzuwenden, muss man die drei Parameter eij, pil und pil für jede Wahlmöglichkeit schätzen: 1. Die Auswahlwahrscheinlichkeit pij wird in vielen IR-Modellen betrachtet – z. B. als Relevanzwahrscheinlichkeit beim Ranking von Dokumenten, aber auch implizit bei Vorschlägen zur Erweiterung oder Modifikation der Suchfrage. Allerdings setzen viele dieser Modelle ein (wenig realistisches) statisches Informationsbedürfnis voraus, so dass es einen Bedarf an Modellen für dynamische Bedürfnisse gibt. 2. Die Aufwandsparameter eij sind bislang kaum in der Forschung betrachtet worden, daher gibt es hier den größten Forschungsbedarf. Ein einfacher Ansatz hierzu besteht in der Messung des Zeitaufwands eines Benutzers für die (Re)Formulierung einer Anfrage, dem Betrachten eines Eintrags der Ergebnisliste oder dem Anschauen eines potenziell relevanten Dokumentes. 3. Der Nutzen aij kann über den eingesparten Zeitaufwand quantifiziert werden, wenn man die Pfade zum Erreichen des Suchziels miteinander vergleicht. B 15.6.2 Diversitäts-Ranking Ein gravierender Nachteil aller oben vorgestellten Modelle (mit Ausnahme des IPRP) besteht darin, dass Abhängigkeiten zwischen Dokumenten nicht berücksichtigt werden — auch das klassische PRP ignoriert diese explizit. Daher wird seit einigen Jahren unter dem Schlagwort Diversitäts-Ranking versucht, solche Abhängigkeiten durch Betrachtung der Ähnlichkeit von Dokumenten zu modellieren. Der Retrievalwert eines Dokuments berechnet sich dann nicht mehr allein aus dem Vergleich zwischen Frage- und Dokumentbeschreibung, sondern es werden zusätzlich die Ähnlichkeiten des betrachteten Dokumentes mit allen schon ausgegebenen Dokumenten betrachtet. Eine konkrete Lösung hierzu stellt das quantentheoretische Ranking-Prinzip dar (dessen theoretische Rechtfertigung hier nicht weiter betrachtet werden soll; Lit. 15). Bezeichne A die Menge der bereits zur aktuellen Anfrage ausgegebenen Dokumente, dann ordnet das qPRP die übrigen Dokumente nach fallenden Werten von
P(R |q,dB ) − ∑ 2· P(R |q,dA ) P(R |q,dB )·βfsim (dA ,dB ) (dB ) = dA ∈A
Dabei bezeichnet fsim (.) eine Ähnlichkeitsfunktion für Dokumente und β eine heuristisch zu wählende Konstante. Während das klassische PRP nur die Relevanzwahrscheinlichkeit P(R|q, dB) des in Frage kommenden Dokuments betrachtet, geht hier zusätzlich dessen Ähnlichkeit zu allen bereits ausgegebenen Dokumenten dergestalt ein, dass man ein dazu möglichst unähnliches Dokument sucht. In einigen wenigen Internet-Suchmaschinen wird diese Methode seit mehreren Jahren eingesetzt, während viele andere Suchmaschinen diesen Aspekt noch nicht berücksichtigen.
Literatur 01 Gerard Salton (Hrsg.): The SMART Retrieval System – Experiments in Automatic Document Processing. Prentice Hall, Englewood, Cliffs, New Jersey, 1971 02 J. J. Rocchio: Relevance feedback in information retrieval. In Lit. 01 03 S. E. Robertson: The probability ranking principle in IR. Journal of Documentation 33, 294-304, 1977 04 S. E. Robertson; K. Sparck Jones: Relevance weighting of search terms. Journal of the American Society for Information Science, 27, 129-146, 1976
B 15: Modelle im Information Retrieval
335
05 S. E. Robertson; S. Walker, S. Jones; M. M. Hancock-Beaulieu: Okapi at TREC-3. Proceedings of the 3rd Text Retrieval Converence (TREC-3), 109-126, Springfield, Virginia, USA, 1995. NTIS 06 Chengxiang Zhai; John Lafferty: A study of smoothing methods for language models applied to ad hoc information retrieval. W. B. Croft, D. Harper, D. h. Kraft, and J. Zobel (Hrsg.): Proceedings of the 24th Annual International Conference on Research and development in Information Retrieval, New York, 2001. ACM 07 N. Fuhr: Probabilistic models in information retrieval. The Computer Journal 35 (3), 243-255, 1992 08 M. E. Maron; J. L. Kuhns: On relevance, probabilistic indexing, and information retrieval. Journal of the ACM, 7, 216-244, 1960 09 Tie-Yan Liu: Learning to Rank for Information Retrieval. Springer, 2011 10 C. J. van Rijsbergen: A non-classical logic for information retrieval. The Computer Journal, 29 (6), 481-485, 1986 11 Stephen E. Robertson; Hugo Zaragoza, Michael J. Taylor: Simple bm25 extension to multiple weighted fields. Luis Gravano (Hrsg.): CIKM, 42-49, New York, 2004. ACM 12 Mounia Lalmas: XML Retrieval. Synthesis Lectures on Information Concepts, Retrieval, and Services. Morgan & Claypool Publishers, 2009 13 Lawrence Page, Sergey Brin; Rajeev Motwani, Terry Winograd: The PageRank citation ranking: Bringing order to the web. Technischer report, Stanford Digital Library Technologies Project, 1998 14 N. Fuhr: A probability ranking principle for interactive information retrieval. Information Retrieval, 11 (3), 251-265, 2008 (http://dx.doi.org/10.1007/s10791-008-9045-09) 15 Guido Zuccon; Leif Azzopardi; C. J. van Rijsbergen: The interactive prp for diversifying document rankings. Wei-Ying Ma, Jian-Yun Nie, Ricardo A. Baeza-Yates, Tat-Seng Chua, W. Bruce Croft (Hrsg.): SIGIR, 1227-1228. ACM, 2011
Christa Womser-Hacker
B 16 Kognitives Information Retrieval Kognitives Retrieval stellt die beteiligten Akteure von Information-Retrieval-Systemen (IRS) mit ihrem kognitiven Hintergrund in den Mittelpunkt und ist als Gegensatz zur systemorientierten Sicht auf Information Retrieval (IR) zu sehen. Dies steht in Zusammenhang mit einer generellen Entwicklung, die eine Umorientierung weg von der technischen, systemgetriebenen Sicht hin zu einem die Eigenschaften und Spezifika des Benutzers berücksichtigenden Blickwinkel verfolgt. Insofern wird in diesen unterschiedlichen Perspektiven auf IR oft auch der Unterschied zwischen Informatik und Informationswissenschaft gesehen, beides Disziplinen, die sich mit IR auseinandersetzen. Während die Informatik eine eher systemorientierte Sicht einnimmt, befassen sich informationswissenschaftliche Ansätze mit der Analyse von Benutzerverhalten bei der Suche und generell im Umgang mit Information und Wissen. Aus den daraus gewonnenen Erkenntnissen kann eine benutzergerechte Gestaltung der Systeme – insbesondere an der Schnittstelle zwischen Mensch und Maschine – hervorgehen. Seit Mitte der 70er Jahre finden sich Publikationen, die auf den cognitive viewpoint of information science Bezug nehmen. Die Definition bleibt unscharf und verweist auf kognitive Prozesse und Strukturen, die bei Informations- und Kommunikationssystemen auftreten. Wilson (Lit. 24, S. 197) sieht den Kern des kognitiven Ansatzes in der menschlichen Wahrnehmung, Kognition und den Wissensstrukturen und setzt einen expliziten Fokus auf das menschliche Informationsverhalten mit den zentralen Konzepten des Verstehens und der (individuellen und sozialen) Bedeutung. Belkin (Lit. 02, S. 11) geht mit Verweis auf die frühen Publikationen von Brookes (Lit. 05) soweit, im cognitive viewpoint den Kern der theoretischen und praktischen Entwicklung innerhalb der Informationswissenschaft zu sehen. In späteren Publikationen formuliert Belkin den Anomalous State of Knowledge (ASK), der innerhalb der Entwicklung des kognitiven Retrieval eine wichtige Rolle spielt. Eine Zusammenfassung dieser Entwicklung zum kognitiven Ansatz geben Ingwersen & Järvelin (Lit. 10), die ihrem Buch den Titel The Turn geben. Sie bezeichnen damit die kognitive Wende, die IR mit Information Seeking zusammenführt und mit dem zugehörigen Kontext in Beziehung setzt, und fassen damit die Entwicklung zusammen, die bereits Anfang der 70er Jahre ihren Anfang nimmt und ihren Höhepunkt in den 90er Jahren erreicht. Aus dieser wissenschaftlichen Auseinandersetzung sind verschiedene Forschungsrichtungen wie z. B. das Interaktive IR hervorgegangen, die weiterhin sehr aktuell sind.
B 16.1 Systemorientierter Ansatz im Information Retrieval Der systemorientierte Ansatz im Information Retrieval, der seinen Anfang in den 60er Jahren nimmt, ist als Gegenpol zum kognitiven IR zu sehen, aber auch als dessen Fundament. Insbesondere die Cranfield-Experimente (siehe Lit. 06) legten die Grundlagen für eine experimentelle Auseinandersetzung mit dem Forschungsgebiet des Information Retrieval. Auch fiel die Entwicklung der ersten vollautomatischen Systeme in diese Zeit. IR-Systeme werden im systemorientierten Ansatz als Abgleichsysteme zwischen Anfragen und Dokumenten verstanden, wobei es darauf ankommt, Übereinstimmungen zwischen diesen Konstrukten zu finden. Das dominierende Modell ist das sog. Labormodell (Lit. 10, S. 114f). Es sieht keine Benutzerintervention vor, sondern beinhaltet Dokumente und Suchanfragen mit ihren entsprechenden Repräsentationen. Anfragen und Dokumentenbestand werden einem Abgleich unterzogen, was zum jeweiligen Suchergebnis führt. Substanziell ist auch die Evaluierung dieser Ergebnisse auf der Basis von meist binären Relevanzurteilen, welche eine Effektivitätsmessung durch die Maße recall und precision zulassen. Die neuere Forschung innerhalb des systembezogenen Ansatzes hat sich vornehmlich mit verschiedenen Gewichtungs-, Match- und Rankingalgorithmen sowie Modellierungs- und Erschließungsverfahren
B 16: Kognitives Information Retrieval
337
beschäftigt (siehe Lit. 03). Relevance-Feedback und Query-Expansion gehörten ebenso wie Verfahren des Natural Language Processing (NLP) zum Forschungsrepertoire des systemorientierten Ansatzes. Die nunmehr seit 20 Jahren aktive amerikanische Evaluierungsinitiative TREC (Text Retrieval Evaluation Conference) bezeichnet sich als moderne Variante des Cranfield-Paradigmas (Lit. 08, Lit. 22). In den letzten Runden wurden auch interaktive und stärker benutzerbezogene Tracks eingeführt (Lit. 01, S. 14). Benutzer bzw. kognitive Akteure mit ihren Eigenheiten und ihrem Kontext fanden im Labormodell keinen Platz. Man ging einfach von der Annahme aus, dass Anfragen die Benutzerbedürfnisse adäquat widerspiegeln.
Relevance assessment
Documents
Search request
Representation
Representation
Database
Query
Matching
Recall base
Evaluation
Query result Evaluation result
Abb. 1: Labormodell des IR (nach Lit. 10, S. 115)
B 16.2 Kognitives Information Retrieval Für den Begriff Kognitives IR findet sich keine einheitliche Definition. Geprägt wurde der Begriff durch Belkin und Ingwersen. Eine Erklärung ergibt sich eher durch die einbezogenen Komponenten. Wie oben ausgeführt, bezieht das Labormodell des IR menschliche Akteure nicht in die Modellierung ein. Das kognitive IR hingegen ist am Benutzer bzw. Informationssuchenden, seinen Eigenschaften, seinem Umfeld und Kontext ausgerichtet, wodurch sich zwischen beiden Modellen ein komplementärer Charakter ergibt.
338
B 16: Christa Womser-Hacker
Context
Relevance assessment
Documents
Search request
Representation
Representation
Database
Query
Matching
Recall base
Query result
Evaluation
Evaluation result
Abb. 2: Erweiterung des Labormodells um die benutzerbezogene Sicht (nach Lit. 10, S. 115)
Während in der frühen Zeit die Rolle des (menschlichen oder künstlichen) Intermediary bzw. Informationsvermittlers sehr großes Interesse erweckte und das Informationsbedürfnis in seiner objektiven und subjektiven Form untersucht wurde, wandelt sich die wissenschaftliche Auseinandersetzung hin zu einer umfassenden Sicht des kognitiven Information Retrieval, das nun alle Bereiche umfasst, bei welchen Interaktivität und menschliche Beteiligung gegeben sind. In den 90er Jahren erfolgt eine intensive Auseinandersetzung mit dem Konzept Information, das nun als subjektiv und an den menschlichen Träger und dessen Kognition gebunden interpretiert wird. Die Orientierung an der Aufgabe, die informationelles Handeln auslöst (information task), wird als Basis für die Einlösung des Informationsbedürfnisses angesehen. Die parallel dazu verlaufende Entwicklung von Booleschen Systemen zu sog. Best-match-Systemen löst eine neue Auseinandersetzung über das Verständnis von Relevanz aus (Lit. 09). Hinzu kommt die Interaktivität zwischen Mensch und System, die z. B. durch die benutzergerechte Gestaltung von Benutzerschnittstellen oder durch die Visualisierung eine neue Dimension gewinnt. Insgesamt wird das IR in einen holistischen Kontext eingebettet, der alle Akteure, Komponenten, Strukturen und die Beziehungen zwischen ihnen umfasst. B 16.2.1 Modelle des Kognitiven Information Retrieval Als grundlegendes Modell des Kognitiven IR kann das Konzept von Ingwersen (Lit. 12) angesehen werden. Abb. 3 zeigt auf der linken Seite Information-Retrieval-System, Kollektion der Informationsobjekte und Query, über die eine Verbindung zum Benutzer und dessen kognitiven Raum hergestellt wird. Möglicherweise verbindet ein Intermediary/Informationsvermittler oder eine Benutzerschnittstelle Benutzer und System. Der individuelle Benutzer weist Eigenschaften auf, die im Modell beschrieben werden, und ist in einen sozialen und organisatorischen Kontext eingebunden. Letzterer bezieht das wissenschaftliche oder professionelle Fachgebiet mit bestimmten Präfe-
B 16: Kognitives Information Retrieval
339
renzen, Strategien und Aufgaben ein, welche den aktuellen kognitiven Zustand des Benutzers beeinflussen. Kognitive Eigenschaften sowie sozial-organisatorisches Umfeld können wiederum in Submodellen abgebildet werden. Der Schwerpunkt des Modells liegt auf der Interaktivität der kognitiven Strukturen.
INFORMATION OBJECTS − Text/Knowledge representations − Full text, pictures…/ Semantic entities Models
Interface/ Intermediary Query Request functions
Individual user’s COGNITIVE SPACE − Work task/Interest − Current Cognitive State
− Problem/Goal − Uncertainty − Information need − Information behaviour
IR SYSTEM SETTING − Search language/IR technique − Database structure − Indexing rules/computational logic Models
Social/Org. environment − Domains/Goals
− Tasks − Preferences
: cognitive transformation and influence : interactive communication of cognitive structures
Abb. 3: Modell aus Ingwersen (Lit. 12, S. 103)
Ingwersen & Järvelin (Lit. 10, S. 197ff) führen Wilson (Lit. 25) und Kuhlthau (Lit. 13) als Wegbereiter der kognitiven Information Retrieval-Modellierung an (siehe A 8 Information Seeking Behaviour). Insbesondere stellen sie die Aufgabenorientierung (task orientation) heraus, die informationelle Prozesse immer an eine bestimmte Situation, einen bestimmten Benutzer bindet und in einen konkreten Kontext stellt. Aufgaben können dabei aus einer beruflichen oder privaten Perspektive entstehen, aber auch allgemeine Alltagsaufgaben oder Interessen umfassen. Das Kuhlthau-Modell integriert eine emotional-affektive Ebene und erweitert die Phasen des Informationssuchprozesses dadurch durch subjektive Komponenten. Vakkari entwickelte eine Reihe von empiriegeleiteten Modellen (Lit. 19, Lit. 20), die im Vergleich zu Wilson und Kuhlthau besonderes Augenmerk auf interaktives Retrieval (z. B. Suchtaktiken, Termauswahl, Relevanzbeurteilung oder Nutzungsaspekte von Information) legen. Saracevic’s sog. stratified model of interaction levels aus dem Jahr 1996 bezieht verschiedene Kommunikationsstufen und Relevanztypen ein (Lit. 17). Das linguistische Stufenmodell mit Morphologie, Syntax und Semantik wird um die situative, pragmatische Stufe erweitert, die die Nutzung von Information in Abhängigkeit von Aufgabe und Umgebung (environment) darstellt. Beide Seiten – Benutzer und System – bewegen sich auf einander zu und passen sich an. Hervorgehoben wird hier das informationswissenschaftliche Postulat, dass sich das System in erster Linie dem Menschen anzupassen hat. Auch die Relevanzentscheidungen sind aus dem Kontext und der Situation des Benutzers heraus zu sehen.
340
B 16: Christa Womser-Hacker
Neben den allgemeinen Modellen des Kognitiven Information Retrieval wurden verschiedene Modelle bzw. Frameworks entwickelt, die auf einen speziellen Sub-Prozess fokussieren. So z. B. das Document-Selection-Framework von Wang & Soergel (Lit. 23), das insbesondere Relevanzkriterien und Dokumenteigenschaften sowie die dahinterstehenden Entscheidungsabläufe modelliert, die für die Relevanzbewertung eine Rolle spielen. Informationsobjekte werden mit signifikanten Metadaten relationiert, obwohl der Begriff Metadaten noch nicht verwendet wird. Decision Rules Elimination Multiple criteria Dominace Scarcity Satisfice Chain
Knowledge of topic person organization journal document type
Document
DIEs
processing
Criteria
Title
combining
Date DIEs: Document Information Elements Values: Document Values/Worth
Type
Acceptance
Conditional
Abstract
Series
Decision
Functional
Orientation
Journal
deciding
Epistemic
Topicality
Author
Values
Maybe Rejection
Social
Quality Novelty
Emotional
Availability Relation
Abb. 4: Document selection model (Lit. 23, S. 118)
Die angeführten Modelle wurden von anderen Autoren aufgegriffen und in Bezug auf weitere Faktoren erweitert (z. B. Lit. 18, Lit. 07, Lit. 15). B 16.2.2 Anomalous State of Knowledge (ASK) Die Theoriebildung auf dem Gebiet des kognitiven IR wurde insbesondere durch die sog. ASK-Hypothese angestoßen und beeinflusst, die auf der Basis empirischer Studien im Bereich einer Universitätsbibliothek formuliert wurde (Lit. 04, S. 62f). Sie besagt, dass die Problembeschreibungen in der Vorstellung von Informationssuchenden oft ziemlich vage und ohne klare Zielrichtung sind und die Entwicklung einer adäquaten Anfrageformulierung trotz eines unzureichenden Wissensstands ein zentrales Element erfolgreichen Retrievals ist. Aufgrund dieses Defizits sind Benutzer nur eingeschränkt in der Lage, genau und systemspezifisch auszudrücken, was zur Problemlösung gebraucht wird. Eher ist es möglich, den ASK zu beschreiben als eine adäquate Anfrage an das System. Best-match-Systeme setzen Repräsentationen von Anfragen voraus, die mit textuellen Repräsentationen von Dokumenten korrespondieren. D. h., dass nur in der Anfrage zum Ausdruck kom-
B 16: Kognitives Information Retrieval
341
mende Konzepte oder Relationen als signifikant angesehen werden können. Dies setzt wiederum voraus, dass Benutzer in der Lage sind, ihr Informationsbedürfnis umfassend und präzise zu formulieren, damit das System hochwertige Ergebnisse erzielen kann. Als Reaktion auf die ASK-Hypothese entstanden in den 80er Jahren Ansätze des assoziativen IR und des Relevance Feedback, die nachweislich eine bessere Performanz erzielten. Dennoch gehen diese Ansätze von den unzureichenden Benutzerformulierungen aus. Belkin und Ko-Autoren schlagen daher ein konzeptionelles Information-Retrieval-System vor, das dynamisch ist, um z. B. den Veränderungen im Wissensstand der Benutzer gerecht zu werden (Lit. 04, S. 65). Sie fordern höchst iterative und interaktive Systemkomponenten, die in die verschiedenen Zyklen Bewertungen des Benutzers einbeziehen. Im Mittelpunkt eines solchen Systems steht der ASK, der als narrative Formulierung durch den Benutzer vorzustellen ist. Die iterative Produktion einer textuellen Anfrage soll systemseitig durch ein Netzwerk aus Wortassoziationen und Kookkurrenzen unterstützt werden. B 16.2.3 Polyrepräsentation Getrieben durch die Erkenntnis, dass es nicht die eine Repräsentationsform informationeller Objekte gibt, sondern viele mögliche nebeneinander existieren, gelangen verschiedene Autoren zum Prinzip der Polyrepräsentation (Lit. 14, Lit. 12, Lit. 04, S. 68). Unterstützung erfuhr dieses Prinzip durch die großen Evaluierungsinitiativen wie z. B. TREC (siehe Lit. 08), die für verschiedene Systeme die gleiche Performanz feststellten, obwohl verschiedene relevante Dokumente die Basis dafür bildeten. Somit bestand der Kern der Polyrepräsentation in der Abbildung verschiedener Informationsstrukturen bzw. kognitiver Räume (Ergebnisse von Erschließungsvarianten, Termerweiterungen, Anfrageformulierungen, Problem- und Work Task-Beschreibungen), die die Chance auf geeignete Treffer vermehrten (Lit. 10, S. 206ff). Ingwersen und Järvelin (Lit. 10, S. 33) führen eine Liste möglicher Varianten an: –– Perceived work task description –– Work task execution stage description – current problem statement –– Perceived search task/information need – a series of requests –– Current domain knowledge state –– Experience on work task execution –– Current emotional state –– Relevance assessments – session-based and longitudinal –– Current IS&R knowledge state and experience In Abhängigkeit von Parametern wie dem Medium, der Diskursebene, der Domäne, der Work Task etc. kann die Dynamik noch erhöht werden. In Abb. 5 wird das Prinzip anschaulich visualisiert und die sog. cognitive overlaps im Zentrum aufgezeigt.
342
B 16: Christa Womser-Hacker
CITATIONS
In-links to titles, authors & passages
AUTHOR(s)
THESAURUS Structure
COGNITIVE OVERLAP
SELECTOR(s)
Journal name Publication year Database(s) Corporate source Country
Text – images Headings Captions Titles References Out-links
INDEXERS
Class codes Descriptors Document type Weights
Abb. 5: Prinzip der Polyrepräsentation (aus Lit. 10, S. 207)
Eine Erweiterung erfährt die Polyrepräsentation durch das sog. Polyrepresentation Continuum, dessen beide Extreme durch Fusion im exakten Match auf der einen Seite und im lockeren Bag-ofwords-Ansatz bestehen (Lit. 14, S. 89). In der Mitte des Kontinuums liegt sog. Unknown territory, wo noch nach empirischen Belegen gesucht wird. Eine entscheidende Rolle spielen Fusion- und Merging-Verfahren, um eine adäquate Auswahl für die Kombination zu treffen und die verschiedenen Repräsentationen in einer Booleschen Menge oder einer Rankinganordnung sinnvoll zu verknüpfen. Im Kontext der INEX-Evaluierung haben sich die besten Resultate in der Verbindung von funktional unterschiedlichen Repräsentationen ergeben (Lit. 14, S. 92). Dabei hat sich ein Vorsprung für die Strukturierung von Anfragen gezeigt. Larsen und Ko-Autoren sehen darin die Motivation, das Polyrepräsentationskontinuum um eine weitere Dimension auszudehnen, wie dies in Abb. 6 veranschaulicht ist:
B 16: Kognitives Information Retrieval
343
Highly structured queries Search keys: Facets (ontology) Concepts Phrases Single terms
N
Operators: Boolean quorum Distance operators Boolean common operators “Soft” Boolean operators
Structured retrieval
W
Fuzzy logic
Query Modification
Several Boolean engines Exact match One DB Sets One Boolean engine Overlaps Several DBs PseudoOne Boolean engine ranking One DB Several Boolean engines Several DBs
Unstructured retrieval
E Several best match engines Best match Several DBs Thresholds Several engines Fusion One DB Qne IR engine One best match One DB engine Several DBs
Weighting Bag-of-words
S Unstructured queries Abb. 6: „The extended structural polyrepresentation continuum“ (Lit. 14, S. 94)
B 16.2.4 Integrated IS & R Research Framework Das sog. Integrated IS & R Research Framework (Lit. 10, Kap. 6) verfolgt das Ziel, die verschiedenen Stränge zusammenzufassen und eine kognitive, aufgabenbasierte Perspektive auf Information Seeking und Retrieval (IS & R) als holistisches Framework bereitzustellen. Das Framework ist von hoher Komplexität; fünf umfassende Kategorien und neun Variablenklassen interagieren nach Ingwersen und Järvelin (Lit. 10, S. 313) beim Information Seeking und Retrieval. Diese sind in der folgenden Abbildung aufgeführt:
344
B 16: Christa Womser-Hacker
R = Request / Relevance feedback 6
Information Objects
Knowledge representation Thesaural nets Full contents/structures…
Org.
5
Domains Goals Work task situations
Information seeker’s Cognitive Space
4 Interface
Query Modification
Functions
IT
Retrieval Engines Database architecture Indexing algorithms Compuational Logics
R 2
Work task/interest perception Cognitive & emotional state
Problem situation / Goal Uncertainty Search task/ Information need Information behaviour Relevance & use assessments
7 8
Social Context
1
Strategies Preferences Interests
Cultural
Cognitive transformation and influence over time Longitudinal interaction of cognitive structures
Abb. 7: Cognitive Framework of IS & R (Lit. 10, S. 274)
Das holistische IS & R Framework ist empirisch motiviert und stellt einen individuellen Benutzer in den Mittelpunkt, der durch vielfältige Kontexte präzisiert wird. Auf der Basis empirischer Analysen können Erkenntnisse zur Hypothesengenerierung und Theoriebildung gewonnen werden. Die zentralen Komponenten des Frameworks sind – wie die Abb. 7 zeigt – die Informationstechnologie, die Kollektion der Informationsobjekte, die Informationssuchenden und die Schnittstellen – alle eingebunden in soziale, kulturelle und organisatorische Kontexte. Individuen und Kontexte unterliegen einer zeitlichen Entwicklung und sind wechselseitig komplementär. Zwischen den Komponenten gibt es viele Beziehungen, was dem Framework eine hohe Flexibilität verleiht. Ingwersen und Järvelin (Lit. 10) haben versucht, das Framework zu evaluieren. Außerdem wurden die einzelnen Dimensionen einer feineren Granulierung unterzogen und durch Operationalisierungsvorschläge ergänzt (Lit 10, Kap. 7).
B 16.3 Kognitives IR aus heutiger Sicht Während eine einheitliche Definition des Kognitiven Information Retrieval in der Literatur nicht zu finden ist, sieht man sich eher einer Serie von Modellen und Konzepten, aber auch von Systemkomponenten gegenüber, die überwiegend aus den 90er Jahren stammen. Wie die o. g. Ansätze gezeigt haben, versammeln sich verschiedene Charakteristika und Phänomene unter dem Dachbegriff des Kognitiven Information Retrieval, der Information Seeking und IR zusammenführt. Zentral ist die Fokussierung auf den Benutzer von Information-Retrieval-Systemen sowie auf seine diversen Eigenschaften und seine Umgebung. Auch zeigt sich eine Verschiebung auf die Individualität des Benutzers, sodass an verschiedenen Stellen subjektive Ausprägungen der Eigenschaften einbezogen
B 16: Kognitives Information Retrieval
345
werden. Dennoch ist dies eine noch offene Fragestellung, da der Kontext nicht als geschlossenes System angesehen werden kann. Auch die Vorschläge, wie Kontexte und Benutzereigenschaften empirisch erfasst und auch modelliert werden können, befinden sich in der Entwicklung. Sprache Lokalität
"..."
Profession
emotionaler Zustand
sozialer Kontext: Rolle in der Gruppe
Medienaffinität (mobil / statisch)
(work) task --> information need
Domäne Kompetenzniveau, Wissensstand, Erfahrung
Abb. 8: Benutzer im Kontext
Heute ist von kognitivem IR seltener die Rede. Dennoch haben sich die Ideen und Konzepte in anderen Forschungsrichtungen (z. B. im Interaktiven IR oder in der Kombination aus Mensch-MaschineInteraktion und Information Retrieval) fortgesetzt. Eine aktuelle Positionsbestimmung bzgl. der Möglichkeiten und Grenzen des IR findet sich bei Allan et al. (Lit. 01). Unter den wichtigsten Fragestellungen – aber als Classic challenges markiert – tauchen hier user und context prominent auf. Folgende Themen wurden auf dem SWIRL Workshop 2012 als zentrale Themen des IR herausgestellt (Lit. 01, S. 5): –– Not just a ranked list –– Help for users –– Capturing context –– Information, not documents –– Domains –– Evaluation Obwohl die einzelnen Punkte auch eine systembezogene Ausrichtung aufweisen, ist die kognitive Sicht immanent und Benutzer und Kontext spielen nach wie vor eine dominante Rolle.
B 16.4 Fazit Während die frühen Ansätze des kognitiven IR die Erweiterung um benutzerorientierte Perspektiven noch recht allgemein postulierten, finden sich in den aktuelleren Arbeiten konkrete Vorschläge, die in prototypischen Systemen operationalisiert und durch empirische Studien evaluiert wurden. Dennoch sind – nicht zuletzt aufgrund des Zusammentreffens verschiedener Disziplinen
346
B 16: Christa Womser-Hacker
– die Grenzen des kognitiven IR fließend. „There are many possibilities of representing information space in cognitively different ways“ (Lit. 14, S. 92). Eine interessante Richtung wird sich durch die Anwendung in sozialen Netzwerken und tagging-Systemen ergeben, in welchen verschiedene kognitive Räume aufeinandertreffen.
Literatur 01 Allan, J.; Croft, B.; Moffat, Al.; Sanderson, M. (Eds.): Frontiers, Challenges, and Opportunities for Information Retrieval. Report from SWIRL 2012. The Second Strategic Workshop on Information Retrieval in Lorne, February 2012. ACM SIGIR Forum, Vol. 46, No. 1, June 2012 02 Belkin, N.J.: The cognitive viewpoint in information science. Journal of Information Science: Principles and Practice, Vol. 16, No. 1, 11-15, 1990 03 Belkin, N.J.; Croft, W.B.: Retrieval techniques. Annual Review of Information Science and Technology, 22, 109-145, 1987 04 Belkin, N.J.; Oddy, R.N.; Brooks, H.M.: ASK for Information Retrieval: Part I. Background and Theory. Journal of Documentation, Vol. 38, No. 2, 61-71, 1982 05 Brookes, B.C.: The developing cognitive viewpoint in information science. de Mey, M. (Ed.): International Workshop on the Cognitive Viewpoint (University of Ghent, Ghent, 1977), 195-203, 1977 06 Cleverdon, C.W.: The Cranfield tests on index languages devices. Aslib Proceedings. Vol. 19, 173-194, 1967 07 Fidel, R.; Pejtersen, A.M.: From information behaviour research to the design of information systems: the Cognitive Work Analysis framework. Information Research, 10 (1) paper 210, 2004 (http://InformationR. net/ir/10-1/paper210.html) 08 Harman, D.K. (Ed.): The first text retrieval conference (TREC 1), Washington DC: National Institute of Standards and Technology, NIST Special Publication, 500-207, 1993 (http://trec.nist.gov/pubs/trec1/ t1_proceedings.html) 09 Hjørland, Birger: The foundation of the concept of relevance. JASIST 61, 2010, 217-237 10 Ingwersen, P.; Järvelin, K.: The Turn. Integration of Information Seeking and Retrieval in Context. Dordrecht: Springer, 2005 11 Ingwersen, P.: Information Retrieval Interaction. London: Taylor Graham, 1992 12 Ingwersen, P.: Polyrepresentation of information needs and semantic entities: elements of a cognitive theory for information retrieval interaction. Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ‘94), 101-110, 1994 13 Kuhlthau, C.C.: Inside the search process: information seeking from the user’s perspective. Journal of the American Society for Information Science, Vol. 42, No. 5, 361-371, 1991 14 Larsen, B.; Ingwersen, P.; Kekäläinen, J.: The Polyrepresentation Continuum in IR. Information Interaction in Context, IIiX, Copenhagen, Denmark, 88-96, 2006 15 Pharo, N.: A new model of information behaviour based on the Search Situation Transition schema. Information Research, 10 (1) paper 203, 2004 (http://InformationR.net/ir/10-1/paper203.html) 16 Ruthven, I.; Kelly, D. (Eds.): Interactive Information Seeking, Behaviour and Retrieval. London: Facet Publishing, 2011 17 Saracevic, T.: Relevance reconsidered ‘96. Ingwersen, P. & Pors, N.O. (Eds.) [COLIS 2], 201-218, 1996 18 Spink, A.; Wilson, T.D.; Ford, N.; Foster, A.; Ellis, D.: Information-seeking and mediated searching. Part 1. Theoretical framework and research design. Journal of the American Society for Information Science and Technology, 53 (9), 695-703, 2002 19 Vakkari, P.: A theory of the task-based information retrieval process: a summary and generalization of a longitudinal study. Journal of Documentation, Vol. 57, No. 1, 44-60, 2001 20 Vakkari, P.: Changes in search tactics and relevance judgments in preparing a research proposal: A summary of findings of a longitudinal study. Information Retrieval, Vol. 4, No. 3/4, 295-310, 2001 21 Vakkari, P.: Task-Based Information Seeking. Annual Review of Information Science and Technology, Vol.
B 16: Kognitives Information Retrieval
347
37, No. 1, 413-464, 2003 22 Voorhees, E.M.: TREC: Continuing information retrieval’s tradition of Experimentation. Communications of the ACM, Vol. 50, No. 11, 51-54, 2007 23 Wang, P.; Soergel, D.: A cognitive model of document use during a research project: Study I: Document selection. Journal of the American Society for Information Science, Vol. 49, No. 2, 115-133, 1998 24 Wilson, T.D.: The cognitive approach to information-seeking behaviour and information use. Social Science Information Studies 4, 197-204, 1984 25 Wilson, T.D.: Models in information behaviour research. Journal of Documentation, Vol. 55, No. 3, 249-270, 1999
Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
B 17 Maschinelles Lernen, Mustererkennung in der Bildverarbeitung B 17.1 Einleitung Die wohl wichtigste sensorische Modalität menschlicher Kognition ist das Sehen. Wir sind beeindruckt, wenn eine Maschine uns dabei übertrifft oder auch nur vergleichbar abschneidet. Auch deshalb wählte Frank Rosenblatt das automatisierte Erkennen von Ziffern als Anwendungsbeispiel für das erste künstliche neuronale Netz (Lit. 57). Nach Rosenblatt veranschaulichten viele Forscher die Leistung ihrer Lernalgorithmen anhand der Nachahmung der Bildverarbeitung im menschlichen Gehirn (Lit. 08, Lit. 61, Lit. 43, Lit. 29, Lit. 42). Bis auf wenige Ausnahmen in kontrollierten Umgebungen sind die Problemstellungen in der Bildverarbeitung zu komplex, um mit regelbasierten Verfahren gelöst zu werden. Daher basieren nahezu alle erfolgreichen Ansätze automatisierter Bildverarbeitung auf statistischen Lernverfahren. Diese Lernalgorithmen werden umso besser je mehr Trainingsdaten sie als Beispiele für die zu lernende Aufgabe bekommen. Die technischen Entwicklungen der letzten Jahre verhalf solchen Algorithmen zu einem entscheidenden Leistungsschub: Immer leistungsfähigere Prozessoren in digitalen Kameras und Smartphones, immer mehr Speichervolumen auf immer schnelleren Speichermedien, immer schnellerer Datenaustausch über das Internet und Auslagerung von semantischer Annotation der Bilder in soziale Netzwerke vereinfachen das maschinelle Lernen in der Bildverarbeitung. Während viele Problemstellungen, wie etwa die Schrifterkennung, inzwischen als gelöst gelten und in zahlreichen Geräten unseren Alltag erleichtern, sind andere Probleme immer noch aktuelle Forschungsthemen. Dazu gehören etwa Bildsegmentierung, robuste Gesichtserkennung zur biometrischen Passkontrolle oder automatische Objekterkennung. So vielfältig wie die Anwendungsfälle sind die Anforderungen an den Algorithmus. In Passkontrollen hat hohe Präzision oberste Priorität, bei der Gesichtserkennung für Schnappschüsse in der Freizeit ist Echtzeitfähigkeit wichtiger. Da sich diese Anforderungen teilweise gegenseitig ausschließen, ist in jedem Anwendungsfall der richtige Kompromiss zu suchen. Im Folgenden geben wir einen allgemeinen Überblick über Grundlagen und Anwendungen in der maschinellen Bildverarbeitung. Zur Illustration beginnen wir mit einem besonders erfolgreichen Anwendungsbeispiel des maschinellen Lernens in der Bildverarbeitung, der Gesichtsdetektion. Bei Gesichtsdetektion geht es darum, in einem Bild Bereiche zu finden und zu markieren, in denen sich sehr wahrscheinlich ein Gesicht befindet. In den letzten Jahren hat diese Technologie einen erstaunlichen Siegeszug angetreten. So ist heute praktisch jede Digitalkamera in der Lage, in Echtzeit Gesichter zu erkennen und dies zum Beispiel für intelligente Fokussierung und Belichtung zu nutzen. Einen entscheidenden Durchbruch in der automatischen Objekterkennung stellte der 2001 von Paul Viola und Michael Jones vorgeschlagene Algorithmus dar, da dieser erstmalig kompetitive Ergebnisse in Echtzeit erreichen konnte (Lit. 51, Lit. 74). Obwohl zunächst mit dem Ziel der Gesichtserkennung vorgeschlagen, ist er grundsätzlich ebenfalls zur Erkennung einer großen Menge anderer Objektklassen geeignet. Trotz mancher Verbesserungen und Weiterentwicklungen im Detail basieren viele Methoden der Echtzeit-Objekterkennung auf den gleichen Grundprinzipien wie der Original Viola-Jones Algorithmus. Wir werden daher dessen Grundidee hier grob skizzieren. Um die Gesichter in Abb. 1 zu detektieren, werden aus dem Foto zunächst quadratische Ausschnitte unterschiedlicher Größe extrahiert und in einem ersten Schritt jeweils mit einem schwarzweißen Balkenmuster multipliziert. Dies liefert ein hohes Ergebnis nur dann, wenn der Bildausschnitt unter dem weißen Balken hell und unter den schwarzen Balken dunkel ist. Alle Gesichter ergeben hier ein hohes Ergebnis, denn die Augen sind dunkler als die Bereiche direkt darunter. Bildausschnitte mit einem hohen Ergebnis kommen in die zweite Runde, alle anderen werden aussortiert. In der zweiten Runde nun werden alle übrig gebliebenen Ausschnitte mit einem anderen
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
349
Muster multipliziert, welches ebenfalls auf Gesichtern hohe Ergebnisse liefert, usw. Dass in den ersten Schritten auch Ausschnitte dabei bleiben, die kein Gesicht zeigen, ist kein Problem, denn diese werden nach und nach aussortiert, bis nur noch Gesichter übrig bleiben. Das wichtige an diesem Algorithmus sind zwei Dinge: Erstens ist der Vergleich eines Bildausschnitts mit solch einem Balkenmuster extrem einfach und daher schnell, zweitens sinkt in jedem Schritt die übriggebliebene Anzahl der Kandidaten-Ausschnitte, die es zu analysieren gilt sehr schnell. So kann der Viola-Jones Algorithmus Gesichter in Echtzeit finden.
Abb. 1: Alle quadratische Bildausschnitte (hier fünf Beispiele) werden in jedem Schritt mit einem Balkenmuster multipliziert. Nur Bildausschnitte, die hierbei einen hohen Wert erzielen, kommen in die nächste Runde und werden dort mit dem nächsten Balkenmuster multipliziert. So werden Schritt für Schritt alle nicht-Gesichter aussortiert.
Dieses einfache Beispiel veranschaulicht die beiden elementarsten Verarbeitungsschritte der automatisierten Bildverarbeitung im Speziellen und der Mustererkennung im Allgemeinen: (1) Merkmalsextraktion und (2) Klassifikation aufgrund der gewonnenen Merkmale. In diesem Beispiel waren die Merkmale, die jeweils einen Bildausschnitt charakterisieren, durch die Ergebnisse der Multiplikation des Ausschnitts mit den schwarz-weißen Balkenmustern gegeben. Die Merkmalsextraktion ist in der Regel stark von der jeweiligen Anwendung abhängig und verlangt oft anwendungsspezifische Expertise. So kann eine gute Repräsentation der Daten enorm wichtig für die nachfolgende Verarbeitung sein, denn sie beeinflusst die Präzision von Lernalgorithmen und kann auch darüber entscheiden, ob ein Verfahren echtzeitfähig ist oder nicht. Oft sind die extrahierten Merkmale wie in obigem Beispiel sehr simpel. Damit überlässt man die Hauptaufgabe der Bildverarbeitung der Mustererkennung: Statistische Lernverfahren werden mit Beispielen trainiert bis sie die richtige Kombination all dieser simplen Merkmale gefunden haben, die eine bestimmte Aufgabe besonders gut lösen, wie etwa Gesichtserkennung. In obigem Beispiel ist es Aufgabe der Mustererkennung die optimale Abfolge der verschiedenen Balkenmuster zu lernen und die Grenzen, unterhalb derer ein Ausschnitt als „Nicht-Gesicht“ auszusortieren ist. In Abschnitt 2 wird zunächst die Merkmalsextraktion aus Bildern ein wenig ausführlicher behandelt. Abschnitt 3 skizziert dann Methoden der Mustererkennung und des Maschinellen Lernens. Der Großteil der dort vorgestellten Algorithmen lässt sich auf eine Vielzahl von Problemstellungen anwenden. Zum Beispiel werden dieselben Algorithmen, die heute für Objekterkennung eingesetzt
350
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
werden, benutzt, um die Sicherheit von Computernetzwerken (Lit. 56) zu gewährleisten oder Gedanken aus Hirnsignalen zu entschlüsseln (Lit. 28, Lit. 07, Lit. 06). Abschnitt 4 geht auf einige spezifische Anwendungen dieser Verfahren in der automatischen Bildverarbeitung ein, wie zum Beispiel Bildklassifikation, Objekterkennung und Bildsegmentierung. Im Rahmen dieses Kapitels wird es natürlich nicht möglich sein, auf alle Tricks und Details einzugehen; wir werden in diesem Fall auf die jeweiligen Originalpublikationen verweisen.
B 17.2 Merkmalsextraktion aus Bildern: Häufigkeiten „visueller Wörter“ Der erste Schritt der Bildverarbeitung ist die Extraktion von Merkmalen aus Bildern. Wie im eingangs erwähnten Beispiel sind diese Merkmale ein Satz von Zahlen xi, welche in der Lage sind, bestimmte Eigenschaften des Bildes zu beschreiben. Zusammengefasst definieren diese Merkmale dann einen Vektor x in einem Merkmalsraum. Üblicherweise werden solche Merkmale zunächst einmal lokal, d. h. in einzelnen Bildausschnitten extrahiert. Beispiele hierfür sind Helligkeits- und Farbwerte, Kontraste, binäre Muster (Lit. 51, Lit. 74), Verteilung von Farbgradienten (Lit. 20), oder auch komplexere Merkmale wie z. B. Scale-invariant feature transform (SIFT) (Lit. 45, Lit. 69) und Texturmerkmale (Lit. 53, Lit. 01). Die gewonnenen lokalen Merkmalsvektoren einzelner Bildausschnitte können dann in einen lokalen Merkmalsraum eingebettet und dort bestimmten prototypischen Vektoren, sogenannten visuellen Wörtern, zugeordnet werden. Damit wird jeder Bildausschnitt durch genau ein solches visuelles Wort beschrieben. Zwar steckt in deren räumlicher Anordnung einiges an Information, doch für viele Anwendungen ist es ausreichend, das Gesamtbild schlicht durch die relativen Häufigkeiten der in ihm vorkommenden visuellen Wörter zu beschreiben (Lit. 21). Abb. 2 verdeutlicht dieses Verfahren.
A) Auswahl von Regionen
B) Berechnung lokaler Merkmale
C) Abbildung lokaler Merkmale auf „visuelle Wörter“
D) Häufigkeiten „visuelle Wörter“ für das gesamte Bild
visuelle Wörter: lokale Merkmale:
Abb. 2: Berechnung eines Histogramms über visuellen Wörtern
Eine Erweiterung dieser Grundmerkmale kann zum Beispiel durch Kombinationen mehrerer Farbkanäle wie in Lit. 69 oder vorgegebene räumliche Unterteilungen (Lit. 41) erfolgen; letztere stellen eine robuste Variante zur Einbeziehung des räumlichen Kontextes dar. Aber auch wenn das schlichte Zählen von Häufigkeiten visueller Wörter den räumlichen Kontext ignoriert, ist diese Vorgehensweise oft aus folgenden Gründen vorteilhaft: –– Viele Konzepte sind invariant gegenüber der räumlichen Anordnung visueller Wörter. –– Der Verzicht auf eine komplexere Modellierung räumlicher Beziehungen zwischen Regionen im Bild macht die Analyse weniger störanfällig, vor allem auf Bildern mit komplexer Bildkomposition.
––
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
351
Die Aggregation vieler lokaler Merkmale zu einem globalen Merkmal führt zu Varianzunterdrückungseffekten durch Mittelung. In diesem Sinne zeigen auch die Arbeiten Lit. 49 sowie Lit. 68, dass die Klassifikationsergebnisse sich durch Erhöhung der Anzahl der exrahierten lokalen Merkmale verbessern.
Ein weiterer Vorteil dieser Vorgehensweise ist ihre Flexibilität durch eine geeignete Wahl von Algorithmen für jede Berechnungsstufe. Histogramme visueller Wörter erzielen sehr gute Ergebnisse in internationalen Wettbewerben im Bereich Bildklassifikation wie Pascal VOC (Lit. 23), ImageCLEF Photo- Annotation (Lit. 50, Lit. 05) oder Konzepterkennung in Videos (Lit. 63) sowie bei der Detektion (Lit. 22, Lit. 70). Neben der bereits erwähnten Wahl der lokalen Merkmale ist auch die Auswahl der Regionen für die Berechnung lokaler Merkmale relevant. Im einfachsten Fall werden diese Regionen regelmäßig über das gesamte Bild verteilt. Eine Alternative hierzu ist die Auswahl der Regionen durch Ziehung aus problemspezifischen Verteilungen (Lit. 79, Lit. 05) (z. B. Harris-Laplace Punkte). Letzteres liefert oft bessere Klassifikationsergebnisse bei geringerem Rechenaufwand. Die Auswahl geeigneter visueller Wörter hat einen großen Einfluss auf die Klassifikationsraten und die Geschwindigkeit der Merkmalsberechnung. Praktisch erprobte Möglichkeiten sind neben k-means Clustern radius-basiertes Clustern (Lit. 31) sowie sparse coding (Lit. 78). Besondere Beachtung finden in diesem Zusammenhang auch Fishervektoren aufbauend auf Gaußschen Modellen (Lit. 19). Schnellere Algorithmen können durch hierarchisches Clustern (Lit. 48) und randomisierte Entscheidungsbäume (Lit. 46) realisiert werden. Für die Abbildung lokaler Merkmale auf visuelle Wörter haben sich kern-basierte Abbildungen (Lit. 71) sowie lokal lineare Abbildungen (Lit. 76) bewährt. Für einen Vergleich verschiedener Methoden zur Berechnung von Histogrammen über visuellen Wörtern sei auf (Lit. 16) verwiesen.
B 17.3 Mustererkennung und Maschinelles Lernen Im oben erwähnten Beispiel ging es darum, quadratische Bildausschnitte in zwei Klassen einzuteilen, jene mit Gesicht und jene ohne Gesicht. Diese Klassifikation kann man als Auswertung einer Funktion f interpretieren, die dem extrahierten Merkmalsvektor x aus jedem Bildausschnitt eine Zielgröße y ∈ {–1, 1} zuordnet: (1) f : x y. Im Falle der oben skizzierten Gesichtserkennung ist die Zielgröße entweder „Gesicht“ (y = 1) oder „kein Gesicht“ (y = –1). Man unterscheidet bei Mustererkennungsalgorithmen zwei Phasen, die Trainingsphase, in der der Algorithmus die Funktion f lernt, und einer Vorhersagephase, in der der Algorithmus mit Hilfe der zuvor gelernten Funktion f für neue, unbekannte Merkmalsvektoren die jeweilige Zielgröße vorhersagt. Beim Vorhandensein von Zielgrößen y spricht man etwas präziser auch vom überwachten Lernen. Die wichtigsten Beispiele hierfür sind Klassifikations- und Regressionsverfahren (Lit. 27, Lit. 60, Lit. 47). Im Gegensatz dazu zählt man Methoden, die nur auf der in neren Struktur der Vektoren x basieren und keine Zielgrößen verwenden (z. B. Clustern, Segmentierung, blinde Quellentrennung) zu den unüberwachten Verfahren. Im Folgenden skizzieren wir die Grundlagen des (überwachten) maschinellen Lernens. B 17.3.1 Modellselektion
In der Trainingsphase lernt ein Algorithmus aus Beispielen, also aus Paaren ( x i, yi) von Merkmalsvektoren und zugehörigen Zielgrößen deren Zusammenhang, also die Funktion f. Der Datensatz all dieser Beispiele wird daher auch Trainingsdatensatz genannt. Jeder Lernalgorithmus ist in der Lage,
352
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
Funktionen bis zu einer bestimmten Komplexität darzustellen; man spricht in diesem Zusammenhang auch von der Kapazität eines Algorithmus. Häufig haben Lernalgorithmen auch interne Parameter, mit denen man deren Kapazität einstellen kann. Abhängig vom Algorithmus und der Wahl von dessen Parametern wird man daher auf den gleichen Trainingsdaten unterschiedliche Funktionen f lernen. Eine zentrale Frage der statistischen Lerntheorie ist daher, welche dieser Funktionenklassen optimal ist. Da das Ziel eine korrekte Vorhersage der Zielgrößen für neue, bisher unbekannte Daten ist, ist eben jene Funktion die beste, welche auf diesen neuen Daten den geringsten Fehler erzeugt. Dies ist im Allgemeinen nicht die Funktion, die auf den Trainingsdaten am besten ist.
Abb. 3: Eine komplexe Funktion (gestrichelte Linie) kann gegebene Daten (linke Seite) besser beschreiben als eine weniger komplexe (durchgezogene Linie). Dies bedeutet jedoch nicht, dass sie neue Daten (rechte Seite) besser vorhersagt.
Grundsätzlich gilt, dass Algorithmen mit höherer Kapazität die Trainingsdaten immer besser beschreiben als solche mit geringerer Kapazität. Ein Algorithmus mit hoher Kapazität neigt allerdings dazu, zufällige Fluktuationen auf den Trainingsdaten mit zu approximieren, solches „Rauschen“ wird sich jedoch auf neuen Daten anders manifestieren, sodass eine zu komplexe Lernmaschine also daran scheitern würde auf neuen Daten korrekt vorherzusagen. Diese Lernmaschine könnte damit nicht verallgemeinern; dieses Szenario nennt man auch Overfitting. Um Overfitting zu vermeiden, ist daher oft eine Beschränkung der Kapazität, etwa durch Regularisierung, sinnvoll. Das Testen auf neuen, bisher unbekannten Daten wird in der Praxis üblicherweise durch Kreuzvalidierung simuliert. Hierbei wird der Trainingsdatensatz in zwei Teile unterteilt, auf einem lernt der Algorithmus die Funktion f, auf dem anderen wird die Vorhersage getestet. Dadurch können dann verschiedene Algorithmen (und Parametereinstellungen) fair miteinander verglichen werden und der Algorithmus mit der geeigneten Kapazität ausgewählt werden. Für detailliertere Informationen zur statistischen Lerntheorie siehe Lit. 09, Lit. 72, Lit. 47. B 17.3.2 Klassifikation mit Support Vektor Maschinen und Erweiterungen Eines der erfolgreichsten und universellsten statistischen Lernverfahren ist die Support Vektor Maschine (SVM) (Lit. 17, Lit. 47, Lit. 72, Lit. 60). Die Zielfunktion f einer SVM ist parametrisiert durch
f( x) = b + 〈 w, φ( x)〉, (2) D wobei φ : ℝ → ℋ eine im Allgemeinen nicht-lineare Abbildung des Merkmalsvektors in einen hochdimensionalen (ggf. sogar unendlich-dimensionalen) Hilbertraum ist. Ziel der SVM ist es, folgenden Fehlerterm zu minimieren: l (f( x ),y) = max (0,1 – yf ( x )) (3)
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
353
Der Term yf( x ) wird negativ, wenn die Zielfunktion eine falsches Zielgröße y vorhersagt. Jedoch werden bereits knapp korrekt klassifizierte Beispiele (sgn(f(x)) = y, |f(x)|< 1) mit in den Fehler einbezogen. Hierdurch wird erzwungen, dass die Datenpunkte nicht nur korrekt klassifiziert werden, son dern dass diese auch nicht zu nah an der Entscheidungslinie f( x ) = 0 liegen. Gleichzeitig wird von der Zielfunktion gefordert, dass die Norm des Gewichtsvektors‖w‖beschränkt sein soll. Das Optimierungsproblem über dem empirischen Fehler auf den Trainingsdaten (xi, yi) ist dann
C N minw,b ‖w‖2 + ∑ l(f( x i ),yi ) . (4) N i= 1
Die Regularisierungskonstante C gewichtet den Fehlerterm relativ zum Regularisierungsterm‖w‖2 ; Ein großer Wert von C betont den Fehlerterm. Ein wesentlicher Vorteil von Support Vektor Maschinen ist die Tatsache, dass in der Optimierung dieser Kostenfunktion die Hilbertraum-Vektoren nur in der Form von Skalarprodukten der Form (5) k( x 1 ,x 2 ) = 〈φ( x 1 ), φ( x 2 )〉 auftauchen, so dass die hochdimensionale Funktion φ selbst niemals explizit ausgewertet werden muss. Stattdessen kann man sich auf die induzierte Kernfunktion k: ℝD x ℝD → ℝ beschränken. Diese kann auch als ein (lineares) Ähnlichkeitsmaß zwischen x 1 und x 2 im Bildraum der Abbildung φ interpretiert werden und stellt gleichermaßen ein nichtlineares Ähnlichkeitsmaß im Originalraum dar. Umgekehrt gibt es für jede symmetrische und positiv definite Funktion k: ℝD x ℝD → ℝ eine Einbettungsfunktion φ : ℝD → ℋ in einen Hilbertraum, derart dass k( x 1 ,x 2 ) = 〈φ( x 1 ), φ( x 2 )〉 gilt. Damit kann man das obige Optimierungsproblem durch Vorgabe einer positiv definiten Kernfunktion k ohne Kenntnis ihrer Einbettung φ lösen. Häufig verwendete nichtlineare Kernfunktionen sind der Gaußkern (6) für allgemeine Merkmale oder der Histogrammschnittkern (7) für normierte Histogramme, deren nichtnegative Einträge sich zu 1 summieren: k( x 1 ,x = ) exp( −σ‖x 1 − x 2‖22 ) (6) 2 D k( x 1 (7) ,x 2 ) = ∑ min( x 1,d ,x 2,d ) d= 1
Für eine detaillierte Einführung in Support Vektor Maschinen sei auf Lit. 47 verwiesen. Weiterentwicklungen von Support Vektor Maschinen wie z. B. nicht-sparses multiples Kern-Lernen (Lit. 33, Lit. 34) verfolgen die Idee, eine optimale Kombination von Merkmalen zu lernen. Hierbei wird jedes Bild durch eine Menge von Merkmalsvektoren x ( 1 ) ,…, x (M) repräsentiert. Jeder Merkmalstyp x (k ) besitzt seine eigene Einbettung φk. Die Vorhersageabbildung wird dann als gewichtete Linearkombination der Einbettungen dieser Merkmale M f( x) = b + ∑ βk 〈 wk , φk ( x (k ) )〉
(8) dargestellt. Das Optimierungsproblem kann dann formuliert werden als: k =1
M C N (9) min mit‖β‖p ≤ 1 β ‖wk‖2 + ∑ l(f( x i ),yi ) w,b,β ∑ k Ni 1 = k 1=
) (k ) Entsprechend kann hier für jeden Merkmalstyp x (k ) eine separate Kernfunktion k k ( x (k ,x 2 ) defi1 niert werden. Der Parameter p in der Nebenbedingung regularisiert das Lernen der Merkmalsgewichte β. Im Grenzfall p → ∞ werden alle Merkmale gleich stark gewichtet, dieses entspricht maximaler Regularisierung des Lernens der Merkmalsgewichte. Im anderen Grenzfall p = 1 wird nur
354
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
eine kleine Teilmenge von Merkmalen ausgewählt. Dieses ist optimal in der Situation, wenn nur eine kleine Menge an Merkmalen für die Klassifikation Information beiträgt, und das Lernen der Kombination der Merkmale keine Regularisierung benötigt, weil sie gut von den Trainingsbeispielen auf die Testmenge generalisiert. Algorithmen für nicht-sparses multiples Kern-Lernen sind z. B. in der Open Source Shogun Toolbox implementiert (Lit. 64). Eine Analyse der Effizienz dieser Algorithmen für Bildklassifikation wird in Lit. 25, Lit. 04 durchgeführt. Erfolgreiche Anwendungen dieser Anwendungen sind z. B. Lit. 73, Lit. 59, Lit. 05, Lit. 04, Lit. 03, Lit. 81. Alternativen für das Lernen von Merkmalsgewichten sind z. B. Algorithmen, die auf Kerndiskriminantenanalyse anstelle von Support Vektor Maschinen aufbauen (Lit. 77), mehrstufige Ansätze (Lit. 02), wozu auch boosting von Vorhersagefunktionen dazugehört, welche über verschiedenen Kernen trainiert worden sind, sowie Varianten mit einer größeren Anzahl an Parametern (Lit. 13), welche flexibler sind, aber infolge von Überanpassung schlechter generalisieren können.
B 17.4 Anwendungen von Mustererkennung in der Bildverarbeitung Im diesem Abschnitt werden verschiedene Problemstellungen der automatischen Mustererkennung in der Bildverarbeitung skizziert, insbesondere Bildklassifikation und Objektlokalisation; ein besonderer Fokus wird abschließend auf das schwierige Problem der Bildsegmentierung gelegt. B 17.4.1 Bildklassifikation Das Ziel der Klassifikation besteht darin, ein Bild zu annotieren, d. h. diesem komplexere Konzepte zuzuordnen, die für das Bild zutreffen. Im Allgemeinen ist ein Konzept eine Gemeinsamkeit, die einer Menge von Bildern zugrunde liegt. Beispiele für Konzepte sind Straße, Berge, Schnee, Sonnenuntergang, Fahrrad, Menschengruppe, Konzert. Man erkennt anhand dieser Beispiele, dass ein Konzept nicht unbedingt ein Objekt sein muss, es kann ebenso eine Bildkomposition wie Landschaft, ein abstrakter Begriff wie Architektur oder ein subjektiver Eindruck sein wie ästhetisches Bild oder Stadtszene. Aus der Perspektive von Mustererkennungsalgorithmen werden Konzepte durch eine Menge {( x i ,yi )∣i = 1 :n} von positiven und negativen Beispielbildern definiert. yi ∈ { −1, +1} gibt an, ob das zu lernende Konzept im Bild xi enthalten ist oder nicht. Dies erlaubt es im Prinzip, eine Menge beliebiger Konzepte zu lernen, selbst wenn die Konzepte nicht explizit definiert werden können. Diese Flexibilität ist einer der Hauptvorteile von statistischen Lernverfahren in der automatischen Bildverarbeitung. Gleichzeitig kann diese Art der impliziten Definition von Konzepten über Trainingsdaten auch zu falschen Ergebnissen führen, wenn der Trainingsdatensatz schlecht gewählt wurde. B 17.4.2 Lokalisierung von Objekten Das Ziel der Lokalisierung von Objekten besteht im Auffinden von Objekten in Bildern. Die Ausgabe eines Algorithmus ist typischerweise ein Rechteck, welches das gesuchte Objekt einrahmt. Lösungen basierend auf Mustererkennungsverfahren sind in der Lage, in ungesehenen Bildern eine Menge verschiedener Objekte zu finden. Die Idee ist es, für jede Objektklasse c eine reell-wertige Vorhersagefunktion fc (x, z) für ein Bild x mit Positionsparameter z zu lernen, derart dass fc (x, z) > 0 die Anwesenheit eines Objektes der Klasse c an Positionskoordinaten z im Bild ausdrückt. Dazu benötigen sie für die Lernphase eine Menge von Trainingsbildern, auf denen die gesuchten Objekte mit Rechtecken eingerahmt sind.
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
355
Abb. 4: Beispielhafte Illustration eines Sternmodells mit einem Wurzelknoten und 4 Blattknoten für ein Fahrrad
Der gegenwärtige Stand der Technik nutzt als Merkmale sogenannte Sternmodelle. Dies sind hierarchische Merkmale, die jeweils aus kleineren Strukturen zusammengesetzt sind. Ein Beispiel hierfür zeigt Abb. 4. Das abgebildete Fahrrad besteht aus verschiedenen Teilen (Rahmen, zwei Räder, Lenker) und aus deren relativer räumlicher Anordnung. Eine Objektklasse wird durch mehrere Sternmodelle repräsentiert, um Objekte in verschiedenen Blickwinkeln und Größenskalen darstellen zu können. In jeder Unterstruktur werden lokale Merkmalsvektoren über der dazugehörigen Bildregion berechnet. Die besten Klassifikationsergebnisse auf diesen Merkmalen liefern z. Zt. latente Support Vektor Maschinen (Lit. 80). Die Besonderheit der latenten Support Vektor Maschine besteht darin, dass die Vorhersagefunktion fc ( x) für ein Bild eine zusätzliche latente Variable beinhaltet, in diesem Fall die Position des detektierten Objektes. Jedoch werden – mit entsprechenden Vorverarbeitungsschritten – auch mit normalen SVMs sehr gute Ergebnisse erzielt auf Datensätzen mit 1.000 Objektklassen und 100.000 Testbildern (Lit. 70). Noch schnellere Verfahren bauen auf effizienter Unterfenstersuche (Lit. 40) auf, um die Anzahl der zu untersuchenden Regionen in einem Bild zu begrenzen. Die Idee besteht hierbei darin, das Problem der Lokalisierung in ein Vorhersageproblem für Support Vektor Maschinen mit strukturiertem Ausgaberaum umzuformulieren (Lit. 67). Die iterative Suche nach dem optimalen Fenster kann damit als konvexes Optimierungsproblem formuliert und sehr effizient gelöst werden. B 17.4.3 Bildsegmentierung Segmentierung kann als die Zerlegung der Pixel eines Bildes in mehrere Teilmengen, die Segmente, aufgefasst werden. Im binären Fall ist man typischerweise an der Zerlegung in Objekt und restlichem Bild interessiert. Diese Zerlegung kann als Klassifikationsproblem für alle Pixel eines Bildes formuliert werden, wobei zu beachten ist, dass benachbarte Pixel voneinander abhängig sind: Es ist zu erwarten, dass ein Pixel zu einer Klasse gehört, wenn viele Pixel in der Nähe dieses Pixels zu derselben Klasse gehören. Drei Ansätze konnten sich in der Praxis durchsetzen: Diskrete Segmentierung mit Grafischen Modellen (Lit. 26), kontinuierliche Segmentierung mit Energiemodellen (Lit. 18) und Segmentations-Support Vektor Maschinen (Lit. 44, Lit. 14).
356
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
B 17.4.3.1 Diskrete Segmentierung mit Grafischen Modellen Grafische Modelle und insbesondere conditional random fields (CRFs) (Lit. 39, Lit. 65) kommen in der Bildsegmentierung häufig zum Einsatz. Neben der Segmentierung finden diese Modelle auch oft Verwendung im Abgleich und der Tiefenschätzung von Stereobildern (Lit. 36), in der Modellierung von Texturen (Lit. 58) sowie der Rekonstruktion von Panorama und verrauschten Bildern (Lit. 66). Die n RGB-Pixel eines Bildes definieren einen Vektor x ∈ 3n mit je einem Eintrag pro Farbkanal und Pixel. Ziel von CRFs ist es, eine Abbildung zu finden, welche jedes Pixel im einfachsten Falle binär klassifiziert: f : x = y f( x) ∈ {0,1}n. Im Falle von CRFs wird eine Likelihoodfunktion P( x | y) und eine a-priori-Verteilung P(y) vorgegeben. Diese ermöglicht es, die gesuchte Abbildung f als Maximum der Posteriorverteilung zu modellieren. Durch geeignete Wahl von Termen lässt sich diese Posterior-Verteilung P(y | x) als normiertes Exponential einer Energiefunktion E( x,y) exp( −E( x,y)) (10) P(y | x) = n(y) darstellen und die Maximierung der Posterior-Verteilung als Minimierung dieser Energie betrachten. Um diese Reformulierung zu verstehen, ist es hilfreich, das Bild als Graphen zu betrachten. Jedes Pixel p eines Bildes ist ein Knoten, das mit einer Auswahl seiner Nachbarpixel durch Kanten verbunden ist. Diese Kanten gestatten die Modellierung der Abhängigkeit von benachbarten Pixeln im Segmentationsproblem. Der Farbwert des Pixels p sei gegeben durch x p ∈ 3, seine Klassenzugehörigkeit durch yp ∈ {0,1}. Damit kann die Energie allgemein geschrieben werden als Summe von Faktoren E(y,x) =∑ α(yp ,x p ) + ∑ β(p1 ,p2 ,yp ,yp ) + ... (11) 1 2 p p ,p 1
2
Während α(yp ,x p ) den Zusammenhang von Farbwert und Klassenzugehörigkeit für jeden Pixel einzeln beschreibt, misst β(p1 ,p2 ,yp ,yp ) die Übereinstimmung der Klassen für miteinander verbun1 2 dene Pixel. Gegebenenfalls wird dieses Modell noch durch Terme höherer Ordnung ergänzt, die Zusammenhänge zwischen 3 oder mehr Pixeln modellieren. Eine wichtige Fragestellung sind dabei effiziente Algorithmen für das Energieminimierungsproblem. Dieses hängt wesentlich von der Struktur der Energiefunktion ab. Modelle mit einer größeren Anzahl von Faktoren und Faktoren höherer Ordnung sind schwerer zu optimieren, erlauben aber präzisere Modelle. Grundlegende Probleme sind dabei die Frage, wie man die Lösung des Minimierungsproblems effizient approximieren kann, unter welchen Bedingungen lokale oder globale Optima gefunden werden können, sowie Skalierbarkeit auf Graphen mit vielen Knoten und Faktoren. Generell einsetzbare Algorithmen sind Heuristiken wie Simulated Annealing (Lit. 55), Loopy Belief Propagation (Lit. 24, Lit. 52) sowie Tree reweighted message passing (Lit. 35, Lit. 75). Belief Propagation konvergiert garantiert nur auf Graphen mit Baumstruktur ohne Zyklen. Eine wichtige Klassifikation von Modellen betrifft die Einteilung der Terme in der Energiefunktion in submodulare und nicht submodulare Funktionsterme. Energien, welche nur submodulare Terme enthalten, können theoretisch in polynomieller Zeit als Funktion der Anzahl der Knoten optimiert werden (Lit. 30, Lit. 62). Als Sonderfall können Energiefunktionen, die nur binäre submodulare Terme enthalten, mit Hilfe von Graph cuts (Lit. 37, Lit. 11, Lit. 12) sehr effizient gelöst werden. Eine Möglichkeit, Energien mit nicht submodularen Termen approximativ zu lösen, baut auf Umformulierung und Relaxation in ein lineares Optimierungsprogramm auf (Lit. 38). Die Idee besteht hierbei, anstelle des Optimierungsproblems über Y = {0, 1}n, ein Problem über dessen konvexer Hülle [0, 1]n zu lösen und hinterher die Lösung auf Y = {0, 1}n zu diskretisieren. Die hohe Anzahl an Variablen erfordert dabei in der Regel ein geschicktes Ausnutzen der Struktur des Problems.
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
357
B 17.4.3.2 Kontinuierliche Segmentierung mit Energiefunktionen Kontinuierliche Segmentierung mit Energiemodellen baut auf Funktionen f : X → {0, 1} auf, die einen kontinuierlichen Eingaberaum besitzen. Dieser Ansatz ist bereits von Modellen wie Snakes (Lit. 32) und dem Chan-Vese-Modell (Lit. 15) bekannt und liefert oft Lösungen in kurzer Rechenzeit. Die Grenze zwischen zwei Segmenten kann als Kurve C :[0,1] → 2 parametrisiert werden. Diese ergibt sich als Minimum eines Energiefunktionals, welches wie in (Lit. 32), die Gradientennorm ∇I(C(u)) eines Bildes I über der Kurve C maximiert mit einer Regularisierung über Krümmungsterme für die Kurve: − ∫ ‖∇I(C(u))‖du E(C) = [0,1]
∂c(u) + (12) a1 ∫ (u) du [0,1] ∂u ∂ 2c(u) + a2 ∫ (u) du [0,1] ∂ 2u In klassischen Ansätzen wird die Kurve C, welche Grenze zwischen zwei Segmenten repräsentiert, 1 als Nullstellenmenge einer zeitabhängigen level set Funktion φ : X × → dargestellt. Es wird (t) verlangt, dass zu jeder Zeit t die optimale Kurve C die Bedingung (t) (13)
φ(C (u),t) = 0 ∀u ∈[0,1]
erfüllt. Dieses liefert als Segmentationsergebnis zum Endzeitpunkt tend: 0 falls φ( x,tend ) < 0 (14) f( x) = 1 sonst.
Variationsmethoden gestatten es, aus Bedingung (13) eine Evolutionsgleichung für die level set Funktion φ daraus abzuleiten, welche eine initiale Kurve in Richtung einer lokal optimalen Lösung deformiert. Einen Überblick über neuere, statistisch motivierte Ansätze dazu bietet (Lit. 18). Eine Weiterentwicklung (Lit. 54) liegt im Unterschied zu diesen Modellen auf Termen, die ein konvexes Problem ergeben und konvexe Optimierung (Lit. 10) ermöglichen. Der Nachteil dieser Ansätze besteht in der Einschränkung auf Terme, die konvex sind oder sich durch konvexe Terme effizient abschätzen lassen können. Der Vorteil konvexer Methoden liegt in dem Auffinden einer globalen optimalen Lösung unabhängig von der Initialisierung des Modells. Dieses vermeidet das Risiko, Lösungen zu finden, die in lokalen Optima liegen und u. U. schlechte Ergebnisse liefern. Für viele konvexe Probleme existieren hocheffiziente Lösungsmethoden. B 17.4.3.3 Segmentierung mit Support-Vektor-Maschinen Der dritte hier erwähnte Ansatz (Lit. 44, Lit. 14) basiert auf diskriminativen Methoden, welche unter anderem Segmente nach ihrer vorhergesagten Klassenzugehörigkeit und Überlappung mit einem Objekt einer Klasse mit Hilfe von Support-Vektor-Maschinen sortieren. Diese neue Methode lieferte sehr gute Ergebnisse in internationalen Wettbewerben. Die Idee besteht darin, zunächst eine Menge von Segmenten zu generieren, die möglicherweise Teil eines Objekts sind. Diese werden nach einem Maß dafür bewertet, dass sie Teil eines Objekts unabhängig von der Objektkategorie sind. Dieser Schritt ergibt eine Anzahl von Segmenten für die weitere Bearbeitung, derart dass ein großer Anteil ihrer Pixel sich mit einem Objekt überschneidet. In einem zweiten Schritt werden die Segmente nach ihrer Überlappung mit einem Objekt einer bestimmten Objektklasse mit Hilfe von SupportVektor-Regression bewertet. Im finalen Schritt werden die Segmente entsprechend ihren vorhergesagten Überlappungswerten zu verschiedenen Objektklassen zusammengesetzt.
358
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
B 17.5 Zusammenfassung Heutzutage sind statistische Lernmaschinen aufgrund ihrer Präzision und hohen Geschwindigkeit die vorherrschende Technologie für die Bildverarbeitung. Das vorliegende Kapitel hat den Versuch unternommen, kurz und unter Vermeidung vieler, eigentlich notwendiger mathematischer Details zu erklären, welche Konzepte zum Einsatz kommen. Viele Tücken stecken jedoch noch im mathematischen und Implementierungsdetail, so dass der Text in dieser Kürze nicht in sich abgeschlossen sein kann. Die prinzipielle Vorgehensweise in der Bildverarbeitung erfolgt jedoch als: (1) Merkmalsextraktion durch typische Extraktoren wie Farbe, Textur, SIFT, Gradienteninformation, o. ä. und Berechnung von visuellen Worten durch Clustern der Merkmale, (2) Modellbildung durch eine je nach Anwendung komplexere nichtlineare Support Vektor Maschine, die sogar mehrere Merkmalsräume kombinieren kann, (3) Modellselektion und Einstellung der Regularisierungsparameter durch Kreuzvalidierung, (4) Klassifikation, Regression oder Ranking der Daten durch die Lernmaschine, zur Bildklassifikation, Objektdetektion, Bildsegmentierung oder zur Objektannotation. Essentiell für den Erfolg des statistischen Lernens in der Bildverarbeitung ist ein wohlannotierter Datenkorpus, von dem die zugrunde liegenden problemspezifischen statistischen Zusammenhänge gelernt werden können. In modernen Produkten wie beispielsweise Digitalkameras, Suchmaschinen oder auch in medizinischen Diagnosesystemen sind die beschriebenen technologischen Schritte bereits realisiert und somit gehören Produkte, die maschinelle Lernkonzepte für die Bildverarbeitung implementieren mittlerweile zu unserer Alltagserfahrung. Man könnte nun glauben, das Thema sei damit erforscht und man könne es ad acta legen, das Gegenteil ist jedoch der Fall. Jenseits dieser spezifischen Anwendungen sind autonome künstliche Systeme, die intelligent wahrnehmen und daraus inferieren können weiterhin ein Technologietraum: Immer noch ist jedes Kind um Größenordnungen schneller und präziser als ein künstliches bildverarbeitendes System, wenn es darum geht den Eismann zu entdecken oder andere komplexe Bilddetektions-, Segmentations- und Annotationsaufgaben zu lösen – der Vorsprung ist jedoch in den letzten Jahren merklich geschrumpft.
Literatur 01 Selen Atasoy; Diana Mateus; Andreas Georgiou; Nassir Navab; Guang-Zhong Yang: Wave interference for pattern description. ACCV (2), 41-54, 2010 02 Muhammad Awais; Fei Yan; Krystian Mikolajczyk; Josef Kittler: Novel fusion methods for pattern recognition. ECML/PKDD (1), 140-155, 2011 03 Alexander Binder; Klaus-Robert Müller; Motoaki Kawanabe: On taxonomies for multiclass image categorization. International Journal of Computer Vision, 99 (3), 281-301, 2012 04 Alexander Binder; Shinichi Nakajima; Marius Kloft; Christina Müller; Wojciech Samek; Ulf Brefeld; Klaus-Robert Müller; Motoaki Kawanabe: Insights from classifying visual concepts with multiple kernel learning. PLoS ONE, 7 (8), :e38897, 08 2012, doi: 10.1371/journal.pone.0038897 05 Alexander Binder; Wojciech Samek; Marius Kloft; Christina Müller, Klaus-Robert Müller; Motoaki Kawanabe: The joint submission of the TU Berlin and Fraunhofer FIRST (TUBFI) to the ImageCLEF2011 photo annotation task. In CLEF (Notebook Papers/Labs/Workshop), 2011 06 Benjamin Blankertz; Guido Dornhege; Matthias Krauledat; Klaus-Robert Müller; Gabriel Curio: The non-invasive berlin brain-computer interface: Fast acquisition of effective performance in untrained subjects. NeuroImage, 37 (2), 539-550, 2007 07 Benjamin Blankertz; Florian Losch; Matthias Krauledat; Guido Dornhege; Gabriel Curio; Klaus-Robert Müller: The berlin brain-computer interface: accurate performance from first-session in bci-naive subjects. IEEE Transactions on Biomedical Engineering, 55 (10), 2452-62, Oct 2008 08 B. Boser; Isabelle Guyon; Vladimier Vapnik: A training algorithm for optimal margin classifiers. Fifth
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
359
Annual Workshop on Computational Learning Theory, 144-152, 1992 09 Olivier Bousquet; Stéphane Boucheron; Gábor Lugosi: Introduction to statistical learning theory. Advanced Lectures on Machine Learning, 169-207. Springer, 2004 10 Stephen Boyd; Lieven Vandenberghe: Convex Optimization. Cambridge University Press, New York, NY, USA, 2004 11 Yuri Boykov; Vladimir Kolmogorov: An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision. IEEE Trans. Pattern Anal. Mach. Intell., 26 (9), 1124-1137, 2004 12 Yuri Boykov; Olga Veksler; Ramin Zabih: Fast approximate energy minimization via graphcuts. IEEE Trans. Pattern Anal. Mach. Intell. 23 (11), 1222-1239, 2001 13 Liangliang Cao; Jiebo Luo; Feng Liang; Thomas S. Huang: Heterogeneous feature machines for visual recognition. ICCV, 1095-1102, 2009 14 J. Carreira; F. Li; C. Sminchisescu: Object Recognition by Sequential Figure-Ground Ranking. International Journal of Computer Vision, November 2011 15 Tony F. Chan; Luminita A. Vese: Active contours without edges. IEEE Transactions on Image Processing 10 (2), 266-277, 2001 16 Ken Chatfield; Victor Lempitsky; Andrea Vedaldi; Andrew Zisserman: The devil is in the details: an evaluation of recent feature encoding methods. Proceedings of the British Machine Vision Conference (BMVC), 2011 17 Corinna Cortes; Vladimir Vapnik: Support-vector networks. Machine Learning, 273-297, 1995 18 Daniel Cremers; Mikael Rousson; Rachid Deriche: A review of statistical approaches to level set segmentation: Integrating color, texture, motion and shape. International Journal of Computer Vision 72 (2), 195-215, 2007 19 Florent Perronin; Jorge Sanchez; Thomas Mensink: Improving the Fisher Kernel for Large-Scale Image Classification. ECCV (4), 143-156, 2010 20 Navneet Dalal; Bill Triggs: Histograms of oriented gradients for human detection. CVPR (1), 886-893, 2005 21 Chris Dance; Jutta Willamowski; Lixin Fan; Cedric Bray; Gabriela Csurka: Visual categorization with bags of keypoints. ECCV International Workshop on Statistical Learning in Computer Vision, 2004 22 Jia Deng; Alex Berg; Sanjeev Satheesh; Hao Su; Aditya Khosla; Fei-Fei Li: The ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012) (http://www.image-net.org/challenges/LSVRC/2012/) 23 Mark Everingham; Luc Van Gool; Chris K. I. Williams; John Winn; Andrew Zisserman: The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. (http://www.pascalnetwork.org/challenges/VOC/ voc2011/workshop/index.html) 24 Pedro F. Felzenszwalb; Daniel P. Huttenlocher: Efficient graph-based image segmentation. International Journal of Computer Vision 59 (2), 167-181, 2004 25 Peter V. Gehler; Sebastian Nowozin: On feature combination for multiclass object classification. ICCV, 221-228, 2009 26 D. Greig; B. Porteous; A. Seheult: Exact Maximum A Posteriori Estimation for Binary Images. Journal of the Royal Statistical Society 51 (2), 271-279, 1989 27 Trevor Hastie; Robert Tibshirani; Jerome Friedman: The Elements of Statistical Learning. Springer, 2001 28 John-Dylan Haynes; Geraint Rees: Decoding mental states from brain activity in humans. Nature Reviews Neuroscience 7 (7), 523-534, Jul 2006 29 G E Hinton; R. R. Salakhutdinov: Reducing the dimensionality of data with neural networks. Science 313 (5786), 504-507, Jul 2006 30 Satoru Iwata; Lisa Fleischer; Satoru Fujishige: A combinatorial, strongly polynomial-time algorithm for minimizing submodular functions. STOC, 97-106, 2000 31 Frédéric Jurie; Bill Triggs: Creating efficient codebooks for visual recognition. ICCV, 604-610, 2005 32 Michael Kass; Andrew P. Witkin; Demetri Terzopoulos: Snakes: Active contour models. International Journal of Computer Vision 1 (4), 321-331, 1988 33 M. Kloft; U. Brefeld; S. Sonnenburg; A. Zien: Lp-norm multiple kernel learning. Journal of Machine Learning Research 12, 953-997, Mar 2011
360
B 17: Alexander Binder, Frank C. Meinecke, Felix Bießmann, Motoaki Kawanabe, Klaus-Robert Müller
34 Marius Kloft; Ulf Brefeld; Sören Sonnenburg; Pavel Laskov; Klaus-Robert Müller; Alexander Zien: Efficient and accurate lp-norm multiple kernel learning. NIPS, 997-1005, 2009 35 Vladimir Kolmogorov: Convergent tree-reweighted message passing for energy minimization. IEEE Trans. Pattern Anal. Mach. Intell. 28 (10), 1568-1583, 2006 36 Vladimir Kolmogorov; Carsten Rother: Comparison of energy minimization algorithms for highly connected graphs. ECCV (2), 1-15, 2006 37 Vladimir Kolmogorov; Ramin Zabih: What energy functions can be minimized via graph cuts? IEEE Trans. Pattern Anal. Mach. Intell. 26 (2), 147-159, 2004 38 M. Pawan Kumar; Vladimir Kolmogorov; Philip H. S. Torr: An analysis of convex relaxations for map estimation of discrete mrfs. Journal of Machine Learning Research 10, 71-106, 2009 39 John Lafferty: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. ICML 2001, 282-289. Morgan Kaufmann, 2001 40 Christoph H. Lampert; Matthew B. Blaschko; Thomas Hofmann: Efficient subwindow search: A branch and bound framework for object localization. IEEE Trans. Pattern Anal. Mach. Intell. 31 (12), 2129-2142, 2009 41 Svetlana Lazebnik; Cordelia Schmid; Jean Ponce: Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. CVPR (2), 2169-2178, 2006 42 Quoc V. Le; Rajat Monga; Matthieu Devin; Greg Corrado; Kai Chen; Marc'Aurelio Ranzato, Jeff Dean; Andrew Y. Ng: Building high-level features using large scale unsupervised learning. CoRR, abs/1112.6209, 2011 43 D D Lee; H S Seung: Learning the parts of objects by non-negative matrix factorization. Nature 401 (6755), 788-791, Oct 1999 44 F. Li; J. Carreira; C. Sminchisescu: Object Recognition as Ranking Holistic Figure-Ground Hypotheses. IEEE International Conference on Computer Vision and Pattern Recognition, June 2010 45 David G. Lowe: Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision 60 (2), 91-110, 2004 46 Frank Moosmann; Eric Nowak; Frédéric Jurie: Randomized clustering forests for image classification. IEEE Trans. Pattern Anal. Mach. Intell. 30 (9), 1632-1646, 2008 47 Klaus-Robert Müller; Sebastian Mika; Gunnar Rätsch; Koji Tsuda; Bernhard Schölkopf: An introduction to kernel-based learning algorithms. IEEE Transactions on Neural Networks 12 (2), 181-201, 2001 48 David Nistér; Henrik Stewénius: Scalable recognition with a vocabulary tree. CVPR (2), 2161-2168, 2006 49 Eric Nowak; Frédéric Jurie; Bill Triggs: Sampling strategies for bag-of-features image classification. ECCV (4), 490-503, 2006 50 Stefanie Nowak; Karolin Nagel; Judith Liebetrau: The CLEF 2011 photo annotation and concept-based retrieval tasks. CLEF (Notebook Papers/Labs/Workshop), 2011 51 Timo Ojala; Matti Pietikäinen; Topi Mäenpäa: Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans. Pattern Anal. Mach. Intell. 24 (7), 971-987, 2002 52 Judea Pearl: Probabilistic reasoning in intelligent systems-networks of plausible inference. Morgan Kaufmann series in representation and reasoning. Morgan Kaufmann, 1989 53 Nicolas Pinto; David D. Cox; James J. DiCarlo: Why is real-world visual object recognition hard? PLoS Computational Biology 4 (1), 2008 54 Thomas Pock; Daniel Cremers; Horst Bischof; Antonin Chambolle: Global solutions of variational models with convex regularization. SIAM J. Imaging Sciences 3 (4), 1122-1145, 2010 55 William H. Press: Numerical recipes: the art of scientific computing. Cambridge University Press, 3 edition, September 2007 56 Konrad Rieck; Philipp Trinius; Carsten Willems; Thorsten Holz: Automatic analysis of malware behavior using machine learning. Journal of Computer Security 9 (4), 639-668, 2011 57 Frank Rosenblatt: The perceptron: a probabilistic model for information storage and organization in the brain. Psychological Review 65 (6), 386-408, November 1958 58 Carsten Rother; Pushmeet Kohli; Wei Feng; Jiaya Jia: Minimizing sparse higher order energy functions of discrete variables. CVPR, 1382-1389, 2009 59 Wojciech Samek; Alexander Binder; Motoaki Kawanabe: Multi-task learning via non-sparse multiple
B 17: Maschinelles Lernen, Mustererkennung in der Bildverarbeitung
361
kernel learning. CAIP (1), 335-342, 2011 60 B. Schölkopf; A. J. Smola: Learning with Kernels. MIT Press, 2002 61 Bernhard Schölkopf; Alex J Smola; Klaus-Robert Müller: Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation 10 (6), 1299-1319, 1998 62 Alexander Schrijver: A combinatorial algorithm minimizing submodular functions in strongly polynomial time. J. Comb. Theory, Ser. B 80 (2), 346-355, 2000 63 Alan F. Smeaton; Paul Over; Wessel Kraaij: Evaluation campaigns and trecvid. MIR '06: Proceedings of the 8th ACM International Workshop on Multimedia Information Retrieval, 321-330, New York, NY, USA, 2006. ACM Press. Accessed 2012 June 25 64 Sören Sonnenburg; Gunnar Rätsch; Sebastian Henschel; Christian Widmer; Jonas Behr; Alexander Zien; Fabio De Bona; Alexander Binder; Christian Gehl; Vojtech Franc: The shogun machine learning toolbox. Journal of Machine Learning Research 11, 1799-1802, 2010 65 Charles Sutton; Andrew McCallum: An introduction to conditional random fields. arXiv 1011.4088v1, Nov 2010 66 Richard Szeliski; Ramin Zabih; Daniel Scharstein; Olga Veksler; Vladimir Kolmogorov; Aseem Agarwala; Marshall F. Tappen; Carsten Rother: A comparative study of energy minimization methods for markov random fields with smoothness-based priors. IEEE Trans. Pattern Anal. Mach. Intell. 30 (6), 1068-1080, 2008 67 Ioannis Tsochantaridis; Thomas Hofmann; Thorsten Joachims; Yasemin Altun: Support vector machine learning for interdependent and structured output spaces. ICML, 2004 68 Koen E. A. van de Sande; Theo Gevers: The University of Amsterdam's concept detection system at ImageCLEF 2010. CLEF (Notebook Papers/LABs/Workshops), 2010 69 Koen E. A. van de Sande; Theo Gevers; Cees G. M. Snoek: Evaluating color descriptors for object and scene recognition. IEEE Trans. Pattern Anal. Mach. Intell. 32 (9), 1582-1596, 2010 70 Koen E. A. van de Sande; Jasper R. R. Uijlings; Theo Gevers; Arnold W. M. Smeulders: Segmentation as selective search for object recognition. ICCV, 1879-1886, 2011 71 Jan van Gemert; Jan-Mark Geusebroek; Cor J. Veenman; Arnold W. M. Smeulders: Kernel codebooks for scene categorization. ECCV (3), 696-709, 2008 72 Vladimir Vapnik: Statistical learning theory. Wiley, 1998 73 Andrea Vedaldi; Varun Gulshan; Manik Varma; Andrew Zisserman: Multiple kernels for object detection. ICCV, 606-613, 2009 74 Paul A. Viola; Michael J. Jones: Robust real-time face detection. International Journal of Computer Vision 57 (2), 137-154, 2004 75 Martin J. Wainwright; Tommi Jaakkola; Alan S. Willsky: Map estimation via agreement on trees: messagepassing and linear programming. IEEE Transactions on Information Theory 51 (11), 3697-3717, 2005 76 Jinjun Wang; Jianchao Yang; Kai Yu; Fengjun Lv; Thomas S. Huang; Yihong Gong: Locality-constrained linear coding for image classification. CVPR, 3360-3367, 2010 77 Fei Yan; Josef Kittler; Krystian Mikolajczyk; Muhammad Atif Tahir: Non-sparse multiple kernel fisher discriminant analysis. Journal of Machine Learning Research 13, 607-642, 2012 78 Jianchao Yang; Kai Yu; Yihong Gong; Thomas S. Huang: Linear spatial pyramid matching using sparse coding for image classification. CVPR, 1794-1801, 2009 79 Lei Yang; Nanning Zheng; Jie Yang; Mei Chen; Hong Chen: A biased sampling strategy for object categorization. ICCV, 1141-1148, 2009 80 Pedro F. Felzenszwalb; Ross B. Girshick; David A. Mc Allester; Deva Ramanan: Object detection with discriminatively trained part-based models. IEEE Trans. Pattern Anal. Mach. Intell. 32 (9), 1627-1645, 2010 81 Alexander Binder; Wojcieck Samek; Klaus-Robert Müller; Motoaki Kawanabe: Enhanced Representation and Multi-Task Learning for Image Annotation. Computer Vision and Image Understanding, 2013 (doi: 10.1016/j.cviu.2012.09.006)
C: Informationsorganisation
Helmut Krcmar C 1 Informations- und Wissensmanagement
365
Eberhard R. Hilf, Thomas Severiens C 2 Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft Christa Womser-Hacker C 3 Evaluierung im Information Retrieval Joachim Griesbaum C 4 Online-Marketing
396
411
Nicola Döring C 5 Modelle der Computervermittelten Kommunikation Harald Reiterer, Florian Geyer C 6 Mensch-Computer-Interaktion Steffen Staab C 7 Web Science
431
441
Michael Weller, Elena Di Rosa C 8 Lizenzierungsformen 454 Wolfgang Semar, Sascha Beck C 9 Sicherheit von Informationssystemen Stefanie Haustein, Dirk Tunger C 10 Sziento- und bibliometrische Verfahren
466 479
424
379
Helmut Krcmar
C 1 Informations- und Wissensmanagement C 1.1 Informationsmanagement Der auch dem Informationsmanagement zugrundeliegende Begriff Management bzw. Führung lässt sich aus unterschiedlichen Perspektiven interpretieren. In der angloamerikanischen Literatur werden nahezu alle im Unternehmen anstehenden Probleme zu Management- bzw. Führungsproblemen erhoben. „Management kann […] definiert werden als die Verarbeitung von Informationen und ihre Verwendung zur zielorientierten Steuerung von Menschen und Prozessen.“ (Lit. 37, S. 57ff) Im deutschsprachigen Raum werden die Begriffe Management, Führung und Leitung oft gleichbedeutend verwendet. Der Managementbegriff lässt sich dabei aus einer funktionalen sowie einer institutionellen Perspektive betrachten. Management im funktionalen Sinne beschreibt spezielle Aufgaben und Prozesse, die in und zwischen Unternehmen ablaufen. Diese werden wiederum in Personal- und Fachfunktionen unterschieden. Aufgaben der Personalfunktion sind die persönliche Betreuung sowie die soziale Integration der Mitarbeiter, die in der Gestaltung des Arbeitsplatzes und der Personalförderung (Schulung und Weiterbildung) ihre Konkretisierung finden. Aus den Fachfunktionen, die primär der Sachaufgabenerfüllung dienen, lässt sich die Partizipation an der Realisierung der Unternehmensziele ableiten. Hierbei stehen die Planung (Zielvorgabe, Problemanalyse, Alternativensuche), Entscheidung, Realisierung und Kontrolle im Mittelpunkt. Dem Management als Institution gehören alle Personen an, die als Entscheidungsträger ständig personen- und sachbezogene Aufgaben wahrnehmen: Vorstand bzw. Geschäftsleitung, Führungskräfte und Stäbe. Eine Zuordnung zum Management ist jedoch eher von den Aufgaben und Kompetenzen als von der hierarchischen Einordnung in die Struktur abhängig (Lit. 21). Merkmale von Management- oder Unternehmensführungsentscheidungen lassen sich wie folgt charakterisieren (vgl. Lit. 24): –– Grundsatzcharakter, d. h. es werden weitere Entscheidungen ausgelöst, –– Hohe Bindungswirkung, bspw. bei einer grundlegenden Reorganisation des Unternehmens, –– Irreversibilität, d. h. Entscheidungen können nur unter Schwierigkeiten rückgängig gemacht werden, –– Hoher monetärer Wert des Entscheidungsinhalts, –– Wertebeladenheit (ethische, soziale und politische Normen), –– Geringer Strukturierungsgrad, –– Große Reichweite, d. h. Entscheidungen betreffen das gesamte Unternehmen. Krcmar (Lit. 21, S. 52) definiert das Informationsmanagement (IM) als „das Management der Informationswirtschaft, der Informationssysteme, der Informations- und Kommunikationstechniken sowie der übergreifenden Führungsaufgaben. Das Ziel des IM ist es, den im Hinblick auf die Unternehmensziele bestmöglichen Einsatz der Ressource Information zu gewährleisten. IM ist sowohl Management- wie Technikdisziplin und gehört zu den elementaren Bestandteilen der Unternehmensführung.“
In Anlehnung an Wollnik (Lit. 39), Szyperski/Winand (Lit. 34) und Krcmar (Lit. 19) lässt sich ein ebenenbasiertes Referenzmodell des Informationsmanagements ableiten (vgl. Abbildung 1). Demnach stellt das IM eine auf drei Ebenen verteilte Managementaufgabe dar, die sich auf die Information selbst, die Anwendungen und die Technik als Basis bezieht. Da aber auch Aufgaben existieren, die auf jeder Ebene anfallen oder nicht ausschließlich auf eine Ebene zu beziehen sind, werden diese als generelle Aufgaben des Informationsmanagements in der Gruppe der Führungsaufgaben des IM zusammengefasst.
366
C 1: Helmut Krcmar
Führungsaufgaben des Informationsmanagements
Management der Informationswirtschaft
Angebot Nachfrage Verwendung
Management der Informationssysteme
Daten Prozesse Anwendungslebenszyklus
Management der Informations- und Kommunikationstechnik
Speicherung Verarbeitung Kommunikation Technikbündel
IT Governance Strategie IT-Prozesse IT-Personal IT-Controlling IT-Sicherheit
Abb. 1: Modell des Informationsmanagements (Quelle: Lit. 21, S. 50)
C 1.2 Management der Informationswirtschaft Handlungsobjekt der Ebene Informationswirtschaft ist die Ressource Information. Hierbei geht es um Entscheidungen über den Informationsbedarf und das Informationsangebot sowie die Informationsverwendung. Der Informationsbedarf und seine Deckung durch das Informationsangebot werden in einem informationswirtschaftlichen Planungszyklus (vgl. Abbildung 2) geplant, organisiert und kontrolliert. Das Management erstreckt sich dabei auf alle in einem Unternehmen wesentlichen Verwendungszwecke innerhalb der Bereiche und Teilbereiche. Das Management der Informationsverwendung obliegt in erster Linie dem Unternehmensmanagement und dem Einsatz betriebswirtschaftlicher Entscheidungsmodelle. Es spezifiziert die Anforderungen an die Ebene der Informationssysteme, die erfüllt werden müssen, um die Ebene der Informationswirtschaft zu unterstützen und bezieht die Unterstützungsleistungen von dieser Ebene in ihre Planungen mit ein (Lit. 21). „Als übergeordnetes Ziel der Informationswirtschaft lässt sich die Herstellung des informationswirtschaftlichen Gleichgewichts im Unternehmen formulieren“ (Lit. 23, S. 285).
Hieraus leiten sich die folgenden Aufgaben ab: –– Ausgleich von Informationsnachfrage und Informationsangebot, –– Versorgung der Entscheidungsträger mit relevanten Informationen, –– Gewährleistung einer hohen Informationsqualität, –– Dokumentation von Willensbildungs- und Willensdurchsetzungsprozessen, –– Gestaltung der Informationswirtschaft als Querschnittsfunktion des Unternehmens, –– Einsatz von IKT zur Unterstützung der informationswirtschaftlichen Aufgabenerfüllung, –– Zeitliche Optimierung der Informationsflüsse, –– Beachtung des Wirtschaftlichkeitsprinzips.
C 1: Informations- und Wissensmanagement
367
Der Großteil dieser Ziele lässt sich prägnant im informationslogistischen Prinzip zusammenfassen. Die Informationslogistik beschäftigt sich mit den Problemen des Informationsflusses und der Informationskanäle. Nach Szyperski (Lit. 33) lässt sich die Informationslogistik gleichwertig neben die Realgüterlogistik, die Materialbewegungen umfasst, und die Finanzlogistik mit ihren Geldwertströmen stellen. Augustin (1990) formuliert für die Informationslogistik das folgende Grundprinzip: Ziel des logistischen Prinzips ist die Bereitstellung der richtigen Information (vom Empfänger verstanden und benötigt), zum richtigen Zeitpunkt (für die Entscheidungsfällung), in der richtigen Menge (so viel wie nötig, so wenig wie möglich), am richtigen Ort (beim Empfänger verfügbar), in der erforderlichen Qualität (ausreichend detailliert und wahr, unmittelbar verwendbar). Der informationswirtschaftliche Planungszyklus (vgl. Abbildung 2) dient der Erreichung des informationswirtschaftlichen Gleichgewichts. Stehen die im Rahmen eines informationswirtschaftlichen Zyklus erschlossenen Informationen einem Informationsbenutzer zur Verfügung, kann ein Informationsbedarf gedeckt werden. Der Informationsbenutzer interpretiert die von ihm gewünschten Informationen und die ihm zugegangenen Informationsprodukte und -dienste entsprechend dem von ihm verfolgten Zweck und bringt sie zur Verwendung/Anwendung. Dabei entstehen neue Informationen, da der Informationsbenutzer die ihm vom Informationsangebot bereitgestellten Informationen interpretiert, bewertet und in seine bereits vorhandenen Informationsstrukturen einbindet. Ergebnis dieser Bewertung ist, dass der Informationsbedarf durch das Informationsangebot befriedigt wurde oder nicht. Dementsprechend muss das Informationsangebot ausgeweitet oder verändert werden (Lit. 21). MANAGEMENT DER INFORMATIONSNACHFRAGE Anforderungen
INFORMATIONSBENUTZER entscheiden müssen, Neugier haben
MANAGEMENT DER INFORMATIONSQUELLEN INFORMATIONSQUELLE 1. erkennen, 2. erheben, 3. explizieren, 4. vernetzen, 5.sammeln, 6. erfassen
vernetzen ver(an)wenden interpretieren bewerten
MANAGEMENT DER INFORMATIONSVERWENDUNG Informationen verstehbar, interpretierbar anbieten
Informationen bewerten
Bereitstellung: verteilen, übermitteln
MANAGEMENT DES INFORMATIONSANGEBOTS INFORMATION PRODUKT ∣ DIENST
analysieren, umordnen, reproduzieren, reduzieren, verdichten
MANAGEMENT DER INFORMATIONSRESSOURCEN INFORMATIONSRESSOURCE
nutzbar machen
1. strukturieren, 2. repräsentieren, 3. speichern, 4. physischen Zugang sicherstellen, 5. verifizieren, 6. intellektuellen Zugang ermöglichen
Zuschnitt auf Nutzerbedürfnisse
7. Instand halten, pflegen
Abb. 2: Lebenszyklusmodell der Informationswirtschaft (Quelle: In Anlehnung an Lit. 29, S. 20)
368
C 1: Helmut Krcmar
C 1.3 Management der Informationssysteme Informationssysteme (IS) „sind soziotechnische Systeme, die menschliche und maschinelle Komponenten (Teilsysteme) umfassen. Sie unterstützen die Sammlung, Strukturierung, Verarbeitung, Bereitstellung, Kommunikation und Nutzung von Daten, Informationen und Wissen sowie deren Transformation. IS tragen zur Entscheidungsfindung, Koordination, Steuerung und Kontrolle von Wertschöpfungsprozessen sowie deren Automatisierung, Integration und Virtualisierung unter insbesondere ökonomischen Kriterien bei. IS können Produkt-, Prozess- und Geschäftsmodellinnovationen bewirken.“ (Lit. 38, S. 1).
Handlungsobjekt der IS-Ebene sind die Anwendungen. Das Management der Daten, der Prozesse und des Anwendungslebenszyklus zählt zu den Kernaufgaben dieser Ebene. Insofern spezifiziert sie Anforderungen an und erhält Unterstützungsleistungen von der Informations- und Kommunikationstechnik. Auch das Management der Anwendungsentwicklung erfolgt auf dieser Ebene. Aufgaben des IS-Managements umfassen (Lit. 21): –– Erstellung eines Unternehmensdatenmodells, –– Auswahl geeigneter Datenbankarchitekturen, –– Sicherstellung der Datenkonsistenz, –– Modellierung von Geschäftsprozessen, –– Entscheidung über geeignete Geschäftsprozessunterstützung, –– Entscheidung über das Anwendungsportfolio, –– Entscheidungen entlang des Anwendungslebenszyklus, –– Management der Komplexität der Systemlandschaft.
Semantisches Organisationsmodell Netztopologie Physisches Netzwerk
Semantisches Datenmodell Schema Datenbankmodell Schema Datenbanksystem Daten
Semantisches Prozessmodell
Fachkonzept DV-Konzept Implementierung
Semantisches Funktionsmodell
Fachkonzept
Module
DV-Konzept
Triggersteuerung
Ressourcenzuteilung
Steuerung
Programmcode Funktionszuteilung
Abb. 3: Architektur integrierter Informationssysteme (ARIS) (Quelle: Lit. 30, S. 402)
Implementierung
C 1: Informations- und Wissensmanagement
369
Wie für jede andere betriebliche Ressource (z. B. Personal, Finanzen oder Anlagen) ist auch für Daten, als Grundlage für Information, ein dediziertes Management nötig. Das Datenmanagement (DM) betrifft alle betrieblichen und technischen Aspekte der Datenmodellierung, -administration, ‑technik, -sicherheit, ‑konsistenz und Sicherung, sowie des datenbezogenen Benutzerservices. Ziel des DM ist es, die Bereitstellung und Nutzung der Daten im Unternehmen sicherzustellen. Dazu gehört die Beachtung von Richtigkeit, Konsistenz, Aktualität, Aufgabenbezogenheit und Zusammenhang der Daten, also die Verbesserung der Informationsqualität, aber auch eine produktive Anwendungssystementwicklung durch den Einsatz von Datenbanken und geeigneten Modellierungstechniken (Lit. 05, Lit. 26). Zentrale Aufgabenstellungen des DM sind die Definition einer DM-Strategie, d. h. die Festlegung, welche Daten für welche Systeme und Aufgaben auf welche Art und Weise zur Verfügung zu stellen sind, die Festlegung der organisatorischen Verantwortung für Pflege und Erfassung der Daten, sowie die Bereitstellung der Daten in exakt definierter und untereinander abgestimmter Form (Lit. 21). Zum Prozess des IS-Managements ist eine Vielzahl von Ansätzen und Modellen zu finden (vgl. hierzu auch die Literatur zum Enterprise Architecture Management). Einen weithin bekannten Ansatz zur Informationssystemmodellierung stellt die Architektur integrierter Informationssysteme (ARIS) von Scheer (Lit. 30) dar (vgl. Abbildung 3). Der hierdurch entstehende Plan legt die Struktur der gesamten IS einer Unternehmung oder Organisation fest und kann somit als Grundlage für zentrale Steuerungs- und Managementfunktion des betrieblichen IS angesehen werden. Der Ausgangspunkt ist hierbei die Modellierung von Geschäftsprozessen mit Hilfe sogenannter ereignisgesteuerter Prozessketten (EPKs). Somit wird der Analyse und Gestaltung der Unternehmensprozesse als Ausgangspunkt und Ziel der IS-Aktivitäten eine besondere Bedeutung zugemessen (Lit. 21). Referenzmodelle bieten häufig eine wichtige Hilfe für die Ausgestaltung der betrieblichen Informationssysteme. Ein Referenzmodell ist ein für einen ganzen Wirtschaftszweig erstelltes Modell, das allgemeingültigen Charakter haben soll. Es dient als Ausgangslösung zur Entwicklung unternehmensspezifischer Modelle (Lit. 03).
C 1.4 Management der Informations- und Kommunikationstechnik Informations- und Kommunikationstechnik kann definiert werden als „die Gesamtheit der zur Speicherung, Verarbeitung und Kommunikation zur Verfügung stehenden Ressourcen sowie die Art und Weise, wie diese Ressourcen organisiert sind. Speicherung, Verarbeitung und Kommunikation sind die von Informations- und Kommunikationstechnik bereitgestellten Basisfunktionalitäten.“ (Lit. 21, S. 272)
Auf der Ebene der Informations- und Kommunikationstechnik stehen somit die Speicherungstechnik, die Verarbeitungstechnik, die Kommunikationstechnik und die Technikbündel im Mittelpunkt des Interesses. Abbildung 4 verdeutlicht diesen Zusammenhang. Im allgemeinen Sinne umfasst das Technikmanagement die Bereitstellung und Verwaltung der Technikinfrastruktur sowie die Planung der technischen Anpassung eingesetzter Systeme im Unternehmen. Auf dieser untersten Ebene wird die physische Basis für die Anwendungslandschaft auf der mittleren Ebene und damit die Bereitstellung der Informationsressourcen gelegt. Teilaufgaben des IKT Managements umfassen die Abschätzung (Lit. 21): –– technischer Entwicklungen und deren Bedeutung für das eigene Unternehmen, –– des komplexen IKT-Markts mit Produkten und Technikanbietern sowie –– der Fähigkeiten des eigenen Unternehmens, Technik anzuwenden bzw. neue Technik zu integrieren.
370
C 1: Helmut Krcmar
Klassische Informatik
Wirtschaftsinformatik
Anwendungsdomäne
Eine Methode, die Planung der technischen Anpassung eingesetzter Systeme zu unterstützen, stellt das Technology Roadmapping dar. Das Roadmapping ist eine Methode der strategischen Technikplanung (Lit. 13) und beschreibt ein Verfahren zur Abschätzung der äußeren Bedingungen, die als Strukturierungs- und Entscheidungshilfen für den Strategieentwurf und die Strategieplanung in Organisationen dienen (Lit. 11). Eine Roadmap ist eine meist grafische Darstellung der dabei gefundenen Ergebnisse. Vergleichbar einer Straßenkarte stellt sie den Ausgangspunkt, die Ziele sowie die verschiedenen Wege, um mit den gegebenen Ressourcen das gewünschte Ziel zu erreichen dar. Dabei werden auch mögliche Hindernisse und Schwierigkeiten berücksichtigt.
Führung
Büro Ebene 3: Applikationen, Softwareanwendungen
Information Retrieval
Ebene 2: Technikbündel
E-Mail
Webserver
Ebene 1: Basistechnik
Komm.protokolle
Hardware Daten-
Betriebssysteme
Prozessoren
netze
Basisfunktionalitäten
Kommunikation
...
ERP-System
Client-ServerArchitektur
Web Services
Software
Fabrik
Verarbeitung
(verteilte) Datenbank
Speichertechnik
Speicherung
Abb. 4: Informations- und Kommunikationstechnik am Beispiel der Technikbündel Client-Server-Architektur und Web Services (Quelle: Lit. 21, S. 273)
C 1.5 Führungsaufgaben des Informationsmanagements Handlungsobjekte, die alle drei Ebenen des Informationsmanagements betreffen, werden zu den Führungsaufgaben des IM zusammengefasst. Hierzu zählen insbesondere die Bestimmung der ITStrategie und der damit verbundenen Festlegung der Bedeutung des IM für das Unternehmen, die Gestaltung der Governance des IM, das Management der IT-Prozesse, das Management des IT-Personals, der IT-Sicherheit und das IT-Controlling im weiteren Sinne als Steuerung des IM. Dies umfasst insbesondere (Lit. 21): –– die Bestimmung der IT-Strategie –– die Sicherstellung eines adäquaten Wertbeitrags durch das IM –– die Entwicklung bzw. Umsetzung geeigneter unternehmensweiter Referenzmodelle –– die Aufbauorganisation der IT-Abteilung
–– –– –– –– ––
C 1: Informations- und Wissensmanagement
371
das Personalmanagement der IT-Fachkräfte die Entscheidungen über Bereitstellungsmodelle (Eigenleistung vs. Fremdvergabe), das Qualitätsmanagement und –vereinbarungen (z. B. SLAs) die Festlegung der Ziele und Aufgaben des IT-Controllings das IT-Risikomanagement.
Seit Mitte der 1980er Jahre wird die strategische Bedeutung der Informationssysteme (IS) thematisiert. Die Strategie eines Unternehmens und die eingesetzten IS stehen in einem engen Zusammenhang. Informationssysteme können beispielsweise zur Unterstützung einer Unternehmensstrategie erforderlich sein. Andererseits können IS auch neue Potenziale und somit strategische Optionen eröffnen. Richten sich die Informationssysteme an der Unternehmensstrategie aus, spricht man von einer Unterstützungsfunktion von IS (engl. „align“). Eine Gestaltungsfunktion (engl. „enable“) haben IS dagegen, wenn strategische Optionen erst durch die Verwendung von IS ermöglicht werden (Lit. 21). Aus klassischer Sicht des strategischen Managements wird das Informationsmanagement als eine Unterstützungsfunktion aufgefasst. Der Ausgangspunkt für das Handeln des IM ist somit die vom Management formulierte Unternehmensstrategie. Hieraus leiten sich Anforderungen an die Organisation und deren Geschäftsprozesse sowie die Leistungsforderungen an Informationssysteme ab. Diese Wirkungsrichtung wird als Strategiedurchführung bezeichnet. Das wohl bekannteste Modell zur Abbildung der Beziehung zwischen Unternehmensstrategie und Informationstechnik ist das „Strategic Alignment Model“ (SAM) von Henderson und Venkatraman (Lit. 15). Dieses stellt den Zusammenhang zwischen Informationstechnik und Unternehmen auf zwei Ebenen dar. Auf Ebene der strategischen Integration steht das Verhältnis zwischen Unternehmensstrategie und IT-Strategie im Vordergrund. Die darunter liegende Ebene beschreibt die operationale Integration zwischen der Organisation und der IS-Infrastruktur. Aus den Beziehungen zwischen den vier Feldern leiten sich die Herausforderungen der Abstimmung organisatorischer Anforderungen und Erwartungen an die Leistungsfähigkeit des IM ab.
Steuerung der Beziehungen
Unternehmensstrategie und -organisation
Steuerung der Anlagegüter IP Steuerung
Geschäftsleitungsziele
Personalsteuerung
IT-Organisation und erwünschtes Verhalten
Finanzsteuerung IT Steuerungsmaßnahmen IT Governance Mechanismen ITEntscheidungen
Wie abstimmen?
Was abstimmen?
Abb. 5: IT-Governance Design Framework (Quelle: In Anlehnung an Lit. 35, S. 13)
IT Metriken und Verantwortlichkeiten
372
C 1: Helmut Krcmar
Um die Ausrichtung des Informationsmanagements an der Unternehmensstrategie zu gewährleisten, sind gewisse, zentral vorgegebenen Richtlinien erforderlich. Die Entwicklung, Umsetzung und Überwachung dieser Richtlinien wird meist unter dem Begriff IT-Governance zusammengefasst. Die IT-Governance definiert Entscheidungsrechte und Verantwortlichkeiten, um ein erwünschtes Verhalten bei der Nutzung von Informationssystemen zu erreichen (Lit. 36). Die Gestaltung der ITGovernance hängt dabei in starkem Maße vom Unternehmenstyp, der ökonomischen Situation, der Unternehmenskultur, den Führungs- und Steuerungsprinzipien und dem Reifegrad des Einsatzes von Informationstechnik ab (Lit. 14). Weill und Ross (Lit. 35) haben ein IT-Governance Design Framework entwickelt, welches den Abstimmungsbedarf zwischen der Unternehmensstrategie bzw. Unternehmensorganisation, den Maßnahmen der IT-Governance sowie den betriebswirtschaftlichen Leistungsszielen verdeutlicht (vgl. Abbildung 5). Diese sind durch die IT Organisation, Governance-Mechanismen und Metriken festgelegt. Darüber hinaus verdeutlicht das Framework auch, dass IT-Governance auch mit der Steuerung anderer Unternehmensfunktionen, wie z. B. Personal oder Finanzen, abgestimmt werden muss. Auf Grund des generischen Charakters des IT-Governance Design Frameworks lässt es für jedes Unternehmen individuell ausgestalten. IT Entscheidungen müssen nach Weill und Ross (Lit. 35) in fünf unterschiedlichen IT-Entscheidungsbereichen getroffen werden: IT-Prinzipien, IT-Architektur, IT-Infrastruktur, IT-Applikationen sowie IT-Investitionen und Priorisierung. Insofern fasst es die grundlegenden Führungsaufgaben des Informationsmanagements anschaulich zusammen.
C 1.6 Wissensmanagement In den letzten Jahren hat die Bedeutung von Wissen als Wettbewerbsfaktor für die Unternehmen stetig zugenommen (Lit. 27, Lit. 29, S. 14). Gründe hierfür sind eine wachsende Wissensintensität der Leistungen, die Unternehmen am Markt anbieten, kürzere Produktlebenszyklen und damit verbundene Neuentwicklungen, eine zunehmende geografische Verteilung von wissensintensiven Prozessen im Unternehmen, sowie schnellere Veränderungen der Humanressourcen, insbesondere Fluktuation (Lit. 21). Wissen stellt daher in vielen Unternehmen eine wichtige Ressource dar und muss aktiv gemanagt werden. Unter dem Begriff Wissensmanagement werden Theorien, Methoden und Werkzeuge entwickelt, diskutiert und erprobt, die einen systematischeren Umgang mit der Ressource Wissen ermöglichen (Lit. 04). Gartner definiert Wissensmanagement als Disziplin, die ein integriertes Vorgehen zur Identifizierung, Erfassung, Bewertung, Wiederauffindung und Teilung von Wissen im Unternehmen verfolgt. Dieses Wissen umfasst unter anderem Datenbanken, Dokumente, Richtlinien, Prozesse sowie bislang nicht erfasste Erfahrungen und Expertisen einzelner Mitarbeiter (Lit. 02). Das Wissensmanagement umfasst nach Probst et al. (Lit. 28) folgende Kernaufgaben: –– Das Definieren von Wissenszielen, –– die Bewertung von Wissen, –– die Identifikation von Wissen, –– die Beschaffung (Akquisition) von Wissen, –– die (Weiter-)entwicklung von Wissen, –– die Verbreitung von Wissen, –– die Nutzung von Wissen, –– die Speicherung (Bewahrung) von Wissen.
C 1: Informations- und Wissensmanagement
Wissensziele
Feedback Strategisch
Wissensidentifikation Wissensakquisition
Wissensbewertung Wissensbewahrung Wissensnutzung
Operational
Wissensentwicklung
373
Wissens-
Teilung/ Verteilung
Abb. 6: Kernprozesse des Wissensmanagements (Quelle: Lit. 28, S. 32)
Abbildung 6 verdeutlicht den Zusammenhang zwischen diesen Kernaufgaben des Wissensmanagements. Diese lassen sich in einem Zyklus aus strategischer Zielsetzung, operativer Umsetzung und Bewertung der Aktivitäten zur fortlaufenden Anpassung der Wissensziele anordnen. Zur operativen Umsetzung des Wissensmanagement sind sechs Kernaktivitäten erforderlich. Diese stehen zwar in enger Verbindung zueinander, müssen aber nicht in einer vorgegebenen Reihenfolge durchgeführt werden. Im Rahmen der Wissensidentifikation soll ein Überblick über existierende, interne wie externe Daten und Informationen geschaffen werden. Während im Rahmen des Wissenserwerbs insbesondere externe Quellen genutzt werden, um die Wissensbasis des Unternehmens zu vergrößern, zielt die Wissensentwicklung auf eine Vergrößerung der Wissensbasis durch die Generierung neuer Ideen und Fähigkeiten ab. Die Wissensverteilung zeigt sich für die Verbreitung des organisationalen Wissens im Unternehmen verantwortlich. Da diese mit hohen Kosten und ggf. geringem Nutzen für ein Individuum – bezogen auf einen bestimmten Zeitpunkt – verbunden sein kann, ist auf eine möglichst hohe Effizienz der Maßnahmen zu achten. Nach erfolgreicher Identifikation und Verbreitung wird im Rahmen der Wissensnutzung sichergestellt, dass das Wissen zur Anwendung kommt. Die Wissensbewahrung zeichnet sich schließlich für die Speicherung und Aktualisierung von bewahrungswürdigem Wissen verantwortlich (Lit. 28). Eine der größten Herausforderungen des Wissensmanagements stellt tazites (synonym: implizites, verborgenes) Wissen dar. Hierbei handelt es sich um jenen Teil des Wissens, der nicht vollständig in Worten ausgedrückt oder erfasst werden kann, z. B. individuelle Erfahrungen und Handlungsroutinen einzelner Personen (Lit. 22). Abbildung 7 systematisiert die vier Arten der Wissensumwandlung in Unternehmen. Eine Möglichkeit, tazites Wissen zu erwerben, stellt die Sozialisation dar. Hierbei wird Wissen nicht durch eine genormte Kommunikation (z. B. ein Handbuch oder ein visuelles Modell) vermittelt, sondern durch gemeinsame Erfahrungen und Beobachtungen der Handlungen Anderer. Dies geschieht zumeist dort, wo Mitarbeiter aus der praktischen Tätigkeit und dem Vorbild von Mentoren und Kollegen lernen können. Hierdurch entwickeln sich geteilte mentale Modelle sowie Fähigkeiten und Fertigkeiten. Wenn beispielsweise ein unerfahrener Mitarbeiter mit einem Erfahrenen eng zusammenarbeitet, kann sich dieser durch Beobachtung und gemeinsames Problemlösen für unterschiedliche Problemstellungen über die Zeit effektive Vorgehensweisen aneignen. Dies findet ohne formale Vermittlung statt. Oft wird weder der erfahrene noch der unerfahrene Mitarbeiter beschreiben können, wie das Vorgehen im Detail aussieht und warum dies ein Lösungsweg für das Problem ist (Lit. 29).
374
C 1: Helmut Krcmar
In begrenztem Rahmen kann tazites Wissen auch artikuliert werden. Man spricht hierbei von Externalisierung bzw. Explikation. Bei der Externalisierung wird tazites Wissen durch Metaphern, Analogien, Konzepte und Begriffe, Hypothesen oder Modelle explizit gemacht. Diese Bilder und Ausdrücke werden von unterschiedlichen Individuen verschieden verstanden. Hierdurch treten Verständnislücken oder -widersprüche auf, welche die Reflexion des Wissens anregen und die Interaktion zwischen Menschen fördern. Wissen wird beispielsweise externalisiert, wenn ein erfahrener Mitarbeiter eine Darstellung des Problemlösungsprozesses für ein häufig auftretendes Problem entwickelt. In der Diskussion des Modells mit unterschiedlichen Kollegen wird deutlich, dass die Darstellung bestimmte Teile der Problemlösung ausblendet, die anderen Kollegen wichtig sind. Durch die kritische Reflexion kann die Darstellung dann schrittweise verbessert werden (Lit. 29). Im Gegensatz zum taziten Wissen stellt explizites Wissen eindeutig kodier- und kommunizierbares Wissen dar. Dieses kann weiter systematisiert werden, indem explizites Wissen aus unterschiedlichen Wissensgebieten verknüpft wird. Dieser Vorgang wird als Kombination bezeichnet. Hierbei tauschen Mitarbeiter explizites Wissen in Dokumenten, Sitzungen und natürlich auch über Informationssysteme systematisch aus. Beispielsweise kann der im vorherigen Beispiel externalisierte Problemlösungsprozess nun mit der technischen Dokumentation des problembehafteten Systems verknüpft wird. Durch diese Verknüpfung stellt sich beispielsweise heraus, dass bestimmte, vorbeugende Wartungsmaßnahmen das Problem vermeiden können (Lit. 29). Die Überführung des expliziten Wissens in tazites Wissen eines Individuums wird als Internalisierung bezeichnet. Durch die Anwendung wird das explizite Wissen Teil des mentalen Modells und der Fähigkeiten. Es steht somit als operationales Wissen zur Verfügung. Erst durch diese Befähigung zum Handeln wird explizites Wissen für die Organisation zu einer wertvollen Ressource. Beispielsweise bedeutet dies, dass vorbeugenden Wartungsmaßnahmen durch die Servicetechniker, die letztlich die Wartung durchführen, verinnerlicht werden müssen. Sie müssen also entsprechend qualifiziert werden, gewinnen durch die Ausführung der neuen Wartungsschritte an Erfahrung und erweitern somit ihre Handlungsmöglichkeiten (Lit. 29).
Tazites Wissen
Tazites Wissen
Sozialisation
(erlebtes Wissen)
zu
Explizites Wissen
Explikation
(konzeptuelles Wissen)
zu
Explizites Wissen
Internalisierung
(operationales Wissen)
Kombination
(systemisches Wissen)
Abb. 7: Die vier Arten der Wissensumwandlung in Organisationen (Quelle: In Anlehnung an Lit. 29, S. 34)
Der Prozess der Wissensschaffung in Organisationen nimmt seinen Anfang im taziten Wissen von Individuen. Ziel des Wissensmanagements ist es deshalb, dieses tazite Wissen zu mobilisieren und durch geeignete Methoden, Strukturen und Werkzeuge eine Verbesserung des Prozesses zu errei-
C 1: Informations- und Wissensmanagement
375
chen. Es soll nicht nur das Wissen Einzelner, sondern die organisatorische Wissensbasis insgesamt erweitert werden (Lit. 29). Hierzu schlägt die Wissensmanagement-Literatur verschiedene Möglichkeiten vor. Exemplarisch sei an dieser Stelle auf Wikis und soziale Medien verwiesen. Diese aus dem persönlichen Umfeld weithin bekannten Werkzeuge halten vermehrt Einzug in die Unternehmen, meist unter dem Stichwort „Enterprise 2.0“. Hierunter versteht man den Einsatz von Web 2.0-Ansätzen in Unternehmen zur Förderung der Zusammenarbeit, Öffnung von Innovationsprozessen (Stichwort Open Innovation) sowie zur Stärkung des Kundendialogs. Traditionelle Webseiten bieten durch Verlinkungen zwar die Möglichkeit, explizites Wissen zu verknüpfen, eignen sich auf Grund der eingeschränkten Überarbeitbarkeit (durch den Ersteller der Seite) nur bedingt zur Explikation und Kombination von Wissen. Wikis dagegen öffnen die Inhaltsgenerierung für die Nutzer. Das wohl bekannteste Beispiel eines Wikis ist www.wikipedia.de. Die eingesetzte Software weist dabei gewisse Funktionalitäten auf, die sie als Technikbündel für das Wissensmanagement qualifizieren. Im betrieblichen Kontext weit verbreitete Anwendungsbeispiele sind Sammlungen häufig gestellter Fragen (engl. Frequently Asked Questions, FAQ) oder Unternehmensglossare. Sie finden aber auch zunehmend Verbreitung bei der gemeinsamen Wissensentwicklung (Lit. 21). Wikis ermöglichen somit die Abbildung einer Wissenssammlung, die von allen Mitarbeitern einfach gepflegt werden kann. Durch die inkrementelle Anpassung an den Unternehmenskontext ist eine vergleichsweise hohe Aktualität der Wissenseinheiten möglich. Hierbei wird auch der Kontext der Entstehung berücksichtigt, indem beispielsweise der Verlauf der Anpassung einer Wissenseinheit protokolliert und die beteiligten Bearbeiter gelistet werden. Durch die Verbindung der Bearbeiter mit den von ihnen bearbeiteten Themen lassen sich mit Wikis auch einfache Expertenverzeichnisse realisieren (Lit. 21). Aktuell sind Anwendungen im Trend, die den Menschen in den Mittelpunkt stellen. Soziale Software (engl. social software) bezeichnet Anwendungen zur Unterstützung menschlicher Kommunikation und Zusammenarbeit (Lit. 01). Mit diesen Anwendungen werden das Inter- oder Intranet-Gemeinschaften aufgebaut und gepflegt sowie Inhalte erstellt und verknüpft. Der Grundgedanke Sozialer Software ist das Teilen und Verknüpfen von Ressourcen durch die Teilnehmer selbst. Der Aufbau und die Pflege derartiger Systeme erfolgt dabei weitestgehend in Selbstorganisation. Beispiele für Soziale Software sind Wikis, Blogs, Foren und Instant Messaging (Lit. 01). Im überbetrieblichen Kontext haben soziale Plattformen wie www.xing.de große Bekanntheit erlangt. Eine spezielle Form von Sozialer Software sind soziale Bookmarking-Systeme. Hiermit werden gemeinschaftlich Hyperlinks erfasst, kategorisiert und genutzt. Diese Anwendungen erlauben die gemeinsame Verschlagwortung (Tagging) von Links oder anderer Ressourcen wie beispielsweise Dokumenten. Social Tagging stellt somit eine Alternative zu zentral gewarteten Verzeichnissen dar. Es ermöglicht es, Ressourcen für das Wissensmanagement effizient zu verwalten. Ansätze des Enterprise 2.0 und insbesondere der soziale Ansatz werden als dritte Generation des Wissensmanagements aufgefasst. Dieser ging eine erste Phase der organisationalen Verankerung des Wissensmanagements und eine zweite Phase die sich verstärkt auf das explizite Wissen, dessen Speicherung und Vermittlung konzentrierte, voraus (Lit. 31).
C 1.7 Ausblick Wechselnde wirtschaftliche Rahmenbedingungen, dynamische Märkte und der technische Fortschritt in der IT-Industrie führen zu wandelnden Anforderungen an das Informationsmanagement und die Unternehmens-IT. Auch wenn Informationstechnik nicht unbedingt einen Wettbewerbsvorteil verspricht, so ist die laufende Anpassung der Informationssysteme doch von zentraler Bedeutung für die meisten Unternehmen, um Nachteile im Wettbewerb zu vermeiden und das Ziel des IM, den im Hinblick auf die Unternehmensziele bestmöglichen Einsatz der Ressource Information zu gewährleisten.
376
C 1: Helmut Krcmar
Insofern muss das Informationsmanagement eine fortwährende Beobachtung der wirtschaftlichen und technologischen Entwicklungen anstreben, um diese adäquat berücksichtigen zu können. Disruptive Innovationen stellen dabei eine besondere Herausforderung dar. Der Unterschied zu normalen Techniksprüngen ist, dass vieles von dem, was im Zusammenhang mit der Nutzung bestehender Informationssysteme erlernt wurde, sich danach als antiquiert und oftmals falsch erweisen kann. Die qualitativen Überlegungen, was generell besser und was schlechter sei, stimmen dann nicht mehr (Lit. 21). Disruptive Innovationen bezeichnen neue Ansätze, die etablierte Konzepte vom Markt verdrängen, ohne dass dies zunächst zu erwarten gewesen wäre. Bislang gut geführte Unternehmen können somit ihre Marktpositionen verlieren oder gar vollständig aus dem Markt gedrängt werden. Disruptive Innovationen erfüllen die Marktanforderungen in der Regel zunächst nicht, haben dafür aber andere Eigenschaften, die gegenwärtig nicht erkannt oder für unwesentlich erachtet werden, dann aber maßgeblich zum Erfolg der Technik beitragen (Lit. 08). Ein aktuelles Beispiel für eine mögliche disruptive Innovation stellt das Cloud Computing dar. Hierunter wird ein „IT-basiertes Bereitstellungsmodell [verstanden], bei dem Ressourcen sowohl in Form von Infrastruktur als auch Anwendungen und Daten als verteilter Dienst über das Internet durch einen oder mehrere Leistungserbringer bereitgestellt wird“ (Lit. 07, S. 8). Entscheidend ist dabei die zunehmende Modularisierung der IT-Leistungserbringung durch eine Vielzahl von Akteuren. Dies führt zu einem Aufbrechen etablierter Wertschöpfungsketten und zur Entwicklung komplexer Wertschöpfungsnetzwerke, wie es beispielsweise Abbildung 8 zeigt. Die IT-Verantwortlichen müssen sich daher Gedanken darüber machen, in welcher Art und Weise sowie von welchen und wie vielen externen wie internen Leistungserbringern sie künftig Informationssysteme beziehen möchten.
Abb. 8: Das Cloud Computing Ökosystem (Quelle: Lit. 16 auf Grundlage von Lit. 06, S. 8)
Ein Cloud-Dienst kann dabei als standardisierter Dienst zur Lösung eines bestimmten Problems aufgefasst werden, bei dem der Nutzer sich keine Gedanken über die Art und Weise der Implementierung und Bereitstellung macht. Im abgebildeten Ökosystem beziehen Konsumenten, Aggregatoren und Integratoren Cloud-Dienste in Form von Software-as-a-Service (SaaS), Platform-as-a-Service (PaaS) oder Infrastructure-as-a-Service (IaaS) direkt vom Dienstanbieter bzw. über eine Markt-
C 1: Informations- und Wissensmanagement
377
plattform. Zur Leistungserstellung greifen Anwendungs- bzw. Plattformanbieter auf die jeweils zugrundeliegenden Basisdienste (PaaS bzw. IaaS) zurück. Aggregatoren und Integratoren kombinieren eine beliebige Anzahl verschiedener Dienste, um somit eine individuelle Lösung für ihre Kunden zu schaffen. Berater zeigen in diesem Ökosystem die individuellen Chancen und Risiken des neuen Bereitstellungsmodells für Informationssysteme auf. Führt man den Gedanken des Cloud Computing fort, so mündet dies im Konzept des Everything-as-a-Service (XaaS). Hierbei werden sämtliche Leistungen des Informationsmanagements aus einer dienstleistungsorientierten Perspektive betrachtet. Dies bedeutet, dass das Leistungsergebnis sowie dessen Nutzen für den Konsumenten im Vordergrund stehen („value in use“). Dies hat zur Folge, dass die einzelnen Basisfunktionalitäten, Technikbündel, Informationssysteme, Daten oder gar Wissen als grundlegende Dienstleistungen eines Service Ökosystems aufgefasst werden. Die Implikationen dieses Konzepts müssen auf allen Ebenen des Informations- und ‑wissensmanagements für jedes Unternehmen individuell betrachtet werden.
Literatur 01 02 03 04 05 06 07
08 09 10 11
12
13 14 15 16
17
Bächle, M.: Social software. Informatik-Spektrum, Jahrgang 29 (2006) Nr. 2, 121-124 Bair J.; Stear E.: Information Management is not Knowledge Management. Gartner Group, 1997 Becker, J.; Schütte, R.: Handelsinformationssysteme, Moderne Industrie, Landsberg/Lech 1996 Bellmann, M.; Krcmar, H.; Sommerlatte, T. (Hrsg.): Praxishandbuch Wissensmanagement. Symposion, Düsseldorf 2002 Biethan, J.; Rohrig, N.: Datenmanagement. Handbuch Wirtschaftsinformatik. Eds.: Kurbel, K.; Strunz, H. Poeschel, Stuttgart 1990, 737-755 Böhm, M.; Koleva, G.; Leimeister, S.; Riedl, C.; Krcmar, H.: Towards a Generic Value Network for Cloud Computing. Beitrag vorgestellt auf der Name, Heidelberg, 129-140, 2010 Böhm, M.; Leimeister, S.; Riedl, C.; Krcmar, H.: Cloud Computing: Outsourcing 2.0 oder ein neues Geschäftsmodell zur Bereitstellung von IT-Ressourcen. Information Management & Consulting, Jahrgang 24 (2009) Nr. 2, 6-14 Christensen, C.M.: The Innovator's Dilemma: When New Technologies Cause Great Firms to Fail, HarperCollins, New York 2000 Davenport, T.; Prusak, L.: Working Knowledge: How Organizations Manage What They Know, Harvard Business School Press, Boston, MA 2000 Eschenröder, G.: Planungsaspekte einer ressourcenorientierten Informationswirtschaft, Josef Eul Verlag, Bergisch Gladbach 1985 Fiedeler, U.; Fleischer, T.; Decker, M.: Roadmapping als eine Erweiterung des „Methoden-Werkzeugkastens“ der Technikfolgenabschätzung. Technikfolgenabschätzung: Theorie und Praxis, Jahrgang 13 (2004) Nr. 2, 65-70 Gemünden, H.-G.: Information: Bedarf, Analyse und Verhalten. Handwörterbuch der Betriebswirtschaft (2. Band). Eds.: Wittmann, W. et al. 5., völlig neu gestaltete Auflage. Schäffer-Poeschel, Stuttgart 1993, 1725-1735 Groenveld, P.: Roadmapping Integrates Business and Technology. Research Technology Management, Jahrgang 40 (1997) Nr. 5, 48-55 Grohmann, H.H.: Prinzipien der IT-Governance. HMD-Praxis der Wirtschaftsinformatik, Jahrgang 232 (2003), 17-23 Henderson, J.C.; Venkatraman, N.: Strategic Alignment: Leveraging Information technology for transforming organizations. IBM Systems Journal, Jahrgang 38 (1993) Nr. 2 & 3, 472-484 Hoberg, P.; Wollersheim, J.; Böhm, M.; Krcmar, H.: Cloud Computing – Überblick und Herausforderungen für das Controlling. Controlling. Zeitschrift für erfolgsorientierte Unternehmenssteuerung, Jahrgang 24 (2012) Nr. 6, 294-300 International Organization for Standardization (ISO): ISO/IEC 2382-1:1993: Information technology –
378
C 1: Helmut Krcmar
Vocabulary – Part 1: Fundamental terms, International Organization for Standardization (ISO), 1993 18 Krcmar, H.: Informationsverarbeitungs-Controlling: Zielsetzung und Erfolgsfaktoren. Information Management, Jahrgang 5 (1990) Nr. 3, 6-15 19 Krcmar, H.: Annäherungen an Informationsmanagement: Managementdisziplin und/oder Technologiedisziplin? Managementforschung 1 (1. Band). Eds.: Staehle, W.H.; Sydow, J., de Gruyter, Berlin, New York 1991, 163-203 20 Krcmar, H.: Informationsproduktion. Handwörterbuch der Produktionswirtschaft. Eds.: Kern, W.; Schröder, H.-H.; Weber, J., 2. Auflage. Schäffer-Poeschel Verlag, Stuttgart 1996, 717-727 21 Krcmar, H.: Informationsmanagement. (5. Auflage), Springer, Berlin 2010 22 Lehner, F.: Wissensmanagement: Grundlagen, Methoden und Technische Unterstützung. (3. Auflage), Hanser Verlag, München 2009 23 Link, J.: Die methodologischen, informationswirtschaftlichen und führungspolitischen Aspekte des Controlling. Zeitschrift für Betriebswirtschaft, Jahrgang 52 (1982) Nr. 3, 261-280 24 Macharzina, K.; Wolf, J.: Unternehmensführung. (4. Auflage. Auflage), Gabler, Wiesbaden 2005 25 Malik, F.: Führen, Leisten Leben: Wirksames Management für eine neue Zeit. (3. Auflage), Deutsche Verlagsanstalt, Stuttgart, München 2000 26 Meier, A.: Ziele und Aufgaben im Datenmanagement aus der Sicht des Praktikers. Wirtschaftsinformatik, Jahrgang 36 (1994) Nr. 5, 455-464 27 Nonaka, I.: The Knowledge-Creating Company. Harvard Business Review, Jahrgang 69 (1991) Nr. 6, 96-104 28 Probst, G.; Raub, S.; Romhardt, K.: Wissen managen: Wie Unternehmen ihre wertvollste Ressource optimal nutzen. (6. Auflage), Gabler Verlag, Wiesbaden 2010 29 Rehäuser, J.; Krcmar, H.: Wissensmanagement im Unternehmen. Wissensmanagement (6. Band). Eds.: Schreyögg, G.; Conrad, P., de Gruyter, Berlin, New York 1996, 1-40 30 Scheer, A.-W.: Betriebs- und Wirtschaftsinformatik. Handwörterbuch der Betriebswirtschaft (2. Band). Eds.: Wittmann, W. et al., 5., völlig neu gestaltete. Auflage. Poeschel, Stuttgart 1993, 390-408 31 Schütt, P.: Die dritte Generation des Wissensmanagements. KM-Journal, Jahrgang 1 (2003), 1-7 32 Spinner, H.F.: Die Architektur der Informationsgesellschaft: Entwurf eines wissensorientierten Gesamtkonzepts, Philo, Bodenheim 1998 33 Szyperski, N.: Die Informationstechnik und unternehmensübergreifende Logistik. Integration und Flexibilität. Eds.: Adam, D.; Backhaus, H.; Meffert, H.; Wagner, H. Gabler, Wiesbaden 1990, 79-95 34 Szyperski, N.; Winand, U.: Informationsmanagement und informationstechnische Perspektiven. Organisation: evolutionäre Interdependenzen von Kultur und Struktur der Unternehmung. Eds.: Seibt, D.; Wagner, H., Wiesbaden 1989, 133-150 35 Weill, P.; Ross, J.: IT governance: How top performers manage IT decision rights for superior results (1. Band), Harvard Business School Press, Boston, Mass. 2004 36 Weill, P.; Woodham, R.: Don't just Lead, Govern: Implementing Effective Governance (Working Paper 236). Sloan School of Management, 2002 37 Wild, J.: Management-Konzeption und Unternehmensverfassung. Probleme der Unternehmensverfassung. Eds.: Schmidt, R. B. Mohr, Tübingen 1971, 57-95 38 WKWI, Wissenschaftliche Kommission Wirtschaftsinformatik im Verband der Hochschullehrer für Betriebswirtschaft e.V., Fachbereich Wirtschaftsinformatik der Gesellschaft für Informatik (2011): Profil der Wirtschaftsinformatik. Enzyklopädie der Wirtschaftsinformatik. Eds.: Kurbel, K.; Becker, J.; Gronau, N.; Sinz, E.; Suhl, L., 4. Auflage. Oldenbourg, München 2011 (http://www.enzyklopaedie-der-wirtschaftsinformatik.de, Abruf: 16.11.2012) 39 Wollnik, M.: Ein Referenzmodell des Informationsmanagements. Information Management, Jahrgang 3 (1988) Nr. 3, 34-43
Eberhard R. Hilf, Thomas Severiens
C 2 Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft C 2.1 Anforderungen an das Management wissenschaftlicher Informationen Dokumente und Daten sind zwei wichtige Träger des Austauschs wissenschaftlicher Informationen zwischen Wissenschaftlern. Mit ihnen informieren Wissenschaftler in erster Linie ihre aktiven Fachkollegen über die neuesten eigenen Forschungsergebnisse, aber natürlich sollen sie auch jedermann zugänglich sein. Wissenschaftler benötigen solche Informationen als Basis ihrer eigenen Forschungen. Ohne zu wissen bzw. rechtzeitig zu erfahren, was bereits erforscht wurde, ist Doppelarbeit oder Unproduktivität wahrscheinlich. Der wissenschaftliche Prozess in seiner Gänze würde ineffizient. Daraus leiten sich grundsätzliche Anforderungen an das Management wissenschaftlicher Informationen ab. Dokumente und Daten sollen –– auf dem neuesten Stand der Technik verwaltet und genutzt werden können; –– möglichst rasch (soweit technisch machbar) zugänglich sein; –– weltweit für jeden (jedenfalls jeden aktiven) Forscher zugänglich sein; –– unabhängig von der Wahl des Betriebssystems, Editors und Browsers vom Empfänger lesbar sein; –– langfristig lesbar verfügbar sein; –– die Inhalte sollen nachnutzbar (nicht nur lesend sondern auch digital importier- und nutzbar) sein. Die Nachnutzenden müssen sicherstellen, dass die intellektuelle Urheberschaft an den Werken, d. h. vor allem die Persönlichkeitsrechte an den Werken, respektiert werden. In die Forderung nach freiem Zugang zu und freier Nutzung von Dokumenten und Daten sind alle Informationsobjekte, wie z. B. Vorträge, Blogs, Reports, also eben nicht nur Publikationen im traditionellen Sinne, eingeschlossen. Alle diese Objekte sind nicht nur Grundlagen weiterer wissenschaftlicher Erkenntnis, sondern auch unerlässlich für staatliche Entscheidungen und staatliches Handeln in Politik und Verwaltung. Und nicht zuletzt folgt aus dem „Prinzip des freien Zugangs der Bürger in einer demokratischen Gesellschaft zu Wissen und Daten, die vom oder für den Staat erstellt worden sind“ (Informationelle Freiheit in einer Bürgerdemokratie) (Lit. 01, Lit. 02), dass Daten und Dokumente (unabhängig von dem gewählten Medium), die von und für die Forschung erstellt worden sind, für jedermann frei zugänglich sein müssen. Insofern könnte sich Open Access zu einem allgemeinen Prinzip der öffentlichen freien Zugänglichkeit von Wissen und Information in der Gesellschaft erweitern. Bislang ist Open Access aber in erster Linie auf wissenschaftliche und Kulturobjekte allgemein bezogen. Im engeren Sinne wird als erste Realisierung von Open Access der freie und unentgeltliche Zugang zu einer digitalen Kopie von wissenschaftlichen Publikationen angestrebt bzw. konkreter im Wortlaut der Berliner Erklärung über offenen Zugang zu wissenschaftlichem Wissen (2003) (Lit. 03): „Die Urheber und die Rechteinhaber solcher Veröffentlichungen gewähren allen Nutzern unwiderruflich das freie, weltweite Zugangsrecht zu diesen Veröffentlichungen und erlauben ihnen, diese Veröffentlichungen – in jedem beliebigen digitalen Medium und für jeden verantwortbaren Zweck – zu kopieren, zu nutzen, zu verbreiten, zu übertragen und öffentlich wiederzugeben sowie Bearbeitungen davon zu erstellen und zu verbreiten, sofern die Urheberschaft korrekt angegeben wird.“ Für eine zukünftige Open-Access-Politik werden zuweilen, über die offiziellen Open-Access-Erklärungen hinausgehend, weitere Forderungen an den Gesetzgeber für eine Open-Access-Regulierung genannt (Lit. 04): –– die Pflicht, wissenschaftliche Ergebnisse inklusive ihrer Daten offenzulegen;
380 –– ––
C 2: Eberhard R. Hilf, Thomas Severiens
die Langzeitarchivierung für nachfolgende Generationen zu sichern als Aufgabe des Staates; sowie das Recht der Autoren auf korrekte wissenschaftliche Zitierung.
C 2.2 Anforderungen an das Informationsmanagement wissenschaftlicher Dokumente und Daten Aus diesen grundlegenden Anforderungen leiten sich technische Forderungen an wissenschaftliche Dokumente und Daten bzw. den Umgang damit ab: –– sie sollen digital vorgelegt werden; –– sie sollten instantan, also ohne technischen Verzug, ins Internet gestellt werden; –– Mehrwertdienste wie Begutachten, Auswählen für Fachthemen-orientierte Sammlungen aktueller Ergebnisse, Drucken „on demand“ oder andere Aggregationsdienste wie Reviews können sich zeitlich anschließen; –– das gewählte digitale Format muss für alle lesbar sein (also nur die Verwendung international vereinbarter digitaler Austauschformate, diese sollen offen dokumentiert sein); –– die Dokumente/Daten müssen die vollständige wissenschaftliche Information enthalten, die für eine Nachnutzung notwendig sein könnten; –– sie müssen durch möglichst viele Industriestaaten in ihre jeweiligen nationalen Langfrist-Archivierungen aufgenommen werden; –– das Urheberrecht kann sich auf die Garantie der im Urheberrecht verankerten Persönlichkeitsrechte beschränken (z. B. Anerkennung der Autorschaft); –– Materialien können in (internationale) Mehrwertdienste (Aggregation, Analyse, Klassifizierung, Kompilierung, etc.) integriert werden; –– die Persönlichkeitsrechte von Personen, die in solchen integrierten Mehrwertdiensten genannt sind, werden durch Anonymisierung direkt im Aggregationsprozess gewahrt.
C 2.3 Was ist Open Access? Eine der unabdingbaren Kernvoraussetzungen (der Default-Wert) dieser Anforderungen an die Publikation von Wissen ist der freie und ungehinderte, weltweite Zugang zur wissenschaftlichen Information für Jeden – unabhängig von seinen finanziellen Möglichkeiten. Für jeden frei, also auch für weitere kommerzielle Verwertung! Dieses Prinzip der offenen Nutzung von wissenschaftlichen Informationsobjekten jeder Art und von Daten wird, speziell bezogen auf Dokumente, Open Access (im Folgenden i. d. R. OA) genannt bzw. Open Data (für Daten jeder Art) bzw. allgemeiner als Open Content (OD) bezeichnet. Der Begriff wurde zuerst von der Budapest Open Access Initiative 2002 (Lit. 05) geprägt. Ihre beiden Kernforderungen waren 1. Aufforderung zur Selbstarchivierung (Self-archiving) der wissenschaftlichen Dokumente durch ihre Autoren und die Bereitstellung von dafür nützlichen Tools und Nachweissystemen (später auch „grüner Weg zu OA“ genannt); 2. Aufforderung zur Gründung von Open-Access-Zeitschriften (später auch „goldener Weg zu OA“ genannt). Die heute als entscheidend angesehene Deklaration ist die Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities von 2003 (Lit. 03). Diesem Initiativaufruf haben sich sehr viele Institute und Institutionen angeschlossen – ohne dass die einzelnen Wissenschaftler in ihren Instituten dies jedoch immer bemerkt oder gar die Anforderungen befolgt hätten. Implementierungsstrategien für Open Access werden in den Berlin-OA-Nachfolgekonferenzen entwickelt. Die bislang letzte (Berlin 10) hat im November 2012 in Stellenbosch, Süd-Afrika stattgefunden (Lit. 06).
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
381
Viele nationale und internationale Forschungsorganisationen und Förderungs-Institutionen haben Open Access für Publikationen gefordert, die aus von ihnen geförderten Projekten entstanden sind, so die DFG Deutsche Forschungsgemeinschaft oder der englische Wellcome Trust (URL1). Richtungsweisend waren auch die OECD Principles and Guidelines for Access to Research Data from Public Funding (Lit. 07). Wissenschaftliche Informationen werden ja in all denjenigen Formaten erzeugt, die jeweils technisch möglich sind und von den Wissenschaftlern gewählt werden. Diese Vielfalt (mit Daten, Bildern, interaktiven Animationen, Filmsequenzen usf.) in das Korsett einer traditionellen wissenschaftlichen Publikation zu kondensieren, die nur Text und auch nur mit beschränkter Seitenzahl erlaubt, ist eine stete, dem Print-Zeitalter geschuldete Herausforderung. Bisherige Realisierungsstrategien von Open Access beziehen sich oft nur auf diese traditionellen Publikation: –– die Autoren stellen einen Vorabdruck des Textes ihrer Veröffentlichung ins Netz (sogenannter Preprint, z. B. auf ihre Publikationslisten auf ihrem lokalen Arbeitsgruppen-Server; bekannte fachübergreifende internationale Preprint-Server sind arXiv.org (seit 1991) (URL2), REPeC (Ökonomie und verwandte Gebiete) (URL3) (grüner Weg); –– die Autoren realisieren die Online-Verbreitung einer digitalen Kopie ihrer Veröffentlichungen durch Einreichen an das Open Access Institutional Repository (OA-IR) ihrer Institution oder anderen Servern ihrer Institutionen (grüner Weg); –– der Verlag der Zeitschrift publiziert in seiner vom Autor gewählten Zeitschrift den Artikel Open Access (sofern die Policy der Zeitschrift dies erlaubt) (goldener Weg).
C 2.4 Entwicklungslinien Realisierungsversuche für Open Access gab es immer schon: Im Mittelalter boten die Klöster wichtige Handschriften schrankenfrei zum Lesen an, wobei das Lesen selbst damals eine wesentliche Schranke bildete. In den letzten 150 Jahren hat das Subskriptionsmodell der wissenschaftlichen Verlage im Prinzip versucht, mit den bisherigen technischen Mitteln den Zugang zu realisieren: Der Wissenschaftler fand „barrierefrei“ alle für ihn relevanten Zeitschriften in der Bibliothek seiner Institution. Erst die „Zeitschriftenkrise“ der letzten Jahrzehnte hat de facto Barrieren eingeführt, indem die Bibliotheksetats bei weitem nicht mehr reichen, um auch nur einen Teil der lokal relevanten Zeitschriften-Subskriptionen mit ihren drastisch steigenden Preisen zu bezahlen. Tatsächlich hat daher für den einzelnen Wissenschaftler das Subskriptionsmodell nur den tatsächlichen Ausschluss zum Zugang von Wissen bewirkt. Schon 1932 hat der Nobelpreisträger Enrico Fermi einen Weg gezeigt, den Informationszyklus der Wissenschaft zu beschleunigen, in dem er jeweils seine neueste wissenschaftliche Arbeit als „Preprint“ gedruckt per Post an seine interessierten Kollegen weltweit versandt hat, die diese also frei lesen konnten. Dies führte an vielen wissenschaftlichen Physik-Instituten zur Einrichtung von sogenannten Preprint-Reihen oder Instituts-Publikationen, die in der Regel ein Preprint einer späteren Veröffentlichung in einer wissenschaftlichen Zeitschrift sind. Als erstes zentrales Online-Archiv für wissenschaftliche Dokumente hat dann 1991 Paul Ginsparg den Dienst ArXiv eröffnet, der es jedem Autor der Physik und angrenzender Fächer (im Prinzip aber jeden Faches) erlaubt, seinen Preprint digital einzureichen und dauerhaft auf dem Web Open Access veröffentlicht zu bekommen. Das ArXiv hat seit seinem Beginn ein gleichbleibend exponentielles Wachstum (URL2) und setzt damit die Idee der Preprint-Veröffentlichung konsequent globalisiert und internetbasiert um. In Teilen der Physik hat sich inzwischen etabliert, dass Dokumente zunächst als Preprint online publiziert werden und erst anschließend einem Verlag angeboten werden. Die besonders renommierten Physik-Zeitschriften Physical Review und Physical Review Letters der APS (American Physical Society) erwarten inzwischen sogar, dass die eingereichten Artikel bereits vorher im ArXiv
382
C 2: Eberhard R. Hilf, Thomas Severiens
erschienen sind: Auf diese Weise stehen ihre Gutachter unter einem geringeren Zeitdruck, schaden dem Prioritätsanspruch des Autors im Falle der Ablehnung nicht, und können die bereits einsetzende öffentliche Diskussion aller interessierten einschlägigen Experten zum Preprint-Artikel in die eigene Meinungsbildung einbeziehen (Lit. 08). Allerdings ist dann aber das manchmal geforderte – weil von traditionell Denkenden gewünscht, auch wenn nicht wirklich den Mehrwert der möglichen sozialen Vernetzung hebend und eher das Papier-Paradigma auf die online-Publikation übertragend – Double-Blind-Verfahren beim Peer Reviewing nicht möglich. Seitdem sind ähnliche, zentrale Dienste hinzugekommen, so das internationale fachübergreifende zentrale HAL Hypertext On Ligne (URL4), das Nachweissystem citebase (URL5), CogPrints, das e-Archiv für Psychologie, Neurowissenschaft, Linguistik, und Computer Science (URL6) und das fachspezifische Repositorium für die Ökonomie REpeC (URL3). In Deutschland wurde seit 1993 ein anderer Weg beschritten: der Nachweis von dezentral, verteilt auf den Institutsservern der Autoren veröffentlichten Dokumenten. Bereits 1993 wurden auf einem Mathematik-Workshop in Halle (Lit. 09, Lit. 10, Lit. 11) die Grundideen eines verteilten Fachinformations-Verlinkungssystems (freier Online Zugang zu Fachinformationen der Wissenschaftler – Institut, Arbeitsgebiete, Publikationsliste mit Volltext-Dokumenten) vorgestellt, die 1995 zu den Wissenschaftsplattformen PhysNet (URL7) bzw. Math-Net (Lit.12) geführt haben. Bisher nicht durchgesetzt hat sich der eigentlich auf die digitale Welt am besten passende Vorschlag von Andrew Odlyzko (Lit. 13). Danach sollten Autoren ihre OA-Publikation ins Netz stellen und an möglichst viele Freunde mailen. Jeder Leser wurde explizit ermutigt, die Arbeit wiederum selbst aufs Netz zu stellen. Durch die so gewonnene Vielzahl an weltweit verteilten Kopien würde so möglicherweise zugleich eine Langzeit-Archivierung realisiert, ganz im Sinne des heutigen Vorhabens LOCKSS Lots Of Copies Keep Stuff Safe (URL8). Stevan Harnad hat 1993 in einer bahnbrechenden Publikation den später so genannten „grünen Weg“ vorgeschlagen: Autoren sollten ihre Verlagspublikationen in einer digitalen Kopie auf dem eigenen Arbeitsgruppen/Institutsserver ins Netz stellen (Lit. 14). Heute werden je nach Fachgebiet bereits mehr als 15 % der wissenschaftlichen Arbeiten auf diesem Weg publiziert (Lit. 15). Die kommerziellen Verlage haben seit 1993 zunächst in gemeinsamen Gremien mit den Wissenschaftsorganisationen und -institutionen (URL9) konstruktiv mitgearbeitet und sogar gemeinsam Förderungen bei der EU (DDD Distributed Document Database, Lit. 16) und dem BMBF (Global Info, Lit. 17) beantragt. Nach deren Scheitern haben sie sich auf die längstmögliche Verteidigung der Subskriptions-Geschäftsmodelle nach dem Toll-Access-Prinzip verlegt. Erst in jüngster Zeit werden nun in rascher Folge neue OA-Zeitschriften mit unterschiedlichen experimentellen Geschäftsmodellen auf den Markt gebracht (siehe Abschnitt C 2.8). Als dritter Weg wurden seit 2004 eine rasch steigende Zahl an institutionellen Open-AccessRepositorien an den Universitäten und Wissenschafts-Institutionen gegründet: die OA-IR Open Access Institutional Repositories. Diese umfassen alle an der Institution vorhandenen wissenschaftlichen Gebiete (im Gegensatz zu den fachspezifischen aber zentralen Archiven wie RePeC) und sind vor Ort (im Gegensatz zu den zentralen Archiven arXiv und HAL). Dieser Weg der Einrichtung von OA-IR nutzt dabei sinnvollerweise die Expertise der wissenschaftlichen Bibliotheken und Rechenzentren aus. Angestoßen wurde diese Entwicklung von Herbert van de Sompel 2004, der ein einheitliches Minimal-Protokoll entwickelt hatte, so dass die Repositorien von außen leicht verknüpft und abgefragt werden können, das OKAY-MPH Open Archives Initiative Protocol for Metadate Harvesting (Lit. 18). Ein anderer Weg, die einschränkenden Bedingungen zu mildern, mit denen im Toll-Access-Geschäftsmodell der Zugang zu Dokumenten reglementiert und beschränkt wird, ist der von Stevan Harnad vorgeschlagene und an der Universität Southampton realisierte sogenannte Fair Dealing Button: Das Manuskript wird bis zum Ende eines vom Verlag festlegbaren Moratoriums unzugänglich auf dem OA-IR gespeichert, die Metadaten werden aber bereits offen angezeigt und ein „fair dealing button“ lädt den Suchenden ein, den Autor selbst zwecks Anfrage einer digitalen Kopie oder eines Papier-Preprints anzufragen. Die Autoren sind daran interessiert gelesen zu werden, und
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
383
die Suchenden bekommen einen direkten Kontakt zu ihnen. Dieser Dienst fördert nebenbei auch noch die generationsübergreifende Vernetzung der Wissenschaftler. Peter Suber, einer der großen Vorkämpfer für Open Access, hat zur historischen Entwicklung von Open Access eine detaillierte timeline (URL10), eine Liste der zeitlichen Abfolge von Aktionen weltweit zu OA, zusammengetragen.
C 2.5 Realisierungen von Open Access für wissenschaftliche Dokumente Als umfassende Informations-Plattform zu allen Aspekten von Open Access gibt es in Deutschland die Nationale Open Access Informations-Plattform (Open-Access-Net) (URL11) und international die umfassende, interaktive Plattform von Peter Suber (URL12). Eine allgemeine Diskussionsplattform bietet auch American Scientist (URL13). Realisiert wird OA zurzeit im Wesentlichen auf den beiden genannten Wegen: Der Autor legt sein Dokument als Autorenkopie auf einen lokalen, institutionellen oder zentralen Server („grüner Weg“) oder er sendet es an eine Zeitschrift zur OA-Veröffentlichung („goldener Weg“). C 2.5.1 Grüner Weg Beim sogenannten „grünen Weg“ legen die Autoren ihren (ansonsten schon primär publizierten) Artikel auf ihrem eigenen Instituts- oder Arbeitsgruppenserver online, meist im Rahmen ihres eSchriftenverzeichnisses. Einen Überblick über den Anteil an OA gelegten Publikationen gibt Lit. 15, eine Analyse der Akzeptanz und Motive Lit. 19. Ein Nachteil dieses Weges ist das etwas schwierige Auffinden und Verarbeiten der i. d. R. sehr individuell gestalteten e-Schriftenverzeichnisse durch Suchmaschinen, weil die Autoren zumeist keine internationalen Metadata-Standards kennen bzw. nicht nutzen, während Schriftenverzeichnisse, die aus harmonisierten Datenbeständen automatisiert erzeugt werden, meist Mehrwerte wie Autorenverlinkungen, Zitations-Statistiken etc. nutzen. Viele Hochschulen und Forschungsinstitutionen haben ihren Autoren empfohlen, eine digitale Kopie ihrer Werke OA legen (zu lassen), möglichst auf das Open-Access Repository ihrer eigenen Institution. Als internationales Registry wirkt das OpenDOAR (URL14). National fungiert das OA Network (Lit. 20) als Recherche-Plattform und Registry der institutionellen Repositorien. Der Anteil der in e-Schriftenverzeichnissen aufgeführten Arbeiten, die auch in digitaler Kopie im lokalen OA-IR gepostet werden, ist jedoch (noch) relativ gering. Es mehrt sich die Zahl der Hochschulen, die von ihren Wissenschaftlern verlangt (als Mandat, einer falschen aber gebräuchlich substantivierenden Übersetzung des englischen „mandatory“ bzw. „obligation“), ihre Arbeiten Open Access zu stellen. Das ROARMAP Registry of Open Access Repositories Mandatory Archiving Policies (URL15) hat die (verschieden stark verbindlichen) Mandate von Hochschulen gelistet. Angeführt wird sie von den Universitäten Southampton, UK und der Universidade Minho, PT mit einer lokalen universitätsweiten Abdeckung von jeweils über 60 %. Die genauen Beschränkungen der Verlage für das OA-Legen einer Kopie einer Zeitschriften-Publikation eines wissenschaftlichen Dokumentes auf einen OA-Server durch den Autor finden sich in der sogenannten 'Sherpa/Romeo-Liste' (URL16) der Universität Nottingham. Zur deutschen Fassung und weiteren Informationen führt Lit. 21. Die DINI Deutsche Initiative für NetzwerkInformation e.V., vertreten durch ihre sehr aktive Arbeitsgruppe epub – elektronisches Publizieren (URL17) vergibt für OA-IR nach strenger Überprüfung, ob die aufgestellten Mindeststandards eingehalten sind, das DINI-Zertifikat für Dokumenten-und Publikations-Dienste (URL18). Das Webometrics Ranking of World Universities (URL19) hat eine neue Ausgabe seines Web-basierten Ranking von 14.876 akademischen Institutionen in der Welt herausgebracht, von denen im-
384
C 2: Eberhard R. Hilf, Thomas Severiens
merhin 377 in Deutschland liegen. Ihr Web-basiertes Maß soll besser als reine Zitierungs-Additionen die akademischen Gesamtaktivitäten widerspiegeln. In das gewählte Maß gehen mit 20 % der Seitenumfang des Servers, mit 15 % die nachgewiesene wissenschaftliche Dokumenten-Zahl auf dem eigenen Server, mit 15 % die Sichtbarkeit bei Google Scholar und mit 50 % die Sichtbarkeit (Zahl der Links, die auf die Domain verweisen) ein. Bei den OA-Repositorien belegt das ArXiv Platz 1, gefolgt von Research Papers in Economics REPeC und ELIS Research in Computing and Library and Information Science sowie der Southampton University. Die unter den ersten hundert weltweit höchstbewerteten OA-Repositorien sind aus Deutschland: Humboldt-Universität Publikationsserver (Platz 40), LM Universität München (41), die Universität Stuttgart (49), PEDOC (61), Heidelberg (65), AWI (78), und Econ Stor (83). C 2.5.2 Goldener Weg Beim „goldenen Weg“ sendet der Autor sein Manuskript an eine der OA-Zeitschriften bzw. Zeitschriften, die seine Publikation OA veröffentlichen wollen. Insgesamt haben sich bereits mehr als 8.000 OA-Zeitschriften bei dem Registry DOAJ Directory of Open Access Journals (URL20) nach Antrag registrieren lassen, sowohl kommerzielle wie solche von wissenschaftlichen Institutionen. Eine wesentlich umfassendere Sammlung von OA Repositories wissenschaftlicher Dokumente wird von der Universität Regensburg selbst gesammelt und gepflegt (URL21), die auch Instituts-Serien umfasst. Die erfolgreichste Neugründung einer OA-Zeitschrift durch die Wissenschaftler selbst ist sicher das umfangreiche, streng referierte und etablierte Journal ACP Atmospheric Chemistry and Physics (mit dem sehr moderaten Preis von ca. 23 Euro pro Druckseite) (URL22). Parallel zum DOAJ gibt es inzwischen ein Directory of Open Access Books (URL23).
C 2.6 (Inter-)nationale Projekte und Initiativen zur Förderung von OA Der Übergang des Informationsmanagements wissenschaftlicher Dokumente zu Open Access wird inzwischen sowohl national wie international von den meisten Förderinstitutionen unterstützt (siehe Zusammenstellung von B. Schmidt: Lit. 22). C 2.6.1 Deutschland Hier hat 2003 die Deutsche Forschungsgemeinschaft (DFG, Abteilung LIS) ein entsprechendes Förderprogramm aufgelegt. Es wurden OA-Zeitschriften-Neugründungen gefördert, ebenso wie eine Informationsplattform sowie Einzelprojekte, u. a. zur Professionalisierung der OA-Institutional Repositories wie DOARC und OA-Statistik, beide unter dem Schirm von OA-Network (Lit. 20). Die DINI Deutsche Initiative für NetzwerkInformation e.V., ein Zusammenschluss der Vertretungen der Rechenzentren, Bibliotheken und Mediatheken an wissenschaftlichen Hochschulen in Deutschland hat OA frühzeitig unterstützt, vor allem durch Ausbildung von Bibliothekaren sowie durch die Unterstützung bei der Einrichtung von institutionellen Repositorien. Parallel hat sich die IuK Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland (URL24) für den freien Zugang zum Wissen eingesetzt. Die IuK hat sich jedoch 2011 selbst aufgelöst, da ihre Aufgaben weitgehend durch DINI übernommen wurden und dort mit breiterer Unterstützung getragen werden, während viele Fachgesellschaften eine enge Verbindung jeweils zu einem kommerziellen Verlag eingegangen sind. Es gibt viele institutionelle, aber auch institutionsübergreifende Arbeitsgruppen zu OA, so z. B. die Arbeitsgruppe Open Access der Initiative „Digitale Information“ der Allianz der deutschen Wissenschaftsorganisationen (URL25).
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
385
National geführte Listen zu OA-Projekten zu Aufbau, Vernetzung und Diensten für Repositorien werden u. a. gepflegt durch DINI (URL26) sowie die Open-Access Plattform (URL27). C 2.6.2 International hat sich eine ganze Reihe von Organisationen der Förderung von OA zugewandt. Eine Liste der Institutionen findet sich in (URL28). Wir geben einige Beispiele: –– Die Initiative SPARC Scholarly Publishing & Academic Resources Coalition (mit Zweigstellen in Europa und Japan) legt ihren Schwerpunkt auf Lobbyarbeit und auf die Entwicklung von Open-Access Policies (URL29). –– In der COAR Confederation of Open Access Repositories (URL30) kooperieren Institutionen aus Europa, Asien, Südamerika, den USA und Canada mit der Vision, eine weltweit interoperable Informationsinfrastruktur auf Basis von Open-Access Repositorien zu erreichen. –– EIFL Electronic Information for Libraries (URL31) unterstützt Bibliotheken in Entwicklungsund Transformationsländern in Afrika, Asien, Europa und Südamerika beim Aufbau von Infrastrukturen und Open-Access-Aktivitäten. –– Die OKFN Open Knowledge Foundation (URL32) will sich allgemein für die Verbreitung und Nutzung offenen Wissens aus dem wissenschaftlichen, kulturellen oder öffentlichen Bereich einsetzen, umfasst also auch Bereiche, wie Open Government, die nur indirekt auf Open Access zugreifen, denen aber entsprechende Ideen zugrunde liegen. –– Die OASPA Open Access Scholarly Publishers Association (URL33) unterstützt wissenschaftliche Zeitschriften- und Buchverlage, die Open-Access-Dienstleistungen anbieten. –– Das UNESCO Portal GOAP Global Open Access Portal (URL34) informiert über Open-AccessAktivitäten weltweit. –– Der aufgelöste Verband EUROHORCs und seine Nachfolgeorganisation Science Europe unterstützen Open Access durch Erfahrungsaustausch und gemeinsame Aktivitäten von Forschungsförderern und Wissenschaftsorganisationen (Lit. 23). –– Die EU-geförderte Initiative OpenAIRE Open Access Infrastructure for Research in Europe (URL35) unterstützt die Umsetzung der Open-Access-Leitlinien der Europäischen Kommission und des Europäischen Forschungsrates. Mittels eines Europaweit verteilten Netzwerkes von Open-Access-Ansprechpartnern und Repositorien führt OpenAIRE dabei die Publikationen von EU-geförderten Projekten virtuell zusammen. Mit OpenAIREplus erweitert das Projekt seine Aktivitäten um die Verlinkung von Publikationen und zugrundeliegende Forschungsdaten sowie auch komplexeren Publikationen. –– Mit den Ergebnissen der SOAP Study of Open Access Publishing (URL36) liegen umfangreiche Daten (Lit. 24) zu den Anforderungen von Wissenschaftler/innen an den Open-Access-Publikations-Prozess sowie zur Verbreitung von Open-Access-Zeitschriften in den Fachdisziplinen vor. –– Im EU-Projekt PEER Publishing and the Ecology of European Research (URL37) haben Verlage und wissenschaftliche Einrichtungen ein Experiment zur großangelegten parallelen Bereitstellung von Autorenversionen in Repositorien (green Open Access) durchgeführt. Auf dieser Basis wurde das Verhalten von Autoren und Lesern, insbesondere deren Nutzungsverhalten auf Basis von Logfile-Analysen und deren ökonomische Effekte untersucht. Die Nutzungsanalysen weisen auf eine steigende Nutzung von Verlagswebseiten hin, bei starken disziplinären Unterschieden. –– Im EU-Projekt OAPEN Open Access Publishing in European Networks (URL38) haben sieben Universitätsverlage ein Publikationsmodell und eine Publikationsplattform für Open Access publizierte wissenschaftliche Monographien aufgebaut. Folgeprojekte werden derzeit in Großbritannien und den Niederlanden durchgeführt.
386 ––
C 2: Eberhard R. Hilf, Thomas Severiens
Auf öffentlicher Förderung basieren außerdem zahlreiche disziplinäre Repositorien und Netzwerke wie Economists Online (URL39) und das VOA3R Virtual Open Access Agriculture & Aquaculture Repository (URL40).
C 2.7 (Inter-)nationale Entwicklung des Urheberrechts für Open Access Die internationale Entwicklung ist derzeit (2012) beherrscht von dem Ringen zweier sehr verschiedener Antriebskräfte für die Gestaltung des zukünftigen Marktes Wissenschaftlicher Informationen: Einerseits gibt es die kommerziellen Verlage, dominiert von wenigen internationalen Großverlagen, die versuchen, weiter ein möglichst allumfassendes (Bilder, zukünftige Nutzungsarten) Copyright von den Autoren übertragen zu bekommen. Dabei werden zunehmend auch kleine Werkteile oder Werke geringen Umfangs einzeln in der Rechteübertragung aufgelistet, was rechtlich der Zitatfreiheit zunehmend den Boden abgräbt. Mit den so eingesammelten Nutzungsrechten wird dann das Geschäftsmodell für das etablierte Produkt, die Herausgabe von wissenschaftlichen und Themen-orientierten Zeitschriften auf Subskriptionsbasis gestützt. Dabei wird dank der konsequenten Umstellung der Verleger auf online-Medien und digitale Verarbeitung bei gleichzeitiger Preissteigerung ein Gewinnzuwachs von oft 30 % pro Jahr gesichert. Viele Beobachter sehen hier derzeit ein Marktversagen, da die Zeitschriften keinesfalls in einem Wettbewerb stehen und die Anzahl der Verleger durch Konzernbildung stark zurückgegangen ist. Durch Schaffung einer EU-Richtlinie, die ein Zweitverwertungsrecht für wissenschaftliche Publikationen erlaubt und durch eine freizügige Regelung für verwaiste Werke (orphan works), könnte sich die Open-Access-Situation verbessern und ein Funktionieren des Marktes wieder erreicht werden. Allerdings ist das Zweitverwertungsrecht zunächst nur ein Recht der Autoren, kein direkter Imperativ für Open Access. International bestimmt die Piraterie-Bekämpfung nach wie vor die immaterialrechtliche Weiterentwicklung (siehe die politischen Initiativen ACTA, CETA, DMCA, TPP, SOPA, …) (URL41). Aber nicht zuletzt die WIPO (URL42) versucht, den aktuellen Stand der Richtlinien an den Bedarf anzupassen. In der EU gibt es seit dem Green Paper Copyright in the Knowledge Economy von 2009 (Lit. 25) eine immer stärkere Orientierung am Open-Access-Prinzip, zuletzt durch die Empfehlung der EU-Kommission von Juli 2012 On access to and preservation of scientific information (Lit. 26). In Deutschland hat die staatliche Regulierung in ihren verschiedenen Ansätzen, das Urheberrecht den laufend neuen Anforderungen nachzuführen, keine Notwendigkeit gesehen, regulierend zugunsten des Open-Access-Publizierens einzugreifen bzw. allgemein sich für ein wissenschaftsfreundlicheres Urheberrecht einzusetzen (Lit. 02; vgl. A 3 Urheberrecht und Internetrecht). Nach wie vor dominiert weltweit das kommerzielle Interesse an der Verwertung und an dessen Schutz. Der neueste Versuch, ein restriktives, Open Access entgegenstehendes Copyright durchzusetzen als Nachfolge von SOPA ist IPAA the Intellectual Property Attache Act, eine Vorlage für den 112. USA-Congress durch Lamar Smith (Texas) (Lit. 27). Nach diesem Vorschlag (2012) sollen in allen Botschaften der USA Beauftragte einer neuen zentralen Behörde zur Durchsetzung der USA Industrie-Interessen (Lit. 28) im Copyright eingesetzt werden. Es wird hier der Wissenschaftsbereich eben nicht davon ausgenommen (Lit. 29). House Judiciary Committee chief L. Smith hatte sich auch intensiv für SOPA eingesetzt. Danach soll jede Institution einen eigenen Assistant Secretary of Commerce for Intellectual Property bekommen (Lit. 30). Derzeit (2012) klafft eine große Kluft zwischen den Anstrengungen der großen internationalen Wissenschaftsverlage und den Anforderungen der Wissenschaft und der wissenschaftlichen Bibliotheken: Die Verlage versuchen, ihr bisheriges Geschäftsmodell des Verkaufs von Wissen längstmöglich zu erhalten und wählen hier den Weg über die politischen Instanzen in der Hoffnung auf möglichst restriktive Verschärfung der Urheberrechts-Gesetzgebung, um Umfang und Tiefe der Ausnahmen des Verbots des Zugangs ohne ihre Einwilligung möglichst gering zu halten. Andererseits gibt es aber auch in neuerer Zeit ermutigende Versuche, neue OA-Zeitschriften zu gründen, aber eine
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
387
stringente Ableitung eines Geschäftsmodells und neuer Produkte aus den Anforderungen gibt es bisher nicht. Angesichts der vielschichtigen und sich aktuell wandelnden Rechtslage ist der Bibliothekar bzw. Betreiber eines akademischen OA-Repositoriums auf Handreichungen (Lit. 31) bzw. den Rückgriff auf die Expertise (URL43) und die Interessenvertretung aus dem eigenen akademischen Bereich (URL44) angewiesen.
C 2.8 Finanzierungsmodelle für OA Die Kosten von Open Access wie die für das Management wissenschaftlicher Informationen insgesamt sind nur ein sehr kleiner Teil der Forschungskosten insgesamt. Die Finanzierung von OA erfordert passende Geschäftsmodelle (Lit. 32, Lit. 33). Bisher werden die Kosten wissenschaftlicher Information vom Staat erbracht und über die Institutionen an deren Bibliotheken gezahlt und von dort über Subskriptionsverträge an die Verlage verteilt. Damit ist die Bibliothek die „Abteilung“ der Wissenschaftsinstitution, die für den Erwerb von Fachinformation zuständig und entsprechend budgetiert ist. Die „wissenschaftlichen Abteilungen“, also die Lehrstühle der Institution haben traditionell keine oder kaum Mittel für den Informationserwerb, sondern bedienen sich der Bibliotheksleistungen. Open Access fordert jedoch eine Budgetierung der wissenschaftlichen Lehrstühle zwecks Deckung der Kosten für die Publikation. Die Mehrzahl der Geschäftsmodelle von Open Access sehen bisher vor, dass die Autoren bzw. ihre Institutionen anstelle der Leser die Kosten der Publikation zahlen. Letztlich führt dies in den wissenschaftlichen Einrichtungen zu einer Budget-Verlagerung, teilweise von den Bibliotheken zu den wissenschaftlichen Lehrstühlen (Lit. 34). Der Widerstand der Bibliotheken gegen diese Budget-Verlagerung ist entsprechend groß. Hieraus resultieren dann alternative Geschäftsmodelle, wie beispielsweise die Mitfinanzierung des ArXiv in Deutschland: Die Bibliotheken der wissenschaftlichen Einrichtungen beteiligen sich an einem Fond zur Finanzierung des Dienstes, der im Gegenzug die Autoren der Einrichtung von den Publikationskosten freistellt. Zwar sind solche Gebührenmodelle auf Schätzungen angewiesen und letztlich vermeidbar kompliziert, erleichtern dafür aber die Beibehaltung der Budget-Kontrollmechanismen in den wissenschaftlichen Einrichtungen und verhindern Budget- und Stellenkürzungen in den Bibliotheken. Eine weitergehende Einschränkung der Forschungs- und Bibliotheksbudgets zeichnet sich dadurch ab, dass immer mehr wissenschaftliche Organisationen oder sogar Regierungen über staatliche Programme bereit sind, die Publikationskosten und Gewinnerwartungen für Open-Access-Publikationen (i. d. R. bislang Zeitschriften nach dem goldenen OA-Ansatz) der Verlage zu übernehmen. So legt die britische Regierung, unter Aufnahme der Empfehlungen des Finch Report of the Working Group on Expanding Access to Published Research Findings (Lit. 35), den Forschungseinrichtungen nahe, ihre Einnahmen zur Finanzierung der Gold-Publikationen durch die Verlage zu verwenden. Der sich abzeichnende Transitionsprozess müsse aber von den vorhandenen Budgets ausgehen und kein neues Geld kosten (Lit. 36). Der Finch-Report schlägt also einen direkten Übergang zu flächendeckendem gold-OA vor mit den aus der Papier-Ära übernommenen Preisen, die vom Staat (dem er die Realisierung überlassen will) zu bezahlen wären. Sorgfältige neuere unabhängige Analysen und Studien zum Übergang von der Papier-Ära zu einem universellen digitalen Open Access von der LERU League of European Research Universities (Lit. 37) sowie von JISC (UK) (Lit. 38) haben nun aber gezeigt, dass es realistischer für den graduellen Übergang ist, vor allem aber für den Staat und die Universitäten wesentlich kostengünstiger, den Weg über green-OA zu forcieren, insbesondere durch breitere Einführung eines OA-Mandate (Lit. 39). Aber auch bei den verschiedenen gold-OA-Modellen zeigt sich, wenn auch z. B. in Deutschland (Programm Nationallizenzen) weniger drastisch, dass aus volkswirtschaftlicher Gesamtsicht sowohl in einer Übergangszeit als auch in längerer Sicht die Kostenersparnis und der gesellschaft-
388
C 2: Eberhard R. Hilf, Thomas Severiens
liche Nutzen bei green-OA wesentlich höher ist als bei klassischen kommerziellen Verwertungsmodellen (Lit. 38, Lit. 50). Von den kommerziellen Verlagen wird zunehmend die Linie verfolgt, Publikationen OA in ihre wissenschaftlichen ansonsten Toll-Access-Zeitschriften aufzunehmen, und diese den Autoren mit oft um die 3000 Euro pro Arbeit in Rechnung zu stellen. Sofern die Zeitschrift wegen anderer TollAccess-Arbeiten auch traditionell per Subskription vertrieben wird, ergibt sich so eine doppelte Einnahme (URL45). Die Übernahme der Publikationskosten durch den Autor – de facto zumeist durch seine Institution oder deren Bibliothek, spiegelt dabei die generelle Tendenz eines Übergangs von der Finanzierung der Publikationskosten durch den Autor anstelle des „Lesers“ (über die Subskription der Bibliothek) wider, im Englischen APC Article Processing Charges genannt. Aktuell (2012) gibt es Verlage, die ein Produkt „sustainable open access“ versuchen, den für Hochschulen fatalen Finch-Report aufgreifend, politisch zu platzieren. Dabei müssen sich wissenschaftliche Einrichtungen vertraglich verpflichten, ausschließlich über bestimmte Verlage greenOA zu publizieren, und der Staat soll hierfür die Verlage direkt, nicht über den Umweg über die Bibliotheksetats der Hochschulen bezahlen. Damit würde jedoch ein gravierender Einschnitt in die Publikationsfreiheit der Hochschullehrer gemacht, Publikationsweg und -art frei wählen zu können, und das verfügbare Budget-Volumen der Hochschulen würde sicher entsprechend gekürzt. Ein Wettbewerb wird so dauerhaft unterbunden und die Kosten lassen sich auf dem Niveau der PrintÄra einfrieren. Zusammenfassend wird die Vielzahl der zur Zeit aktuell erprobten Geschäftsmodelle der Verlagsindustrie für gold-OA jeweils auf der OA-Net Plattform (URL11) notiert, jeweils mit aktuell gültigen Beispielen. Als Varianten gibt es noch die Finanzierung durch die Autoren, durch Förderorganisationen, durch institutionelle Mitgliedschaft der Institution des Autors, durch einen Publikationsfond, durch institutionelle Trägerschaft und durch ein Konsortium (z. B. SCOAP3, URL46). Die letztere Variante des goldenen Weges zu OA sind Verträge von Konsortien, die für ihre Mitglieder mit den Verlagen die OA-Stellung ihrer Artikel in ansonsten Toll-Access Zeitschriften aushandeln. So stellt SCOAP3 als ein internationales Konsortium von Hochenergiephysik-Laboratorien und Verlagen die Publikationen aus diesen Instituten Open Access. Auf Basis einer internationalen Ausschreibung hat das Konsortium hierfür im Juli 2012 zwölf Zeitschriften von sieben Verlagen ausgewählt.
C 2.9 Langzeitarchivierung Wissenschaftliche Dokumente bei ihrem Erscheinen Open Access zu stellen, erleichtert wesentlich ihre Langzeitarchivierung. Nationale und internationale Bibliotheken und Institutionen, die mit der Langzeitarchivierung beauftragt sind, können Dokumente, die zu sammeln ihrem Auftrag entsprechen, problemlos (technisch und juristisch barrierefrei) aus dem Netz herunterladen und archivieren soweit sie eben OA sind, weil das Dokument bereits in einem öffentlichen Format vorliegt, oft auch ergänzt um Quellformate und Messdaten. Juristisch ist der Zugriff für eine Langzeitarchivierung zumindest etwas leichter dadurch möglich, dass die Autoren durch das OA-Stellen des Artikels wenigstens konkludent dessen Speicherung in Kopie auf einem Archivserver zugestimmt haben. Allerdings befreit selbst das nicht die Institutionen von ihrer Pflicht der Rechteüberprüfung (Lit. 31). Juristisch spannend wird dann jedoch auch bei OA-Publikationen eine evtl. notwendige Migration oder Konvertierung, um die Publikation auch zu einem späteren Zeitpunkt noch anzeigen zu können. Insbesondere, wenn eine solche Konvertierung den Artikel potentiell inhaltlich oder in seiner Erscheinungsform ändert, dürfte es problematisch werden, zumal dies in aller Regel zu einem Zeitpunkt geschieht, zu dem es nicht mehr möglich ist, die Autoren einzeln zu fragen oder deren Erben mit angemessenem Aufwand ausfindig zu machen.
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
389
Sinnvoll erscheint es daher, dass die OA-Publikationen standardisierte und international harmonisierte Lizenzen enthalten, wie die Creative Commons (URL47; vgl. C 8 Lizenzierungsformen, Lit. 40). Dabei ist es für die Langzeitarchivierung durchaus sinnvoll, dass die Autoren auf die „keineBearbeitung“-Lizenzbedingung verzichten. Auch ist es erforderlich, dass das Urheberrecht eine Schranke für die Langzeitarchivierung enthält, die die langzeitarchivierenden Einrichtungen von Ansprüchen Dritter bei der Objektauswahl, Objektkonvertierung und Objektspeicherung freistellt. Im übrigen entsprechen die Anforderungen und Facetten einer Langzeitarchivierung von OA-Dokumenten denen anderer Publikationsformen (Lit. 41): offenes Format, Spiegelungen als Backup, Nachnutzbarkeit und Verknüpfung zu Texten, die für das Verstehen notwendig sind.
C 2.10 Open Data Wissenschaftliches Arbeiten besteht in der Regel aus einem Zyklus von Hypothesenbildung, verifizierender Messung und daraus folgender Anpassung der Hypothese oder des (mathematischen) Modells. In diesem Prozess hat die Erfassung oder Erhebung wissenschaftlicher Daten eine zentrale Bedeutung. Wissenschaftliche Daten werden in allen Fachgebieten erhoben, von der Astronomie über die Geowissenschaften, die Naturwissenschaften, die Humanwissenschaften bis zu den Sozialwissenschaften. Oftmals ist dabei das Messen, also das Erheben von Daten selbst sehr teuer. Man denke an dafür erforderliche Apparate wie große Teleskope, an Dickenmessungen des Polareises mittels eines Satelliten oder an Experimente wie den aktuellen Messreihen bei CERN. Viele Messungen sind ein nicht wiederholbarer Schatz, aus dem oft erst in der Zukunft wesentliche, neue wissenschaftliche Erkenntnisse gewonnen werden könnten, sofern sie denn dann noch verfügbar und lesbar sind. Die Forderung nach Open Data in der Wissenschaft gab es daher immer schon, aber erst mit der Digitalisierung werden diese Forderungen realisierbar, weil die Daten archivierbar und insbesondere auch rückholbar sind. Dank des World Wide Web können sie ohne Transportaufwand für jeden Forscher weltweit zur Verfügung gestellt werden. Eine gute Übersicht gibt Wikipedia (Lit. 42). Für das kommende Forschungsrahmenprogramm Horizon 2020 hat die Europäische Kommission ihre Vision und Empfehlungen veröffentlicht (URL48, Lit. 43) und einen Überblick über den Diskussionsstand gegeben (Lit. 44). Disziplinäre Infrastruktur-Initiativen zum Forschungsdaten-Management sind u. a. die EU-geförderten ESFRI-Projekte DARIAH, CESSDA, ELIXIR u. a., Lit. 45) sowie die übergreifende Initiative EUDAT (URL49). An Registries von Forschungsdaten-Repositorien gibt es international das Registry of Research Data Repositories (URL50) sowie national eine Liste der DFG, auch mit disziplinären Open Data Projekten, z. B. für Geowissenschaften, historische Linguistik und Sozialwissenschaften (URL51). Speziell in der Astronomie sind die (dort ja klarerweise unwiederbringlichen) Beobachtungsdaten als Schatz der Menschheit weitgehend seit Beginn Open Data (URL52). Die großen Forschungsinstitutionen, vor allem das CERN und in Deutschland das AWI Alfred Wegener Institute for Polar and Marine Research (URL53) haben schon früh Erfahrungen mit dem Speichern, Vorhalten und Verfügbarmachen gewonnen. Das AWI beispielsweise ist Mitglied im WDC-GMD World Data Center for Geophysics & Marine Geology (URL54). In diesem Verbund werden Forschungsdaten ausgetauscht und gemeinsam verwertet und gepflegt. Entsprechend dem World Data Center gibt es für fast alle Themendisziplinen Ansätze zu Open Data. Das AWI betreibt PANGAEA Data Publisher for Earth & Environmental Science, mit etwa 570.000 Daten-Records und ist damit die Nummer Eins im ROAR Registry of Open Access Repositories (URL28) in Deutschland. OBD Open Bibliographic Data Guide (URL55) ist eine sehr gute Sammlung von Open Access Data Repositories.
390
C 2: Eberhard R. Hilf, Thomas Severiens
Zur Langzeitarchivierung von Daten (Lit. 46) gibt es neben den Aktivitäten der World Data Centers die Initiative DataCite (URL56) mit dem Ziel, Forschungsdaten referenzierbar zu machen und ihnen ein vergleichbares Gewicht wie Publikationen zu geben.
C 2.11 Ausblick Die Zukunft der Informationsbeschaffung für wissenschaftliches Arbeiten (Lit. 47) wird von dem umfassenden, intellektuellen und fachlichen Ausschöpfen aller jeweils verfügbar werdenden technischen Möglichkeiten für Open Access geprägt werden. Dabei bietet sich als eine Strategie an, die Originaldaten, Materialien und Dokumente jeder Forschungsinstitution bei dieser zu belassen (science knowledge cloud), durch ihre Wissenschaftler zu pflegen und zu ergänzen, zu berichtigen, und über diesem verteilten Daten/Dokumenten-Raum eine semantisch leistungsfähige Struktur aus Suchmaschinen, interaktiven Diensten, Archiven, und Integrations/Nachnutzungsmöglichkeiten aufzubauen. Erst dies würde die prinzipiellen Vorteile von Open Access voll ausschöpfen. Der Übergang von der Papier-Ära mit ihrer über die damals verfügbare Technik bestimmten Wertschöpfungskette und Rollenverteilung der Beteiligten, Autoren, Verlag mit Gutachtern, Zeitschrift, Druck, Vertrieb, Bibliotheken, zu einer passenden in der digitalen Welt mit ihren Autoren, Repositorien, Add-On-Dienstleistern, und Wissensaufbereitern verlangt von allen eine enorme Umstellung ihrer Strategien, Geschäftsmodelle, ja ihres Marktsegmentes (Lit. 48). Dabei werden die Publikationen informationsreicher werden können. Für die Beteiligten an der neuen Wertschöpfungskette ergeben sich neue Aufgaben und Rollen: –– Aufgaben der Bibliotheken: Bisher hatten Bibliotheken die Aufgabe der Bereitstellung von Wissen (durch Vorhalten gedruckter Kopien). OA-bereitgestellte Dokumente und Daten sind bereits online verfügbar. Umso mehr werden Werkzeuge und Dienste gebraucht, um in den Wissens- und Informationsräumen online navigieren, Quellen auffinden und nachnutzen zu können; –– Neue Aufgaben der Verlage: Vom Herstellen und Vertrieb zur Bereitstellung möglichst umfassender Erschließungs-Dienste (Suche nach relevanten anderen Arbeiten), Organisieren einer online-Wissenschafts-Community zu jedem Fach, Autoren-Identifikation; –– Aufgaben der Dienste-Betreiber: technisch Dienste bereitzustellen, wie etwa eine Fachsprachen-semantische Erschließung der Arbeiten zu einem Gebiet (Lit. 49); –– Dienste-Entwickler: Es werden neue Dienste und Methoden entwickelt werden, die die Wissenschaftler in ihrer Arbeit technisch unterstützen können und dazu den unbeschränkten Open-Access-Dokumentenraum wissenschaftlicher Dokumente und Daten nutzen. Als Beispiele möglicher Entwicklungen seien genannt: 1. OA erlaubt das auch vergleichende digitale data/document mining über alle verteilten OA-Repositorien bzw. -Zeitschriften hinweg. Erste Beispiele sind die Plagiatssuche (reiner Textvergleich) sowie inhaltliche Analysen (z. B. Zuordnung eines Dokumentes zu einem Fachgebiet und Repositorien-übergreifende Suche nach fach-verwandten Dokumenten, Lit. 49); 2. Die intelligente Suche nach Informationen, Fragmenten, mathematischen Formeln (dank der Fach-Metasprachen MathML Mathematical Markup Language, und entsprechend CML für die Chemie und PhysML für die Physik); 3. Weiterverwendung von (Teilen von) Dokumenten wie Kopieren und Einsetzen von Teilen (mit korrekter Zitierung) von Dokumenten in neue OA-Dokumente (Re-use und Integration), das Prinzip ist: „Vom Lesen zum Weiterverwenden“; 4. Direkte numerische Auswertung von Daten Dritter wie z. B. in der Astronomie bereits möglich; 5. Multiples Archivieren, wie es Andrew Odlyzko (Lit. 13) vorgeschlagen hat, also das Prinzip der Archivierung durch verteiltes Speichern. Da mit der bevorzugten Wahl der Creative Commons Copyright Lizenz (OA CC-by) auch das Recht auf Re-Publizieren (mit korrekter Quellen-
6. 7.
8.
9.
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
391
angabe) vom Autor erlaubt wird, können eine Mehrzahl von Servern und (nationalen) Bibliotheken das Dokument posten und/oder Langzeitarchivieren (Lit. 40); Vom Verkauf von gespeichertem Wissen zum Verkauf von Dienstleistungen zum Auswerten der frei verfügbaren Dokumente und Daten; Vom Zurückhalten von Information während der Referierung und bis zur Print-Distribution zum instantanen Posten, Diskutieren und Auswählen für Themen-gebundene Sammlungen („Journal“) mit anschließender Verarbeitung, entsprechend dem Prinzip: publish and discuss first, referee then; Vom exklusiven, verborgenen (blinden) Referieren (Referee ist dem Autor nicht bekannt) und von dem Anspruch des Verlags, dass Artikel nur bei ihm eingereicht werden, zum offenen Wettbewerb von Referier-Diensten verschiedener Verlage und zur uneingeschränkten offenen wissenschaftlichen Diskussion. Das Prinzip ist: Wettbewerb der Referier-Dienste von Verlagen; Offene Diskussion); Aufhebung der Trennung des Autors von seinem Dokument: anstatt dass sein Dokument von Dritten (OA-Repositorien oder Verlagen) verbreitet wird, verbleibt es auf seinem Institutsserver und kann so als lebendes Dokument vom Autor stets aktualisiert, erweitert, angereichert, mit weiteren Daten verknüpft werden, während digitale Kopien durch Dritte weiterverarbeitet werden. So kann eine Forschungs-Kooperation von verteilten Laboratorien und Arbeitsgruppen sich auch in gemeinsamen lebenden Dokumenten wiederfinden. Mit einer Versions-Nummerierung versehen bleiben auf sie verweisende Dokumente in ihrer Zitierung eindeutig. In der Mathematik gibt es z. T. bereits solche Kooperationen, die dazu den Dienst Wiki benutzen (URL57).
Insgesamt werden die neuen kollaborativen Werkzeuge des Web 2.0 zusammen mit Open Access zu dem gesamten wissenschaftlichen Wissen (Open Content) zu einer neuen Qualität wissenschaftlichen Informationsmanagements und damit wissenschaftlicher Forschungsarbeit führen.
Literatur 01 UNESCO: Open Access. Chancen und Herausforderungen – ein Handbuch. Deutsche UNESCO Kommission; August 2012 (http://www.unesco.de/fileadmin/medien/Dokumente/Kommunikation/ Handbuch_Open_Access.pdf) 02 Kuhlen, Rainer: Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? Schriften zur Informationswissenschaft. Bd. 48. vwh-Verlag Werner Hülsbusch: Boizenburg 2008 (http://www.kuhlen. name/MATERIALIEN/RK2008_ONLINE/files/HI48_Kuhlen_Urheberrecht.pdf) 03 Berlin declaration on Open Access to Knowledge in the Sciences and Humanities. 22 October 2003 (http://oa.mpg.de/berlin-prozess/berliner-erklarung/; Zitat nach der deutschen Version: http://oa.mpg. de/files/2010/04/Berliner_Erklaerung_dt_Version_07-2006.pdf) 04 Hilf, Eberhard R.: Verfassung für den Umgang mit Information in den Wissenschaften – Besonderheiten, Beispiele, Handlungsbedarf der Politik. WISSENSWERT, das Internet und die neue Wissensordnung. Tagung am Wissenschaftszentrum Berlin für Sozialforschung. 17. und 18. April 2002. Panel Z (http://www. isn-oldenburg.de/~hilf/vortraege/wissenswert/) 05 Chan, Leslie et al.: Budapest Open Access Initiative 14. February 2002 (http://www.opensocietyfoundations.org/openaccess/read). Und: Ten recommendations after ten years (http://www. opensocietyfoundations.org/openaccess/boai-10-recommendations) 06 Networked Scholarship in a Networked World: participation in Open Access. Conference Nov. 2012, Stellenbosch, Südafrika (http://www.berlin10.org/) 07 OECD: Principles and Guidelines for Access to Research Data from Public Funding (http://www.oecd.org/ science/scienceandtechnologypolicy/38500813.pdf) 08 Poynder, Richard: Open Access: Profile of Eberhard Hilf. Blog Open and Shut (http://www.richardpoynder.
392
C 2: Eberhard R. Hilf, Thomas Severiens
co.uk/Hilf_Interview.pdf) 09 Dalitz, Wolfgang; Grötschel, Martin; Lügger, Joachim; Sperber, Wolfram: Neue Perspektiven eines Informationssystems für die Mathematik. Rundbrief der Gesellschaft für Angewandte Mathematik und Mechanik (3) 1994, 4-7 (http://www.zib.de/groetschel/pubnew/biblio.html#L1993) 10 Grötschel, Martin: Publikationsliste (http://www.zib.de/groetschel/pubnew/biblio.html) 11 Hilf, Eberhard R.: Das Physik-Projekt (Vortrag in html). 1993 (http://www.isn-oldenburg.de/~hilf/ vortraege/halle-ebs/halle-ebs.html) 12 Grötschel, Martin: Math-Net: An Open Archive for Mathematics. Workshop 'From Search Engines to Virtual Libraries'. Berlin. June 26-27 2000 (http://www.kobv.de/fileadmin/kobv_projekt_1997-2000/ events/2006-06-26_groetschel.pdf) 13 Odlyzko, Adrew M.: Tragic loss or good riddance? The impending demise of traditional scholarly journals. July 16, 1994. AT&T Bell Laboratories (http://www.isn-oldenburg.de/~hilf/vortraege/odlyzko1.tex) 14 Harnad, Stevan: Subversive Proposal. Posted 27. Juni 1994 (http://eprints.soton.ac.uk/253351/1/toc. html) 15 Harnad, Stevan; Brody, Tim; Valli’eres, Francois; Carr, Les; Hitchcock, Steve; Gingras, Yves; Oppenheim, Charles; Haijem, Chawki; Hilf, Eberhard R.: The Access/Impact Problem and the Green and Gold Roads to Open Access: An Update. Serials Review. 2007 (34) 1, 36-40 (doi:10.1016/j.serrev.2007.12.005) 16 Multimedia scientific Distributed Document Database in Physics DDD. EU-Antrag von Physik-Instituten und Verlagen. 1995 (http://www.physik.uni-oldenburg.de/ddd-phys/) 17 Schmiede, Rudi: The German Digital Library Program GLOBAL INFO. IEEE ADL '99. Research and Technology Advances in Digital Libraries. Baltimore 1999 (http://www.ifs.tu-darmstadt.de/fileadmin/ sicherung/rs//baltimore993.ps) 18 Sompel, Herbert van de: OAI metadata harvesting specifications. Workshop on the Open Archives Initiative (OAI) and Peer Review journals in Europe. CERN. Genf 22 to 24 March 2001 (http://eprints.rclis. org/handle/10760/4509) 19 Nicholas, David; Rowlands, Ian; Watkinson, Anthony; Brown, David; Jamali, Hamid R.: Digital Repositories ten years on: what do scientific researchers think of them and how do they use them. Learned Publishing, Vol. 25, No. 3, July 2012 (http://ciber-research.eu/download/20120620-Digital_repositories_ten_years_ on.pdf (doi.:10.1087/20120306) 20 Müller, Uwe; Severiens, Thomas; Malitz, Robin; Schirmbacher, Peter: OA Network – An integrative Open Access Infrastructure for Germany. D-Lib Magazine. September/October 2009. Volume 15 No. 8/10. ISSN 1082-9873 (http://www.dlib.org/dlib/september09/mueller/09mueller.html) 21 Spieker, Claus: SHERPA/RoMEO deutsch: Die Datenbank für Open Access Policies von Verlagen. Open-Access-Tage Göttingen. 4/5. Oktober 2010 (http://open-access.net/fileadmin/OAT/OAT10/ Vortragsfolien/Spiecker_SHERPA-RoMEO-deutsch_OAT2010.pdf) 22 Schmidt, Birgit: Zusammenstellung nationaler und internationaler Förderprojekte zu Open Access. Private Mitteilung. Niedersächsische Staats-und Universitätsbibliothek Göttingen 2012 23 EUROHORCs European Heads of Research Councils. EURHORC's Recommendations on OpenAccess (OA) (http://www.eurohorcs.org/SiteCollectionDocuments/EUROHORCs_Recommendations_ OpenAccess_200805.pdf) 24 Dallmeier-Tiessen, S.; Darby, R.; Goerner B.; Hyppoelae, J.; Igo-Kemenes, P.; Kahn, D. et al.: Highlights from the SOAP project survey. What scientists think about open access publishing. 2011 (http://arxiv.org/ abs/1101.5260) 25 Copyright in the Knowledge Economy. Green Paper. Commission of the European Communities. 2008 (http://ec.europa.eu/internal_market/copyright/docs/copyright-infso/greenpaper_en.pdf) 26 On access to and preservation of scientific information. Commission Recommendation of 17.7.2012. European Commission (http://ec.europa.eu/research/science-society/document_library/pdf_06/ recommendation-access-and-preservation-scientific-information_en.pdf) 27 Smith, Lamar: House Judiciary Committee chief: The Intellectual Property Attache Act IPAA. Vorlage für den 112. USA-Congress, 2. session 2012 (https://www.eff.org/sites/default/files/SMITTX_084_xml_0. pdf mit disclosures http://disclosures.house.gov/ld/pdfform.aspx?id=300498441 und Facebook http://
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
393
disclosures.house.gov/ld/pdfform.aspx?id=300498441) 28 Masnick, Mike: USTR's Surprise Turnaround: Now Advocating Limitations & Exceptions To Copyright. Blog: techdirt. July 3rd 2012 (http://www.techdirt.com/articles/20120703/12112119569/ustrs-surpriseadvocating-limitations-exceptions-to-copyright.shtml) 29 Doctorow, Cory: Lamar Smith trying to quietly revive SOPA and cram it down the world's throats. BlogBoingboing. July 10, 2012 (http://boingboing.net/2012/07/10/sopa-is-back-lamar-smith-tryi.html) 30 Masnick, Mike. Blog: Lamar Smith Looking To Sneak Through SOPA. Blog:Bits & Pieces. Starting With Expanding Hollywood's Global Police Force (http://www.techdirt.com/articles/20120709/12574819634/ lamar-smith-looking-to-sneak-through-sopa-bits-pieces-starting-with-expanding-hollywoods-globalpolice-force.shtml) 31 Kuhlen, Rainer; Seadle, Michael (Projekt IUWIS): Zur urheberrechtlichen Gestaltung von Repositorien. Handreichung für Universitäten, Forschungszentren und andere Bildungseinrichtungen. Berlin 2011 (http://www.iuwis.de/sites/default/files/IUWIS%20Zur%20urheberrechtlichen%20Gestaltung%20 von%20Repositorien.pdf) 32 Hilf, Eberhard R.: Zehn Jahre Open Access – und nun die wirtschaftliche Nutzung? Medien Wirtschaft – Zeitschrift für Medienmanagement und Kommunikationsökonomie. Jg. 1, Nr. 3, 146-148. 2004 (http:// www.isn-oldenburg.de/~hilf/publications/medienwirtschaft/openaccess.pdf) 33 Roosendaal, Hand E.; Zalewska-Kurek, Kasia; Geurtz, Peter A.T.M.; Hilf, Eberhard R.: Scientific Publishing: From Vanity to Strategy. Woodhead Publishing Limited; 2010 (Summary http://www.isn-oldenburg. de/~hilf/publications/scientific-publishing-from-vanity-to-strategy.html) 34 Eppelin, Anita; Pampel, Heinz; Bandilla, Wolfgang; Kaczmirek, Lars: Umgang mit Open Access-Publikationsgebühren – die Situation in Deutschland in 2010. GMS Med Bibl Inf 2012, 12 (1-2) Doc04 g (http:// www.egms.de/static/de/journals/mbi/2012-12/mbi000240.shtml URN: urn:nbn:de:0183-mbi0002400) 35 Finch Report: Report of the Working Group on Expanding Access to Published Research Findings – the Finch Group. Research Information Network. 2012 (http://www.researchinfonet.org/publish/finch/) 36 Sample, Ian: Free access to British scientific research within two years. The Guardian. 15 July 2012 (http:// www.guardian.co.uk/science/2012/jul/15/free-access-british-scientific-research) 37 LERU Open Access Working Group. The LERU Roadmap towards Open Access. 8. June 2011. LERU League of European Research Universities (http://www.leru.org/files/publications/LERU_AP8_Open_Access.pdf) 38 Swan, Alma; Houghton, John: UK Open Access Implementation Group. Going for Gold? The costs and benefits of Gold Open Access for UK research institutions: further economic modelling. Report to the UK Open Access Implementation Group. JISC. June 2012 (http://repository.jisc.ac.uk/610/2/Modelling_Gold_ Open_Access_for_institutions_%2D_final_draft3.pdf) 39 Paul Ayris: The Finch Report in a global Open Access landscape. Blog Open and Shut? Poynder, Richard (ed.). June 25 2012 (http://poynder.blogspot.de/2012/06/finch-report-in-global-open-access.html) and comment No. 1 by Harnad, Stevan 40 Weller, Michael; di Rosa, Elena: Lizenzierungsformen. Handbuch Informationswissenschaft Bd. 6. 2013 (http://ksswiki.infowiss.net/index.php?title=B_6_Lizenzierungsformen#Creative_Commons) 41 Severiens, Thomas; Hilf, Eberhard R.: Zur Entwicklung eines Beschreibungsprofils für eine nationale Langzeit-Archivierungs-Strategie. nestor Kompetenznetzwerk Langzeitarchivierung; materialien 7; Februar 2006 (http://nbn-resolving.de/urn:nbn:de:0008-20051114021) 42 Wikipedia: Open Science Data (http://en.wikipedia.org/wiki/Open_science_data#History) 43 The High-Level Group on Scientific Data. Digital Agenda to unlock the full value of scientific data: High Level Group presents Report. EU Commission. 2010 (http://ec.europa.eu/information_society/ newsroom/cf/itemlongdetail.cfm?item_id=6204) 44 Frequently asked questions on open access to publications and data in Horizon. 2020. Policy Initiatives. Research and Innovation. European Commission (http://ec.europa.eu/research/science-society/ document_library/pdf_06/background-paper-open-access-october-2012_en.pdf) 45 ESFRI: European Strategy Forum on Research Infrastructures ESFRI – Inspiring Excellence – Research Infrastructures and the Europe 2020 Strategy (http://ec.europa.eu/research/infrastructures/pdf/esfri/ publications/esfri_inspiring_excellence.pdf/#view=fit&pagemode=none)
394
C 2: Eberhard R. Hilf, Thomas Severiens
46 Severiens, Thomas; Hilf, Eberhard R.: Langzeitarchivierung von Rohdaten. nestor Kompetenznetzwerk Langzeitarchivierung. materialien 6, 2006 (http://nbn-resolving.de/urn:nbn:de:0008-20051114018) 47 Hilf, Eberhard R.: Professional Home Pages of Institutions and Scientists – New Add-on Services for Learned Societies. The Future of Mathematical Communication. 1999. MRSI. Berkeley 1999 (http://www. msri.org/realvideo/ln/msri/1999/fmc99/hilf/1/index.html) 48 Kroes N.: Opening Science Through e Infrastructures; European Federation of Academies of Sciences and Humanities Annual Meeting – Open infrastructures for Open Science; Rome, Italy, 11 April 2012, Press Release (http://europa.eu/rapid/pressReleasesAction.do?reference=SPEECH/12/258&format=HTML&ag ed=0&language=EN&guiLanguage=en) 49 Kaplan, Aaron; Sándor, Ágnes; Severiens, Thomas; Vorndran, Angela: Finding Quality: A Multilingual Search Engine for Educational Research. Chapter in book: Assessing Quality in European Educational Research – Indicators and Approaches. Gogolin, Ingrid; Åström, Fredrik in Zusammenarbeit mit Antje Hansen (Hrsg.), 2013, Wiesbaden: Springer Wissenschaft [in Vorbereitung] 50 Houghton, John; Dugall, Berndt; Bernius, Steffen; Krönung, Julia; König, Wolfgang: General cost analysis for scholarly communication in Germany. Results of the „Houghton Report“ for Germany. Goethe University, Frankfurt October 2012
URL-Verzeichnis URL1 Open Access at the Wellcome Trust http://www.wellcome.ac.uk/About-us/Policy/spotlight-issues/ Open-Access/index.htm URL2 arXiv monthly submission rate statistics http://arxiv.org/show_monthly_submissions URL3 RePEc Research Papers in Economics http://www.repec.org URL4 Hyper Articles en ligne HAL.CCSD Centre pour la Communication scientifique directe http://hal. archives-ouvertes.fr URL5 citebase SEARCH http://www.citebase.org URL6 Cogprints Cognitive Sciences Eprint Archive. 1997.http://cogprints.org URL7 PhysNet Physics Network Worldwide http://www.physnet.net URL8 LOCKSS Lots Of Copies Keep Stuff Safe http://www.lockss.org/ URL9 elfikom Members of the Work group ElFiKom on Electronic Information and Communication. Liste. 2001 http://elfikom.physik.uni-oldenburg.de/Docs/Mitglieder_english.html URL10 Suber, Peter. Timeline zu Open Access Movement http://www.earlham.edu/~peters/fos/timeline.htm URL11 Open Access Net Nationale Open Access Informations-Plattform http://www.open-access.net URL12 Peter Suber's Open Tracking Project im Open Access Directory http://oad.simmons.edu/oadwiki/ OA_tracking_project URL13 American Scientist Open Access Forum. September 98. http://amsci-forum.amsci.org/archives/ American-Scientist-Open-Access-Forum.html URL14 OpenDOAR The Directory of OpenAccess Repositories http://www.opendoar.org URL15 ROARMAP Registry of Open Access Repositories Mandatory Archiving Policies htttp://roarmap.eprints.org URL16 Publisher copyright policies & self-archiving http://www.sherpa.ac.uk/romeo, http://open-access. net/fileadmin/OAT/OAT10/Vortragsfolien/Spiecker_SHERPA-RoMEO-deutsch_OAT2010.pdf URL17 epub DINI-Arbeitsgruppe Elektronisches Publizieren http://www.dini.de/ag/e-pub/ URL18 Deutsche Inititiative für NetzInformation e.V. DINI-Zertifikat 2010 für Dokumenten- und Publikations- services http://www.dini.de/dini-zertifikat/ URL19 Ranking Web of Universities. Cybermetrics Lab, Consejo Superior de Investigaciones Científicas (CSIC) http://www.webometrics.info URL20 DOAJ Directory of Open Access Journals http://www.doaj.org URL21 Elektronische Zeitschriften der Universität Regensburg: Open Access http://rzblx1.uni-regensburg.de/ ezeit/fl.phtml?bibid=AAAAA&colors=1&lang=de URL22 ACP Atmospheric Chemistry and Physics; An Interactive Open Access Journal of the European
C 2: Vom Open Access für Dokumente und Daten zu Open Content in der Wissenschaft
395
Geosciences Union http://www.atmospheric-chemistry-and-physics.net/ URL23 DOAbooks Academic peer-reviewedbooks http://www.doabooks.org/doab URL24 IuK Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland http://elfikom.physik.uni-oldenburg.de/IuK/ und www.iuk-initiative.org URL25 Schwerpunktinitiative Digitale Information der Allianz der deutschen Wissenschaftsorganisationen http://www.allianzinitiative.de/de/handlungsfelder/open_access/arbeitsgruppe/ URL26 DINI Projekte Liste http://www.dini.de/projekte URL27 Open Access Net Liste von Open Access Projekten http://open-access.net/404// URL28 List of Advocacy organizations for OA http://oad.simmons.edu/oadwiki/Advocacy_organizations_for_OA URL29 SPARC Scholarly Publishing & Academic Resources Coalition http://wwwl.arl.org/sparc mit Zweigstellen in Europa http://www.sparceurope.org und Japan http://www.nii.ac.jp/sparc/en/ URL30 COAR Confederation of Open Access Repositories e.V http://www.coar-repositories.org URL31 EIFL Electronic Information for Libraries http://www.eifl.org URL32 OKFN Open Knowledge Foundation http://www.okfn.org URL33 OASPA Open Access Scholarly Publishers Association http://www.oaspa.org URL34 GOAP UNESCO Global Open Access Portal http://www.unesco.org/new/en/communication-and- information/portals-and-platforms/goap/ URL35 OpenAire Open Access Infrastructure for Research in Europe http://www.openaire.eu URL36 SOAP Study of Open Access Publishing http://www.project-soap.eu URL37 PEER Publishing and the Ecology of European Research http://www.peerproject.eu URL38 OAPEN Open Access Publishing in European Networks http://www.oapen.org URL39 Economists Online http://www.economistsonline.org URL40 VOA3R Virtual Open Access Agriculture & Aquaculture Repository http://www.voa3r.eu URL41 Internationale Vorstöße für Gesetzesvorhaben ACTA, CETA, DMCA, WIPO, TPP, SOPA etc. URL42 WIPO World Intellectual Property Organization http://www.wipo.int/portal/index.html.en URL43 IUWIS Infrastruktur Urheberrecht für Wissenschaft und Bildung http://www.iuwis.de URL44 Aktionsbündnis Urheberrecht für Bildung und Wissenschaft http://www.urheberrechtsbuendnis.de URL45 siehe z. B. Springer-Verlag: Journal of Analytical and Bioanalytical Chemistry http://www.springer.com/abc URL46 SCOAP3 Sponsoring Consortium for Open Access Publishing in Particle Physics – Deutsche Hochschulen http://www.scoap3.de URL47 Creative Commons http://creativecommons.org URL48 Horizon 2020 The Framework Programme for Research and Innovation; European Commission, http://c.europa.eu/research/horizon2020/index_en.cfm?pg=home&video=non URL49 EUDAT European Data Infrastructure http://www.eudat.eu URL50 Registry of Research Data Repositories http://www.re3data.org URL51 Übersicht bewilligte Projekte aus der Ausschreibung Informationsinfrastrukturen für Forschungsdaten, 26.4.2011 http://www.dfg.de/download/pdf/foerderung/programme/lis/projekte_ forschungsdaten.pdf URL52 Astronomy Data Archives and Catalogs. CALTEC Californian Institute for Technology http://ww.astro. caltech.edu/~pls/astronomy/archives.html und Astronomical Data Sources on the Web http://tdc-www.harvard.edu/astro.data.html URL53 AWI Alfred Wegener Institute for Polar and Marine Research http://www.awi.de URL54 WDC-GMD World Data Center for Geophysics & Marine Geology http://www.ngdc.noaa.gov/mgg/ wdcamgg/ URL55 OBD Open Bibliographic Data Guide http://obd.jisc.ac.uk/ URL56 Initiative DataCite http://www.datacite.org/ URL57 Wikimath Sammlung von Aufgaben der Mathematik http://de.math.wiki.com/wiki/WikiMathok Links am 07. Dezember 2012 geprüft.
Christa Womser-Hacker
C 3 Evaluierung im Information Retrieval Die allgegenwärtige Präsenz der Web-Suchmaschinen hat das Information Retrieval erneut in den wissenschaftlichen Fokus gerückt. Themen wie Qualität der Suchtechnologien bzw. Qualität der Suchergebnisse sind aktueller denn je. Information-Retrieval-Systeme wurden bereits früher aus einer bewertenden Perspektive betrachtet. Jede neu entwickelte Komponente sollte effektivitätssteigernd für das gesamte System wirken und musste ihre Funktionalität unter Beweis stellen bzw. wurde mit bereits existierenden Verfahren verglichen. 1963 fanden die Cranfield-II-Experimente statt und begründeten die Evaluierungsprinzipien im Information Retrieval (etabliert durch Cyril Cleverdon am College of Aeronautics, Cranfield, UK). Dabei wurde ein indirektes Verfahren vorgeschlagen, bei dem das System als black box gesehen wird und nur der Retrieval-Output als Grundlage für die Bewertung herangezogen wurde. Bei den Experimenten stand das System als solches im Vordergrund. Gemessen wurde, ob das System in der Lage ist, relevante Dokumente zu liefern (Effektivitätsbewertung). Im Zuge der neueren kognitiven Perspektive auf das Information Retrieval (siehe A 8 Information Seeking Behaviour und B 16 Kognitives Information Retrieval) rückt der Benutzer ins Zentrum, was eine Modifizierung der Evaluierungsverfahren zur Folge hat. Da Benutzer in verschiedenen Kontexten mit unterschiedlichen Kompetenzen agieren und sich ihre konkreten Eigenschaften einer genauen Kenntnis entziehen, lässt sich das individuelle Suchverhalten weder exakt formalisieren noch quantifizieren. Es müssen also neue Verfahren zur Bewertung entwickelt werden.
C 3.1 Das Cranfield-Paradigma der Evaluierung und seine moderne Interpretation in TREC Die holistische Evaluierung von Information-Retrieval-Systemen stellt nach wie vor ein schwieriges wissenschaftliches Problem dar. Vor allem die Einbeziehung von realen Benutzern, die über die Qualität der Systeme entscheiden, ist als große Herausforderung für die Evaluierungsforschung zu sehen. Wird der Benutzer als Maßstab gesetzt, so gilt ein Suchergebnis dann als erfolgreich und qualitativ hochwertig, wenn der Benutzer mit dem Suchergebnis zufrieden ist. Bzgl. der Zufriedenheit hat sich gezeigt, dass viele Komponenten wie z. B. die Benutzerschnittstelle, die Geschwindigkeit, die Übersichtlichkeit, die Adaptivität des Systems, aber auch die aktuelle Gefühlslage des Benutzers einen Anteil daran haben. Benutzer sind unterschiedlich, so dass eigentlich auch individuelle und subjektive Unterschiede zu berücksichtigen sind. Zudem sind der jeweilige Kontext bzw. die Umgebung des Benutzers (z. B. seine Aufgabe (work task), seine Profession, sein soziales und organisatorisches Umfeld etc.) von Bedeutung. Aufgrund dieser heterogenen und komplexen Situation werden Retrieval-Systeme meist ohne Beachtung dieser subjektiven Einflüsse evaluiert. „The core of the Cranfield methodology is to abstract away from the details of particular tasks and users to a benchmark task called a ‘test collection’.“ (Lit. 37, S. 52)
Eine Testkollektion à la Cranfield besteht dabei aus drei Komponenten: –– eine Menge von textuellen Dokumenten, –– eine Menge von Aufgaben, die als „topics“ bezeichnet werden, –– Relevanzurteile, welche die Beziehung zwischen topics und Dokumenten darstellen. Die Systeme verfolgen das abstrakte Ziel, eine Anordnung der Dokumente nach Relevanz in Bezug auf die einzelnen topics vorzunehmen. Die Relevanzbewertungen werden meist von speziellen Juroren durchgeführt, die mindestens über ein topic gleich bleiben.
C 3: Evaluierung im Information Retrieval
397
Obwohl die Cranfield-Experimente in den 1960er Jahren nur eine kleine Menge von 1400 Dokumenten und 225 Anfragen umfassten, standen sie Pate für die späteren Evaluierungsinitiativen, da sie es ermöglichen, Information-Retrieval-Systeme in einem Labortest anhand einer identischen Kollektion zu vergleichen.
document set
ranked results sets
retrieval algorithm 1
retrieval algorithm 2
ranked results sets 1
ranked results sets 2
top X relevance judgements evaluation scores
top X
…
retrieval algorithm k ranked results sets k
…
TREC participants
information needs („topics“)
top X
human assessors document pods
Abb. 1: Cranfield-Paradigma am Beispiel von TREC (Lit. 37, S. 52)
Aufgrund der kleinen Mengen in Cranfield kamen Zweifel bzgl. der Generalisierbarkeit der Ergebnisse im Hinblick auf realistische Datenmengen auf. Auch gab es viele Unterschiede bei den verwendeten Maßen, was die Vergleichbarkeit stark reduzierte. Um in einem größeren Kontext Text-Retrieval-Technologien zu bewerten begann im Jahr 1991 das National Institute of Standards and Technology (NIST) in Gaithersburg (Maryland, USA) in einem von der Defense Advanced Research Projects Agency (DARPA) geförderten Projekt mit dem Aufbau einer sehr großen Testkollektion. Begleitet wurde die Entwicklung der Testgrundlagen durch eine jährliche Konferenz, die Text Retrieval Conference (TREC) (URL1). Die ersten beiden TREC-Konferenzen umfassten zwei Disziplinen, sog. tracks: ad-hoc-Retrieval und Routing. Die Ad-hoc-Aufgabe stellt den prototypischen Fall dar, bei dem eine statische Menge von Dokumenten anhand verschiedener topics durchsucht wird. Beim Routing nimmt man statische topics an und vergleicht sie mit einem Strom neuer Dokumente (z. B. Depeschenmeldungen). In den Anfangsjahren stellte TREC pro Jahr ca. 2 GB Dokumente (Zeitungsartikel, kurze Depeschenmeldungen, Regierungsberichte, Patente etc.) und 50 topics zur Verfügung. Dies entsprach ca. 800.000 bis 1 Million Dokumente (Lit. 37, S. 53). Bei der Zusammenstellung achtete man darauf, dass eine große Breite von Dokumenteigenschaften bzgl. Vokabular, Stil, Länge etc. vertreten ist. Die topics basieren auf natürlichen Informationsbedarfen, d. h. dass Quellen wie z. B. Jahrbücher oder logfiles realer Recherchen einbezogen wurden. Sie werden in strukturierter Form (title, description, narrative etc.) präsentiert, wobei mit verschiedenen Ausprägungen experimentiert wurde (z. B. kurze vs. lange topics, spezifische vs. allgemeine topics). Pro topic werden die Ergebnisse mehrerer Retrievalläufe (runs) an NIST zurückgesandt und einer Relevanzbewertung unterzogen. Da es un-
398
C 3: Christa Womser-Hacker
möglich ist, alle Dokumente auf Relevanz zu bewerten, wird die sog. Pooling-Methode (siehe unten) angewandt. Die jeweils 100 bis 200 erstgenannten Dokumente pro topic gehen in den zu bewertenden Pool ein. Alle unbewerteten Dokumente werden als nicht-relevant angesehen, was für einen Vergleich von Systemen nach Voorhees (Lit. 37, S. 53) eine mögliche Strategie darstellt. In einem standardisierten statistischen Verfahren werden verschiedene Maßzahlen ermittelt und somit ein Vergleich der Systeme in visualisierter Form herbeigeführt. Ein entsprechendes Werkzeug steht mit trec_eval zur Verfügung. Die Ergebnisse werden dann auf den TREC-Konferenzen präsentiert und diskutiert. Im Laufe der Zeit kamen zu den zentralen Zielsetzungen der Adhoc- und Routing-Aufgaben weitere tracks hinzu, die sich auf Filtering, Web-Retrieval, Question-Answering, Natural Language Processing, Cross-Language Retrieval, monolinguales Retrieval (insbesondere Spanisch und Chinesisch) u.v.m. spezialisieren. Um auch hier eine standardisierte Ausgangsdokumentenmenge zu erhalten, wurde die Datenbasis um Webpages, blog posts, e-mail messages, Sprachaufzeichnungen und Videoclips erweitert. Um die topics so realistisch wie möglich zu gestalten, werden diese aus logfiles oder kommerziellen Suchsystemen extrahiert. Freiwillige Koordinatoren können sich über ein Proposal beim TREC-Programmkomitee um einen track bewerben. Im Jahr 2011 fand die 20. TREC Konferenz statt, die folgende tracks umfasste: Chemical IR, Medical IR, Entity IR, Legal IR, Web IR, Session IR.
Der große Verdienst von TREC besteht in der Bereitstellung einer wiederverwendbaren Infrastruktur (umfangreiche Testkollektion und Evaluierungsmethode, menschliche Juroren), in der Förderung der Entwicklung von Information-Retrieval-Technologien und im Aufbau einer community von Forschern aus aller Welt auf dem Gebiet des Information Retrieval und seiner Evaluierung (Lit. 34).
C 3.2 Grundlagen der Evaluierung von Information-Retrieval-Systemen Ein gutes Information-Retrieval-System verfügt über die Fähigkeit, relevante Dokumente wiederaufzufinden und gleichzeitig nicht-relevante zurückzuhalten. Bei Ranking-Systemen wie den gängigen Suchmaschinen spielt die Positionierung der Ergebnisobjekte zusätzlich eine wichtige Rolle. Es geht darum, die relevantesten Dokumente in den vordersten Rängen der Ergebnislisten zu platzieren. Obwohl die neuere Forschung der Information-Retrieval-Evaluierung mittlerweile auf die Entwicklung alternativer Bewertungsmethoden ausgerichtet ist, kann in diesem Zusammenhang auf eine Darstellung der Grundlagen der Effektivitätsmessung nicht verzichtet werden. Sie stellt die Basis dar, an der gelernt wird und an der neuere Ansätze gemessen werden. Deshalb werden Relevanz, Standardmaße, Mittelwertbildung und Signifikanzüberprüfung hier kurz diskutiert. C 3.2.1 Relevanz Ein Großteil der Bewertungsmaße basiert auf der Differenzierung der Ergebnisdokumente in relevant und nicht-relevant. Häufig ist es jedoch gerade die Relevanzbestimmung, die Kritik an der Retrievalmessung hervorruft. Es wird ein Widerspruch zwischen der statistisch-quantitativen Anwendung von Maßen und ihrer relativ unscharfen, nur schwer in quantitativen Kategorien fassbaren Basis der Relevanzbewertung gesehen. Das traditionelle Verständnis des Relevanzbegriffs geht von einer Relation zwischen einer bestimmten Anfrage und den Ergebnisdokumenten aus. Die Forderung nach objektiver Relevanzbestimmung durch einen unabhängigen Juror wurde durch eine intensive Analyse der Relevanzurteile und der Umstände ihrer Abgabe sowie durch die subjektive Relevanz durch verschiedene Benutzerbedürfnisse und Relevanzvorstellungen relativiert. Man begegnet dieser Problematik durch den Einsatz komparativer Evaluierungsverfahren, welche die
C 3: Evaluierung im Information Retrieval
399
beteiligten Information-Retrieval-Systeme gleich behandeln, so dass die Ergebnisse im Vergleich ihre Gültigkeit bewahren, jedoch nicht als Einzelbewertung pro System valide sind. In neueren Studien hat man sich intensiv diesem Problem der Subjektivität von Relevanzurteilen und deren Konsequenzen gewidmet (siehe Lit. 36). C 3.2.2 Elementarparameter zur Effektivitätsbewertung Wie so oft im Information Retrieval wurde die Grundlage der Effektivitätsbewertung im Bereich des Booleschen Retrieval entwickelt und anschließend ohne großen Paradigmenwechsel an die Bedürfnisse von Ranking-Verfahren angepasst. So liegt nach wie vor meist eine zweistufige Relevanzskala zugrunde, d. h. ein Dokument ist bzgl. einer Anfrage entweder relevant oder nicht-relevant. Mehrstufige Skalen wurden zwar manchmal eingesetzt, aber für die eigentliche Berechnung wieder zu einer binären Aufteilung zusammengeführt. Im einfachsten Fall der zweistufigen Skalen wird der Dokumentenbestand im Booleschen Retrieval in vier Teilmengen zerlegt: –– S ist die Menge der vom System selektierten Dokumente. –– S* ist die Menge der vom System nicht-selektierten Dokumente. –– R ist die Menge der als relevant eingestuften Dokumente. –– R* ist die Menge der als nicht-relevant eingestuften Dokumente. S*
S
R R*
Abb. 2: Dokumentenbestand D: Grundmengen für die Bewertung von Information-Retrieval-Systemen
Aus diesen Grundmengen werden die elementaren Parameter für die Bewertung abgeleitet, was zu den folgenden Schnittmengenbildungen führt:
nachgewiesen nicht-nachgewiesen
relevant
nicht-relevant
a = R∩S c = R∩S*
b = R*∩S d = R*∩S*
Tab. 1: Elementarparameter a, b, c, d.
C 3.2.3 Effektivitätsmaße Die vielen im Information Retrieval entwickelten Maße zur Bewertung der Retrievaleffektivität sind sich zum großen Teil sehr ähnlich, da sie fast alle auf den sog. Standardmaßen Recall (Vollständigkeit) und Precision (Genauigkeit) basieren. Recall und Precision wurden bereits 1966 benutzt. Cleverdon führt sie unter den sechs messbaren Größen zur Evaluierung auf (Lit. 10). Für die Verwendung der Maße Recall und Precision gibt es auch in heutiger Zeit gute Gründe. Sie sind am weitesten verbreitet, einfach zu interpretieren und ihre Schwachstellen sind bekannt.
400
C 3: Christa Womser-Hacker
Für einen Benutzer stellt es ein wesentliches Qualitätskriterium dar, wie viele relevante Dokumente ein Information-Retrieval-System auf eine Anfrage hervorbringt, d. h. wie vollständig das Retrievalergebnis ist. Die Fähigkeit des Systems, relevante Dokumente zu selektieren, wird durch den Recall gemessen. Der Recall stellt das Verhältnis zwischen selektierten (gefundenen) relevanten Dokumenten und den im Dokumentenbestand vorhandenen relevanten Dokumenten dar. Setzt man die entsprechenden Elementarparameter aus obiger Tabelle ein, ergibt sich für den Recall folgende Formel: a r= a+c Der Wertebereich des Recall liegt zwischen 0 und 1, wobei 0 das schlechteste Ergebnis und 1 das bestmögliche darstellt. Die Kritik, die am Recall geübt wurde, betrifft im Wesentlichen die folgenden Punkte: 1. Der Recall bezieht die Ballastquote nicht mit ein. Sollte der absurde Fall eintreten, dass ein Information-Retrieval-System den gesamten Dokumentenbestand als Antwortmenge auf eine Anfrage ausgibt, so erzielt es damit einen hundertprozentigen Recall. Dies verdeutlicht, dass der Recall alleine nicht ausreicht, um eine umfassende Bewertung eines Retrievalergebnisses vorzunehmen. 2. Da es bei umfangreichen Retrievalexperimenten nicht möglich ist, den gesamten Dokumentenbestand bzgl. jeder Anfrage/Aufgabe einer Relevanzbewertung zu unterziehen, muss für die Größe c im Nenner der Recall-Formel ein Schätzwert angenommen werden. Verschiedene Methoden wurden entwickelt, um eine möglichst genaue Annäherung an die Gesamtzahl aller relevanten Dokumente vorzunehmen. Neben der sog. known-item-search (Suche nach bekannten Dokumenten), der Generalisierung auf der Basis eines genau bewerteten, repräsentativen Subset und der Schätzung durch Experten hat sich vor allem die sog. Pooling-Methode bewährt (Lit. 14), die sich bei der vergleichenden Evaluierung einsetzen lässt. Dabei werden pro System z. B. die 1000 vorderen Ränge der Ergebnislisten durch unabhängige Juroren bewertet. Aus der Gesamtanzahl der relevanten Dokumente über die Systeme ergibt sich der Schätzwert für c. Für den Fall, dass keine relevanten Dokumente gefunden wurden, aber auch keine relevanten Dokumente in der Dokumentgrundlage vorhanden sind, muss der Recall gesondert betrachtet werden. Rechnerisch würde dieser Fall zu einem Quotienten 0/0 führen, der mathematisch nicht definiert ist. Um diese Lücke in der Bewertung zu füllen, müssen heuristische Ersatzlösungen gefunden werden (Lit. 40). Als komplementäres Maß zum Recall wird die Precision zur Messung der Genauigkeit eines Retrievalergebnisses herangezogen. Die Precision bezieht sich auf die Fähigkeit eines InformationRetrieval-Systems, unerwünschte Ballastdokumente auszufiltern. Sie ist definiert als der Quotient aus der Anzahl der selektierten relevanten und der Gesamtanzahl der nachgewiesenen Dokumente: a p= a+b Wie auch beim Recall liegt der Wertebereich wiederum zwischen 0 und 1. Da die Precision nur die Filterfunktionalität misst und dies alleine nur zu einer unvollständigen Bewertung des Retrievalergebnisses führen würde, liegt eine paarweise Verwendung der Maße Recall und Precision nahe. Beispiel: Gegeben sei ein System, das als Mittelwert über eine signifikante Menge an Suchaufgaben einen Recall von 0,7 und eine Precision von 0,3 ergibt. Für den Benutzer heißt das, dass er im Mittel mit 7 relevanten von insgesamt 10 relevanten Dokumenten rechnen kann, aber einen Ballast von ca. 2 Dokumenten für jedes relevante in Kauf nehmen muss. Recall und Precision können sowohl von Seiten der Indexierung als auch von Seiten des Retrieval durch die Wahl der Deskriptoren beeinflusst werden. Die Ausweitung der
C 3: Evaluierung im Information Retrieval
401
Indexierungstiefe ist theoretisch mit einer Erhöhung des Recall verbunden und gleichzeitig mit einer Precision-Reduzierung. Umgekehrt nimmt man bei einer Spezifizierung der Indexierung eine Precision-Erhöhung zu ungunsten des Recall an. Hier liegt also ein inverses Verhältnis vor, was die gemeinsame Nutzung beider Maße nahe legt (Lit. 10). In empirischen Verteilungen lassen sich diese theoretischen Annahmen nicht immer nachvollziehen. Vor allem ist es die Suchstrategie der Benutzer (z. B. in Bezug auf die Anfrageexpansion), die sich auf die Maße Recall und Precision auswirkt (siehe A 8 Information Seeking Behaviour). Zur Koordination von Recall und Precision haben sich im Booleschen Retrieval sog. single-number measures und zur Bewertung von ranking-Listen Recall-Precision-Graphen bewährt, die gleichzeitig ein Visualisierungsinstrument darstellen. Den größten Bekanntheitsgrad hat wohl das sog. E-Maß nach Van Rijsbergen (Lit. 35) erzielt, das neben Recall und Precision eine Konstante einbezieht, welche eine Gewichtung von Recall und Precision ermöglicht: 1 e= 1 − 1 1 ∝ ( ) + (1− ∝ ) ⋅ ( ) p R Das E-Maß kann einige Ausprägungen der Maße nicht abbilden und darf daher nicht unkontrolliert eingesetzt werden (bzgl. der Details Lit. 40). Die Bewertung von ranking-Ergebnissen ging zunächst von der Einführung sog. Benutzerstandpunkte (elementary viewpoints) aus, die intuitive Vorstellungen der Benutzer über die Systemgüte mit formalen Kategorien in Einklang brachten (Lit. 03). Benutzer wurden z. B. über folgende Stereotypen modelliert: 1. Dem Benutzer genügt ein relevantes Dokument. 2. Der Benutzer möchte alle relevanten Dokumente zu einem Thema und ist bereit, Ballast in Kauf zu nehmen. 3. Der Benutzer möchte einen Überblick zu einem Thema und begnügt sich mit einer relativ geringen Anzahl relevanter Dokumente; der Ballast soll dabei so gering wie möglich sein. Bei der Bewertung von Ranking-Systemen wird die Positionierung der Dokumente in die Normalisierung der Benutzerstandpunkte einbezogen: 1. Der Benutzer inspiziert 20 Ränge. 2. Der Benutzer bricht nach fünf aufeinanderfolgenden irrelevanten Dokumenten ab. 3. Der Benutzer inspiziert die Liste solange, bis er fünf relevante Dokumente gefunden hat. Verschiedene Projekte wie z. B. PADOK zur Bewertung des Patentretrieval (Lit. 23) haben gezeigt, dass diese formalen Standpunkte oft sehr weit von den Benutzervorstellungen in der Realität entfernt sind. Tradition haben auch der normalisierte Recall sowie die normalisierte Precision, welche die tatsächliche Rangverteilung einer idealen (alle relevanten Dokumente in den vordersten Rängen) gegenüberstellen und auf der Basis der Differenz die Qualität des Ranking beurteilen. In der Praxis der laufenden Evaluationsinitiativen TREC, CLEF und NTCIR hat man zur Bewertung von Ranking-Ergebnissen aufgrund der genannten Eigenschaften weitgehend auf eine Berechnung des Recall verzichtet und den Fokus auf die Precision gelegt. Dies hängt auch damit zusammen, dass sich die Vorstellungen von Qualität in den Augen der Benutzer verschoben haben. Während in den Anfängen des Booleschen Retrieval der Schwerpunkt auf dem Wiederauffinden des relevanten Materials lag, steht heute die Fähigkeit der Systeme, den Ballast herauszufiltern, im Vordergrund. Damit gewinnt die Precision eine stärkere Bedeutung. Um dies zu erreichen, wird die Precision von ranking-Systemen an speziellen Punkten, sog. cutoffs, gemessen. Hierzu werden die Precision-Werte nach den Rängen 5, 10, 15, 20, 25 etc. der Suchergebnisse berechnet und anschließend gemittelt (sog. frozen-ranks method). Alternativ oder ergänzend findet eine Messung an standardisierten Recall-Punkten (z. B. 0.1, 0.2, 0.3 etc.) mit anschließender Mittelwertbildung statt (Mean Average Precision).
402
C 3: Christa Womser-Hacker
Document Level Averages
Precision
At 5 docs At 10 docs At 15 docs At 20 docs At 30 docs At 100 docs At 200 docs At 500 docs At 1000 docs
0,4600 0,4400 0,4187 0,4110 0,3933 0,3364 0,2733 0,1704 0,0995
Tab. 2: Verschiedene cut-offs mit den entsprechenden Precision-Werten
Die folgenden beiden Abbildungen visualisieren solche Retrievalergebnisse:
Frozen Ranks Graph
0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0
200
400
600
800
1000
Abb. 3: Frozen-Ranks-Graph 1 0,9 0,8
Precision
0,7 0,6
run 1
0,5
run 2
0,4
run 3
0,3 0,2 0,1 0 0
0,1
0,2
0,3
0,4
0,5
0,6
Recall Abb. 4: Recall-Precision-Graphen im Vergleich
0,7
0,8
0,9
1
1200
C 3: Evaluierung im Information Retrieval
403
C 3.2.4 Mittelwertbildung Durch die Auswahl geeigneter Mittelwertbildungsverfahren und Signifikanztests kann die statistische Bewertung von Retrieval-Systemen erheblich verbessert werden. Dabei muss zunächst die Frage geklärt werden, auf welcher Grundlage die Mittelwertbildung erfolgen soll. Hier haben sich die Makro- und Mikromittelung etabliert: –– Bei der Makromethode wird das gewählte Bewertungsmaß für jedes Retrievalergebnis (d. h. für jede Anfrage/Aufgabe) getrennt berechnet; anschließend werden die erzielten Werte arithmetisch gemittelt. –– Bei der Mikromethode werden die Elementarparameter des Retrievalergebnisses (d. h. die Anzahl der relevanten und nicht-relevanten Antwortdokumente) über den gesamten Aufgabenbestand addiert; dann erfolgt auf dieser Basis die verallgemeinernde Berechnung des entsprechenden Bewertungsmaßes. Bei der dokumentorientierten Mikromethode fallen überdurchschnittlich hohe Retrievalergebnisse stärker ins Gewicht als bei der anfragenorientierten Makromethode. Werden z. B. 10 von 10 möglichen relevanten Dokumenten bei einer Aufgabe erzielt, so wird ebenso ein Recall von 1.0 vergeben, als wenn sich nur ein relevantes Dokument bei einem möglichen ergibt. Bei der Makromethode geht jede Anfrage/Aufgabe gleichgewichtig in den Mittelwert ein, während bei der Mikromethode jedes Antwortdokument gleich stark einbezogen wird. Problematisch sind bei der Mittelung die Nullantworten. Falls bei Aufgaben, die keine relevanten Dokumente liefern, Werte für Maße wie Recall und Precision intellektuell zugewiesen werden, so gehen diese in die Makrobewertung, nicht aber in die Mikrobewertung ein. Als konkretes Berechnungsverfahren findet bei der Retrievalbewertung das arithmetische Mittel am häufigsten Verwendung, da es i. d. R. zuverlässige Schätzwerte für die Grundgesamtheit liefert. Bei einer geringen Anzahl ordinalskalierter Messwerte in asymmetrischen Verteilungen sollte man auf den Median ausweichen. C 3.2.5 Signifikanztest Bei der Überprüfung der Signifikanz werden die Ergebnisse bzgl. ihrer Generalisierbarkeit auf die Grundgesamtheit bewertet. Es wird dabei entschieden, ob die ermittelten Unterschiede zwischen den Systemen tatsächlich vorhanden und somit nicht-zufällig sind. Nach der Operationalisierung der Fragestellung sind Nullhypothese und Alternativhypothese aufzustellen, die es zu verifizieren bzw. falsifizieren gilt. Die Nullhypothese H0 wird dabei in der Forschungspraxis meist entgegen der bestehenden Theorie formuliert. Unter Beachtung verschiedener Parameter ist ein geeignetes Testverfahren samt Signifikanzniveau auszuwählen. H0 wird dann zurückgewiesen, wenn der Signifikanzwert einen Kennwert liefert, dessen Überschreitungswahrscheinlichkeit bei Gültigkeit von H0 gleich oder kleiner als das festgelegte Signifikanzniveau α ist. Die Auswahl eines geeigneten Signifikanzprüfverfahrens ist von der Verteilung der Grundgesamtheit, dem Umfang der Stichprobe, der Abhängigkeit bzw. Unabhängigkeit der zu vergleichenden Stichproben, der Stärke des Tests sowie nicht zuletzt der inhaltlichen Adäquatheit abhängig. Bewährt haben sich der Wilcoxon-Vorzeichenrang-Test sowie der Friedman-Test (Lit. 40, S. 99). In der Evaluierungspraxis sind Signifikanzüberprüfungen relativ selten. Das bedeutet, dass die Ergebnisse im strengen Sinn nur als Tendenzen, nicht aber als zuverlässige Werte angesehen werden dürfen. Sollten sich weitreichende Entscheidungen an die Evaluierung anschließen, sind Signifikanzüberprüfungen unabdingbar.
404
C 3: Christa Womser-Hacker
C 3.2.6 Alternative Evaluierungsmaße Zum populärsten Maß für Information-Retrieval-Systeme hat sich die Mean Average Precision (MAP) entwickelt, die an elf Standard-Recall-Punkten oder alternativ an den Punkten der relevanten Dokumente die Precision errechnet und diese Werte anschließend mittelt (Lit. 17, S. 122). Kritik wurde an der Transparenz und Interpretierbarkeit der MAP geübt. In TREC wurde in den letzten Jahren die Binary Preference (Bpref) als Alternative eingesetzt (Lit. 07). Dieses Maß ist dann sinnvoll, wenn in die Relevanzbewertung nur sehr wenige Dokumente einbezogen wurden. Bpref berechnet eine Präferenzrelation, d. h. es ist entscheidend, wie oft relevante Dokumente vor nicht-relevanten angeordnet werden. Bpref berechnet sich nach folgender Formel: bpref =
1 |n ranked higher than r| ∑1 − R r R
C 3.2.7 Benutzerorientierte Maße Die Kritik an den Messungen großer Evaluierungsinitiativen bezieht sich oft darauf, dass keine Benutzer einbezogen werden. Aus diesem Grund haben sich parallel zur Standard-Evaluierung benutzerorientierte Messverfahren entwickelt. Ein Beispiel ist die Einbeziehung der Liste der Ergebnisdokumente. Je weiter ein Benutzer die Liste durcharbeitet, desto mehr „Gewinn“ kann er daraus ziehen. Dies versuchen Maße wie Cumulative Gain zu bewerten, indem sie den gain – abgebildet durch den Relevanzwert des Dokuments – aufsummieren. Eine Variante ist das Maß des Discounted Cumulative Gain; hier wird eine Abwertung eingerechnet, die sich durch den Aufwand ergibt, den der Benutzer leisten musste – z. B. sich nach weiter unten in der Liste zu arbeiten. Rechnerisch erfolgt diese Abwertung meist logarithmisch. Der Normalized Discounted Cumulative Gain (NDCG) normalisiert den gain an einem hypothetischen, optimalen Ranking, welches alle relevanten Dokumente an den Anfang der Liste stellt (Lit. 18, Lit. 17, S. 123). Durch die festgestellte Varianz zwischen den topics entwickelte sich eine neue Richtung, die sog. robuste Evaluation. „Robustheit bedeutet für Produkte gemeinhin, dass sie auch unter wechselnden, schwierigen und unvorhergesehenen Bedingungen noch einigermaßen zufriedenstellend funktionieren, wobei in Kauf genommen wird, dass sie nicht unbedingt besonders glänzen.“ (Lit. 26, S. 73). Die These, die hinter diesem Ansatz steht, ist, dass schlecht gelöste Aufgaben Benutzer besonders verärgern, aber mittelmäßige Lösungen unproblematisch sind. Eine reine Mittelwertberechnung trägt dieser Sichtweise nicht Rechnung, da alle topics gleich zählen. Sowohl TREC als auch CLEF integrierten einen sog. robust track, wobei hier als zentrales Maß das geometrische Mittel verwendet wurde (Lit. 25).
C 3.3 Evaluierungsinitiativen Nachdem TREC bereits oben im Detail angesprochen wurde, soll nun auf weitere wichtige Evaluierungsinitiativen eingegangen werden. C 3.3.1 Cross-Language Evaluation Forum – CLEF (URL2, URL3) Da sich TREC nur sehr rudimentär auf mehrsprachiges Retrieval bezog, entwickelte sich als Europäische Initiative das Cross-Language Evaluation Forum (Lit. 28, Lit. 29). Seit 2000 wird ebenso in einjährigen Phasen mehrsprachiges Information Retrieval erprobt und evaluiert. Trotz der starken Analogie zwischen den beiden Projekten standen bei CLEF neue Herausforderungen im Vordergrund, die sich vor allem auf die Etablierung mehrsprachiger topics und mehrsprachiger Doku-
C 3: Evaluierung im Information Retrieval
405
mentgrundlagen bezogen. Für die Relevanzbewertung mussten Juroren gefunden werden, die über umfassende Sprachkenntnisse in den beteiligten Sprachen verfügten. Ausgehend von den europäischen Kernsprachen Englisch, Französisch, Italienisch, Spanisch und Deutsch wurde die Menge der Sprachen beständig erweitert und im Laufe der Zeit kamen folgende, weitere Sprachen hinzu: Finnisch, Niederländisch, Schwedisch und Russisch. Eine Schlüsselrolle nahm der Topic-Generierungsprozess ein, der jede Sprache beteiligte. D. h., es wurden topics in jeder Sprache formuliert, in einem iterativen Verfahren mit allen beteiligten Sprachgruppen diskutiert und in die jeweiligen Zielsprachen übersetzt. Auf dieser Ausgangsbasis konnten mehrsprachige Information-RetrievalSysteme aufsetzen, um die Aufgaben auszuführen. Zentral war dabei das cross-linguale Retrieval, das ausgehend von einer Sprache Retrieval in anderen Sprachen zulässt. Zusätzlich konnten Systeme unter bestimmten Bedingungen auch mit bilingualen oder monolingualen Zielsetzungen teilnehmen. Im Laufe der Zeit wurde CLEF um weitere Aufgabengebiete angereichert wie z. B. interactive CLEF, SDR (spoken document retrieval), imageCLEF, logCLEF, CLEF-IP, Question Answering etc. Die beteiligten Korpora umfassten Presseartikel verschiedensprachiger Zeitungen wie z. B. La Stampa, Le Monde, Schweizerische Depeschenagentur, Frankfurter Rundschau, Der Spiegel, Los Angeles Times, Algemeen Dagblad. Die Parallelität wurde durch die Wahl eines einheitlichen Jahrgangs und umfassende Vorrecherchen hergestellt. Außerdem waren Texte aus verschiedenen Fachdisziplinen (z. B. den Sozialwissenschaften, Patente) vertreten. Die teilnehmenden Systeme kamen zum größten Teil aus den europäischen Ländern, aber auch aus Asien und den USA. Seit 2010 ist das Cross-Language Evaluation Forum in sog. Evaluation Labs (Lit. 12) und eine internationale Konferenz (Lit. 09) aufgeteilt, die zeitgleich stattfinden. C 3.3.2 NII Test Collection for IR Systems – NTCIR (URL4) Ähnliche Ziele wie TREC und CLEF verfolgt seit Ende 1997 das japanische Projekt NTCIR (Lit. 19 bis Lit. 22), das durch das National Institute of Informatics (NII) in Tokyo betrieben wird. Auch hier soll in erster Linie eine Infrastruktur für Retrievalevaluierungen in umfassendem Rahmen zur Verfügung gestellt werden, um Technologien zu erproben, die sich mit dem Zugriff auf Information (Information Retrieval, Text Summarization, Question Answering, Text Mining etc.) befassen. Der Schwerpunkt liegt auf den ostasiatischen Sprachen wie z. B. Japanisch, Chinesisch und Koreanisch, die Information-Retrieval-Systeme im Vergleich zu den europäischen Sprachen aufgrund ihrer vollkommen anderen Struktur vor völlig andere Herausforderungen stellen. Auch Englisch wurde als „Pivot-Sprache“ zwischen Asien und den europäischen/indogermanischen Sprachen von Anfang an mit einbezogen. Die im Abstand von 18 Monaten stattfindenden NTCIR Workshops befassen sich mit Disziplinen wie Cross-Language Information Retrieval, Patentretrieval, Question Answering, Text Summerization und Web IR. Hinsichtlich Format und Struktur unterscheiden sich topics und Testkollektionen kaum von TREC und CLEF, allerdings erhält bei NTCIR die domänenspezifische Fachinformation (z. B. Einbeziehung von Patenten) einen größeren Stellenwert. C 3.3.3 FIRE – Forum for Information Retrieval (URL5) Die FIRE-Initiative befindet sich derzeit in ihrer vierten Runde und hat sich das Ziel gesetzt, die Information-Retrieval-Technologie für die indischen Sprachen voranzutreiben und die wissenschaftliche Community auf dem indischen Subkontinent zusammenzuführen. Der Schwerpunkt liegt auf der Mehrsprachigkeit, wobei die südasiatischen Sprachen im Zentrum stehen. Es liegen Korpora zu Bengali, Gujarati, Hindi, Marathi und Tamil vor; bei den Cross-Language tasks wird auch Englisch einbezogen. Für weitere Details siehe Lit. 16 und Lit. 24.
406
C 3: Christa Womser-Hacker
C 3.3.4 ROMIP Die methodisch an TREC orientierte ROMIP-Initiative wird von den Kontur labs in Russland organisiert und stellt eine im Jahr 2002 gestartete Evaluierungsinitiative russischer Information-RetrievalSysteme dar. Hervorzuheben ist ein sentiment analysis track im Jahr 2011 und ein track zur maschinellen Übersetzung, der für 2013 angekündigt ist. C 3.3.5 Initiative for the Evaluation of XML Retrieval – INEX (URL6) INEX ist eine Evaluierungsinitiative, die sich auf Linked Data und die Evaluierung von Suchmaschinen spezialisiert hat. Unter der Leitung von Norbert Fuhr startete dieses Evaluierungsprojekt im April 2002 (Lit. 13). Die Prinzipien sind analog zu den großen Studien wie TREC und CLEF gewählt, jedoch liegt das spezielle Interesse hier auf dem sog. Fokussierten Retrieval. Hier können verschiedene Fragestellungen wie z. B. passage retrieval, Buchsuche, Retrieval von XML-Elementen, Question-Answering etc. auftreten. Die Kollektion umfasst wissenschaftliche Publikationen der IEEE Computer Society in XML-codierter Form. Im Jahr 2006 kamen Wikipedia-Artikel hinzu, die 2009 nochmals erweitert wurden. Auch Lonely Planet Guides wurden integriert sowie eine Reihe gescannter Bücher. INEX verfolgt ein kollaboratives, methodisches Konzept, d. h. die teilnehmenden Gruppen beteiligen sich bei der Topic-Generierung sowie bei der Relevanzbewertung. Seit 2011 ist INEX Teil des Cross-Language Evaluation Forum. Derzeit sind unter INEX folgende tracks aktiv: Social Book Search, Linked Data, Tweet Contextualization, Relevance Feedback und Snippet Retrieval. Weitere Details zu INEX finden sich in Lit. 01. C 3.3.6 MediaEval (URL7) MediaEval ist eine Benchmark-Initiative, die sich auf das Retrieval in Multimedia-Dokumenten spezialisiert hat. Verschiedene tracks zur Multimediasuche beziehen die Spracherkennung, multimediale Inhaltsanalyse, user-generated content (tags, tweets), soziale Netzwerke, Zeit- und Geodatenanalyse etc. ein. MediaEval wurde von Martha Larson und Gareth Jones 2008 gegründet.
C 3.4 Lessons Learnt Nach vielen Jahren TREC, CLEF und NTCIR haben sich intensive Diskussionen bzgl. der Validität der Evaluierungsmethoden entwickelt. Sie kreisen im Wesentlichen um die Zuverlässigkeit von Relevanzurteilen, die Pooling-Methode, die Reliabilität und Generalisierbarkeit von Ergebnissen sowie die Größenordnung im Bereich der Kollektionen – insbesondere der topic sets. C 3.4.1 Relevanzurteile Bei den meisten Evaluierungen wird die Bewertung der Relevanz von menschlichen Juroren vollzogen, die versuchen, alle zu beurteilenden Dokumente konsistent den gleichen Maßstäben zu unterwerfen. Der eigene Standpunkt, der konsequent eingehalten werden muss, kann sich im Laufe der Bewertung jedoch teilweise verschieben, so dass Urteile nachträglich modifiziert werden müssen. Auch die Grenze zwischen relevanten und nicht-relevanten Dokumenten oder anderen Skalierungsstufen, ist nicht immer einfach zu ermitteln. Bei CLEF diskutierten deshalb die verschiedensprachigen Juroren, an welchen Parametern die Relevanz bei den einzelnen topics in der Praxis festge-
C 3: Evaluierung im Information Retrieval
407
macht werden sollte. Die binäre Beurteilung hat zur Folge, dass Dokumente unabhängig voneinander angenommen werden und die Reihenfolge der Bewertung ausgeblendet wird. Beispiele aus den Evaluierungen zeigen, unter welcher Interpretationsvielfalt die Juroren stehen. In TREC wurde der Faktor Subjektivität systematisch untersucht und ein Teil der Dokumente mehrfach bewertet. Ein Paar von Juroren erzielte zwischen 42 % und 49 % durchschnittliche Übereinstimmung, aber der Wert für drei Juroren sank auf 30 %. Bei der Differenzierung nach relevant und nicht-relevant zeigte sich allerdings, dass nur 3 % der bereits im Erstdurchgang als nicht-relevant beurteilten Dokumente nachträglich als relevant eingestuft wurden (Lit. 36). Interessanterweise setzten sich die zwischen den Juroren festgestellten Unterschiede nicht beim Rankingvergleich fort; hier lag die Rangkorrelation bei über 93 %. Diese Tatsache erklärt sich daraus, dass im Vergleich die Systeme alle gleich behandelt werden (Lit. 36). Die Relevanzbewertung ist der kostspieligste Teil der Evaluierung. Deshalb wird weiterhin nach alternativen Methoden gesucht. Ein Ansatz zur Verbesserung der Wirtschaftlichkeit findet sich in Lit. 27. Hier werden Dokumente zunächst auf ihr Potential hin bewertet, möglichst trennscharf zwischen den Systemen zu unterscheiden. C 3.4.2 Pooling Ein wichtiger Aspekt ist die in den meisten Evaluierungsstudien als Standard angewandte PoolingMethode, welche üblicherweise die Dokumente der vorderen Ränge im Pool versammelt und diese von Juroren bewerten lässt. Da die Ressourcen begrenzt sind, tragen nicht alle Experimente gleichermaßen zum Pool bei. Die Pooltiefe wird durch erfahrungsbasierte Heuristiken gesteuert. Es könnte also durch weitere Experimente relevantes Material hinzukommen. Um die Validität dieses Ansatzes zu kontrollieren, wurde über Simulationen berechnet, zu welchen Veränderungen es käme, wenn ein Experiment wegfiele. Auch hier zeigt sich eine große Konsistenz, die bei ca. 98 % liegt (Lit. 05). Die Pooling-Methode wurde von Braschler 2002 als sehr zuverlässig angesehen, wenn genügend viele runs zum Pool beitragen. Buckley et al. 2006 haben diese Fragen ein weiteres Mal aufgegriffen und bei sehr großen Kollektionen einen bias festgestellt, der relevante Dokumente begünstigt, deren keywords im Titel auftauchen. Sie empfehlen, mehr Dokumente aus den mittlerer Rängen in die Bewertung einzubeziehen (Lit. 08). C 3.4.3 Reliabilität der Ergebnisse Die Evaluierungsinitiativen produzieren für die einzelnen tasks eine Liste der Top-Systeme. Oftmals liegen dabei die Ergebnisse der besten Systeme sehr nah beieinander und es stellt sich die Frage, ob ein tatsächlicher Unterschied besteht oder die Differenz zufällig ist. Dies lässt sich durch die Anwendung von Signifikanztests prüfen (Lit. 06). In diesem Kontext wird nach der nötigen Anzahl der topics gefragt, um zuverlässige Aussagen zu treffen. Grund dafür war die Erkenntnis, dass die topics oft mehr variieren als die Systeme. Eine differenzierte Betrachtung dieser Problematik findet sich in Lit. 31. Die Autoren fanden heraus, dass nicht die absoluten Werte der Mean Average Precision (MAP) für einen Vergleich heranzuziehen sind, sondern nur die daraus resultierende Systemabfolge. Die starke Varianz der topics hat dazu geführt, dass eine Kategorisierung der topics nach Schwierigkeitsgrad eingeführt wurde. Die Evaluierer haben hierin das größte Optimierungspotential für die Systeme gesehen (Lit. 32). C 3.4.4 Benutzerorientierte Evaluierung in Real-life Settings In der benutzerorientierten Evaluierung wird nicht nur der Kern des Information-Retrieval-Systems (operationalisiert durch die Güte der Ergebnisliste) einbezogen, sondern es kommen viele Faktoren
408
C 3: Christa Womser-Hacker
hinzu, die in die Bewertung einfließen. Das Ziel erweitert sich und ist nicht mehr exakt zu fassen, da es durch die Erfüllung der aktuellen Benutzeraufgabe konturiert ist. Damit fallen Möglichkeiten zur Standardisierung und Kontrolle von Variablen weg und eröffnen Interpretationsspielräume. Der-Information-Retrieval-Kontext wird durch den Information Seeking, den work task- und evtl. sozio-organisatorischen und kulturellen Kontext erweitert, was über die reine Effektivitätsbewertung weit hinausreicht (Lit. 17, S. 115). Die Qualität des Arbeitsergebnisses und die sozio-kognitive Relevanz können hier zusammen mit usability- und user experience Kriterien von Bedeutung sein. Im Zentrum steht der Mensch mit seinen heterogenen Eigenschaften in verschiedensten Kontexten. Für die Evaluierung bedeutet dies eine immense Herausforderung, der nicht in ihrer Gesamtheit begegnet werden kann. Es gibt kein standardisiertes Evaluierungsdesign, das angewendet werden kann. Insofern bestehen die Anforderungen darin, Teilbereiche herauszulösen und einzeln zu evaluieren. Eine Variante, in der bestimmte Bereiche kontrollierbar sind, sind aufgabenorientierte Tests, bei denen Testpersonen eine Reihe von Aufgaben mit bestimmten Systemumgebungen ausführen. Die Zielsetzungen variieren von der Ausgabe relevanter Dokumente bis hin zur kompletten Aufgabenlösung. Auch hier wird versucht, Testvariablen systematisch zu variieren und die restlichen Variablen möglichst stabil zu halten oder zumindest ihren Einfluss zu kontrollieren. Einen guten Überblick gibt Järvelin (Lit. 18, S. 124-131).
C 3.5 Fazit Die Evaluierung von Information-Retrieval-Systemen hat sich im Laufe der letzten 20 Jahre stetig weiterentwickelt und kann ein solides Fundament vorweisen. Es stehen große Kollektionen zur Verfügung, die zusammen mit ihrer Infrastruktur für jeden nutzbar sind. Dennoch sind die umfangreichen Ergebnisse viel zu wenig tief analysiert worden. Hier liegt noch sehr viel Potential verborgen. Die Herausforderungen werden nicht mehr in der Erweiterung der Kollektionen liegen, sondern in der Weiterentwicklung von spezialisierten Evaluierungsverfahren. Benutzerorientierte Verfahren stehen dabei noch ganz am Anfang; sie müssen erforscht und validiert werden. Durch die intensive Auseinandersetzung mit Information (Seeking) Behaviour wird sich der Gegenstandsbereich erheblich erweitern und die Laborexperimente werden sich in real life settings wandeln müssen; es wird immer mehr die Lösung von Informationsproblemen im Vordergrund stehen, an der Mensch und Maschine gemeinsam arbeiten.
Literatur 01 Alexander, D. et al.: Report on INEX 2010. ACM SIGIR Forum, Vol. 45, No. 1, June 2011, 2-17 02 Allan, J.; Croft, B.; Moffat, Al.; Sanderson, M. (Eds.): Frontiers, Challenges, and Opportunities for Information Retrieval. Report from SWIRL 2012. The Second Strategic Workshop on Information Retrieval in Lorne, February 2012. ACM SIGIR Forum, Vol. 46, No. 1, June 2012 03 Bollmann, P.; Cherniavsky, V.S.: Measurement-Theoretical Investigation of the MZ-Metric. SIGIR 1980, 256-267 04 Braschler, M.: CLEF 2002 – Overview of Results. CLEF 2002, 9-27 05 Braschler, M.; Peters, C.: CLEF 2002 Methodology and Metrics. Advances in Cross-Language Information Retrieval, Third Workshop of the Cross-Language Evaluation Forum, CLEF 2002. Rome, Italy, September 19-20, 2002. Revised Papers. Lecture Notes in Computer Science 2785 Springer 2003, 512-525 06 Buckley, C.; Voorhees, E.: Retrieval System Evaluation. TREC: Experiment and Evaluation in Information Retrieval. Cambridge & London: MIT Press, 53-75, 2005 07 Buckley, C.; Voorhees, E.: Retrieval evaluation with incomplete information. SIGIR 2004, 25-32 08 Buckley, C.; Dimmick, D.; Soboroff, I.; Voorhees, E.: Bias and the Limits of Pooling. Proceedings of SIGIR 2006, August 6-11, 2006, Seattle, Washington, USA, 619-620
C 3: Evaluierung im Information Retrieval
409
09 Catarci, T.; Forner, P.; Hiemstra, D.; Peñas, A.; Santucci, G. (Eds.): Information Access Evaluation. Multilinguality, Multimodality, and Visual Analytics. Third International Conference of the CLEF Initiative – CLEF 2012, Rome, Italy, September 2012, Proceedings. Heidelberg et al.: Springer 10 Cleverdon, C.W.: On the inverse Relationship of Recall and Precision. Journal of Documentation. Vol. 28 (1972), 195-201 11 Cleverdon, C.W.; Mills, J.: The Testing of Index Languages Devices. ASLIB Proceedings 15, 106-130, 1963 12 Forner, P.; Karlgren, J.; Womser-Hacker, C. (Eds.): CLEF 2012. Evaluation Labs and Workshop. Abstracts – Working Notes Papers. September 17-20. 2012, Rome, Italy 13 Fuhr, N.; Gövert, N.; Kazai, G.; Lalmas, M. (Eds.): Initiative for the Evaluation of XML Retrieval (INEX). Proceedings of the First INEX Workshop. Dagstuhl, Germany, December 8-11, 2002, 2003 14 Harman, D.K. (Ed.): The first text retrieval conference (TREC 1), Washington DC: National Institute of Standards and Technology, NIST Special Publication, 500-207, 1993 (http://trec.nist.gov/pubs/trec1/ t1_proceedings.html) 15 Harman, D.K. (Ed.): Proceedings of the second Text Retrieval Conference (TREC-2), 1994 16 Harman, D.K.; Kando, N.; Majumder, P.; Mitra, M.; Peters, C.A.: Introduction to the Special Issue on Indian Language Information Retrieval. Part I. ACM Transactions on Asian Language Information Processing, Vol. 9, No 3., Article 9, 2010 17 Järvelin, K.: Evaluation. Ruthven, I., Kelly, D. (Eds.): Interactive Information Seeking, Behaviour and Retrieval. London: Facet Publishing, 113-138, 2011 18 Järvelin, K.; Kekäläinen, J.: Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems. Vol. 20, No. 4, October 2002, 422-446 19 Kando, N. (Ed.): NTCIR Workshop 1: Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. Tokyo Japan, 30 August - 1 September, 1999 20 Kando, N. (Ed.): NTCIR Workshop 2: Proceedings of the Second NTCIR Workshop on Research in Chinese and Japanese Text Retrieval and Text Summarization. Tokyo Japan, June 2000 - March 2001. ISBN: 4-924600-96-2, 2001 21 Kando, N. (Ed.): NTCIR Workshop 3: Proceedings of the Third NTCIR Workshop on Research in Information Retrieval, Question Answering and Summarization, Tokyo Japan, October 2001 - October 2002. ISBN: 4-86049-016-9 22 Kando, N.: CLIR system evaluation at the second NTCIR workshop. Proceedings of the second CrossLanguage Evaluation Forum (CLEF 2001), Darmstadt, Germany, September 3-4, 2001, Springer, 2002, 371-388 (Lecture Notes in Computer Science; 2406) 23 Krause, J.; Womser-Hacker, C. (Hrsg.): Das Deutsche Patentinformationssystem. Entwicklungstendenzen, Retrievaltests und Bewertungen. Köln et al., 1990 24 Majumder, P.; Mandar, M.; Dipasree, P.; Ayan, B.; Samaresh, M.; Sukomal, P.; Deboshree, M.; Sucharita, S.: The FIRE 2008 Evaluation Exercise. ACM Transactions on Asian Language Information Processing, Vol. 9, No 3., Article 10, 2010 25 Mandl, T.: Recent Developments in the Evaluation of Information Retrieval Systems: Moving Toward Diversity and Practical Applications. Informatica – International Journal of Computing and Informatics. Vol. 32, 27-38, 2008 (http://www.informatica.si/vol32.htm#No1) 26 Mandl, T.; Wilczek, D.: Methoden für Robustes Information Retrieval und dessen Evaluierung. LWA 2009 – Lernen – Wissensentdeckung – Adaptivität: Proceedings Workshopwoche GI. 21.-23. September 2009, Technische Universität Darmstadt. Workshop Information Retrieval 2009, 72-75 (http://lwa09.informatik. tu-darmstadt.de/pub/IR/WebHome/wir2009_mandl_wilczek.pdf) 27 Moffat, A.; Webber, W.; Zobel, J.: Strategic System Comparisons via Targeted Relevance Judgments. Proceedings of ACM SIGIR 2007, 375-382 28 Peters, C. (Ed.): Cross-Language Information Retrieval and Evaluation. Workshop of the Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Portugal, September 21-22. Lecture Notes in Computer Science 2069, Springer 2001 29 Peters, C.; Braschler, M.; Gonzalo, J.; Kluck, M. (Eds.): Evaluation of Cross-Language Information Retrieval Systems. Second Workshop of the Cross-Language Evaluation Forum, CLEF 2001, Darmstadt, Germany,
410
C 3: Christa Womser-Hacker
September 3-4. Lecture Notes in Computer Science 2406, Springer 2002 30 Salton, G.: The SMART Environment for Retrieval System Evaluation – Advantages and Problem Area. Sparck Jones, K. (Ed.), Information Retrieval Experiment. London et al., 316-329, 1981 31 Sanderson, M.; Zobel, J.: Information retrieval system evaluation: effort, sensitivity, and reliability. SIGIR 2005, 162-169 32 Savoy, J.: Why do successful search systems fail for some topics. Proceedings of the ACM Symposium on Applied Computing (SAC 2007), Seoul, Korea, March 11-5, ACM Press, 872-877 33 Sparck Jones, K.: Reflections on TREC. Information Processing & Management, Vol. 31, No. 3, 291-314, 1995 34 Sparck Jones, K. (Ed.): Information Retrieval Experiment. Butterworth: London et al., 1981 35 Van Rijsbergen, C.J. Information Retrieval. London – Boston, 1979 36 Voorhees, E.M.: Variations in relevance judgements and the measurement of retrieval effectiveness. Proceedings of ACM SIGIR ’98, 315-323 37 Voorhees, E.M.: TREC: Continuing information retrieval’s tradition of Experimentation. Communications of the ACM, Vol. 50, No. 11, 51-54, 2007 38 Voorhees, E.; Buckland, L.P. (Eds.): Proceedings of the Eleventh Text REtrieval Conference (TREC-11). NIST Special Publication, 500-251, 2002 39 Voorhees, E.; Harman, D. (Eds.): Proceedings of the Eighth Text REtrieval Conference (TREC-8). NIST Special Publication, 500-246, 2000 40 Womser-Hacker, C.: Der PADOK-Retrievaltest. Zur Methode und Verwendung statistischer Verfahren bei der Bewertung von Information-Retrieval-Systemen. Hildesheim et al., 1989
URL-Verzeichnis URL1 trec.nist.gov URL2 www.clef-campaign.org URL3 www.clef2012.org URL4 research.nii.ac.jp/ntcir/index-en.html URL5 www.isical.ac.in/~clia URL6 inex.mmci.uni-saarland.de URL7 www.multimediaeval.org
Joachim Griesbaum
C 4 Online-Marketing C 4.1 Einleitung Unter Online-Marketing lassen sich alle Marketingaktivitäten inkludieren, die auf der Grundlage internetbasierter Technologien durchgeführt werden. In diesem Beitrag wird der Begriff zunächst eingeordnet und die Bedeutung des Online-Marketings veranschaulicht. Anschließend werden zentrale Gesichtspunkte der wichtigsten Formen des Online-Marketings dargelegt.
C 4.2 Einordnung und Bedeutung des Online-Marketings Meffert et al. (Lit. 01, S. 9-10) verstehen unter Marketing die Planung, Koordination und Kontrolle der auf Märkte ausgerichteten Aktivitäten einer Organisation zur Erreichung der Organisationsziele. Marketing beinhaltet zwar auch absatzpolitische Instrumente wie Werbung, geht aber aus funktionaler Perspektive deutlich darüber hinaus. Die Analyse der Bedürfnisse der adressierten Akteure und letztlich ebenso auch deren Befriedigung sind zentrale Bestandteile des Marketings. In der Praxis wird oftmals der instrumentelle Charakter in Bezug auf die Verkaufsunterstützung betont (Lit. 01, S. 15). Der Fokus liegt dabei auf dem Aufbau von Marken (Branding) und/oder der direkten Verkaufsförderung. Online-Marketing eröffnet vielfältige, z. T. völlig neuartige Marketingoptionen. Online-Marketing ist dabei nicht nur ein weiterer Kanal zur Umsetzung althergebrachter Produkt-, Preis-, Distributions- und Kommunikationsstrategien. Das Themenfeld kann als grundlegender Innovationsprozess begriffen werden, der aufgrund der zunehmenden Diffusion technologischer Treiber und der Adaption durch beteiligte Akteure neue Rahmenbedingungen für das Marketing bewirkt. Dieser Prozess ist fortlaufend und kann derzeit noch nicht als abgeschlossen betrachtet werden. Insofern stellt der nachfolgende Artikel einen auf das Jahr 2012 bezogenen Zwischenstand dar. Derzeit werden vor allem Entwicklungstrends weg vom Versenden unterbrechungsbasierter, unidirektionaler Botschaften in Richtung Adaptivität, Interaktivität und Dialogorientierung sowie des mobilen bzw. lokationsbasierten Marketings gesehen. Nach Tuten (Lit. 02) können die Besonderheiten des Online-Marketings zunächst an folgenden Aspekten festgemacht werden: 1. Die hohe Reichweite und Genauigkeit der Zielgruppenansprache: Online-Marketing weist eine hohe, noch zunehmende Reichweite auf. Das Web besteht dabei aus einigen Seiten mit Massenreichweite und einer hohen Anzahl von Nischenseiten. Zielgruppen und deren Ansprache sind somit vielfältig und spezifisch zu definieren. 2. Die Vielfältigkeit möglicher Werbeformen und deren Steuerung: Botschaften können über interaktive Medien vermittelt werden. Streuverluste lassen sich mit Hilfe automatischer Verfahren minimieren. 3. Neue Formen bi- oder multidirektionaler Kommunikation: Die Kommunikation (mit) der adressierten Zielgruppe findet dabei primär in den sozialen Räumen des Internets statt, ob mit oder auch ohne Beteiligung der Organisation. 4. Die oftmals hohe Zeitnähe, Kosteneffizienz und Steuerbarkeit von Marketingmaßnahmen: Der virtuelle Raum gestattet eine fast zeitgleiche Umsetzung von Maßnahmen wie z. B. dem Schalten von Werbeeinblendungen oder der Kommunikation mit den Zielgruppen. Die Möglichkeit, Nutzerverhalten in umfänglicher Weise und über längere Zeiträume zu messen (Web Controlling), oder das Beobachten der Kommunikation in sozialen Räumen (Social Media Monitoring) gestatten es, die Wirksamkeit von Maßnahmen in hohem Maße nachzuverfolgen. Dies bildet die Grundlage für fundierte Erfolgsanalysen und effektive Steuerungsmaßnahmen (Controlling).
412
C 4: Joachim Griesbaum
Ergänzend betonen Autoren wie Krum (Lit. 03, S. 5-18) und Pelau & Zegreanu (Lit. 04) ein hohes Innovationspotential des Mobile Online-Marketings bzw. ordnen es als „marketing of the future“ ein (Lit. 03, S. 5). Demgemäß ist Mobile Marketing potentiell zielgerichteter und besser auf Benutzerbedürfnisse abgestimmt als andere Marketingformen. In Ergänzung zu den oben genannten Besonderheiten des Online-Marketings können für das Mobile Online-Marketing weitere geräte- und kontextspezifische Faktoren angeführt werden: –– Die Verankerung in der Privatsphäre der Nutzer, –– die zeitliche und räumliche Ubiquität der Nutzung, –– die Vielzahl benutzer- und lokalitätsbezogener Kontextinformationen, –– die hohe Interaktivität, in der teilweise bereits die reale und virtuelle Welt miteinander verschmelzen, wie etwa beim Abruf von netzbezogenen Zusatzinformationen zu realweltlichen Objekten. Die hohe Bedeutung des Online-Marketings lässt sich anhand vielfältiger empirischer Erhebungen gut belegen (vgl. z. B. Lit. 05). Online-Marketing-Aktivitäten nehmen rasant zu und werden im Vergleich zu anderen Kanälen auch aus monetärer Sicht immer wichtiger. Insbesondere dem derzeit noch eher marginalen Bereich des Mobile Online-Marketings wird ein hohes Wachstumspotential zugeschrieben (Lit. 06). Die Bedeutsamkeit des Online-Marketings ergibt sich aus der zentralen Rolle, die das Internet als Informations-, Kommunikations- und Transaktionsmedium einnimmt. So ist das Web als Informationskanal auch dann von herausragender Bedeutung, wenn der eigentliche Kaufabschluss nicht online stattfindet (Lit. 07). Suchmaschinen stellen dabei die wichtigste Informationsquelle dar (Lit. 08). Ergänzend zu Informationen, die von professionellen Akteuren generiert werden, wird gleichermaßen nutzergenerierten Inhalten, wie z. B. Produktreviews, eine entscheidende Rolle zugesprochen (Lit. 02, S. 115-123). Schließlich verschwimmen in Folge der Entwicklung und zunehmenden Nutzung des mobilen Internets die Grenzen zwischen realer und virtueller Welt. D. h. auch, dass realweltliche und netzbezogene Informations-, Kommunikations- und Transaktionsprozesse immer weniger räumlich und zeitlich separat zu fassen sind. Das Internet ist kein getrennter Cyberspace mehr, „the Web is now the world“ (Lit. 09).
C 4.3 Formen des Online-Marketings Die hier vorgenommene Differenzierung folgt primär der historischen Abfolge des Aufkommens der nachfolgend dargestellten Formen und zeichnet so auch den in Innovationsprozess des Marketings nach. Demnach können Display- und E-Mail-Marketing als Übertragungen von Marketingformen aus der Prä-Internet-Ära verstanden werden. Suchmaschinen- und Social-Media-Marketing setzen hingegen auf den spezifischen Eigenschaften und Nutzungskontexten der Medieninfrastruktur Internet auf. Mobile Online-Marketing adressiert weitergehend die marketingrelevanten Potentiale, die aus der zunehmenden Verbreitung mobiler Endgeräte und der mobilen Nutzung des Internets und somit der Weiterentwicklung dieser Medieninfrastruktur selbst resultieren. Die nachfolgend dargestellten Formen des Online-Marketings sind nicht als trennscharfe Kategorien zu sehen. Vielmehr existieren vielfach Überlappungen. So finden z. B. textbasierte Werbeeinblendungen sowohl im Display- als auch im Suchmaschinen-basierten Online-Marketing als Werbemittel Verwendung. Ebenso wird in Sozialen Medien mit Werbebannern geworben, ohne dass dies als Social Media-Marketing im engeren Sinne bezeichnet werden kann. Schließlich umfasst Mobile Online-Marketing sowohl Formen des Display-, Search- als auch des Social Media-basierten Marketings auf mobilen Endgeräten.
C 4: Online-Marketing
413
C 4.3.1 Display Advertising Unter Display Advertising wird die Einblendung von Werbemitteln auf Webseiten verstanden. Oftmals wird Display Advertising auch als Bannerwerbung bezeichnet (Lit. 10, S. 25). Wenn der Nutzer auf die Werbeeinblendung klickt, wird er i. d. R. auf die Website des Werbetreibenden weitergeleitet. Interaktive Werbemittel bieten darüber hinaus weitergehende Interaktionsmöglichkeiten, wie etwa die direkte Buchung einer Reise. Abb. 1 zeigt Werbeeinblendungen auf einer Webseite.
Werbeeinblendungen auf einer Webseite Abb. 1: Werbeeinblendungen auf einer Webseite
Aus technischer Perspektive existiert eine Vielzahl von Werbemittelformaten, -typen und Einblendungsverfahren. Abrechnungsformen und Erfolgsparameter basieren primär auf der Anzahl der Einblendungen (Sichtkontakte), der Anzahl getätigter Klicks oder vordefinierten Aktionen auf der Zielseite, z. B. durchgeführte Bestellungen. Display Advertising lässt sich analog zu Anzeigenschaltungen bzw. Werbebeilagen in Printmedien betrachten. Mit der zunehmenden Verbreitung videobasierter Werbeformate lässt sich darüber hinaus ein Vergleich mit Werbespots im Fernsehen ziehen. Die Einnahmen aus Display Advertising stellen für inhaltsbasierte Webangebote aufgrund der geringen Akzeptanz der Netznutzer für kostenpflichtige Subskription ein zentrales Geschäftsmodell dar (Lit. 11). Auf Nutzerseite werden Werbemitteleinblendungen aber oft als handlungsstörend empfunden. Sie entwickeln diesen gegenüber eine Reaktanz und versuchen alle Elemente einer Webseite, die sie für Werbeeinblendungen halten, zu ignorieren. Der zugehörige Begriff Banner Blindness wurde bereits 1998 geprägt (Lit. 12). Die negativen Befunde gegenüber Werbeeinblendungen auf Webseiten werden durch verschiedene Studien untermauert. So deuten die Ergebnisse von Burke et al. (Lit. 13) an, dass sich Display Ads negativ auf die visuelle Suchgeschwindigkeit auswirken und die gefühlte Arbeitslast beim Durchsuchen von Webseiten erhöhen, obwohl die Inhalte der Werbeeinblendungen selbst gar nicht verarbeitet werden. Eine Untersuchung des Online-Vermarkterkreises (Lit. 14) argumentiert, dass Display Advertising langfristig positive Imageeffekte für Marken bewirken kann. Insofern scheint Display Advertising als Marketinginstrument eher für den Markenaufbau und weniger für die direkte Verkaufsförderung geeignet. Um Streuverluste zu vermeiden und die Relevanz der Werbeeinblendungen für die Nutzer zu erhöhen, werden unter dem Schlagwort Targeting (Lit. 15) verschiedene Verfahren der Zielgruppenansprache eingesetzt. Auf Grundlage der Erfassung sozio-demografischer und verhaltensbasierter Nutzerprofile wird dabei versucht, die Relevanz von Werbeeinblendungen zu erhöhen. Erhebungsmethoden sind u. a. Befragungen, primär aber die Aufzeichnung des Nutzerverhaltens mit Hilfe au-
414
C 4: Joachim Griesbaum
tomatischer Systeme. Insbesondere verhaltensbasiertes Targeting (Behavioural Targeting) gilt als erfolgversprechender Ansatz. Social Display Ads stellen einen Wachstumstrend im Bereich des Display Advertising dar (Lit. 16). Die vielfältigen demografischen, biographischen und geografischen Nutzerdaten sowie die Netzwerke der Nutzer in Sozialen Online-Netzwerken weisen auf ein enormes Potential zur zielgerichteten Ansprache der Nutzer hin. Demzufolge ist es nicht verwunderlich, dass das Soziale Online-Netzwerk Facebook eine zentrale Plattform für Display Advertising darstellt. Dabei werden u. a. Werbemittel verwendet, welche soziale Komponenten beinhalten, die es dem Nutzer ermöglichen, mit der Anzeige zu interagieren. Diese Interaktionen werden wiederum im Sozialen Online-Netzwerk des Nutzers angezeigt und sollen Multiplikatoreffekte erzielen. Social Media Ads wird einerseits großes Wachstumspotential zugeschrieben (Lit. 17), andererseits lässt sich die Effektivität und dauerhafte Tragfähigkeit von Display Advertising in Sozialen Medien aufgrund fehlender Nutzerakzeptanz anzweifeln (Lit. 18, Lit. 19). C 4.3.2 E-Mail-Marketing E-Mail-Marketing ist eine Form des Marketings, in der zuvor definierte Empfänger direkt angesprochen werden. Ziele des E-Mail-Marketings können sowohl in der Gewinnung von Neukunden als auch in der Beziehungspflege zu Bestandskunden bestehen. Ergänzend ist es möglich, Werbeflächen in E-Mails von Drittanbietern zu buchen. E-Mails können dabei sowohl in reiner Textform als auch unter Verwendung von HTML grafisch gestaltet werden. Adressaten des E-Mail-Marketings können sowohl Gruppen als auch Individuen sein. Substantielle Kosten fallen im E-Mail-Marketing neben der Erstellung der Werbemail nur beim Neuerwerb von Adressen an. Somit ist E-Mail-Marketing im Vergleich zum klassischen Direktmarketing extrem kosteneffizient. Werden Empfängeradressen über automatische Verfahren erworben bzw. liegen diese wie etwa bei Bestandskunden bereits vor, tendieren die Grenzkosten gegen Null. E-Mail-Marketing kann damit als kostengünstigste Marketingform überhaupt verstanden werden. Dies erklärt auch die hohe Popularität und Anzahl von Spam-Mails, die täglich über das Netz verschickt werden. Die deutsche Gesetzgebung versucht mit Hilfe des Gesetzes gegen den unlauteren Wettbewerb und des Telemediengesetzes (UWG § 7 Abs. 3; TMG § 13 Abs. 2), welche die vorherige Einwilligung der Nutzer vorschreiben und umfangreiche Kennzeichnungspflichten einfordern, dieses Problem einzudämmen. Zwar ist die Nutzung von E-Mail nach aktuellen statistischen Erhebungen leicht rückläufig, dennoch stellt E-Mail zusammen mit der Nutzung von Suchmaschinen nach wie vor die populärste Online-Anwendung dar (Lit. 20, S. 340). Der Anteil des E-Mail-Marketings am Online-MarketingBudget ist zwar sehr gering und liegt 2011 z. B. für den US-Markt bei unter 5 % (Lit. 21, S. 3), E-MailMarketing wird aber, zusammen mit Suchmaschinenmarketing, mehrheitlich als effektivste Form des Marketings überhaupt eingestuft (Lit. 05, S. 3). C 4.3.3 Suchmaschinenmarketing Unter Suchmaschinenmarketing lassen sich alle Maßnahmen verstehen, die dazu dienen, in Suchmaschinen eine hohe Sichtbarkeit zu erreichen. Viele Studien belegen die Bedeutung von Suchmaschinen für das Marketing. So spielen Suchmaschinen insbesondere bei Kaufentscheidungen eine zentrale Rolle (Lit. 08). Für die Sichtbarkeit in Suchmaschinen ist eine möglichst hohe Platzierung auf den ersten Ergebnisseiten erfolgsentscheidend, da Suchmaschinennutzer ihre Aufmerksamkeit auf die ersten Treffer(seiten) fokussieren (Lit. 22, S. 212-213, Lit. 23, S. 479). Via Websuchdiensten gefunden zu werden, gilt als sehr effektive Marketingmethode im Web (Lit. 24, S. 20-21). Während Display Advertising und E-Mail-Marketing einem Push-Paradigma folgen, d. h. potentiellen Kunden ohne explizite Anforderung Werbemittel präsentieren, ist es beim Suchmaschinenmarketing umge-
C 4: Online-Marketing
415
kehrt (Pull-Prinzip). Potentielle Kunden sind aktiv auf der Suche und formulieren hierzu konkrete Informationsbedürfnisse. Über Suchmaschinenmarketing akquirierte Besucher sind demnach sehr zielgerichtet. Entsprechend ist Suchmaschinenmarketing ein ideales Instrument der Verkaufsförderung. Suchmaschinenmarketing gliedert sich in zwei wesentliche Teilbereiche: zum einen in den Bereich Suchwortvermarktung, in dem Werbetreibende bei Suchmaschinenbetreibern (Text-)Anzeigen buchen und zum anderen in den Bereich Suchmaschinenoptimierung. In letzterem Fall wird das Ziel verfolgt, in den regulären Ergebnissen (organic results) hohe Rankingpositionen zu erreichen. Abb. 2 zeigt die beiden Ergebnistypen, die bei der Suchmaschine Google zur Anfrage „reisen“ ausgeliefert werden. Aufgrund der Dominanz der Suchmaschine Google, gerade im deutschsprachigen Raum, orientiert sich die nachfolgende Darstellung an diesem Anbieter.
Suchwortvermarktung
Suchmaschinenoptimierung Abb. 2: Suchmaschinenmarketing: Suchwortvermarktung und Suchmaschinenoptimierung
C 4.3.3.1 Suchwortvermarktung Suchwortvermarktung gestattet es Werbetreibenden, Webseitenbesucher über das Schalten von Anzeigen in Suchdiensten zu generieren. Hierzu melden Werbetreibende Webseiten für spezifische Suchanfragen an. Der Suchwortvermarktungsanbieter prüft die Einträge auf formale und inhaltliche (Relevanz-)Kriterien. Die Anzeigen werden schließlich für gebuchte Suchanfragen in Abhängigkeit von Kriterien wie Gebotshöhe, Klickrate und Qualität der Zielseiten eingeblendet. Des Weiteren können Werbetreibende geografische und auch zeitbasierte und endgeräteabhängige Optionen der Zielgruppensteuerung nutzen. Der Gestaltungsspielraum bei den Anzeigen umfasst meist einen kurzen Titel und eine ebensolche Beschreibung, eine Anzeige-URL sowie, insbesondere bei Googles Dienst Adwords, optionale Erweiterungen wie Sitelinks (das sind zusätzlich eingeblendete Links zu verschiedenen Unterseiten der jeweiligen Domain), Produktbilder und -preise oder Adressangaben. Unter Umständen werden ergänzend Verkäuferbewertungen eingeblendet (Lit. 25). Klickt der Nutzer auf die Anzeige, so wird er auf die durch eine Ziel-URL festgelegte Webseite des Werbetreibenden weitergeleitet. Zugleich wird der Klickpreis für die Anzeigenschaltung beim Suchwortvermarkter fällig. Suchwortvermarktung weist sehr viele Vorteile auf (Lit. 24, S. 383-386): So ist diese Form des Online-Marketings sehr zeitnah umzusetzen und hochgradig steuerbar. Dies gilt sowohl hinsichtlich der Werbebotschaft, der selektierten Zielgruppe als auch der anfallenden Kosten. Des Weiteren ist der Erfolg über Parameter wie Klick- und Konversionsraten sehr spezifisch, d. h. auf der elementaren Suchanfragen- und Anzeigenebene bis hin zur aggregierten Kampagnen-Ebene, messbar. Auf der anderen Seite ist Suchwortvermarktung u. U., d. h. abhängig von den Klickpreisen zu
416
C 4: Joachim Griesbaum
den gebuchten Suchanfragen, kostenintensiv. Besucherströme versiegen unmittelbar, sobald das bereitgestellte Budget aufgebraucht ist. Ein Problemfeld der Suchwortvermarktung stellen invalide Klicks, insbesondere Klickbetrug, dar. Klickbetrug liegt dann vor, wenn Klicks auf Werbeanzeigen getätigt werden, um klickbasierte Abrechnungssysteme zum Schaden des Werbetreibenden zu manipulieren. Schätzungen gehen davon aus, dass in rund 10-15 % aller Fälle Klickbetrug vorliegt (Lit. 26). Die Bedrohung von Klickbetrug für Suchwortvermarktungsanbieter ist nicht zu unterschätzen. Sinkt das Vertrauen in diese Marketingform, so ist das gesamte Geschäftsmodell bedroht mit potentiell weitreichenden Folgen für die gesamte Netzinfrastruktur. Abwehrstrategien von Google bestehen in proaktiven Maßnahmen, wie Online- und Offline-Filtern, Analysen und nachlaufenden Untersuchungen (Lit. 27). Unabhängig von der Problematik des Klickbetrugs stellt sich die Frage der grundlegenden Effektivität der Suchwortvermarktung. Eine Untersuchung von Jansen & Resnick (Lit. 28) verdeutlicht, dass die organischen Ergebnisse (vgl. Abb. 2) hinsichtlich Qualitätseinstufung und Wahrnehmung bevorzugt werden. Owens et al. (Lit. 29) weisen in Analogie zur Banner Blindness auch eine Text Advertising Blindness bei der Einblendung von Textanzeigen auf Inhaltseiten nach. D. h., Suchwortvermarktung kann zwar insgesamt als Online-Marketingform begriffen werden, welche aufgrund des Pull-Prinzips des Suchmaschinenmarketings im Bereich der Verkaufsförderung deutlich effektiver als Display Advertising einzustufen und ebenso hochgradig steuerbar ist, aber dennoch Defizite bei der Zielgruppenansprache aufweist. C 4.3.3.2 Suchmaschinenoptimierung Suchmaschinenoptimierung ist die Optimierung der Darstellung und Positionierung von Webseiten in den organischen Ergebnissen von Suchdiensten. Um dieses Ziel zu erreichen, ist es notwendig, den Rankingalgorithmen von Suchmaschinen möglichst gut zu entsprechen. Google spricht von über 200 Signalen, die beim Ranking berücksichtigt werden (Lit. 30). Diese gliedern sich im Wesentlichen in sogenannte On-Page-, On-Site- und Link-Faktoren. Ergänzend werden zunehmend das Benutzerverhalten und deren Eigenschaften berücksichtigt. Abb. 3 veranschaulicht die Rankingfaktoren im Überblick.
On-Page-Faktoren On-Site-Faktoren Abb. 3: Ranking-Faktoren
Link-Faktoren Benutzer-Faktoren
C 4: Online-Marketing
417
Die genaue Zusammensetzung, Bedeutung und Gewichtung der Faktoren ist das Betriebsgeheimnis der Suchmaschinen. Google beispielsweise kommuniziert nur recht allgemein gehaltene Richtlinien (Lit. 31). Verschiedene Suchmaschinenoptimierungsdienstleister versuchen mit Expertenbefragungen und statistischen Verfahren genauere Einblicke zu geben (z. B. Lit. 32). Suchmaschinenoptimierung bewegt sich im Spannungsfeld zwischen der von Suchmaschinen gewollten und akzeptierten Anpassung an Rankingfaktoren und der Nutzung von Verfahren, die zwar an sich geeignet sind, um hohe Rankingpositionen zu erreichen, von den Suchmaschinen aber als missbräuchlich betrachtet werden. Beispielsweise kann durch die Verwendung von Termen der inhaltliche Fokus von Seiten betont werden, der zu häufige Gebrauch derselben wird aber als sogenanntes Keyword Stuffing betrachtet (Lit. 24, S. 300). Ähnliches gilt für externe Links auf die eigene Domain oder Webseite. Diese gelten als zentrales Qualitätsmerkmal, zugleich werden Link-Austauschprogramme jedoch bestraft (Lit. 31). Von der Verwendung derartiger von den Suchmaschinen als manipulativ betrachteten Spamtechniken ist abzuraten. Diese können zu einem Rankingmalus oder auch dem Ausschluss aus dem Suchmaschinenindex führen (Lit. 24, S. 300-301). Eine erfolgreiche Umsetzung der Suchmaschinenoptimierung erfordert es zunächst, die Aufnahme in den Datenbestand der Suchmaschine sicherzustellen. Dann gilt es, eine Positionierung in den Top-Ergebnissen für relevante Suchanfragen zu erreichen und schließlich über eine attraktive Trefferdarstellung Nutzer von der Auswahl der eigenen Webseite zu überzeugen. Mit der kontinuierlichen Weiterentwicklung der Rankingalgorithmen ist die Anwendung einfacher Optimierungsverfahren, wie suchmaschinenfreundlicher-URLs (Lit. 10, S. 321) oder die Optimierung des Title-Tags und anderen HTML-Auszeichnungen immer weniger effektiv. Google kommuniziert die Bereitstellung attraktiver Inhalte als zentralen Qualitätsaspekt von Webseiten (Lit. 31). Ein sinnvolles Vorgehen im Optimierungsprozess mit den Komponenten Termauswahl, Indexierung, On-Page- und OffPage-Optimierung ist in Moran & Hunt (Lit. 24, S. 229-382) dargestellt. In der Regel ist Suchmaschinenoptimierung nicht zuletzt aufgrund der Ranking-Updates der Suchmaschinen ein zyklischer Prozess. Ergebnisse sind meist nicht unmittelbar sichtbar. Wirkungszusammenhänge können aufgrund möglicher Änderungen auf der Suchmaschinenseite bzw. der Volatilität des Suchmaschinenindexes, der auch Neuzugänge oder Veränderungen auf Seiten von Mitbewerbern erfasst, nur näherungsweise erschlossen werden. Aufgrund der Einblendung von Treffern aus Spezialindizes, z. B. Bilder, Videos, News, in die Suchergebnisseiten unter dem Schlagwort Universal Search (Lit. 33), wird die Optimierung von Webseiten für diese ergänzenden Trefferquellen zunehmend wichtiger. Ein Beispiel hierfür stellt die lokale Suche in Diensten wie Google Places dar (Lit. 34). Im Vergleich zur Suchwortvermarktung ist Suchmaschinenoptimierung deutlich langfristiger angelegt und hinsichtlich der Ergebnisse mit einer größeren Unsicherheit behaftet. Demgegenüber verursacht Suchmaschinenoptimierung i. d. R. keine spürbaren Folgekosten. D. h., bei gegebenem Aufwand und hohem Erfolg tendieren die Grenzkosten für zusätzliche Besucher gegen Null. Abschließend ist festzuhalten, dass Suchmaschinenoptimierung und Suchwortvermarktung nicht als Alternativen betrachtet werden sollten. Vielmehr besteht in der kombinierten Anwendung erhebliches Synergiepotenzial. So lassen sich etwa Informationen zur Termauswahl oder Seitengestaltung, die durch Suchwortvermarktung-Kampagnen zeitnah gewonnen werden, ebenso für die Suchmaschinenoptimierung nutzen. Eine Studie von Google (Lit. 35) deutet des Weiteren darauf hin, dass sich Klicks auf organische Treffer und Anzeigen nicht substituieren, sondern Anzeigen bei vorhandenen Platzierungen in der regulären Trefferliste zusätzliche Klicks erzielen. Schließlich bestehen vielfältige Synergien zum Social Media-Marketing. Das Platzieren von Inhalten in Sozialen Sharing-Diensten bzw. Sozialen Online-Netzwerken generiert nicht nur Besucher, sondern auch Links, welche die Sichtbarkeit der eigenen Website in Suchmaschinen erhöhen können (Lit. 10, S. 416, S. 400-402).
418
C 4: Joachim Griesbaum
C 4.3.4 Social Media-Marketing Die Entwicklung des Social Media-Marketing ist eng mit dem Wandel des Internets von einem Informationsmedium hin zu einem Mitmach-Medium verknüpft (Lit. 36). Das Social Web stellt einen für Jedermann zugänglichen, offenen Kommunikationsraum dar (vgl. Artikel D 7 „Social Media“). Die Reichweite der Kommunikation ist dabei theoretisch unbegrenzt. Damit eröffnen sich neue Kanäle und Gestaltungsoptionen der Kommunikation mit Kunden und Märkten. Zugleich ergibt sich ein Kontrollverlust, denn auch Kunden-zu-Kunden-Netzwerke sind hinsichtlich ihrer Reichweite tendenziell unbeschränkt. Der Social Feedback Cycle (Lit. 37, S. 5), d. h. die Meinungen anderer Nutzer oder Kunden, z. B. in Form von Produktreviews, beeinflussen Entscheidungen im Kaufprozess. Digitale Mundpropaganda wird so zu einem zentralen Aspekt des Geschäftserfolgs. Dies ist ein grundlegender Paradigmenwechsel, der das Ende einseitiger Kommunikation von Werbetreibenden an die jeweiligen Zielgruppen markiert (Lit. 38). Das Social Web bewirkt also einen Wandel der Märkte an sich, der, zu Ende gedacht, auch Kundenbeziehungs- bzw. Innovationsmanagement mit einbezieht. Prospektive Kunden sind nicht mehr nur Produktabnehmer, sondern ein Teil der Marketingabteilung bzw. potentielle Innovatoren (Lit. 37, S. 6-11). Während sich E-Mail-Marketing, Display Advertising und Suchmaschinenmarketing oftmals als absatzpolitische Werbeinstrumente auffassen lassen, kommt im Social Media-Marketing ein umfassenderes Marketingverständnis zum Tragen. Die Analyse der Bedürfnisse der potentiellen Kunden und deren Befriedigung stehen im Vordergrund. Die Potentiale liegen dabei primär in der Vertrauensbildung und der Unterstützung durch die Nutzerschaft (Lit. 39, S. 5). Die Option, sich dem Social Media-Marketing zu verweigern, besteht dabei oft nicht mehr. Mit hoher Wahrscheinlichkeit wird bereits über die Organisation bzw. ihre Produkte oder die Güte ihrer Dienstleistungen kommuniziert. Die Entscheidung besteht darin, ob und auf welche Weise man sich in den Sozialen Medien präsentiert und mit-kommuniziert. Um Kundenwünsche und Markttrends zu erkennen, aufzunehmen und gegebenenfalls bei Problemfällen frühzeitig einzugreifen, stellt Social Media Monitoring einen adäquaten Ausgangspunkt des Social Media-Marketings dar. Unter Social Media Monitoring lässt sich die systematische Überwachung des Internets bzw. des Social Web, insbesondere der Blogosphäre, Sozialer Online-Netzwerke und sonstigen Online Communities, mit Hilfe manueller und automatischer Verfahren verstehen. Die Ziele des Social Media Monitoring bestehen darin, die relevanten Kommunikationsorte zu identifizieren, Markttrends und Wettbewerber zu beobachten, wichtige (vor allem potentiell problematische) Ereignisse rechtzeitig zu entdecken, Meinungsführer aufzuspüren und die Effekte eigener Maßnahmen zu prüfen. Social Media Monitoring ist das zentrale Controlling- und Business Intelligence Instrument des Social Media Marketing. Aufbauend auf dieser Grundlage stellt die Bereitstellung von Inhalten, die von Zielgruppen nachgefragt werden, den zentralen Erfolgsfaktor des Social Media-Marketing dar (Lit. 38, S. 25-39). Als Kommunikationskanäle lassen sich dabei vielfältige Dienste, sowohl auf eigenen Webseiten als auch in den Sozialen Medien, nutzen. Die aus Nutzersicht salienten, funktionalen Aspekte der verwendeten Plattform sowie deren zielgruppenspezifische Popularität sind die zentralen Auswahlkriterien Sozialer Medien. So eignen sich etwa Web- und Microblogs (z. B. Twitter) primär für den Informationsaustausch. Soziale Online-Netzwerke sind insbesondere für die explizite Selbstdarstellung und das Beziehungsmanagement adäquat. Eigene Kanäle können dann sinnvoll sein, wenn eine Marke bereits über einen hohen Bekanntheitsgrad verfügt und eine hinreichend große Produktzielgruppe besteht. Bzgl. der Nutzung externer Kanäle belegen Studien die Konzentration auf populäre Dienste wie Twitter, Facebook oder Youtube (z. B. Lit. 40). Zur erfolgreichen Umsetzung von Social Media-Marketing existiert eine Vielzahl von Handreichungen (z. B. Lit. 41, Lit. 42). Zentrale Ausgangspunkte dieser Best Practices stellen dabei konkrete Zielsetzungen, z. B. Erhöhung der Kundenbindung, dar. Diese bilden den Ausgangspunkt zur Entwicklung von Social Media-Strategien, die neben operativen Gesichtspunkten auch normative Richtlinien zum Kommunikationsverhalten umfassen. Des Weiteren ist, abgesehen von kurzfristig
C 4: Online-Marketing
419
angelegten Kampagnen wie z. B. Wettbewerben oder Gewinnspielen, Nachhaltigkeit ein zentraler Erfolgsfaktor. Social Media-Marketing ist damit an die dauerhafte Bereitstellung von Ressourcen gekoppelt. Derartige Aktivitäten sollten somit stets in Bezug zu dauerhaft bereitstehenden bzw. bereitgestellten Ressourcen konzipiert und umgesetzt werden. Da die Kosten-Nutzen-Relation des Social Media-Marketings zu Beginn oft unklar ist, stellt dies einen nicht unproblematischen Aspekt dar (Lit. 02, S. 159-173). Im Vergleich zu den anderen Formen des Online-Marketings ist Social Media-Marketing ein deutlich weitläufigeres und oft nicht klar abgrenzbares Themengebiet. Erhebungen deuten darauf hin, dass Social Media-Marketing einerseits in hohem Maße betrieben wird (Lit. 43, S. 10), andererseits aber oftmals wenig strategisch angegangen, sondern eher ad hoc agiert wird (Lit. 44). So wurde in einer Studie festgestellt, dass von 40 bekannten Marken mehr als 75 % Defizite bei der Planung, Umsetzung und Betreuung von Social Media-Marketing-Maßnahmen aufweisen (Lit. 45). C 4.3.5 Mobile Online-Marketing Mobile Online-Marketing umfasst alle Formen des Marketings auf mobilen Endgeräten, welche neben den für Mobiltelefonen typischen Funktionalitäten weiterhin computer- und internetkonnektivitätsbezogene Eigenschaften aufweisen und funktional mit Hilfe von nativen Applikationen (Apps) oder Web-Applikationen (Web-Apps) erweitert werden können. Die Einführung des iPhones durch die Firma Apple im Jahr 2007 lässt sich dabei als zentraler Meilenstein in der Entwicklung mobiler Endgeräte und als Durchbruch des mobilen Internets einstufen (Lit. 46, S. 10). SMS-Werbung (Lit. 47) wird hier nicht unter Mobile Online-Marketing inkludiert. Der Begriff Mobile Online-Marketing steht weniger für eine Marketingform als vielmehr für eine Erweiterung des Online-Marketings insgesamt in Folge der zunehmenden Nutzung des Internets in mobilen Kontexten und auf mobilen Endgeräten. Das mobile Internet substituiert dabei nicht die stationäre Nutzung, sondern erweitert die Internetnutzung insgesamt (Lit. 48). Die Besonderheiten des mobilen Kanals hinsichtlich Ubiquität, Interaktivität und Nutzerbezug wurden oben bereits angedeutet. Diese geräte- und kontextbezogenen Effekte wirken sich auf die Marketingformen aus, wenn diese in den mobilen Raum übertragen werden. Zugleich bilden sich spezifische mobile Formen des Online-Marketings, wie das lokationsbasierte Marketing, aus. Nachfolgend werden zunächst einige wichtige Besonderheiten illustriert, die für das Display Advertising und Suchmaschinenmarketing im mobilen Raum spezifisch sind. Anschließend wird lokationsbasiertes Marketing skizziert. Für das Display Advertising sind zunächst die Vielzahl unterschiedlicher, im Gegensatz zum stationären Internet meist geringer aufgelöster Werbemittelformate und auch neue Schaltungsmechanismen zu beachten. So bewegen sich typische Bannergrößen im Bereich von 120 x 20 bis 300 x 50 Pixel für Smartphones (bei Tablets wiederum in deutlich größeren Bereichen bis hin zu 425 x 600 Pixeln). Weiterhin wird zwischen Web- und nativen Applikationen unterschieden (Lit. 49). Während im Internet durch offene Standards in der Regel die einmalige Erstellung eines Werbemittels hinreichend ist, sind im mobilen Bereich ergänzend Parallelentwicklungen für unterschiedliche native Umgebungen erforderlich, sofern alle Plattformen bedient werden sollen. Des Weiteren ist die Schaltung mobiler Werbemittel alleine nicht ausreichend. Ergänzend ist der Aufbau einer mobilen Infrastruktur, z. B. mobiler Zielseiten erforderlich (Lit. 50). Hinzu kommt, dass Werbemittel aufgrund der Besonderheiten der Benutzerinteraktion oft versehentlich selektiert werden (Lit. 51, S. 12) und die Akzeptanz mobiler Display-Werbung eher gering ausfällt (Lit. 52). In Bezug auf mobiles Suchmaschinenmarketing ist festzuhalten, dass auf Nutzerseite grundlegende Unterschiede zur Standardwebsuche bestehen. Zwar scheint z. B. die Länge der Anfragen vergleichbar, die Nutzerfokussierung ist, im Vergleich zur Standardwebsuche, aber noch stärker auf die ersten Treffer gerichtet (Lit. 53). Zudem deutet sich an, dass mobile Endgeräte überwiegend in stationären Kontexten (Arbeitsplatz, Wohnung) verwendet werden und mobile Suche durch ei-
420
C 4: Joachim Griesbaum
nen hohen Anteil situativer Kontextfaktoren geprägt zu sein scheint (Lit. 54). Ebenso unterscheiden sich die Suchoberflächen von Suchmaschinen. Google adaptiert diese beispielsweise nicht nur im Vergleich zur Standardwebsuche, sondern auch zwischen Tablets und Smartphones und auch zwischen Web- und nativen Applikationen. Des Weiteren weisen die Ergebnisse eine andere Zusammensetzung auf. So werden lokale und mobile Websites bei der Suche auf mobilen Endgeräten bevorzugt und etwa räumlich nahe Lokalitäten mit klickbarer Telefonnummer angezeigt (Lit. 55). Der kurze Abriss verdeutlicht, dass bestehende Formen des Online-Marketings nicht einfach unreflektiert auf den mobilen Kanal übertragen werden können. Mobile Online-Marketing weist vielfältige eigene Wirkungsfaktoren auf. Aufgrund der unterschiedlichen gerätespezifischen Formfaktoren, der Entstehung neuer anbieterdominierter und betriebssystemspezifischer Ökosysteme sowie der vielfältigen und diversen Nutzungskontexte erhöht sich die Komplexität des Marketings insgesamt. Smartphones bieten verschiedene Möglichkeiten, den Standort des Nutzers zu bestimmen. Über die eingebaute GPS-Funktion kann der Aufenthaltsort mit hoher Genauigkeit geortet werden. Dies stellt die Grundlage lokationsbasierter Dienste dar, die dem Nutzer in Abhängigkeit seines Standortes Informationen zukommen lassen. Lokationsbasierte Dienste werden unter anderem von Suchmaschinen und Sozialen Online-Netzwerken angeboten. Beispielsweise verbindet Facebook Places die Sozialen Netzwerke der Facebook-Nutzer mit der Realwelt, indem die Aufenthaltsorte der sozialen Kontakte sichtbar werden (Lit. 56). Lokale Organisationen können diesen Dienst dazu verwenden, um Nutzern, die sich in der Nähe aufhalten oder ein Geschäft betreten, marketingbezogene Anreize, z. B. Preisnachlässe, anzubieten. Auch wenn die Entwicklung lokationsbasierter Dienste noch ganz am Anfang steht, veranschaulichen sie das Potential des Mobile Online-Marketing. Dieses gestattet es, Marketingmaßnahmen in bislang unbekanntem Ausmaß auf Zielgruppen abzustimmen. Eine persönliche und zugleich auf aktuelle Bedürfnisse abgestimmte Ansprache potentieller Kunden ist jederzeit und an jedem Ort möglich (Lit. 03). Die Nutzer können somit einerseits potentiell großen Nutzen aus dem Mobile Online-Marketing ziehen, andererseits wirkt die dazu notwendige Preisgabe persönlicher Information oftmals abschreckend. Xu et al. bezeichnen dies als „personalization privacy paradox“ (Lit. 57, S. 42). Im Mobilen Marketing ist letztlich auch das Verhalten in der Realwelt Analysegegenstand. Nach Tsai et al. (Lit. 58) fürchten Nutzer bei lokationsbasierten Diensten ein Übergewicht der Risiken gegenüber dem Nutzen. Insofern stellt der Datenschutz einen Kern der Akzeptanz des Mobile Online-Marketings dar. Eine Untersuchung von Kelley et al. (Lit. 59) weist darauf hin, dass hierzu mehr erforderlich ist als simple Opt-In/Opt-Out-Optionen. Von der Seite der Nutzer werden sowohl Transparenz über die Verwendung der Daten als auch komplexe Privatsphäre-Optionen mit graduellen Freigabeoptionen gewünscht.
C 4.4 Zusammenfassung und Fazit Zusammenfassend wird deutlich, dass Online-Marketing ein sehr umfassendes und dynamisches Themenfeld darstellt. Die neuen medialen Kanäle des Internets führen zur Adaption bestehender und zur Entwicklung neuer Marketing-Formen. In Folge dieser Entwicklung transformiert sich der Bereich Marketing grundlegend. Marketing wird aus Sicht von Marketingtreibenden zunehmend niedrigschwelliger. Eintrittsbarrieren sinken. So gibt es keine zwingenden Gründe bei der Umsetzung von Suchmaschinen- und Social Media-Marketing klassische Werbeagenturen mit einzubeziehen. Bei Suchmaschinenoptimierung und Social Media-Marketing sind monetäre Ressourcen nicht grundsätzlich erforderlich. Zugleich zeigt sich ein Netzwerkeffekt in Bezug auf die Marketingplattformen. Einige wenige Anbieter, derzeit vor allem Google, Microsoft und Facebook, besitzen aufgrund ihrer hohen Reichweite eine große Marktmacht. Über alle Formen und Kanäle hinweg stellen die zielgruppengerechte Ansprache (Targeting), die fortlaufende Kontrolle und Steuerung (Web Controlling und Social Media Monitoring) sowie die
C 4: Online-Marketing
421
Nutzerakzeptanz (Datenschutz, antizipierter Nutzen und Benutzerfreundlichkeit) zentrale Erfolgsfaktoren des Online-Marketings dar. Letztlich ist die Befriedigung von Informationsbedürfnissen potentieller Kunden der wichtigste Gesichtspunkt des Online-Marketings. Insofern ist es auch kein Zufall, dass der weltweit populärste Suchmaschineanbieter Google zur führenden Werbeplattform aufgestiegen ist. Aus der Sicht von Marketingtreibenden werden technologisches Wissen und soziotechnische Kompetenzen beim Marketing immer mehr zu zentralen Erfolgsfaktoren. Insofern lässt sich Online-Marketing auch in zunehmendem Maße als informationswissenschaftliches Themengebiet begreifen, in dem u. a. Themenfelder wie Informationsverhaltens- und Benutzerforschung, Web-IT, computervermittelte Kommunikation sowie Mensch-Maschine-Interaktion praktische Anwendung erfahren.
Literatur 01 Meffert, Heribert; Burmann, Christoph; Kirchgeorg, Manfred: Marketing. Grundlagen marktorientierter Unternehmensführung. Konzepte – Instrumente – Praxisbeispiele. 11. Auflage. Wiesbaden: Gabler 2012 02 Tuten, Tracey L.: Advertising 2.0: Social Media Marketing in a Web 2.0 World. Westport: Praeger 2008 03 Krum, Cindy: Mobile Marketing: Finding Your Customers No Matter Where They Are. Vol. 20 Suppl. 2. Indianapolis: Que 2010, 5-18 04 Pelau, Corina; Zegreanu, Patricia: Mobile Marketing – The Marketing for The Next Generation. Management Marketing, Vol. 5 (2), 2010, 101-116 05 Jenks, Jared: Worldwide Ad Spending. eMarketer 2010, URL: http://www.scribd.com/doc/88287026/ eMarketer-Worldwide-Ad-Spending (letzter Zugriff 04.08.2012) 06 O.A.: New Forecast: US Mobile Ad Spending Soars Past Expectations. eMarketer 2012, URL: http://www. emarketer.com/PressRelease.aspx?R=1008798 (letzter Zugriff 05.08.2012) 07 Lechner, Herbert; Eisenblätter, Marion: Online informieren – im Geschäft kaufen. GfK 2010, URL: http://www.gfk.com/group/press_information/press_releases/005575/index.de.html (letzter Zugriff 05.08.2012) 08 O.A.: Das Web als zentrales Element für die Kaufentscheidung im Einzelhandel. Yahoo! Insights 2012, URL: http://www.slideshare.net/YahooGermany/yahoo-vertical-study-retail (letzter Zugriff 05.08.2012) 09 O’Reilly, Tim; Battelle, John: Web Squared: Web 2.0 Five Years On. Web 2.0 Summit, San Francisco, 2009 10 Fischer, Mario: Website Boosting 2.0. Suchmaschinen-Optimierung, Usability, Online-Marketing. 2. Auflage. Heidelberg: Redline 2009 11 Lades, Sandra: Die Bereitschaft, für Internetinhalte zu bezahlen, ist gering. Internationale GfK-Studie zur Internetnutzung in 17 Ländern. GfK 2009, URL: http://www.gfk.com/group/press_information/press_ releases/004996/index.de.html (letzter Zugriff 05.08.2012) 12 Benway, Jan P.; Lane, David M.: Banner Blindness: Web Searchers Often Miss ‘Obvious’ Links. Internetworking, Vol. 1 (3), 1998 13 Burke, Moira; Hornof, Anthony; Nilsen, Erik; Gorman, Nicholas: High-cost banner blindness: Ads increase perceived workload, hinder visual search, and are forgotten. ACM Trans. Comput.-Hum. Interact, Vol. 12. 2005, S. 423-445 14 O.A.: OVK Online-Report 2011/ 01. Zahlen und Trends im Überblick. OVK, URL: http://www.bvdw.org/ presseserver/ovk_online_report_2011_01/ovk_online-report_2011_01.pdf (letzter Zugriff 05.08.2012) 15 Hass, Berthold H.; Willbrandt, Klaus W.: Targeting von Onlinewerbung: Grundlagen, Formen und Herausforderungen. MedienWirtschaft: Zeitschrift für Medienmanagement und Kommunikationsökonomie. Vol. 8, 2011, S. 12-21 16 O.A.: Marketers Accelerate Social Display Ad Spending. eMarketer 26.03.2012, URL: http://www. emarketer.com/Mobile/Article.aspx?R=1008926 (letzter Zugriff 05.08.2012) 17 O.A.: BIA/Kelsey Forecasts Social Media Ad Spending to Reach $8.3 Billion in 2015. Five-year outlook for social media advertising dominated by display ads on Facebook. BIA/Kelsey 02.05.2011, URL: http:// www.biakelsey.com/Company/Press-Releases/110502-Social-Media-Ad-Spending-to-Reach-$8.3-
422
C 4: Joachim Griesbaum
Billion-in-2015.asp (letzter Zugriff 05.08.2012) 18 O.A. (2011): Facebook Advertising Performance Benchmarks & Insights. webtrends Whitepaper 01.2011, URL: http://www.competence-site.de/downloads/55/ad/i_file_334649/facebook_advertising_ performance_benchmark_insights. pdf 19 Zeng, Fue; Huang, Li; Dou, Wenyu: Social Factors in User Perceptions and Responses to Advertising in Online Social Networking Communities. Journal of Interactive Advertising, Vol. 10 (1), 2009 20 Eimeren, Birgit v.; Frees, Beate: Drei von vier Deutschen im Netz – ein Ende des digitalen Grabens in Sicht? Ergebnisse der ARD/ZDF-Onlinestudie 2011. Media Perspektiven, Vol. 7-8, 2000, S. 334-349 21 VanBoskirk, Shar: US Interactive Marketing Forecast, 2011 To 2016. Forrester 24.08.2011, URL: http:// www.bcama.com/documents/Forrester_interactive_marketing_forecast_2011_to_2016.pdf (letzter Zugriff 06.08.2012) 22 Jansen, Bernard J., Spink, Amanda; Saracevic, Tefko: Real life, real users, and real needs: A study and analysis of user queries on the web. Information Processing and Management. Vol. 36(2), 2000, S. 207-227 23 Granka, Laura A.; Joachims, Thorsten; Gay, Geri: Eye-tracking analysis of user behavior in WWW search. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, ACM: New York. 2004, S. 478-479 24 Moran, Mike; Hunt, Bill: Search Engine Marketing, Inc.: Driving Search Traffic to your Company’s Web Site. 2. Edition. Boston: IBM Press 2008 25 O.A.: Adwords Hilfe, Google, URL: https://support.google.com/adwords/?hl=de (letzter Zugriff 13.08.2012) 26 Grow. Bryan; Elgin, Ben; Herbst, Moira: Click Fraud. BloombergBusinessWeek Magazine 10.2006, URL: http://www.businessweek.com/stories/2006-10-01/click-fraud (letzter Zugriff 13.08.2012) 27 O.A.: Google’s Protection against Invalid Clicks. Google, URL: http://www.google.com/ads/adtrafficquality/invalid-click-protection.html (letzter Zugriff 14.08.2012) 28 Jansen, Bernard J.; Resnick, Marc: An Examination of Searcher’s Perceptions of Nonsponsored and Sponsored Links During Ecommerce Web Searching. Journal of the American Society for Information Science and Technology. Vol. 14 (57), 2006, 1949-1961 29 Owens, Justin W.; Chaparro, Barbara S.; Palmer, Evan M.: Text Advertising Blindness: The New Banner Blindness? Jounal of Usability Studies Vol. 6 (3), 2011, 172-197 30 Hansell, Saul: Google Keeps Tweaking Its Search Engine. The New York Times 06.2007, URL: http://www. nytimes.com/2007/06/03/business/yourmoney/03google.html (letzter Zugriff 14.08.2012) 31 O.A.: Richtlinien für Webmaster. Google, URL: http://support.google.com/webmasters/bin/answer. py?hl=de&answer=35769 (letzter Zugriff 14.08.2012) 32 Fishkin, Rand: 2011 Search Engine Ranking Factors. Seomoz, URL: http://www.seomoz.org/article/ search-ranking-factors (letzter Zugriff 14.08.2012) 33 Mayer, Marissa: Universal search: The best answer is still the best answer. Google Official Blog 05.2007, URL: http://googleblog.blogspot.de/2007/05/universal-search-best-answer-is-still.html (letzter Zugriff 14.08.2012) 34 Bavaro, Jackie: Place Search: a faster, easier way to find local information. Google Official Blog 10.2010, URL: http://googleblog.blogspot.de/2010/10/place-search-faster-easier-way-to-find.html (letzter Zugriff 14.08.2012) 35 Chan, David; Alstine, Lizzy Van: Impact of Organic Ranking on Ad Click Incrementality. Google Research Blog 03.2012, URL: http://googleresearch.blogspot.de/2012/03/impact-of-organic-ranking-on-ad-click. html (letzter Zugriff 15.08.2012) 36 Griesbaum, Joachim: Social Web, siehe Beitrag D 7 in diesem Band 37 Evans, Dave: Social Media Marketing. The Next Generation of Business Engagement. Indianapolis: Wiley 2010 38 Scott, David M.: The New Rules of Marketing and PR, 2nd edition. Hoboken: Wiley 2007 39 Weinberg, Tamar: Social Media Marketing – Strategien für Twitter, Facebook & Co. Köln: O’Reilly 2011 40 Nicolai, Alexander T.; Vinke, Daniel: Wie nutzen Deutschlands größte Marken Social Media? Eine
C 4: Online-Marketing
423
empirische Studie. Universität Oldenburg, 2009 41 Hotz, Adrian; Halbach, Judith; Schleinhege, Martin: Social Media im Handel. Ein Leitfaden für kleine und mittlere Unternehmen. Köln: E-Commerce-Center Handel 11.2010, URL: http://www.ecc-handel.de/ download/110530501/Social+Media_Leitfaden.pdf (letzter Zugriff 15.08.2012) 42 Kaplan, Andreas M.; Haenlein, Michael: Two hearts in three-quarter time: How to waltz the social media/ viral marketing dance. Business Horizons, Vol. 54 (3), 2011, 253-263 43 Stelzner, Michael A.: 2012 Social Media Marketing Industrie Report. How Marketers Are Using Social Media to Grow Their Businesses. Social Media Examiner 04.2012, URL: http://www.socialmediaexaminer. com/SocialMediaMarketingIndustryReport2012.pdf (letzter Zugriff 15.08.2012) 44 O.A.: Executives Fail to Focus on Social Media Marketing Strategy. eMarketer 6.2011, URL: http://www. emarketer.com/Article.aspx?R=1008503 (letzter Zugriff 15.08.2012) 45 O. A.: Wie Marketer Misserfolge im Social Web mindern können. Absatzwirtschaft 11, 43, 2009 46 Fling, Brian: Mobile Design and Development. Sebastopol: O’Reilly 2009 47 Okazaki, Shintaro; Barwise, Patrick: Has the Time Finally Come for the Medium of the Future?: Research on Mobile Advertising. Journal of Advertising Research, Vol. 51 (March Supplement), 2011, S. 59–71 48 O.A.: AGOF mobile facts 2011. AGOF 2011, URL: http://www.agof.de/index.download.ed7ffaeb1ac419ef2e 78764ac3c4012b.pdf (letzter Zugriff 15.08.2012) 49 O.A.: Yahoo! Advertising Ad Specs, Yahoo, URL: http://adspecs.yahoo.com/formats. php?id=59 (letzter Zugriff 16.08.2012) 50 Ettinger, Andrew: A marketer’s guide to mobile display advertising, 4.2012, URL: http://www.imediaconnection.com/article_full.aspx?id=31477 (letzter Zugriff 16.08.2012) 51 O.A.: Mobile Marketer’s State of Mobile Advertising 2011. Mobile Marketer 06.2011, URL: http://www. mobilemarketer.com/cms/lib/12311.pdf (letzter Zugriff 16.08.2012) 52 Stampler, L.: Untrustworthy? How Nielsen Sees The Future Of Mobile Display Advertising. Business Insider 06.2012, URL: http://www.businessinsider.com/how-nielsen-sees-the-future-of-mobile-displayadvertising-2012-6?op=1 (letzter Zugriff 16.08.2012) 53 Kamvar, Maryam; Kellar, Melanie; Patel, Rajan; Xu, Ya: Computers and iphones and mobile phones, oh my!: a logs-based comparison of search users on different devices. Proceedings of the 18th international conference on World wide web, New York 2009, 801-810 54 Church, Karen; Oliver, Nuria: Understanding mobile web and mobile search use in today’s dynamic mobile landscape. Proceedings of the 13th International Conference on Human Computer Interaction with Mobile Devices and Services. New York: ACM 2011, 67-76, 2011 55 O.A.: Official Google Mobile Blog: google search. Google, URL: http://googlemobile.blogspot.de/ (letzter Zugriff 17.08.2012) 56 O.A.: Location Based Marketing. So werben Sie ortsbezogen! Eprofessional 08.2011, URL: http://www. eprofessional.de/assets/sites/1/resources/papers/pdfs/9-eprofessional-Whitepaper_2011_LocationBased-Marketing.pdf (letzter Zugriff 17.08.2012) 57 Xu, Heng; Luo, Xin R.; Carroll, John M.; Rosson, Mary B.: The personalization privacy paradox: An exploratory study of decision making process for location-aware marketing. Decision Support Systems 51 (1), 42-52, 2011 58 Tsai, Janice; Kelley, Patrick; Cranor, Lorrie F.; Sadeh, Norman: Location-sharing technologies: Privacy risks and controls. I/S Journal of Law and Policy for the Information Society. Vol. 6. 2010, 119-317 59 Kelley, Patrick. G.; Benisch, Michael; Cranor, Lorrie F.; Sadeh, Norman: When are users comfortable sharing locations with advertisers? Proceedings of the 2011 annual conference on Human factors in computing systems. New York: ACM 2011, 2449-2452
Nicola Döring
C 5 Modelle der Computervermittelten Kommunikation Unter Computervermittelter Kommunikation (CvK) bzw. Computer-Mediated-Communication (CMC) versteht man interpersonale Kommunikation zwischen Einzelpersonen oder in Gruppen, die über Computernetzwerke vermittelt wird (z. B. Kommunikation per E-Mail, in Online-Foren oder auf Social Networking Sites). CvK steht neben anderen Formen der technisch vermittelten interpersonalen Kommunikation (z. B. Telefon-Kommunikation, SMS-Kommunikation) und wird typischerweise der technisch unvermittelten Face-to-Face-Kommunikation (FtF-, F2F-Kommunikation) gegenübergestellt. Im Unterschied zur technisch vermittelten Kommunikation, bei der die Beteiligten räumlich getrennt sind, ist es für die FtF-Kommunikation notwendig, dass die Kommunizierenden alle zur selben Zeit am gleichen Ort zusammenkommen (Kopräsenz), um sich verbal und nonverbal auszutauschen. Wenn zwischenmenschliche Kommunikation computervermittelt abläuft, heißt dies nicht, dass die ansonsten von Angesicht zu Angesicht ausgetauschten Botschaften einfach über einen anderen (nämlich computertechnischen) Kanal übertragen werden. Vielmehr werden durch CvK neue Kommunikationssituationen geschaffen, in denen teilweise andere Personen miteinander in Kontakt treten und/oder andere Themen in anderer Weise behandelt werden. So eröffnet sich beispielsweise Menschen mit Suizidgedanken in einem entsprechenden Online-Selbsthilfe-Forum die Möglichkeit, unzensiert und anonym über ihre Situation zu schreiben (für einen Forschungsüberblick zu Suizidforen im Internet siehe z. B. Lit. 09). Dabei sind Online-Szenarien als sozio-technische Systeme zu verstehen, in denen das Kommunikationsverhalten sowohl durch die computertechnischen Medienmerkmale (z. B. Übertragung von digitalem Text) als auch durch die Nutzermerkmale (z. B. Kommunikationsmotive, gemeinsam festgelegte Kommunikationsregeln) bestimmt wird. Unter welchen Bedingungen die neuen Online-Kommunikationsszenarien für welche Individuen und Gruppen hilfreich oder schädlich sind, ist eine zentrale Frage. Merkmale und Wirkungen der Online-Kommunikation sind nur durch theoriegeleitete empirische Studien zu beschreiben und zu erklären, wobei neben herkömmlichen sozialwissenschaftlichen Forschungsmethoden (Lit. 01) auch spezielle Online-Methoden zum Einsatz kommen. Die sozialwissenschaftliche Erforschung der Online-Kommunikation ist interdisziplinär ausgerichtet und greift auf psychologische und soziologische, auf kommunikations-, medien- und sprachwissenschaftliche Theorien, Methoden und Befunde zurück. Dabei sind neben grundlagenwissenschaftlichem Erkenntnisgewinn auch anwendungsorientierte Fragestellungen zentral (siehe z. B. Lit. 12, Lit. 27).
Medium Medienmerkmale
2 Medienwahl
1
3 Nutzungssituation 4 Mediales Kommunikationsverhalten
Person Abb. 1: Medienökologisches Rahmenmodell
5
Effekte
C 5: Modelle der Computervermittelten Kommunikation
425
C 5.1 CvK-Theorien Eine einheitliche Theorie der Online-Kommunikation liegt nicht vor, dazu sind die computervermittelten Kommunikationsformen zu stark ausdifferenziert. Stattdessen existiert ein ganzes Bündel theoretischer Modelle der computervermittelten Kommunikation (kurz: CvK-Modelle bzw. CvKTheorien). Gemäß dem medienökologischen Rahmenmodell (Lit. 06, Kap. 3) lassen sich die gängigen CvK-Modelle in drei Blöcke gruppieren: Theorien zur Medienwahl, Theorien zu Medienmerkmalen und Theorien zum medialen Kommunikationsverhalten (siehe Abb. 1).
C 5.2 CvK-Theorien der Medienwahl CvK-Theorien der Medienwahl machen deutlich, dass der Online-Kommunikation immer eine Entscheidung entweder für ein elektronisches Netzmedium oder gegen ein anderes klassisches Medium vorausgeht. Solche Entscheidungen werden aufgrund rationalen Kalküls, sozialer Normen oder interpersonaler Abstimmungen getroffen, sofern es sich eben nicht um unreflektierte Gewohnheiten handelt. Computervermittelte Kommunikation kann, so die Grundannahme dieser Modelle, eine Hilfe und Bereicherung im Privat- oder Berufsleben darstellen, sofern Medienwahlen angemessen getroffen werden. C 5.2.1 Modell der rationalen Medienwahl Das Modell der rationalen Medienwahl geht davon aus, dass Menschen mit vielfältigen Kommunikations- und Kooperationsaufgaben konfrontiert sind (z. B. Gehaltsverhandlung versus Terminverschiebung), die sowohl auf sachlich-inhaltlicher als auch auf sozial-emotionaler Ebene unterschiedlich anspruchsvoll sind. Gleichzeitig stehen dafür diverse Kommunikationsmedien zur Verfügung, die sich in eine Rangreihe bringen lassen, wenn man betrachtet, wie hoch jeweils der Komplexitätsgrad der übermittelten Informationen, d. h. die mediale Reichhaltigkeit, ist (Media Richness Theory, Lit. 04, Lit. 19) bzw. wie viel persönliche Nähe und Lebendigkeit, also soziale Präsenz, während der Kommunikation empfunden werden (Social Presence Theory, Lit. 18, S. 64ff). An der Spitze der Medienhierarchie steht gemäß dem Modell der rationalen Medienwahl die FtF-Kommunikation mit der höchsten medialen Reichhaltigkeit bzw. sozialen Präsenz, gefolgt von Videokonferenz, Audio-Konferenz, Chat-Konferenz und E-Mail. Eine rationale Medienwahl wird immer dann getroffen, wenn man in einer konkreten Situation genau das Medium wählt, das den sachlichen und sozialen Anforderungen der Kommunikationsaufgabe am besten gerecht wird, so dass man sich im Bereich effektiver Kommunikation bewegt (Lit. 16). Weder sollte auf ein Medium mit zu geringer noch mit zu hoher Reichhaltigkeit zurückgegriffen werden, da sich beides negativ auf den Kommunikationserfolg auswirken kann. Das Technology Acceptance Model TAM sagt vorher, dass wir Medien auswählen in Abhängigkeit davon, wie nützlich (perceived usefulness) und wie benutzerfreundlich (perceived ease of use) wir sie einschätzen (Lit. 23). Je nach Gewichtung dieser Kriterien könnte es auch passieren, dass ein Medium mit suboptimaler Reichhaltigkeit gewählt wird, weil es leichter bedienbar ist. Die Media Synchronicity Theory MST (Lit. 05) betrachtet rationale Medienwahl im zeitlichen Verlauf eines kollaborativen Arbeitsprozesses und unterscheidet Arbeitsphasen, in denen eine stärkere oder schwächere Synchronisierung der Beteiligten notwendig und somit unterschiedliche Medien jeweils optimal geeignet sind.
426
C 5: Nicola Döring
C 5.2.2 Modell der normativen Medienwahl Auf die Grenzen rationaler Nutzenkalkulationen weist das Modell der normativen Medienwahl hin (Lit. 10). Gerade im organisationalen Kontext sind Medienwahlen durch soziale Normen stark beeinflusst und können somit durchaus nicht-rational ausfallen: Aus Prestigegründen wird zuweilen ein Medium mit zu hoher Reichhaltigkeit genutzt. Aufgrund von Vorurteilen wird ein Medium mit optimaler sozialer Präsenz gemieden. Die Unified Theory of Acceptance and Use of Technology UTAUT als Weiterentwicklung des TAM (siehe oben) besagt, dass wir uns bei Medienwahlen im Arbeitskontext nicht nur an der Nützlichkeit (perceived usefulness/performance expectancy) und Benutzerfreundlichkeit (perceived ease of use/effort expectancy) eines Mediums orientieren, sondern auch an sozialen Normen (social influence) und erleichternden Bedingungen (facilitating conditions, Lit. 22). C 5.2.3 Modell der interpersonalen Medienwahl Individuelle Medienwahlentscheidungen müssen nicht nur mit den sozialen Normen der Bezugsgruppe harmonieren (sofern eine solche relevant ist, wie z. B. Kollegen am Arbeitsplatz), sondern gemäß dem Modell der interpersonalen Medienwahl (Lit. 11) vor allem auch auf das konkrete Gegenüber abgestimmt sein. So kann das Gegenüber sich unseren individuellen Medienpräferenzen entziehen (z. B. E-Mails nicht regelmäßig lesen) oder uns umgekehrt bestimmte Medienwahlen aufdrängen (z. B. penetrantes Hinterher-Telefonieren). Der Erfolg medialer Kommunikation ist also auch davon abhängig, wie einvernehmlich die Beteiligten ihre jeweiligen Medienpräferenzen miteinander aushandeln. Dass Menschen individuelle Medienpräferenzen haben, die von rationaler Medienwahl abweichen können, wird damit erklärt, dass Persönlichkeitsdispositionen (z. B. Schüchternheit) und soziodemografische Merkmale (z. B. Alter), aber auch Medienerfahrungen (z. B. viel oder wenig Erfahrung mit einem bestimmten Online-Dienst) die Bewertung und Akzeptanz unterschiedlicher Medien bedingen, indem sie beispielsweise beeinflussen, wie nützlich und benutzerfreundlich wir ein Medium empfinden (vgl. Lit. 22).
C 5.3 CvK-Theorien zu Medienmerkmalen Ist die Medienwahl-Entscheidung zugunsten einer bestimmten Form von Online-Kommunikation ausgefallen (z. B. E-Mail, Chat, Online-Videokonferenz, Social-Networking-Site, Smartphone-App), so stellt sich die Frage, von welchen spezifischen Medienmerkmalen der folgende Kommunikationsprozess dann in welcher Weise besonders beeinflusst wird. CvK-Theorien zu Medienmerkmalen weisen teils auf Nachteile, teils aber auch auf Vorteile der CvK im Unterschied zur FtF-Kommunikation hin. Gerade wenn man Medienmerkmale in den Blick nimmt, sind pauschale Aussagen über „die CvK“ meist zu ungenau. Vielmehr sollte nach einzelnen Online-Diensten differenziert werden. C 5.3.1 Kanalreduktions-Modell Das kultur- und technikkritische Kanalreduktions-Modell geht davon aus, dass bei technikbasierter Kommunikation im Unterschied zur FtF-Situation die meisten Sinneskanäle und Handlungsmöglichkeiten fehlen und dieser allgemeine Informations- und Aktionsverlust den zwischenmenschlichen Austausch verarmt (z. B. Lit. 15) z. B. durch Enträumlichung, Entzeitlichung, Entsinnlichung, Entemotionalisierung, Entwirklichung oder sogar Entmenschlichung. Gemäß dem Kanalreduktions-Modell greifen wir wegen äußerer Zwänge, unreflektierter Gewohnheiten und diverser Kom-
C 5: Modelle der Computervermittelten Kommunikation
427
munikationspathologien auf technische Kommunikationsmedien zurück, obwohl wir diese zugunsten der als ganzheitlich gelobten Face-to-Face-Kommunikation lieber meiden sollten. C 5.3.2 Filter-Modell Während das Kanalreduktions-Modell implizit das Vorhandensein möglichst vieler Sinneskanäle für den Kommunikationserfolg fordert, konzentriert sich das Filter-Modell (Reduced Social Cues RSC Approach, Lit. 13, Cues Filtered Out Approach, Lit. 07; siehe zusammenfassend: Lit. 03) auf die konkrete Bedeutung der übermittelten Informationen. Gerade bei textbasierter medialer Kommunikation werden Angaben sozialer Kategorien wie Geschlecht, Alter, Ethnizität, sozialer Status etc. (social cues) z. B. durch Anonymisierung herausgefiltert. Schutz vor Identifizierbarkeit und das Herausfiltern von markanten Gruppenzugehörigkeiten führt gemäß Filter-Modell zu kommunikativer Enthemmung. Gemäß Filter-Modell kann die mediale Enthemmung positive sowie negative Wirkungen haben: –– Im positiven Fall führt die Enthemmung durch das Herausfiltern der Hintergrundinformation zum Abbau von Machtasymmetrien und Vorurteilen (also zu Egalisierung), gleichzeitig zu mehr sozialer Unbefangenheit und verstärkter Selbstoffenbarung. Der Kommunikationsstil wird somit gleichberechtigter, offener und emotionaler. Im computervermittelten Austausch zählen allein die Inhalte und somit kommen Menschen miteinander ins Gespräch, die sich sonst nicht treffen würden, und werden Themen offen angesprochen, die Face-to-Face oft ausgespart bleiben. –– Im negativen Fall kann die Enthemmung in Regellosigkeit (Anomie), Egozentrismus, Feindseligkeit bzw. Aggression umschlagen. Denn wenn die soziale Hintergrundinformation über das Gegenüber fehlt, besteht die Gefahr, dass man die Menschen hinter den computervermittelten Botschaften buchstäblich aus den Augen verliert und weniger auf die Wirkungen der eigenen Äußerungen achtet. Man spricht im Netz-Jargon auch vom „Flaming“, um ungebremste persönliche Online-Attacken auf das Gegenüber zu kennzeichnen. –– Während das Filter-Modell CvK-Effekte auf die Aufhebung von Gruppennormen zurückführt, bietet die sozialpsychologische Social Identity and Deindividuation SIDE Theory eine gegenteilige Erklärung (vgl. Lit. 08). Dementsprechend orientiert man sich bei der Online-Kommunikation umso stärker an den wenigen erkennbaren Gruppenmerkmalen und Gruppennormen. Phänomene von Online-Hass und Online-Mobbing gehen dementsprechend nicht auf Anomie zurück, sondern darauf, dass bestehende Vorurteile gegenüber bestimmten Personengruppen (z. B. Menschen mit Übergewicht oder homosexueller Orientierung) online besonders vehement zum Ausdruck gebracht werden. C 5.3.3 Digitalisierungs-Modell Das Digitalisierungs-Modell konzentriert sich auf das technische Datenformat (vgl. Lit. 06). Erst das digitale Datenformat erlaubt es in umfassender Weise, Informationen kostengünstig und bequem in großer Geschwindigkeit über weite Strecken an vielfältige Teilnehmerkreise zu verbreiten, Dokumente automatisch zu archivieren, zu modifizieren und zu verknüpfen, Dienste parallel und kombiniert zu nutzen. Diese digitale Verarbeitung geht mit einer Reihe von genuin neuen Kommunikationseffekten einher, die oftmals in ihren sozialen Folgen ambivalent und angesichts der rasanten technologischen Entwicklung für die Online-Nutzenden auch schwer absehbar sind: Schnellere und ortsunabhängige Erreichbarkeit kann soziale Bindungen stärken, andererseits aber auch zu Überlastung und Stress führen. Digitale Datenverarbeitung vergrößert einerseits unsere Kontrolle über das Kommunikationsgeschehen (z. B. Filterung des eigenen E-Mail-Verkehrs), erhöht gleichzeitig aber auch
428
C 5: Nicola Döring
das Risiko einer Fremdkontrolle und Überwachung (z. B. automatische Gesichtserkennung auf Fotos im Internet).
C 5.4 CvK-Theorien zum medialen Kommunikationsverhalten Theorien zum medialen Kommunikationsverhalten konzentrieren sich darauf, wie die Beteiligten während der CvK agieren: Wie verarbeiten sie die zur Verfügung stehenden Informationen, welche Fantasien und kreativen Selbstentwürfe kommen ins Spiel und inwieweit orientiert man sich an spezifischen Kommunikationsnormen der Netzkultur? Auch diese Modelle weisen teils auf positive, teils auf negative Effekte der CvK hin. C 5.4.1 Das Modell der sozialen Informationsverarbeitung Das Modell der sozialen Informationsverarbeitung (Social Information Processing Theory SIPT, Lit. 24) geht nicht davon aus, dass mediale Kommunikation notgedrungen mit einem allgemeinen oder spezifischen Informationsverlust einhergeht und deswegen entweder ganz gemieden (Kanalreduktions-Modell) oder allenfalls für einfache Kommunikationsaufgaben gewählt werden sollte (Modell der rationalen Medienwahl). Stattdessen betont das Modell, dass mediale Einschränkungen durch das Nutzungsverhalten kompensierbar sind. Dementsprechend sind bei textbasierter computervermittelter Kommunikation nicht etwa Emotionen ausgeblendet, Gruppenzugehörigkeiten herausgefiltert oder individuelle Besonderheiten eliminiert (wie z. B. das Filter-Modell behauptet), vielmehr werden diese Informationen nur einfach anders dargestellt (z. B. häufigere verbale Explizierung von Gedanken und Gefühlen, Gestaltung umfangreicher öffentlicher Selbstdarstellungen auf persönlichen Homepages und Online-Profilen auf Social-Networking-Sites, deren Adresse man in EMails oder beim Chat mitliefert). Umgekehrt ergeben sich auch neue Möglichkeiten, Information über eine Person aktiv einzuholen (z. B. Google-Recherche, bei der man oft mehr erfährt als bei einer FtF-Begegnung). Gemäß der Identity Warranting Theory (Lit. 26, Lit. 28) sind dabei solche Online-Informationen besonders glaubwürdig, die nicht beliebig von der Person selbst lanciert, sondern von Dritten überprüft und bereitgestellt werden. C 5.4.2 Das Modell der Virtualisierung Das Modell der Virtualisierung zielt darauf ab, dass sich durch CvK neue Gestaltungsmöglichkeiten ergeben, welche die der FtF-Kommunikation übertreffen. Dabei ist zu beachten, dass Virtualität nicht das Gegenteil von Realität ist. Denn das Gegenteil des Realen ist das Fiktionale, also das Erfundene. Eine E-Mail-Freundschaft beispielsweise ist keine rein ausgedachte (also fiktive) Freundschaft, sondern sie existiert tatsächlich (real). Allerdings ist eine E-Mail-Freundschaft insofern virtuell, als sie primär oder ausschließlich auf computervermittelten Kontakten basiert und somit andere Adressaten, Themengebiete, Ausdrucksweisen usw. ermöglicht als eine klassische Freundschaft ohne Online-Kommunikation, die primär von FtF-Kommunikation getragen wird. Das Gegenteil von Virtualität (im Sinne von Vermöglichung) ist somit Aktualität (als Gesamtheit der bislang tatsächlich ausgeschöpften Optionen; vgl. Lit. 21). Prinzipiell birgt jedes neue Kommunikationsmedium auch neue Gestaltungsmöglichkeiten des sozialen Miteinanders. Im Fall des Internet – als einer komplexen medialen Infrastruktur mit einer Vielzahl von Diensten und Anwendungen und riesigen, heterogenen Inhalten und Nutzerkreisen – ist der Zugewinn an Handlungsmöglichkeiten besonders groß. So kann man in der Online-Kommunikation ganz neue Identitäten annehmen (z. B. Geschlechtertausch) oder im Alltag verheimlichte Selbstaspekte (z. B. Homosexualität) erst-
C 5: Modelle der Computervermittelten Kommunikation
429
mals ehrlich ausleben (vgl. Lit. 14). Unsere Imagination kann im Zuge computervermittelter Wahrnehmung anderer Personen die soziale Wirklichkeit produktiv aufwerten, d. h. einen Kommunikationspartner interessanter und sympathischer erscheinen lassen, es kommt zu so genannten hyperpersonalen Interaktionen und Beziehungen (Lit. 25). C 5.4.3 Das Modell der Netzkultur Das Modell der Netzkultur (z. B. Lit. 29) beschreibt und erklärt Besonderheiten bei der CvK auch als Resultat der Interessen, Werte und Wissensbestände der Nutzerinnen und Nutzer. Das NetzkulturModell geht einen Schritt weiter als das Modell der normativen Medienwahl und adressiert neben Normen zur Medienwahl auch soziale Verabredungen hinsichtlich der Kommunikationsregeln, ihrer Sanktionierung sowie der präferierten Kommunikationsinhalte. So sind diverse Merkmale der CvK (z. B. Emoticons, Akronyme, Netiquetten, politisches Bekenntnis zur Informationsfreiheit, Ökonomie des Schenkens und Tauschens) in Internet- und Mailbox-basierten nicht-kommerziellen Kulturräumen entstanden und geprägt von den Spezialkulturen dominanter Nutzergruppen. Es kann sich prinzipiell zwar jede und jeder an der Online-Enzyklopädie Wikipedia mit eigenen Beiträgen und Überarbeitungen beteiligen. Doch die – von jungen, gebildeten und technikaffinen Männern dominierte – Wikipedia-Community gibt strenge Regeln vor und pflegt eine konfrontative Diskussionskultur, durch die der Mitgliederkreis der Wikipedianer und ihr Online-Verhalten faktisch eng limitiert werden.
C 5.5 Fazit Die verschiedenen CvK-Modelle konzentrieren sich auf einzelne Aspekte der Online-Kommunikation und bestehen oft nur aus wenigen Annahmen; ihr Status als „Theorien“ ist teilweise fraglich. Sie beziehen sich zudem in erster Linie auf textbasierte Kommunikation über stationäre Endgeräte und schließen die an Bedeutung gewinnende multimediale sowie mobile Online-Kommunikation bislang nur bedingt ein (Lit. 20). Das betrifft auch die im Web 2.0 bzw. mittels Social Media realisierbaren neuen Formen der Kommunikation, bei denen sich einzelne Privatpersonen mit ihren Weblogs, Podcasts oder Video-Kanälen an ein breites Publikum wenden (Lit. 17). Für die weitere Theorieentwicklung im Bereich der Online-Kommunikation ist eine Integration bestehender CvK-Modelle wünschenswert sowie eine systematische Untersuchung der Anwendbarkeit herkömmlicher sozialwissenschaftlicher Theorien zu Interaktion, sozialer Unterstützung, Identität, sozialer Beziehung, sozialem Kapital oder sozialer Gruppe und Gemeinschaft auf die Bedingungen der OnlineKommunikation (z. B. Lit. 02).
Literatur 01 Bortz, J.; Döring, N.: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Aufl.). Berlin: Springer, 2006 02 Caplan, S. E.; Turner, J. S.: Bringing theory to research on computer-mediated comforting communication. Computers In Human Behavior, 23 (2), 985-998, 2007 03 Culnan, M. J.; Markus, M. L.: Information technologies. F. M. Jablin (Ed.), Handbook of organizational communication. Newbury Park, CA: Sage, 420-443, 1987 04 Daft, R. L.; Lengel, R. H.: Organizational information requirement, media richness and structural design. Management Science, 32, 554-571, 1986 05 Dennis, A. R.; Fuller, R. M.; Valacich, J. S.: Media, Tasks, And Communication Processes: A Theory of Media Synchronity. MIS Quarterly, 32 (3), 575-600, 2008
430
C 5: Nicola Döring
06 Döring, N.: Sozialpsychologie des Internet. Die Bedeutung des Internet für Kommunikationsprozesse, Identitäten, soziale Beziehungen und Gruppen (2., vollständig überarbeitete und erweiterte Auflage). Göttingen: Hogrefe, 2003 07 Döring, N.: Reduced Social Cues/Cues Filtered Out Approach. N. Krämer, S. Schwan, D. Unz und M. Suckfüll (Hrsg.), Schlüsselbegriffe der Medienpsychologie, 290-297. Stuttgart: Kohlhammer, 2008 08 Döring, N.: Social Identity and Deinviduation (SIDE) Theory. N. Krämer, S. Schwan, D. Unz und M. Suckfüll (Hrsg.), Schlüsselbegriffe der Medienpsychologie, 298-305. Stuttgart: Kohlhammer, 2008 09 Fiedler, G.; Neverla, I.: Suizidforen im Internet. Überblick zum Forschungsstand und weiterführende Perspektiven. Medien & Kommunikationswissenschaft, 51 (3-4), 557-571, 2003 10 Fulk, J.; Schmitz, J.; Steinfield, C. W.: A social influence model of technology use. In J. Fulk: C. W. Steinfield (Eds.), Organizations and communication technology, 117-140. Newbury Park, CA: Sage, 1990 11 Höflich, J.: Technisch vermittelte interpersonale Kommunikation. Grundlagen, organisatorische Medienverwendung, Konstitution „virtueller Gemeinschaften“. Opladen: Westdeutscher Verlag, 1997 12 Kielholz, A.: Online-Kommunikation. Die Psychologie der Neuen Medien für die Berufspraxis. Berlin u. a.: Springer, 2008 13 Kiesler, S.; Siegel, J.; McGuire, T. W.: Social psychological aspects of computer-mediated communication. American Psychologist, 39, 1123-1134, 1984 14 McKenna, K. Y. A.; Bargh, J. A.: Coming out in the age of the Internet: Identity de-marginalization from virtual group participation. Journal of Personality and Social Psychology, 75, 681-694, 1988 15 Mettler-von Meibom, B.: Kommunikation in der Mediengesellschaft. Tendenzen – Gefährdungen – Orientierungen. Berlin: Sigma, 1994 16 Reichwald, R.; Möslein, K.; Sachenbacher, H.; Englberger, H.; Oldenburg, S.: Telekooperation: Verteilte Arbeits- und Organisationsformen. Heidelberg u. a.: Springer, 1998 17 Schmidt, J.: Das neue Netz. Merkmale, Praktiken und Folgen des Web 2.0. Konstanz: UVK, 2011 18 Short, J.; Williams, E.; Christie, B.: The social psychology of telecommunications. London: Wiley, 1976 19 Sheer, V. C.; Chen, L.: Improving media richness theory: A study of interaction goals, message valence, and task complexity in manager-subordinate communication. Management Communication Quarterly, 18 (1), 76-93, 2004 20 Soukup, C.: Building a theory of multimedia CMC: An analysis, critique and integration of computermediated communication theory and research. New Media & Society, 2 (04), 407-426, 2000 21 Thiedeke, U.: Fakten, Fakten, Fakten. Was ist und wozu brauchen wir Virtualität? DIE (Deutsches Institut für Erwachsenenbildung). Zeitschrift für Erwachsenenbildung 3, 21-24, 2001 22 Venkatesh, V.; Morris, M.G.; Davis, F.D.; Davis, G.B.: User Acceptance of Information Technology: Toward a Unified View. MIS Quarterly, 27, 425-478, 2003 23 Venkatesh, V.; Bala, H.: Technology Acceptance Model 3 and a Research Agenda on Interventions. Decision Sciences, 39 (2), 273-315, 2008 24 Walther, J. B.: Interpersonal Effects in Computer-Mediated Interaction: A Relational Perspective. Communication Research, 19, 52-90, 1992 25 Walther, J. B.: Computer-mediated communication: Impersonal, interpersonal and hyperpersonal interaction. Human Communication Research, 23, 1-43, 1996 26 Walther, J. B.; Parks, M. R.: Cues filtered out, cues filtered in: Computer-mediated communication and relationships. M. L. Knapp; J. A. Daly (Eds.), Handbook of interpersonal communication (3. ed.), 529-563. Thousand Oaks, CA: Sage, 2002 27 Walther, J. B.: Computer-Mediated Communication and Virtual Groups: Applications to Interethnic Conflict. Journal of Applied Communication Research, 37 (3), 255-238, 2009 28 Walther, J. B.; Van Der Heide, B.; Hamel, L. M.; Shulman, H. C.: Self-Generated Versus Other-Generated Statements and Impressions in Computer-Mediated Communication: A Test of Warranting Theory Using Facebook. Communication Research, 36 (2), 229-253, 2009 29 Wetztein, T. A.; Dahm, H.; Steinmetz, L.; Lentes, A.; Schampaul, S.; Eckert, R.: Datenreisende. Die Kultur der Computernetze. Opladen: Westdeutscher Verlag, 1995
Harald Reiterer, Florian Geyer
C 6 Mensch-Computer-Interaktion C 6.1 Anspruch und Charakteristika des Forschungsgebiets Die Mensch-Computer Interaktion als interdisziplinäres Forschungsgebiet entwickelt und vermittelt Erkenntnisse, Methoden, Techniken und Vorgehensweisen zur Herstellung gebrauchstauglicher und emotional ansprechender interaktiver Systeme. Die kursiv gesetzten Aspekte der Definition werden im Folgenden näher charakterisiert um den Anspruch der Fachdisziplin zu verdeutlichen. C 6.1.1 Interdisziplinäres Forschungsgebiet Mensch-Computer Interaktion (MCI) versteht sich zwar als Teilgebiet der Informatik, nimmt aber theoretische und methodische Anleihen in einer Reihe von Fachdisziplinen. So bedient sich das Feld an Methoden der Informatik, wie zum Beispiel Techniken des Software Engineering, der Programmierung oder der Computergrafik. Das Feld der Psychologie steuert kognitive Grundlagen der menschlichen Informationsverarbeitung, des Embodiment und Methodik zur Durchführung von Studien bei. Die MCI bedient sich jedoch auch an empirischen Methoden zur Datenerfassung und Analyse aus der Soziologie, oder dem Design (Sketching-Techniken, Designprinzipien) und der Arbeitswissenschaft (Software-Ergonomie). Die besondere Herausforderung innerhalb der Forschungsdisziplin besteht darin, diese vielfältigen Erkenntnisse, Methoden, Techniken und Vorgehensweisen aus sehr unterschiedlichen Disziplinen so zu integrieren, dass sie von Entwicklern auch noch unter pragmatischen Gesichtspunkten in den Gestaltungsprozess eingebracht werden können. C 6.1.2 Gestaltungsprozess Das Gebiet der MCI umfasst die Analyse, Gestaltung und Bewertung von benutzergerechten interaktiven Computeranwendungen. Diesen umfassenden Anspruch wird man dadurch gerecht, dass in Anlehnung an das Software Engineering sogenannte Usability Engineering Lifecycle Modelle entwickelt wurden, die den gesamten Entwicklungsprozess interaktiver Systeme abdecken (Lit. 01). Abb. 1 zeigt diesen iterativen Prozess nach DIN ISO 9241-210 (Lit. 02). Für alle Phasen dieser Modelle werden spezielle Methoden und Techniken der Analyse (Contextual Inquiry, Szenarien, Essential Use Cases), der Gestaltung (Sketches, Prototypen) und der Bewertung (Usability Testing, Fragebögen) empfohlen und der Zusammenhang zwischen diesen Methoden und Techniken definiert (Lit. 03). So wird beispielsweise die Ableitung von Skizzen aus Szenarien und die Überführung dieser in Storyboards beschrieben. Am Ende des iterativen Gestaltungsprozesses steht eine Gestaltungslösung, die zuvor definierte Gestaltungsziele oder Anforderungen erfüllt. C 6.1.3 Gestaltungsziele: gebrauchstauglich (Usability) und emotional ansprechend (User Experience) Das Ziel aller Gestaltungsaktivtäten der MCI ist es schlussendlich interaktive Systeme zu entwickeln, die sich in ihrer Handhabung durch gute Bedienbarkeit und aufgabenangemessene Funktionalität auszeichnen (Usability) und dem Benutzer darüber hinaus während der Benutzung ein emotional ansprechendes Benutzungserlebnis ermöglichen (User Experience).
432
C 6: Harald Reiterer, Florian Geyer
Planung des Prozesses
Gestaltungslösung erfüllt Anforderungen
Verstehen und Festlegen des Nutzungskontexts
Iteration bei Bedarf Festlegen der Nutzungsanforderungen Evaluierung von Gestaltungslösungen
Erarbeitung von Gestaltungslösungen Abb. 1: Typische Phasen von Entwicklungsprozessen in der MCI (in Anlehnung an DIN ISO 9241-210)
C 6.1.4 Gestaltungsgegenstand: Interaktive Systeme Der Gestaltungsgegenstand umfasst eine Vielzahl von Computersystemen, deren gemeinsames Merkmal die interaktive Benutzung darstellt. Neben klassischen Desktop-PCs werden heute mobile Geräte (z. B. Smartphones, TabletPCs), stationäre Großdisplays in Form von Wänden und Tischen (z. B. Tabletops) bis hin zu ubiquitären Systemen (z. B. eCloths) gestaltet. Dabei muss es sich nicht notwendigerweise um eine grafische Benutzeroberfläche handeln, sondern es können unterschiedliche Interaktionsmodalitäten wie Sprache, Gestik oder Haptik zum Einsatz kommen.
C 6.2 MCI und Infowiss Die MCI hat einen direkten Bezug zur Informationswissenschaft. Dieser wird im Folgenden durch die Aspekte der Benutzerfokussierung und der Interdisziplinarität weiter erläutert. C 6.2.1 Benutzerfokussierung Die MCI war mit ihrer klaren Fokussierung auf eine benutzergerechte Gestaltung von interaktiven Systemen (Lit. 04) und deren Mensch-Maschine-Schnittstellen thematisch schon immer eng mit der Informationswissenschaft verknüpft. Die Informationswissenschaft hat die Bedeutung des Benutzers für die Gestaltung von Informationssystemen schon sehr früh erkannt und in das Zentrum ihrer Forschungsarbeiten gestellt. Im dem auf der Theorie informationeller Mehrwerte basierenden informationswissenschaftlichen Ansatz des pragmatischen Primats erklärt Kuhlen (Lit. 05): „Entste-
C 6: Mensch-Computer-Interaktion
433
hen Tauschwerte von Informationen auf der Grundlage der Qualitätsmerkmale von Informationsgütern (Produkten und Dienstleistungen), so können sie nur dann eingelöst bzw. es können über sie nur dann Gewinne erzielt werden, wenn Benutzer in den Produkten einen Gebrauchswert sehen.“ Dieser Gebrauchswert aus Sicht des Benutzers wird von Mehrwerten wie Wissensrekonstruktion, Informationserarbeitung und Informationsaufbereitung bestimmt. Gerade die Erstellung von Mehrwerten durch Informationsaufbereitung zielt ganz explizit auf Forderungen der MCI ab, indem beispielsweise Anpassungsmöglichkeiten an spezielle Benutzerwünsche oder die Gestaltung der Bildschirmoberflächen nach kognitiven Prinzipien gefordert werden sowie der Einsatz von Animationen zur Verdeutlichung komplexer Prozesse oder natürlich-sprachliche Ausgabeformen, um nur einige Beispiele zu nennen (Lit. 05). Das Gestaltungsziel Usability und die Erzielung von Mehrwerten durch Informationsaufbereitung sind somit in vielen Bereichen deckungsgleich. Diese gemeinsame Benutzerorientierung und die Übereinstimmung in wichtigen Gestaltungszielen der beiden Fachdisziplinen hat dazu geführt, dass bereits in den frühen 1990er Jahren Lehrinhalte der MCI in Studiengänge der Informationswissenschaft verpflichtend integriert worden sind (z. B. an der Universität Konstanz im Aufbaustudiengang Informationswissenschaft sowie in den nachfolgenden Bachelor- und Master-Studiengängen Information Engineering bzw. Informatik). Insbesondere die benutzer- und aufgabengerechte Gestaltung von Benutzungsoberflächen von Recherchesystemen zur Erzielung eines Mehrwertes durch Informationsaufbereitung war schon immer ein wesentliches Anliegen der Informationswissenschaft. Neben Erkenntnissen aus der Fachdisziplin MCI spielen hier vor allem auch Erkenntnisse der Fachdisziplin Informationsvisualisierung eine wichtige Rolle (siehe Beitrag B 5 Informationsvisualierung). C 6.2.2 Im Schnittfeld verschiedener Disziplinen Ebenso wie die Informationswissenschaft ist auch die MCI durch eine hohe Interdisziplinarität geprägt. So stellt Kuhlen (Lit. 05) die Informationswissenschaft in den Kontext methodisch verwandter Disziplinen wie die Psychologie/Kognitionswissenschaft, Informatik, Linguistik, Kommunikationswissenschaft, Bibliothekswissenschaft/Wissenschaftliche Dokumentation, Wirtschaftswissenschaft/Wirtschaftsinformatik/Verwaltungswissenschaft. All diesen Disziplinen ist gemeinsam, dass sie sich aus oft sehr unterschiedlichem Blickwinkel mit dem Informationsbegriff beschäftigen. Ebenso verhält es sich in der MCI. Hier steht der Interaktionsbegriff im Zentrum und auch hier gibt es eine Reihe von Fachdisziplinen, die sich mit dem Interaktionsbegriff aus recht unterschiedlichen Blickwinkeln beschäftigen. Die umfassende Theorie der Interaktion in der MCI gibt bis heute nicht – und es kann wohl auch berechtigt daran gezweifelt werden, ob es diese in absehbarer Zeit geben wird bzw. überhaupt geben kann. Vielmehr werden Theorien aus sehr unterschiedlichen Fachdisziplinen herangezogen, um die für die Gestaltung der MCI relevanten Fragestellungen erforschen und erklären zu können. Beispielweise werden die klassischen Theorien der Kognitionswissenschaft über die menschliche Informationsverarbeitung (z. B. GOMS und Keystroke Level Model) und heute verstärkt neue Theorien aus dem Bereich des Embodiment herangezogen, um das Wesen und die Besonderheiten der Interaktion des Menschen mit seiner Umwelt zu beschreiben und zu erklären (Lit. 06). Die Liste der Theorien und Disziplinen, derer sich die MCI zur Erklärung verschiedener gestaltungsrelevanter Phänomene bedient, lässt sich beliebig fortsetzen: Modelle der angewandten Perzeptionsforschung werden angewandt, um Gestaltungsprinzipien für das Interface Design zu gewinnen; Mentale Modelle der Kognitionswissenschaft ermöglichen das Verständnis des Benutzers vom System; Modelle der Verteilten Kognition dagegen erlauben eine Modellierung von Gruppenarbeit (Distributed Cognition); die Activity Theory (Lit. 07) dient dazu, Aufgaben und Prozesse zu beschreiben, während die Information Scent Theorie geeignet ist, um die Art des Explorierens und Findens von Informationen zu erklären. Einen guten Überblick über wichtige Theorien und Modelle und deren Entwicklung in der MCI geben Carroll (Lit. 08) und Rogers (Lit. 09).
434
C 6: Harald Reiterer, Florian Geyer
Neben diesen vor allem aus dem Bereich der Psychologie stammenden Theorien zur Interaktion spielen auch Modelle und Theorien der Informatik (z. B. Formalisierung von Anforderungen durch maschinell bearbeitbare Modelle wie beispielsweise State-Charts), der Linguistik (z. B. Speech-Act Theory zur Modellierung des Kommunikationsverhaltens), der Soziologie (z. B. Common Ground Theory zur qualitativen Datenauswertung von Beobachtungen, Ethnomethodologie) und des Designs (z. B. Design Prozess & Kreativität) eine wichtige Rolle. Diese Theorien und Modelle liefern vor allem den wissenschaftlichen Unterbau für die konstruktiven Gestaltungsmethoden der MCI. Der Stellenwert und Einfluss von Theorien auf die MCI ist seit jeher umstritten (Lit. 09). Neben Vertretern einer soliden theoretischen Fundierung aller wissenschaftlichen Fragestellungen (Lit. 08) und auf solider empirischer Basis stehenden abgeleiteten Gestaltungsempfehlungen (Lit. 10) spielt seit einigen Jahren eine vom Design inspirierte Denkschule eine wichtige Rolle (Lit. 11). Deren Vertreter sehen das Interaktionsdesign von den Vorgehensweisen sowie den genutzten Methoden und Techniken in der Tradition des Produktdesigns und betonen die wichtige Rolle des Designers im konstruktiven Prozess (Lit. 12). Weniger empirisch abgesicherte Forschungsergebnisse von oft sehr artifiziellen Untersuchungen, sondern vielmehr langjährige praktische Erfahrung (design practices) und gute und schlechte Designs in Form von Interaction Design Patterns (siehe Lit. 13) werden als Wissensbasis genutzt. Es wird grundsätzlich bezweifelt, dass die im Rahmen von empirischen Experimenten gewonnenen Ergebnisse aufgrund der notwendigen starken Beschränkung zur Kontrolle des Effektes von praktischer Relevanz sind. Das Feld ist daher von einem Diskurs zwischen Disziplinen, theoretischen Perspektiven und praktischen Ansätzen gekennzeichnet und befindet sich in konstanter Bewegung. Rogers (Lit. 03) bietet eine gute Diskussion über vergangene und aktuelle theoretische und methodische Entwicklungen in der MCI.
C 6.3 Aktuelle Entwicklungen Die im Folgenden beschriebenen aktuellen Entwicklungstrends in der MCI haben großen Einfluss auf den Umgang mit Information. Sie werden daher kurz vorgestellt und im Anschluss werden die sich daraus ergebenden Konsequenzen diskutiert. C 6.3.1 Von der Usability zur User Experience Ursprünglich war das primäre Gestaltungsziel der MCI interaktive Systeme zu entwerfen, deren Benutzung in einem definierten Anwendungskontext effektiv, effizient und mit subjektiver Zufriedenheit durch eine definierte Benutzergruppe erfolgen kann. Hier spiegelt sich der starke Einfluss der Arbeitswissenschaft wider, vor allem der Software-Ergonomie. Hier stehen Bewertungskriterien wie Schädigungsfreiheit, Beeinträchtigungslosigkeit, Zumutbarkeit und Persönlichkeitsförderlichkeit (Lit. 14) bei der Beurteilung von Arbeit im Vordergrund. Diese Prinzipien wurden auf die Gestaltung von Software übertragen, die als eines von vielen Arbeitsmitteln zur Aufgabenerfüllung gesehen wird. Daraus resultiert dann auch die Forderung nach Effektivität (die Software muss die gewünschten Funktionen zur Aufgabenerfüllung aufweisen), nach Effizienz (die Software muss unter möglichst geringen kognitiven und sensormotorischen Aufwand bedienbar sein) und nach subjektiver Zufriedenheit (der Benutzer akzeptiert die Software und hält sie für zumutbar). Alle drei Eigenschaften werden unter dem Qualitätskriterium Usability (offizielle Übersetzung der DIN: Gebrauchstauglichkeit) zusammengefasst: „Ausmaß, in dem ein System, ein Produkt oder eine Dienstleistung durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um festgelegte Ziele effektiv, effizient und zufriedenstellend zu erreichen.“ (Lit. 02) Solange der Einsatz von interaktiven Systemen vor allem auf Anwendungen im Büro- und Produktionsbereich beschränkt war und damit vor allem in der Arbeitswelt der Benutzer verortet war,
C 6: Mensch-Computer-Interaktion
435
ist eine Fixierung auf dieses Qualitätsmerkmal nachvollziehbar. Es fand in der internationalen Normung DIN EN ISO 9241-11 ihren Niederschlag und gilt heute als Stand der Technik und wird in vielen Ausschreibungsunterlagen als zu erfüllender Mindeststandard für Softwaresysteme eingefordert. Durch das Vordringen der interaktiven Computertechnologien in viele Lebensbereiche des Alltags gewann ein neues Gestaltungsziel an Bedeutung, das heute unter dem Begriff User Experience (offizielle Übersetzung der DIN: Benutzererlebnis) gefasst wird. Es erweitert den als Produkteigenschaft definierten Qualitätsbegriff der Usability zu einem Qualitätsbegriff, welcher erst durch den Benutzungsprozess erfahrbar wird. „Wahrnehmungen und Reaktionen einer Person, die aus der tatsächlichen und/oder der erwarteten Benutzung eines Produkts, eines Systems oder einer Dienstleistung resultieren.“ (Lit. 02) Hier spielen vor allem emotionale und ästhetische Aspekte eine wichtige Rolle: So ist nicht nur die Gebrauchstauglichkeit, sondern das holistische Designkonzept eines interaktiven Gerätes, wie die Hardware und Software sowie Verpackung aber auch das Branding und Image des Herstellers sowie dessen Serviceleistungen von Bedeutung für den kommerziellen Erfolg. Die subjektiven Empfindungen wie die Freude, ein Produkt zu benutzen, oder die Identifizierung mit Wertevorstellungen und Lebensstil sind weitere Faktoren, welche die User Experience beeinflussen. Dieses deutlich umfassendere Verständnis eines zu erreichenden Gestaltungsziels bewirkt auch, dass neben klassischen Methoden und Techniken der Usability Engineering nun verstärkt neue Methoden des User Experience in den Blickpunkt rücken. So können beispielsweise die Datenerhebung und die Erfassung des Nutzungskontexts im direkten (auch privaten) Umfeld des Benutzers durchgeführt werden (Lit. 01). Zudem werden Methoden wie „Cultural Probes“ oder „Technical Probes“ eingesetzt, bei denen der Benutzer selbst Bedürfnisse und Erfahrungen dokumentieren kann. Die Einbindung der subjektiven Empfindungen des Benutzers ist jedoch nicht nur in der Datenerhebungsphase, sondern auch in der Gestaltungsphase möglich. Im „Participatory Design“ werden Benutzer selbst bei der Gestaltung von interaktiven Produkten beteiligt. Langzeitstudien oder Tagebuchstudien ermöglichen zudem die Entwicklung von Erfahrungen mit Produkten über einen längeren Zeitraum zu beobachten. Auch in der Evaluationsphase wurden neue Methoden zur Messung von emotionalen, ästhetischen, hedonischen und pragmatischen Aspekten (Lit. 15) eingeführt (z. B. AttrakDiff Fragebogen). C 6.3.2 Von der Evaluation zur Gestaltung Ursprünglich waren die Methoden der MCI sehr stark von Verfahren zur Evaluation bestehender interaktiver Systeme dominiert. Das reichhaltige Instrumentarium der Psychologie zur Durchführung von Studien wurde oft in sehr pragmatischer Weise an die Bedürfnisse der MCI angepasst. Eine Fülle von Evaluationsleitfäden für Usability-Experten, wie beispielsweise EVADIS (Lit. 16) oder die Heuristic Evaluation (Lit. 17) wurden entwickelt. Daneben spielten Fragebögen für Benutzer zur Beurteilung der software-ergonomischen Qualität eine wichtige Rolle, wie beispielsweise QUIS (http://lap.umd.edu/quis/) oder der Fragebogen ISONORM 9241 (Lit. 18). Das Usability Testing (Lit. 10) im Labor mit realen Benutzer und vordefinierten Testaufgaben erlaubt unter kontrollierten Bedingungen eine systematische Überprüfung bestimmter Qualitätsmerkmale und Produkteigenschaften und entwickelte sich für viele Jahre zum Gold Standard der MCI-Methoden. Grundlegender Nachteil dieser auf vor allem auf bereits existierende interaktive Systeme fixierten Methoden ist, dass sie im Entwicklungsprozess erst relativ spät zum Einsatz kommen und daher vielfach schon Designentscheidungen gefallen sind, deren Korrektur mit sehr hohen Aufwand an Kosten und Zeit verbunden sind. Dieser Umstand führte vor allem in den späten 1990er Jahren zu einer stärkeren Fokussierung auf die frühen Phasen der Gestaltung. Es wurden in Anlehnung an den Software Engineering Lifecycle sogenannte Usability Engineering Lifecycles entwickelt (Lit. 19), die schon bei der Formulierung der Qualitätsmerkmale eines interaktiven Produktes ansetzten. So wird ganz explizit die Festschreibung von Usability-Zielen und daraus abgeleiteten Usability Requirements gefordert.
436
C 6: Harald Reiterer, Florian Geyer
Es wurde ein ganzer Kanon an Methoden entwickelt, der den Usability Engineer bzw. Interaction Designer bei der Erhebung derartiger Anforderungen unterstützt, wie beispielsweise Contextual Inquiry (Lit. 20), Personas (Lit. 21), Scenarios (Lit. 22) und Essential Use Cases (Lit. 23). Für die konkrete Gestaltung der Benutzungsoberflächen wurden Sketching-Techniken und PrototypingTechniken (Lit. 24) in den Entwicklungsprozess integriert. Einen aktuellen und sehr umfassenden Lifecycle zur Gestaltung der User Experience findet sich in Hartson und Pyla (Lit. 01). Durch diese frühe und umfassende Abdeckung des gesamten Entwicklungsprozesses gepaart mit begleitenden organisatorischen Maßnahmen (z. B. Verankerung der Rollen von User Experience Designer in Entwicklungsprojekten, Anpassung von Vorgehensmodellen in Richtung iterative und Prototyping-orientierte Entwicklung) kann sichergestellt werden, dass Entwicklungsabteilungen in der Lage sind, projektübergreifend qualitativ gleichbleibende und den Anforderungen der Usability und User Experience genügende interaktive Systeme zu entwickeln. Der software-ergonomische Reifegrad interaktiver Anwendungen hat sich dadurch in den letzten Jahren sowohl im ConsumerBereich als auch in der Arbeitswelt spürbar verbessert. Gleichzeitig hat sich aber auch die Erwartungshaltung der Benutzer an die Qualität der Interaktion, vor allem durch überzeugende interaktive Produkte im Consumer Bereich – der Erfolg von Produkten wie iPod, iPhone und iPad von Apple mögen hier stellvertretend genannt sein – dramatisch verändert. Wer heute nicht in der Lage ist, diesen Anforderungen bei der Entwicklung von interaktiven Produkten und Dienstleistungen methodisch, technisch und organisatorisch umzusetzen, läuft Gefahr, als kommerzielles Produkt oder Serviceleistung auf massive Akzeptanzprobleme zu stoßen. C 6.3.3 Vom GUI zum NUI Die Ende der 1970er Jahre entwickelte graphische Benutzungsoberfläche des Xerox Star Computers (Lit. 25), die auf der Desktop-Metapher basiert und neben Tastatur die Computermaus als Eingabeinstrument nutzt, setzte für Jahrzehnte den Standard in der MCI. Die unter dem Begriff Graphical User Interface (GUI) bekannte Form der Benutzungsoberfläche, oft auch als WIMP (Windows Icon Menus und Pointing)-Paradigma bezeichnet, bedeutete eine umfassende Demokratisierung der Computernutzung. Waren die bis dahin dominierenden kommandosprachenbasierten Benutzungsoberflächen bzw. bildschirmmaskenbasierten Terminals der Bedienung durch geübte Expertenbenutzer vorbehalten, ermöglichte die GUI in Kombination mit leistungsfähiger Hardware (vor allem grafikfähige Displays und immer leistungsfähigere Grafik-Karten, gepaart mit leistungsfähigen Mikroprozessoren) die umfassende Nutzung durch ungeübte Gelegenheitsbenutzer, die vor allem Experten in der Anwendungsdomäne waren. Gerade der Zugang zur Information wurde damit erstmals für einen sehr großen Benutzerkreis möglich. Nicht mehr Fachexperten in Rechercheabteilungen (sogenannte Information Broker) waren alleinige Herren des Zugangs zur Information, sondern immer mehr Fachabteilungen konnten dies nun selbst an ihren Arbeitsplätzen erledigen. Die durch gesteigerte Usability immer einfacher werdende Bedienung des Arbeitsmittels Computer machte dies möglich. Als nächste Generation in der Genealogie der Benutzungsoberflächen entwickelten sich die sogenannten Natürlichen Benutzungsoberflächen (Natural User Interface, kurz NUI). Sie führen das bereits mit dem GUI entwickelte direkt-manipulative Interaktionsparadigma (Lit. 26) konsequent weiter, in dem sie die eigentlichen Objekte der Interaktion (z. B. die zu manipulierenden Objekte auf der Bildschirmoberfläche) unmittelbar berührbar und manipulierbar machen. Grundgedanke ist die Übertragung von vertrauten Prinzipien der Interaktion mit Objekten des Alltags (z. B. unser vereinfachtes Verständnis der physikalischen Gesetzmäßigkeiten und der sich daraus ergebenden Möglichkeiten und Beschränkungen der Interaktion mit Objekten, wie beispielsweise Trägheit, Masse, Reibung), der Bewegung und Koordination unseres Körpers im Raum (z. B. unsere sensormotorischen Fähigkeiten der Koordination unserer Gliedmaßen sowie die Art und Weise, wie wir im Raum navigieren) sowie der sozialen Kommunikation (z. B. unsere sozialen Protokolle der nonver-
C 6: Mensch-Computer-Interaktion
437
balen Kommunikation) auf die Gestaltung der Mensch-Computer-Interaktion. Theoretische Grundlagen bilden die Theorien des Embodiment (Lit. 06) sowie die Grundideen der Reality-based Interaction (Lit. 27). Augenscheinlichste Ergebnisse dieser neuen Entwicklung sind multitouch-fähige Smartphones und TabletPCs sowie multitouch-fähige Tabletops oder gestengesteuerte Spielkonsolen. Aber auch stiftbasierte Eingabetechniken in Kombination mit interaktiven Displays sind sehr erfolgreich. Durch die Kombination einer Reihe von im Vergleich zur herkömmlichen Tastatur und Maus als natürlich empfundenen Eingabemodalitäten wird versucht der Interaktion eine neue Qualität zu geben. Diese Entwicklung folgt der bahnbrechenden Vision Ubiquitous Computing von Mark Weiser (Lit. 28), der allgegenwärtigen Verfügbarkeit von Computerleistungen in unterschiedlichsten Formfaktoren bei gleichzeitiger Vereinfachung der Interaktion: „Ubiquitous computers, in contrast, reside in the human world and pose no barrier to personal interactions.“ (Lit. 28). Diese neue Generation von Benutzerschnittstellen, auch oft als „post-WIMP“ Ära bezeichnet, wird zu neuen und besser in natürliche Arbeitsabläufe integrierten Arbeitsumgebungen führen (Lit. 29). C 6.3.4 Konsequenzen der Entwicklungen für den Umgang mit Information Die zuvor beschriebenen aktuellen Entwicklungen in der Fachdisziplin MCI führen dazu, dass sich unsere Gewohnheiten, uns zu informieren, und die Art und Weise, wie wir Entscheidungen fällen, in den letzten Jahren drastisch verändert haben. Die heute heranwachsende Twitter- und FacebookGeneration – oft auch als Digital Natives bezeichnet – hat ein völlig neues Verständnis des interaktiven Umgangs mit digitalen Informationen entwickelt. Auch haben Suchmaschinen wie Google das Rechercheverhalten dramatisch verändert. In der Wahrnehmung vieler (junger) Zeitgenossen sind Informationen nur noch existent, wenn sie über eine Suchmaschine auffindbar sind. Andererseits kann potenziell jedermann zum Anwachsen der weltweit verfügbaren und über Suchmaschinen recherchierbaren Information beitragen. Nicht nur über Twitter-, Blog-, Facebook- oder Wiki-Einträge schwillt der Strom digital verfügbarer Information ununterbrochen an. Gerade in den letzten Jahren haben Katastrophen (z. B. Vulkanausbrüche, Erdbeben, Tsunami, Krisen von Kernreaktoren), dramatische politische Entwicklungen (z. B. revolutionäre Aufstände), aber auch Plagiatsjäger in der Wissenschaft (z. B. Guttenplag Wiki) eindrucksvoll gezeigt, mit welcher Effizienz Information auf technischem Wege verbreitet werden können und welch weitreichende Effekte die Interaktion mit Information erzielen kann. Unabhängig von Ort und Zeit können wir uns heute mittels einer immer differenzierter werdenden Art von interaktiven Geräten Zugang zu den Inhalten großer digitaler „Informationswelten“ verschaffen. Beispiele für derartige Informationswelten sind das Web mit seiner Fülle an sehr heterogenen Informationen oder umfangreichen Online-Produktkatalogen, digitale Bibliotheken zu ausgewählten Themengebieten wie Finanzdaten, naturwissenschaftlichen Beobachtungsdaten, demografischen oder geografischen Daten, aber auch unsere uns stetig begleitende Personal Cloud. Die Vielfalt an interaktiven Geräten, die uns einen Zugriff auf digitale Informationswelten erlauben und die natürlichere Form der Interaktion, haben maßgeblichen Einfluss auf die Art der Informationsbeschaffung. Ob dies das mobile Smartphone ist, das unterwegs den Zugriff auf Information ermöglicht, oder der ultraleichte Tablet-PC, dessen Touchscreen Gestensprache versteht und als Lesegerät zur Verfügung steht. Berührungsempfindliche Tische und Wanddisplays eröffnen in Bibliotheken, Museen oder Messen Zugang zu digitalen Inhalten und bieten dabei gleichzeitig ganz neue Formen des Miteinanders beim Erkunden dieser digitalen Informationswelten. Schließlich ermöglichen große hochauflösende Wanddisplays in Kombination mit Tabletops und mobilen Endgeräten in Leitständen oder Forschungs- beziehungsweise Konstruktionslabors einerseits eine neue Fülle der Informationsdarstellung, andererseits eine völlig neue Qualität beim gemeinsamen Erkunden und Interpretieren der gebotenen Inhalte. Diese Entwicklung hat nicht nur umfassende Auswirkungen auf den privaten Umgang mit Information, auch der Berufsalltag hat sich unter den beschriebenen technologischen Entwicklun-
438
C 6: Harald Reiterer, Florian Geyer
gen stark verändert. Die Vielzahl an interaktiven und vernetzten Geräten ermöglicht auch im beruflichen Umfeld ein allgegenwärtiges Interagieren mit Information. Egal ob im Büro oder zuhause, auf Dienstreise oder auf dem Weg zur Arbeit, die allgegenwärtige Verfügbarkeit an beruflicher Information verändert unser Kommunikationsverhalten und die Art und Weise, wie wir Entscheidungen treffen. Als moderner Bewohner einer Vielzahl von digitalen Informationswelten hat man gelernt, sich jederzeit über eine Reihe von digitalen Kanälen zu informieren und diese Informationen in seine Beurteilung von Personen und Sachverhalten einfließen zu lassen. Benutzer beurteilen die Eignung dieser Informationstechnologien vor allem nach der Qualität der Interaktion mit ihnen. Intuitiv – schnell – freudvoll lauten die Eigenschaften, die häufig über Erfolg oder Misserfolg entscheiden. Durch die verstärkte Berücksichtigung von Gestaltungsprinzipien sowie Methoden und Techniken zur Steigerung der User Experience hat sich die Qualität der Interaktion in den letzten Jahren konsequent in diese Richtung entwickelt. Die technischen und wissenschaftlichen Entwicklungen der Informatik haben zu der oben beschriebenen Entwicklung einen vielfältigen und maßgeblichen Beitrag geleistet. Dass ein allgegenwärtiger interaktiver Zugriff auf große und komplexe Informationswelten für viele – auch technisch wenig affine Menschen – einfach und komfortabel möglich wurde, ist auch ein wesentlicher Verdienst der Fachdisziplin Mensch-Computer-Interaktion. Interaktive Systeme – ob als kleines mobiles Gerät, ob als großer interaktiver Tisch oder gar als Wanddisplay – folgen innovativen Interaktionskonzepten, die ganz neuen Benutzergruppen den Zugang zu Informationswelten eröffnen. Beispielsweise realitätsbasierte Benutzerschnittstellen, die unsere Erfahrungen aus der Interaktion mit Gegenständen des Alltags auf die Interaktion mit berührungsempfindlichen Displays übertragen. Oder neue Formen der Informationspräsentation mit zoombaren Informationslandschaften, die einem strikten objektorientierten Paradigma folgen und in der Granularität der Informationsdarstellung sowie bei der angebotenen Funktionalität auf die benutzerspezifischen Bedürfnisse Rücksicht nehmen können. Vielfältige neue Eingabemodalitäten und Eingabegeräte wie beispielsweise 2D-Gesten für berührungsempfindliche Displays, 3DGesten für die freie Interaktion im Raum, digitale Stifte in Kombination mit Displays bzw. ePaper oder Spracheingabe eröffnen differenzierte Formen der Interaktion. All diese Eingabemodalitäten können – jeweils in Abhängigkeit vom konkreten Benutzer und dessen Aufgabenkontext – alternativ oder in Kombination genutzt werden. Die Entwicklung von neuen Visualisierungen, die in der Lage sind, neben real-weltlichen 2D- und 3D-Objekten auch abstrakte Informationen auf vielfältige Art darzustellen, ermöglichen die visuelle Verarbeitung von Informationsmengen, wie dies früher nicht möglich war. Dadurch werden völlig neue Einsichten in die oft sehr komplexen Zusammenhänge und Inhalte der Informationswelten möglich. Dies hat gerade für Entscheidungsprozesse vielfältige Implikationen. Verfügbare mächtige Software Frameworks, die in der Lage sind, eine Vielzahl von oft sehr großen stationären und auch mobilen Displays gleichzeitig zu bespielen und in Echtzeit vielfältige Informationsdarstellungen zu ermöglichen, bieten die technologischen Voraussetzungen für die Entwicklung von Multidisplay-Umgebungen. Derartige interaktive Räume bieten den Benutzern neben der schieren Größe zur Darstellung vieler Informationen vor allem die Möglichkeit, Inhalte auf verschiedenartige Weise zu vergleichen. Neben der Einzelnutzung spielt dabei heute vor allem auch die kooperative Nutzung von Information eine immer bedeutsamere Rolle. Vom Einsatzleitstand zur Überwachung von Kraftwerken oder Verkehrszentralen bis hin zu gemeinsamen Recherchen in digitalen Bibliotheken oder Produktkatalogen entstehen immer mehr Anwendungsszenarien, bei denen mehrere Benutzer gleichberechtigt interagieren, kooperieren und entscheiden wollen oder müssen (Lit. 30).
C 6.4 Fazit Das Forschungsgebiet MCI ist aufgrund konstanter technischer Innovationen und seines interdisziplinären Charakters durch einen steten Wandel gekennzeichnet. Dabei entwickelte sich die Diszip-
C 6: Mensch-Computer-Interaktion
439
lin theoretisch, methodisch und technisch weiter, um wandelnden Bedürfnissen und Ansprüchen gerecht zu werden. Diese Entwicklungen haben ihrerseits wiederum einen starken Einfluss auf den menschlichen Umgang mit Informationen im privaten sowie beruflichen Umfeld. Somit haben die Ergebnisse der MCI-Forschung nicht nur einen starken Einfluss auf die Informationswissenschaft, sondern auch auf eine Vielzahl von anderen Forschungsdisziplinen (z. B. Kommunikationswissenschaft, Soziologie, Psychologie).
Literatur 01 Hartson, Rex; Pyla, Pardha S.: The UX Book – Process and Guidelines for Ensuring a Quality User Experience. 1. Aufl., San Francisco, USA: Morgan Kaufmann, 2012 02 ISO 9241-210:2010. Ergonomie der Mensch-System-Interaktion – Teil 210: Prozess zur Gestaltung gebrauchstauglicher interaktiver Systeme. International Organization for Standardization, Geneva, Switzerland, 2011 03 Rogers, Yvonne; Sharp, Helen; Preece, Jenny: Interaction Design – Beyond Human-Computer Interaction. 3. Aufl., Chichester, UK: John Wiley & Sons, 2011 04 Preim, Bernhard; Dachselt, Raimund: Interaktive Systeme – Band 1: Grundlagen, Graphical User Interfaces, Informationsvisualisierung. 2. Aufl., Heidelberg: Springer, 2010 05 Kuhlen, Rainer: Informationsmarkt – Chancen und Risiken der Kommerzialisierung von Wissen. Schriften zur Informationswissenschaft Vol. 15. Konstanz: Universitätsverlag Konstanz, 1995 06 Dourish, Paul: Where the Action is – The Foundations of Embodied Interaction. 1. Aufl., Cambridge, USA: MIT Press, 2004 07 Kaptelinin, Victor; Nardi, Bonnie A.: Acting with Technology – Activity Theory and Interaction Design. 1. Aufl., Cambridge, USA: MIT Press, 2006 08 Carroll, John M. (Edt.): HCI Models, Theories, and Frameworks – Toward a Multidisciplinary Science. 1. Aufl., Oxford: Elsevier, 2003 09 Rogers, Yvonne: New Theoretical Approaches for Human-Computer Interaction. Annual Review of Information Science and Technology. Vol. 38 Iss. 1., 87-143, 2004 10 Lazar, Jonathan; Feng, Jinjuan; Hochheiser, Harry: Research Methods in Human-Computer Interaction. 1. Aufl., Chichester, UK: John Wiley & Sons, 2010 11 Winograd, Terry (Edt.): Bringing Design to Software. 2. Aufl., Reading, USA: Addison-Wesley, 1996 12 Löwgren, Jonas; Stolterman, Erik: Thoughtful Interaction Design – A Design Perspective on Information Technology. 1. Aufl., Cambridge, USA: MIT Press, 2004 13 Borchers, Jan: A Pattern Approach to Interaction Design. 1. Aufl., Chichester, UK: John Wiley & Sons, 2001 14 Spinas, P., Troy, N.; Ulich, E.: Leitfaden zur Einführung und Gestaltung von Arbeit mit Bildschirmsystemen. 1. Aufl. München: CW Publikationen, 1983 15 Hassenzahl, Marc: Experience Design – Technology for All the Right Reasons. Synthesis Lectures on Human-Centered Informatics. 1. Aufl., San Rafael, USA: Morgan & Claypool, 2010 16 Oppermann, Reinhard; Murchner, Bernd; Koch, Manfred; Reiterer, Harald: Softwareergonomische Evaluation – Der Leitfaden EVADIS II. 2. Aufl., Berlin, New York: Walter de Gruyter, 1992 17 Nielsen, Jakob; Mack, Robert L.: Usability Inspection Methods. 1. Aufl., New York: John Wiley & Sons, 1994 18 Prümper, Jochen: Der Benutzungsfragebogen ISONORM 9241/10: Ergebnisse zur Reliabilität und Validität. R. Litkowsky; B. M. Velichkowsky; W. Wünschmann: Software-Ergonomie '97: Usability Engineering: Integration von Mensch-Computer-Interaktion und Softwareentwicklung. Stuttgart: Teubner, 1997 19 Mayhew, Deborah J.: The Usability Engineering Lifecycle – A Practitioner‘s Handbook for User Interface Design. 1. Aufl., San Francisco, USA: Morgan Kaufmann, 1999 20 Beyer, Hugh; Holtzblatt, Karen: Contextual Design – Defining Customer-Centered Systems. 1. Aufl., San Francisco, USA: Morgan Kaufmann, 1997
440
C 6: Harald Reiterer, Florian Geyer
21 Cooper, Alan: The inmates are running the asylum – Why High-tech Products Drive Us Crazy and How to Restore the Sanity. 1 Aufl., Indianapolis, USA: SAMS/Macmillan, 2004 22 Rosson, Mary Beth; Carroll, John M.: Usability Engineering – Scenario-Based Development of HumanComputer Interaction. 1. Aufl., San Francisco, USA: Morgan Kaufmann, 2001 23 Constantine, Larry L.; Lockwood, Lucy A. D.: Software for Use – A Practical Guide to the Models and Methods of Usage-centred Design. 1. Aufl., Reading, USA: Addison Wesley, 1999 24 Buxton, Bill: Sketching User Experiences – Getting the Design Right and the Right Design. 1. Aufl., San Francisco, USA: Morgan Kaufmann, 2007 25 Smith, David C.; Irby, Charles; Kimball, Ralph; Verplank, Bill; Harslem, Eric: Designing the Star User Interface. Byte Vol. 7 Iss. 2, 242-282, 1982 26 Shneiderman, Ben: Direct manipulation: a step beyond programming languages. IEEE Computer Vol. 16 Iss. 8., 57-69, 1983 27 Jacob, Robert J.K.; Girouard, Audrey; Hirshfield, Leanne M.; Horn, Michael S.; Shaer, Orit; Solovey, Erin T.; Zigelbaum, Jamie: Reality-based interaction: a framework for post-WIMP interfaces. Proceedings of the twenty-sixth annual SIGCHI conference on Human factors in computing systems (CHI ‚08). New York, USA: ACM Press, 2008 28 Weiser, Mark: The Computer for the 21st Century. Scientific American Special Issue on Communications, Computers, and Networks, 1991 29 Kaptelinin, Victor; Czerwinski, Mary: Beyond the Desktop Metaphor – Designing Integrated Digital Work Environments. 1. Aufl., Cambridge, USA: MIT Press, 2007 30 Hearst, Marti A.: Search User Interfaces. 1. Aufl., New York, USA: Cambridge University Press, 2009
Steffen Staab
C 7 Web Science C 7.1 Einleitung Das World Wide Web ist ein Informationsmedium, das von seinen Benutzern gleichermaßen und quasi gleichzeitig geschaffen, konsumiert und modifiziert wird, mit der Konsequenz, dass dabei die Grenzen zwischen Informationskonsum, -produktion und -modifikation verwischt werden. Dies gilt ansatzweise bereits für angebotsorientierte Web-Seiten, die oft gar nicht statisch sind, sondern permanent weiterentwickelt und weitergeschrieben werden. Noch stärker gilt diese Aussage für dynamischere Inhalte wie Wiki-Seiten, Seiten in sozialen Online-Netzwerken, Webseiten mit Empfehlungsfunktionen, Like-Buttons, Kommentarfeldern, Diskussionsforen und ähnlichen Optionen. Alle diese laden den Benutzer ein, die Inhalte einerseits zu ergänzen, andererseits ihr Aussehen und ihre präsentierten Inhalte aufgrund solcher Benutzerinteraktionen anzupassen. Darüber hinaus ist Konsum im World Wide Web auch Produktion und Modifikation, da die Auswahl des Konsumenten nicht nur lokale Änderungen an einer einzelnen Webseite zu Folge hat, sondern auch über die lokale Seite hinaus im globalen Web die Präsentation von Inhalten beeinflusst. Besonders offensichtlich ist dieser globale Zusammenhang zwischen Konsum, Produktion und Modifikation, wenn in Suchmaschinen die Ergebnisauswahl eines Nutzers die Suchergebnisse aller anderen Nutzer beeinflusst (Lit. 01). Subtiler, aber gleichzeitig viel weitreichender ist aber die Tatsache, dass die Vernetzung von Informationsdiensten, wie zum Beispiel von Suchmaschinen, sozialen Netzwerken, Werbediensten und Betriebssystemen auf mobilen Endgeräten dazu führt, dass die Aktivitäten einer Person auf einer Webseite zur Modifikation der präsentierten Inhalte und Optionen auf anderen Webseiten führen (Lit. 02). Benutzer des Webs sind gleichzeitig Konsumenten, Produzenten und Modifikatoren von Information und beeinflussen dadurch die Informationspräsentation und die Informationssichten anderer. Daraus folgt, dass Information genauso wenig eine statische Komponente ist, wie es die WebPlattformen und -Werkzeuge sind, die eingesetzt werden, um Information zu erzeugen und die Information in einen Kontext stellen, der ebenso auf die Interpretation des Informationskonsumenten einwirkt. Dann aber lassen sich Informationszugriff, -verwaltung, und -kontextualisierung nicht mehr statisch beschreiben, sondern es bedarf einer systemischen Sichtweise, die untersucht, wie das Web durch seine Benutzung mittels dieser Plattformen und Werkzeuge von seinen Benutzern und seinen Betreibern weiterentwickelt wird. Eine solche Sicht kann aber keine rein technische sein, da die Benutzer durch Wahrgenommenes in ihrem Verhalten beeinflusst werden, mit dem sie neue Information konsumieren, produzieren und modifizieren. Dieses Verhalten ist ebenso durch die Kognition des Benutzers geprägt wie durch seine Affekte, seine Sozialisierung sowie durch positive und negative Anreize wie etwa ökonomischen oder sozialen Gewinn. Diese Beeinflussung bleibt nicht rein zufällig, so wie in traditionellen Medien das Vorwissen und die Ansichten der Leser die Interpretation der Information bestimmen, sondern es entstehen systembedingte Strömungen und Entwicklungen, die den Interessen der Benutzer, der Betreiber oder der Gesellschaft zuwiderlaufen oder entgegenkommen können. Berners-Lee et al. (Lit. 03) beschreiben diese Zusammenhänge als „science of decentralised information structures“. Solche systembedingten Mechanismen sind bisher wenig untersucht. Sehr selten werden diese Mechanismen quantitativ beschrieben, oft ist das auch untersuchungsbedingt nicht möglich, wenn sich Interpretationseffekte mit reichhaltigen soziologischen und psychologischen Effekten vermischen. Zunehmend werden Modelle auch auf verschiedenen Granularitätsstufen entwickelt, die systemische Zusammenhänge von Webkonsum, -produktion und -modifikation beschreiben. Da es um die Verarbeitung und Interpretation von Information geht sowie um die Beeinflussung menschlichen Verhaltens, spielen Effekte eine Rolle, die in verschiedenen wissenschaftlichen Disziplinen untersucht werden. Durch die zentrale Rolle, die diese Effekte in Bezug auf Wirkung und die Rück-
442
C 7: Steffen Staab
kopplung innerhalb des Systems einnehmen, ist ein multi- und interdisziplinärer Zugang zur Beschreibung und Modellierung des Systems World Wide Web und seiner Akteure unerlässlich. Abbildung 1 fasst zusammen, was Web Science abdecken muss: Viele Akteure interagieren auf der individuellen Ebene in Mikrointeraktionen. Einerseits spiegeln diese Mikrointeraktionen Aspekte des Benutzerverhaltens wider, wie es durch seine kognitiven, sozialen und ökonomischen Gegebenheiten situiert ist. Andererseits reflektieren diese Mikrointeraktionen auch die Beschränkungen, die vorhandene Daten und Informationen, Anwendungen, Protokolle und Governance des Webs dem Benutzer auferlegen. Beides zusammen führt in der Masse der Benutzer zu Makroeffekten. Definition: Web Science ist die soziotechnische Wissenschaft, die untersucht, wie (i) neue oder vorhandene Technologien, (ii) Regulierungen im Web und durch Webtechnologien oder Webanwendungen und (iii) Aktivitäten der Webbenutzer das Web formen und verändern und wie umgekehrt das Web auf die Akteure zurückwirkt.
Das Ziel von Web Science ist es, Mikrointeraktionen und Makroeffekte zu beschreiben und zu verstehen. Idealerweise erfolgt dieses Verständnis durch quantitativ beschreibende Modelle; wo das nicht möglich ist, zumindest durch qualitative Aussagen über den Zusammenhang zwischen Mikro- und Makroebene.
Daten & Informationen Emotion
Verhalten
Protokolle
Governance
Anwendungen
Sozialisation Wissen Kognition
Produzieren Konsumieren
Beobachtbare MikroInteraktionen im Web
Beobachtbare MakroEffekte im Web
WWW
Abb. 1: Mikrointeraktionen führen zu Makroeffekten im Web. Web Science strebt an diese Zusammenhänge zu verstehen und zu nutzen (Quelle: URL1)
Im Folgenden wird beispielhaft dargelegt, wie verschiedene Disziplinen das System Web und damit Informationskonsum, -produktion und -modifikation prägen und welche Schwierigkeiten und erste Ansätze es gibt, diese zu modellieren.
C 7: Web Science
443
C 7.2 Webregulierung (Web Governance) Die unmittelbarste Form der Beeinflussung von Benutzerverhalten ist durch Regulierung gegeben. Im Web und im Internet wird hierbei oft von Web bzw. Internet Governance geredet: „Internet governance is the development and application by Governments, the private sector and civil society, in their respective roles, of shared principles, norms, rules, decision-making procedures, and programmes that shape the evolution and use of the Internet.“ (Lit. 04) Im Web gilt natürlich auch die klassische Regulierung durch geltende Gesetze. So betreffen Paragraphen des Bürgerlichen Gesetzbuches, das Verträge behandelt, prinzipiell auch den Abschluss von Verträgen im Web, wenn die Vertragspartner deutschem Recht unterliegen. Allerdings lassen sich Gesetze im grenzüberschreitenden World Wide Web oft nur schwierig, manchmal nur teilweise und manchmal auch gar nicht durchsetzen, was vor allem beim Urheberrecht oft deutlich wird. Außerdem verbleibt natürlich die Subsumtion zu leisten, anhand derer die Anwendbarkeit einer Rechtsnorm auf eine Situation im Web beurteilt werden muss, was oft nur nach erfolgter Rechtsprechung durch ein übergeordnetes Gericht möglich ist. Neben den klassischen nationalen Gesetze und zwischenstaatlichen Vereinbarungen treten im Web grundlegend weitere Regulierungsmechanismen: Die Regulierung der Web-Infrastruktur Die Regulierung der Web-Infrastruktur, vor allem des Internets, durch operative und standardisierende Institutionen wie ICANN, IETF, W3C und ähnliche: Hier werden technische Standards vereinbart, die unmittelbar die Handhabbarkeit von Webseiten und -anwendungen betreffen. Zudem verwaltet ICANN die Addressangaben im WWW, z. B. vergibt sie Top-Level-Internetadressen, wie .name, .org etc. Standardisierungen der Netzwerkprotokolle sind ebenso nötig, wie Kollaboration unter den Internet-Providern. Am Deutlichsten wird ein Fehlen der Kollaboration durch (un)absichtliche Falschkonfiguration. Zum Beispiel führten falsche Angaben der pakistanischen Telekom zur globalen Nichterreichbarkeit von YouTube. Dies wird auch als IP-Hijacking beschrieben (URL8). Die spezifische Wettbewerbssituation im Bereich der (mobilen) Internet-Provider: Indirekt werden auf diese Weise auch die Verhaltensweisen der Benutzer verändert. Zum Beispiel führen die im Vergleich zu Deutschland hohen Pauschalgebühren (Daten-Flat-Rates) für mobilen Datenverkehr in Brasilien im Jahr 2012 zu anderen Benutzungsmustern durch die brasilianische Bevölkerung als in Deutschland im gleichen Zeitraum. Allgemein ist die Infrastruktur in den sich entwickelnden Ländern aufgrund der geringer ausgeprägten Netzwerkexternalitäten oft weniger gut ausgebaut und teurer als in den Industrieländern mit entsprechenden Folgen einer geringeren Verfügbarkeit des Webs für die Bevölkerung (vgl. Lit. 05). Die Regulierung der Web-Benutzer durch Software (vgl. Lit. 06, Lit. 07) Die Software, die verwendet wird (bisweilen als Teil einer dedizierten Hardware), reguliert auf verschiedenen Wegen den Konsum-Produktions-Zyklus. Der Regulierungsaspekt wird unten weiter ausgeführt. C 7.2.1 Regulierung bzw. Standardisierung durch monopol- und oligopolartige Strukturen Die Regulierung durch eine Standardisierungsorganisation wie das W3C führt nicht automatisch zum Erfolg einer Webtechnologie. Ein gutes Beispiel stellt hier die Verbreitung von Metadaten in Webseiten dar. Mit der Semantic-Web-Sprache RDF lassen sich Metadaten beschreiben. Eine sprunghaft gestiegene, starke Verbreitung solcher Metadaten in Webseiten erfolgte aber nicht bereits mit der Standardisierung von RDF durch das W3C. Erst durch die Übereinkunft von Google,
444
C 7: Steffen Staab
Bing (Microsoft) und Yandex, Metadaten für die Präsentation von Suchmaschinenergebnissen zu nutzen (vgl. auch URL2 und Lit. 08), wuchs die Motivation für Webseitenbetreiber, Metadaten als Teil ihrer Strategie für die Suchmaschinenoptimierung zur Verfügung zu stellen, was die entsprechend umfangreiche Verbreitung von Metadaten zur Folge hat. C 7.2.2 Regulierung durch dedizierte Umgebungen Auch wenn es im Web an einigen Stellen monopol- oder oligopolartige Strukturen gibt – Suchmaschinen nehmen in vielen Ländern eine solche Stelle ein – so bleibt das Web doch eine offene Infrastruktur, in der auch ein Unternehmen mit heute beherrschender Position im Suchmaschinenmarkt wie Google morgen potenziell neue Wettbewerber haben könnte. Zittrain (Lit. 07) beschreibt diese Offenheit – zunächst bei Rechnern im Allgemeinen, dann im Internet und Web im Speziellen – als Hauptantriebsfeder für die Innovationsfreudigkeit im Internet. Mit der Offenheit einher gehen ausgeprägte Sicherheitsprobleme, wie Phishing, Trojaner, Viren etc., die Daten ausspähen und zerstören und auf diese Weise Schaden anrichten. Dies hat zur Folge, dass es für viele Nutzer eine starke individuelle Motivation gibt, vermeintlich sicherere Plattformen, auf denen nur gewisse Anwendungen ausgeführt werden können, zu bevorzugen: iPad und iPhone mit dem entsprechend von Apple reguliertem Anwendungsmarktplatz sind solche Beispiele. Aber auch auf Plattformen wie sozialen Netzwerkanwendungen sind entsprechende Regulierungen von Anwendungen (Apps) denkbar. Zum Beispiel wäre es möglich, dass Facebook Spieleanwendungen der Firma Zynga bevorzugt, an der Facebook einen erheblichen Anteil besitzt. Solche dedizierten Umgebungen wie das iPhone oder Facebook, in denen bestimmte Anwendungen (Apps) ausgeführt werden, regulieren, indem sie beschränken, (i) wer Apps programmieren darf und (ii) mit welchen Fähigkeiten diese Apps ausgestattet werden dürfen. In einigen Fällen dient dies der Sicherheit der Benutzer, z. B. um das Ausspähen von Daten zu erschweren, in anderen Fällen scheint es aber lediglich dazu zu dienen, die marktbeherrschende Stellung der Firma, die diese Umgebung bereitstellt, zu untermauern, zu monetarisieren und den Benutzer mit seinen Daten innerhalb dieser Umgebung festzuhalten. Ein Wechsel der Umgebung hat ja für den Benutzer oft sehr hohe Migrationskosten zur Folge, zum Beispiel dadurch, dass neue Profildaten, Kontaktdaten etc. neu eingegeben werden müssen. C 7.2.3 Regulierung in dedizierten Umgebungen Während wir mit Regulierung durch dedizierte Umgebungen die Regulierung der Ausführung von Software ansprechen, die typischerweise automatisiert erkannt und gegebenenfalls unterbunden wird, reden wir von Regulierung in dedizierten Umgebungen, wenn gesetzesähnliche Regelungen in solchen Umgebungen die Benutzerinhalte und -aktivitäten betreffen, ohne dass das jeweilige nationale Recht dies nahelegt. Ursache hierfür sind in der Regel kulturelle Unterschiede. Die Darstellung von Nacktheit und Gewalt ist in unterschiedlichen Kulturkreisen verschieden stark verpönt bzw. unterscheidet sich in ihrer Art. Im Sommer 2012 betraf dies zum Beispiel die Darstellung eines Titelbilds des Zeitmagazins auf Facebook, das einen männlichen Penis abbildete, was den Betreiber von Facebook zur Folge zum Abblocken dieses Eintrags führte. Beispiele für Zensur im Netz gibt es nach wie vor genug. Andere Regelungen betreffen weniger die Inhalte als die Aktivitäten. „Gold farming in massively multiplayer online games“ bedeutet, dass ein Spieler sehr viel Zeit darauf verwendet, seine Spielfigur in einem Online-Spiel so aufzubauen, dass sie in der virtuellen Welt Dinge besitzt, die dort von Bedeutung sind. Dieser Spieler kann diese virtuellen Gegenstände oder Charaktere an-
C 7: Web Science
445
schließend gegen echtes Geld verkaufen (Lit. 09). Während die Online-Spiele typischerweise normalen virtuellen Handel erlauben und fördern, ist es dem Vergnügen der meisten Spieler abträglich, wenn sich Spieler mit viel echtem Geld eine präferierte Position im Spiel erkaufen können. Deshalb verbieten die Nutzungsbedingungen dieser Spiele Gold Farming. Man kann hier beobachten, dass virtuelle Gesetze eingeführt werden, die kein Gegenstück in der realen Welt haben, deren Missachtung allerdings oft schwer zu eruieren und damit zu regulieren sind (Lit. 09). Analoge Probleme betreffen die Betreiber von Websites und Suchmaschinen. Erstere sind daran interessiert, bei den wenigen, aber häufig benutzten Suchmaschinen auf vorderen Plätzen der Suchergebnisliste zu gelangen. Hierfür gibt es diverse Methoden der Suchmaschinenoptimierung. Einige dieser Methoden sind vom Suchmaschinenbetreiber durchaus gewünscht, da sie die Liste der Suchergebnisse verbessern, z. B. die Angaben von Metadaten (vgl. Lit. 08). Andere Methoden hingegen werden abgestraft, was bis zur Entfernung aus dem Suchindex führen kann. Eine Methode, die für unethisch gehalten wird und die in der Regel zur Klassifizierung der Zielwebseite als Web Spam führt, ist das Link Farming, also das Betreiben von Web Servern alleine zu dem Zweck, den Suchmaschinen eine Zielseite zu empfehlen (vgl. Lit. 10). Obgleich das Betreiben von Link-Farmen an sich legal ist, üben die Suchmaschinenbetreiber dennoch durch die Einstufung als Spam eine regulative Kontrolle aus. Dies mag einerseits nötig sein, damit die Suchalgorithmen weiter neutral funktionieren, andererseits hat das quasi ethische und direkt ökonomische Konsequenzen, da die Kontrolle völlig im Belieben der jeweiligen Firma liegt und erhebliche Auswirkungen auf die Außenwirkung und damit auf den finanziellen Erfolg einer Organisation haben kann. Analog gilt das unter umgekehrten Vorzeichen, wenn Privatpersonen versuchen, vom Suchmaschinenindex entfernt zu werden, wenn die referenzierten Inhalte ihre Persönlichkeitsrechte verletzen. In allen diesen Fällen ist die Informationsmacht der dominierenden Suchmaschinen so groß, dass auch ohne juristische Regelung bzw. ohne weitere Legitimation Suchmaschinenbetreiber erhebliche Macht über die wirtschaftliche und/oder soziale Position von Menschen und Organisationen ausüben können. Und damit ist dieser ethisch-moralisch-juristische-ökonomische Fragenkomplex auch noch nicht abschließend behandelt, neben die gesellschaftliche Diskussion tritt auch die Frage, wie die weiteren technischen Entwicklungen die Normsetzung und das Verhalten der Akteure in Zukunft beeinflussen dürfen.
C 7.3 Benutzerinteraktion und -verhalten Wie in der Einleitung dieses Kapitels dargelegt, liegt der Schwerpunkt von Web Science im Verstehen des Zyklus aus Konsum und Produktion von Information im Web. Dementsprechend gehört die Planung eines klassischen organisatorischen Informationsprozesses, der Firmendaten, z. B. einen Katalog, nach außen transparent macht, nicht primär in das Gebiet Web Science. Jedoch sollte auch die Rückwirkung auf das Ökosystem Web mitbedacht werden, indem z. B. ein solcher Katalog der Verbreitung eines ausgewählten Vokabulars auch außerhalb der eigenen Webseite dienlich sein kann. Wenn es um die Fragestellung der Mikrointeraktion von Benutzern im Web geht, stellen wir deshalb exemplarisch die Bereitstellung von benutzergenerierten Inhalten und die sonstige wahrnehmbare Benutzeraktivität (z. B. beim Konsumieren von Information) in den Vordergrund. C 7.3.1 Benutzergenerierte Inhalte und Daten Neben die klassische Bereitstellung von Inhalten über selbstverwaltete Webseiten, das sogenannte Web 1.0, sind seit dem Ende der 90er Jahre zunehmend Formate getreten, die es erleichtern, diese Inhalte ansprechend einzupflegen und zu präsentieren, z. B. in speziellen Content-Management-
446
C 7: Steffen Staab
systemen. Für spezielle Zwecke wie Blogs, Photos oder Videos gibt es Web 2.0-Anwendungen mit passenden Workflows, die die Verwaltung und Präsentation eigener oder fremder Inhalte vorsehen. Außer der Bereitstellung wenig strukturierter Inhalte wie Text und Foto erlauben viele dieser Anwendungen auch die Verwendung strukturierter, oft semantisch erschlossener Daten, auf denen zusätzliche Apps aufsetzen können und die dann auch unter den Begriff Web 3.0 gefasst werden. So lesen Apps bei Facebook strukturierte Daten aus, z. B. Geburtsdaten von Freunden, und diese Daten können gesammelt und in einer Sicht, z. B. einem Geburtstagskalender, integriert werden. Andere Apps integrieren solche Daten aus verschiedenen Webanwendungen. So berechnet Klout eine Kennzahl, die über verschiedene Social-Media-Anwendungen hinweg Daten ausliest und daraus eine Kennzahl berechnet, wie groß der eigene Einfluss auf andere Benutzer dieser Netzwerke war. In einigen Fällen werden solche strukturierte Daten darüber hinaus offen in Semantic-Web-Formaten zur Verfügung gestellt, zum Beispiel um Webseiten in Suchmaschinenrankings besser zu positionieren (Lit. 08). Zentral bei dem Einstellen solcher Inhalte und Daten ist dabei die Auskunft über deren Herkunft (engl. Provenance). Provenance (vgl. URL3) erlaubt es, das Verhalten anderer nachzuvollziehen und diese Information über die Herkunft von Information bei der Interpretation zu berücksichtigen. Dabei kann Vertrauen eine Rolle spielen, oft allerdings sind Fakten, zum Beispiel die Angabe einer Arbeitslosenquote, nicht kontextfrei wahr, sondern sind in Abhängigkeit von Bezugsrahmen (Jahr, Personengruppe, Lokation) und Erhebungsmethode (z. B. die der OECD vs. die des Arbeitsamtes) zu verstehen. Aktuelle Anwendungen wie das Wikidata-Projekt bei Wikipedia (URL4) stellen deswegen eine unmittelbare Verknüpfung zwischen Fakten und ihrer Herkunft her und nutzen diese Verknüpfung zur Auswahl und Präsentation. C 7.3.2 Modellierung von Interaktions- und Verhaltensmustern Die Modellierung von Interaktions- und Verhaltensmuster ist ein etabliertes Thema in der Webforschung. Modellierung wurde zunächst vor allem eingeführt, damit Webanwendungen den Benutzern Vorschläge machen können, welches Informationsobjekt für sie am interessantesten ist (Lit. 11), wie sie am besten navigieren können (Lit. 12) oder welches Produkt für sie am geeignetsten sein könnte (Lit. 43). Diese frühesten Modelle des Benutzerverhaltens, die in Empfehlungssystemen realisiert wurden und werden (vgl. B 14 Empfehlungssysteme), waren aber restringiert auf punktuelle Entscheidungen des Benutzers, z. B. ein Produkt zu kaufen oder nicht. Durch die Modellierung solcher punktuellen Entscheidungen erzielt man kein Verständnis über die Art und Weise, wie Benutzer im Web ihre Zeit einteilen und wie sie verschiedene Webanwendungen nutzen. Neue Ansätze gehen darüber hinaus, indem sie ein tiefergehendes Verständnis der psychologischen und sozialen Verhaltensmuster anvisieren. Zum Beispiel haben Lehmann et al. (Lit. 13) festgestellt, dass selbst einfache Charakterisierungen des Benutzerverhaltens wie Verweildauer und Häufigkeit der Nutzung einer Webanwendung geeignet sind, verschiedene Arten von Benutzerverhalten und Anwendungen zu kategorisieren. Zum Beispiel werden Suchmaschinen häufig benutzt, aber eher mit kürzerer Verweildauer, hingegen soziale Netzwerke oft und mit langer Verweildauer und Reiseportale eher selten – nämlich genau zur Erledigung der Aufgabe Reisebuchung. Ob Benutzer also mit einem Angebot zufrieden sind und eine Benutzerbindung an das Angebot eingetreten ist, lässt sich nicht alleine aufgrund dieser Muster bestimmen, sondern nur im Vergleich zur Nutzung ähnlich gearteter Angebote. Über Verweildauer und Häufigkeit der Nutzung können aber auch diffizilere Unterschiede in den Verhaltensweisen der Benutzer festgestellt bzw. verwertet werden. Die Sozialwissenschaften haben für kollaborative Systeme verschiedene Verhaltenstypen beschrieben, z. B. Lurkers, Trolls oder Elitists. Neuere Untersuchungen befassen sich damit, die Klassifikation in diese Nutzertypen automatisiert aus dem beobachtbaren Verhalten im Web abzuleiten (vgl. Lit. 14, Lit. 15). Zum Beispiel wird hierfür betrachtet, wer Diskussionen anstößt und wer wie oft und in welchen sozialen
C 7: Web Science
447
Zusammenhängen antwortet. Aus der Betrachtung dieses individuellen Verhaltens und der Zusammensetzung einer Online Community mit variierenden Anteilen verschiedener Benutzertypen lässt sich dann voraussagen, ob z. B. eine Online Community verstärkt von der Abwanderung ihrer Benutzer betroffen sein könnte (Lit. 16). Einen andern Weg gehen Golbeck et al. (Lit. 17), die direkt aus veröffentlichten Profilbeschreibungen in sozialen Netzwerken und der Häufigkeit bestimmter Aktionen (z. B. der Betätigung eines Like-Buttons) Korrelationen zu Persönlichkeitsmerkmalen (z. B. Intro- vs. Extrovertiertheit) ableiten. Während dieser Ansatz zunächst analytisch ist, lassen sich Webanwendungen denken, die die Bereitstellung von Informationen von den Persönlichkeitsmerkmalen des jeweiligen Benutzers abhängig machen (Lit. 17). Zum Beispiel könnten extrovertierte Benutzer mehr Information von unbekannten Personen angeboten bekommen als introvertierte Benutzer. Darüber hinaus beeinflusst das Verhalten eines Benutzers auf vielerlei Art und Weise, was er von anderen Benutzern angeboten bekommt. Offensichtlich ist dies bei Interaktionen zwischen verschiedenen Benutzern, die Vertrauen erfordern. Vertrauen in eine andere Person, etwas (nicht) zu tun (Lit. 18), impliziert ein Risiko. Dieses Risiko beinhaltet einen Verlust (oder auch einen Gewinn) und eine Wahrscheinlichkeit, dass dieser Verlust auftritt. In der persönlichen Interaktion in der realen Welt erfolgt eine Einschätzung der Vertrauenswürdigkeit aufgrund des aktuellen und des vergangen Verhaltens des Gegenübers. Im Web lässt sich aufgrund der Vielzahl der Benutzer und der Kürze der Interaktionen diese Einschätzung oft nicht sinnvoll treffen. E-Commerce-Plattformen behelfen sich an dieser Stelle oft mit summarischen Einschätzungen, zum Beispiel einer Kennziffer für Reputation (vgl. Lit. 03), die aus der Bewertung früherer Benutzerinteraktionen (z. B. erfolgreiche oder fehlgeschlagene Käufe) abgeleitet wird. Aktuell zielen die Entwickler von Webanwendungen allerdings auch auf präzisere Voraussagen für das wahrscheinliche Verhalten von Benutzern und passen dementsprechend ihre Produktangebote an: Unter Preisdiskriminierung versteht man die Bereitstellung von Kaufofferten, die davon abhängen, was der Benutzer zuvor getan hat, zum Beispiel ob er direkt zu einer Webseite navigiert ist oder ob er die Webseite von einem Vergleichsportal aus angesteuert hat. In letzterem Fall gibt es eine Tendenz, ihm ein günstigeres Kaufangebot zu machen (Lit. 19).
C 7.4 Makrostrukturen in sozialen Inhalten und Informationsstrukturen Mikrointeraktionen individueller, isoliert voneinander agierender Benutzer lassen sich auf Mesound Makroebene in Form von Verteilungen über Aktivitäten und daraus resultierenden Strukturen zusammenfassen. Im Web finden sich Makrobeobachtungen zum Beispiel zu: –– Häufigkeitsverteilungen von Wort-Verwendungen, z. B. in Dokumenten oder in benutzererzeugten Inhalten oder in Suchmaschinenanfragen –– Häufigkeitsverteilungen von Beurteilungen, z. B. Notenvergabe für Produkte –– Verteilungen von Linkstrukturen, z. B. Hypertextlinks oder Freundschaftsbeziehungen –– Größenverteilungen von Clustern und Cliquen oder Beinahe-Cliquen, z. B. Größe von Threads in Online-Diskussionen. Leitfragen zu diesen Verteilungen sind: –– Gibt es Modelle für Mikrointeraktionen, die diese Verteilungen mittels weniger Annahmen erklären? –– Lassen sich Aussagen zu Erwartungswerten (1. Moment der Verteilung), Medianen, Varianz (2. Moment), oder der Schiefe dieser Verteilungen (3. Moment) natürlicherweise aus Mikromodellannahmen ableiten? –– Welche Empfehlungen für Einzelpersonen, für Gruppen oder für gesamtgesellschaftliche Entwicklungen lassen sich aus diesen Makrobeobachtungen gewinnen?
448
C 7: Steffen Staab
C 7.4.1 Makrobeobachtungen sozialer Benutzerinteraktionen im Web Das wohl auffälligste Merkmal von Makrobeobachtungen sozialer Benutzerinteraktionen im Web ist, dass selten Gleich-, Normal- oder Exponentialverteilungen auftreten, wie man es erwarten würde, wenn die Modelle für die Mikrointeraktionen der einzelnen Benutzer unabhängig voneinander wären. In der Tat ist es aber so, dass an vielen Stellen Variationen von und Kombinationen von Potenzgesetzen beobachtet werden. Die einfachste Art dieser Beobachtung erfolgt bereits bei der Frage, welche Worte wie oft in einer Dokumentensammlung auftreten, und bei der Zählung, in wie vielen Dokumenten einer Sammlung ein bestimmtes Wort auftaucht (Lit. 20). Hierdurch erhalten verschiedene Worte eine entsprechende Spezifität. Das Abweichen von solchen Spezifitäten deutet auf eine Besonderheit hin. Zum Beispiel konnten Ginsberg et al. (Lit. 21) zeigen, dass vermehrte Anfragen in Websuchmaschinen nach Grippe als Vorboten einer entsprechenden Epidemie gedeutet werden können, da sie mit später berichteten Krankendaten korrelierten. Ebenso lassen sich Microblogs wie Twitter mit Geolokation daraufhin untersuchen, ob Dengue vermehrt erwähnt wird, was auf ein Aufflackern einer entsprechenden Ausbreitung des Dengue-Virus hindeutet (Lit. 22). Über die Auswertung der Erwartungswerte hinaus lassen sich Häufigkeitsverteilungen von Worten nutzen, um Anomalien aufzudecken. Dellschaft & Staab (Lit. 23) berichten, dass Spammer andere Mikrointeraktionen bei der Auswahl ihrer Worte durchführen als normale Benutzer. Daher kann man alleine aufgrund der andersgearteten Verteilung und ohne jegliche Analyse der Inhalte Spammer und Nicht-Spammer unterscheiden, sofern nur genügend viele Daten vorliegen. Seit Ende der 90er Jahre gab es eine umfangreiche Analyse von Netzwerkstrukturen des World Wide Webs. Wiederholt wurde festgestellt, dass Linkstrukturen im Web skalenfrei sind, die Anzahl der Links pro Knoten einem Potenzgesetz folgen und sich ein Gesamtnetzwerk mit im Mittel kleinem mittlerem Abstand zwischen zwei beliebigen Knoten ergibt. Das Netzwerk bildet eine Small World (Lit. 27). Ähnliche Aussagen lassen sich auch für andere Strukturen im Web finden, z. B. für Freundschaftsbeziehungen in sozialen Netzwerken (Lit. 25). Die Entwicklung von fundamentalen Modellen für die Mikrointeraktion, die diese beobachtbaren Makroeffekte erklären, ist noch bei weitem nicht abgeschlossen (vgl. Lit. 26). C 7.4.2 Systemische Effekte bei Informationskonsum und -produktion Rückkopplungen im World Wide Web erfolgen oft beiläufig dadurch, dass Benutzer Wertungen abgeben, zum Beispiel dadurch, dass Produkte wie Bücher oder Hotels auf einer Skala bewertet und gegebenenfalls Kommentare verfasst sowie dadurch, dass eigene oder fremde Informationsinhalte annotiert werden. Ein gut untersuchtes Beispiel sind kollaborative Lesezeichensysteme und Referenzlisten wie Delicious (URL5) oder Bibsonomy (URL6), in denen jeder einzelne seine eigenen Daten organisieren kann und beiläufig von der Arbeit anderer profitiert. Zum Beispiel kann ein Benutzer mit Namen Staab seine Webseite (URL7) mit den Tags Web und Science so annotieren, dass auch ein anderer Benutzer auf die Suchanfrage Web Science hin diese Webseite als Teil des Suchergebnisses angezeigt bekommt. Aktivitäten wie diese, aber auch das Klicken auf ausgewählte Suchergebnisse, führen zunächst zu Systemeffekten erster Ordnung: Die Daten der Webanwendung ändern sich, und aufgrund dieses geänderten oder erweiterten Informationsbestandes ändern sich Menge, Reihenfolge und Art der Informationspräsentation. Darüber hinaus ergeben sich aber auch Systemeffekte zweiter Ordnung: Aufgrund der geänderten Ansicht erhält der Informationskonsument ein anderes Bild, andere Eingaben von Information, Bewertung oder Annotierungen werden nahegelegt, und damit ändern sich Informationsmodifikation und -produktion. Mithin ändern die produzierten Informationsinhalte des einen Benutzers das, was der nächste Benutzer erzeugt. Solche Effekte können die Qualität des Informationsgehaltes insgesamt potenziell verbessern – aber auch verschlechtern.
C 7: Web Science
449
C 7.4.3 Informationskaskaden Eine mögliche Folge von Systemeffekten zweiter Ordnung sind Informationskaskaden in TaggingSystemen (Lit. 27). Solche Kaskaden können dadurch entstehen, dass ein Produzent von Tags beobachten kann, wie andere Produzenten vorher die gleiche (oder auch eine ähnliche) Webseite annotiert haben. Damit wächst die Wahrscheinlichkeit, dass der Informationsproduzent, der ja zunächst Informationskonsument ist, ein bereits benutztes Tag wiederverwendet. Da der nächste Produzent auch wieder Beobachter ist, ergibt sich die Tendenz, dass bereits verwendete Tags auch in Zukunft häufiger verwendet werden. Entstehende Verteilungen von Taghäufigkeiten lassen sich durch ein Modell, das Imitation bei der Produktion von Tags beinhaltet, besonders gut erklären (Lit. 28). Entsprechend der traditionellen Sicht auf solche Zyklen von Informationskonsum und -produktion wird durch die Empfehlung von bereits verwendeten Tags lediglich die Effizienz der Informationsproduktion verbessert, so dass der Benutzer die gleiche Annotierung nur mit geringerem Zeitaufwand betreiben würde. Neuere Resultate haben aber ergeben, dass die Struktur des Informationsraums dadurch beeinflusst wird, ja dass die erzielbare Qualität beim Information Retrieval dadurch vermutlich abnimmt (Lit. 23). Auf analoge Weise ergeben sich die Häufigkeiten bei der Verlinkung von Webseiten. Durch das Suchen nach Inhalten unter Berücksichtigung von Reputation wie Pagerank (Lit. 29) oder Authority, mit anschließender Kreierung von Links profitieren bereits hochgewichtete Seiten überproportional (rich get richer; vgl. Lit. 30, Lit. 31, Lit. 32). Auch hier ist der Effekt der unabhängigen Bewertung von Reputation vermischt mit dem Effekt der Imitation, was die Information über die Reputation selbst verwässert. Insbesondere initiale Fehlinformationen können in so einer Informationskaskade überproportionale Aufmerksamkeit erlangen. Deutlich wird dies am Fall von Bewertungsportalen, in denen Kunden ihrer (Un)Zufriedenheit mit einem Produkt (z. B. Urlaubsreise, Smartphone etc.) Ausdruck verleihen können. Untersuchungen haben ergeben (Lit. 23, Lit. 28, Lit. 33), dass initiale Benutzerkommentare häufig überproportional lang und überproportional positiv sind. Dies lässt vermuten, dass die Hersteller oder Verkäufer des Produktes selbst diese „Benutzerkommentare“ erstellt haben. Obwohl nachfolgende Benutzer Metakommentare angeben können, d. h. auf die Frage „Wie nützlich fanden Sie diese Meinung?“ mit einer Note antworten können, führen häufige gute Bewertungen dazu, dass ein initialer Benutzerkommentar häufiger bei einer Suchanfrage in führender Position gelistet wird und eine Informationskaskade mit positiver Wirkung für den Verkäufer und mit negativer Wirkung für den Informationskonsumenten eingesetzt hat. Diese Informationskaskaden können für alle Benutzer einer Anwendung oder des gesamten Webs gleichermaßen erfolgen. Aufgrund von Empfehlungssystemen wie oben diskutiert, kann es aber auch passieren, dass sich Gruppen herauskristallisieren mit ähnlichen Präferenzen, deren Informationszugang eingeschränkt wird auf ihre – vielleicht nur initial – bevorzugten Inhalte. Wähler von linken Parteien sehen dann im Extremfall nur noch Informationen von den von ihnen präferierten politisch links-orientierten Autoren und das Analoge gilt für die Wähler von rechten Parteien. Ein globaler demokratischer Dialog wird aufgrund solcher Systemeffekte eher eingeschränkt. Solche Makroeffekte wurden bei der Analyse von Querverweisen zwischen Blogs mit politischen Inhalten beobachtet (Lit. 34): Als Systemeffekt gibt sich eine Tendenz zu Meinungsmonokulturen. Obwohl das Medium Web selbst im Prinzip bestens dafür geeignet ist, den Gedankenaustausch zu fördern, kommt in einem naiv organisierten Informationsraum diese Fähigkeit nicht zum Tragen – vielmehr tritt das Gegenteil ein (Lit. 35).
C 7.5 Soziale Maschinen Die bisherige Beschreibung von Benutzerinteraktionen und daraus resultierenden Makrostrukturen ist durch individuelle Ziele, zum Beispiel Informationsbedürfnisse, und daraus abgeleitete Ak-
450
C 7: Steffen Staab
tivitäten und Webangebote geprägt. Bereits vor der Entwicklung des Webs gab es allerdings Newsgruppen und Foren im Internet (z. B. im Usenet), die zwar diesen individualistischen Bedürfnissen Rechnung trugen, die aber Aspekte sozialer Reglementierung beinhalteten, um ein übergeordnetes Gruppenziel zu erreichen, zum Beispiel einen Mindestgrad an Informationsqualität. Implizit wurde dies teilweise durch soziale Kontrolle erzielt, zum Beispiel durch Anfeindungen von Personen, die die Netiquette verletzten (Lit. 36), explizit durch Moderation von Newsguppen, die die Beiträge auf ihre jeweilige Eignung filterte, bevor die Beiträge publiziert wurden. Mit den Programmiermöglichkeiten von Webanwendungen haben sich solcherlei Möglichkeiten, im Internet in großen Gruppen zu kollaborieren, weiterentwickelt und ausdifferenziert: Gruppen können sich ad hoc bilden und intrinsische Ziele gemeinsam verfolgen. Ein prominentes Beispiel hierfür ist die Plattform GuttenPlag, die gegründet wurde, um kollaborativ einen Plagiatsfall zu untersuchen. Akteure können versuchen, die intrinsische Motivation von Webanwendern für ihre eigenen Ziele zu nutzen. Zum Beispiel beschreiben Ahn et al. (Lit. 37), wie die kognitiven Fähigkeiten von Personen, die sich zwecks Registrierung für einen Webdienst als menschliche Akteure von Computerprogrammen unterscheiden müssen, für die Konvertierung von gedrucktem Text in eine digitale Repräsentation genutzt werden können. Akteure können versuchen, die soziale Motivation von Webanwendern für ihre eigenen Ziele zu nutzen. Zum Beispiel gibt es in Online Communities wie im SAP Community Network (SCN) ein Punktesystem, nach dem sich Experten von neuen Benutzern abheben können – ohne dass dies unmittelbar mit einer sonstigen Belohnung verbunden ist (Lit. 38). Akteure können Webnutzer extrinsisch motivieren, z. B. durch Bezahlung, um Aufgaben kollaborativ zu lösen. Ipeirotis (Lit. 39) beschreibt zum Beispiel, für welche Art von kollaborativen Aufgaben der populäre Marktplatz Amazon Mechanical Turk zahlende Auftraggeber und bezahlte Webnutzer zusammenbringt. Die genannten Ziele und Motivationslagen sind hierbei nicht disjunkt. Vielmehr können sie miteinander überlappen und sich verstärken. Zum Beispiel im Fall von Wikipedia kann man argumentieren, dass sowohl das intrinsische Ziel eine Rolle spielt, das eigene Wissensgebiet in der Enzyklopädie qualitativ hochwertig repräsentiert zu sehen, als auch dass erfolgreiche und häufige Beiträge zu erhöhter sozialer Reputation führen können. Letzteres kann sozial motiviert sein, also zu einer Aufwertung als Editor führen mit speziellen Befugnissen, Konflikte auf Wikipedia zu entscheiden. Was aber auch passieren kann, ist, dass durch ungeschickt gesetzte Anreize die Qualität des Ergebnisses nicht steigt, sondern sinkt. Dies wurde zum Beispiel bei Aufgaben auf der AmazonMechanical-Turk-Plattform beobachtet, wo eine verbesserte Bezahlung die Qualität der Ergebnisse oft nicht verbessert, sondern verschlechtert (Lit. 40). Gemeinsam ist diesen kollaborativen Aufgabenlösungen, dass sie einerseits die Arbeitskraft von Menschen nutzen, um kognitiv schwierige oder kreative Teilaufgaben (z. B. Schreiben oder Verstehen eines Textes, Erkennen von gedruckten Worten, Übersetzung von Texten) zu lösen und andererseits Rechner und Software einbeziehen, um Ergebnisse von Teilaufgaben zu verwalten und Routineaufgaben zu übernehmen. Die Kollaboration zwischen den Benutzern verlangt dabei eine explizite oder implizite Reglementierung, die auf verschiedene Arten geleistet werden kann: Redundanz der Lösung von Teilaufgaben erlaubt es, die Ergebnisse miteinander zu vergleichen und nur solche Ergebnisse zu akzeptieren, die von verschiedenen Leuten unabhängig voneinander erzielt wurden (Lit. 37). Hierarchisierung von Befugnissen erlaubt es, Streitfälle an eine übergeordnete Instanz zu eskalieren (z. B. in Wikipedia; Lit. 41, aber auch in anderen Umgebungen, Lit. 44). Stark intrinsisch motivierte Ziele wie zum Beispiel Katastrophenhilfe unterliegt einer stärkeren sozialen Kontrolle (Lit. 42). Solche Kombinationen aus (i) verwaltender Software, (ii) sozialer und administrativer Strategien für die Kollaboration und (iii) Einbeziehung menschlicher Problemlösungsfähigkeiten wird auch unter den Begriff soziale Maschine subsumiert: „Real life is and must be full of all kinds of so-
C 7: Web Science
451
cial constraint – the very processes from which society arises. Computers can help if we use them to create abstract social machines on the Web: processes in which the people do the creative work and the machine does the administration…“ (Lit. 24) Der Entwurf und Betrieb solcher sozialen Maschinen führt zu völlig neuen technisch-organisatorischen Möglichkeiten, aber auch zu Problemsituationen. Einerseits können einige vormals unlösbare Aufgaben erfolgreich bearbeitet werden, wie zum Beispiel der Fall der massenhaften Digitalisierung von gedrucktem, schwer automatisiert lesbaren Text zeigt (Lit. 37). Andererseits gibt es Fälle von sozialen Maschinen wie die der chinesischen Human Flesh Search Engine, die in ethischmoralisch-juristisch fragwürdigen Situationen angewandt werden. Positive Fälle umfassen einerseits die Aufdeckung von Verbrechen wie Korruption oder Tierquälerei. Gerade in Fällen von Tierquälerei führte die Anwendung der Human Flesh Search Engine aber nicht nur zu einer polizeilichen Verfolgung und juristischen Ahndung, sondern auch zu einer nicht akzeptablen Selbstjustiz durch einzelne Nutzer (Lit. 32). Gerade im Bereich der sozialen Maschinen benötigen wir also einerseits ein besseres Verständnis von Mikrointeraktionen und Makroeffekten, aber auch ein Verständnis davon, wie ethisch-moralisch bedenkliches Verhalten verhindert und gesellschaftlich positive Effekte hervorgerufen werden können.
C 7.6 Konklusion Web Science ist auf der Suche nach expliziten und impliziten Regulierungs-, Kollaborations- und Koordinationsmethoden, die das Web auch in Zukunft zu einer produktiven und gesellschaftlich wünschenswerten Plattform für das Zusammenwirken vieler, wenn nicht aller Individuen machen. Die Forschungsarbeit der Web Science benötigt hierfür einen Mix an Methodeninventar: Normative Wissenschaft untersucht Normen im Web auf ihre Auswirkungen hin, deskriptive Wissenschaft klassifiziert und strukturiert die beobachteten Web-Phänomene aus der Vergangenheit und prädiktive Methoden extrapolieren diese Beobachtungen in die Zukunft. Das Wissen dieser Zusammenhänge lässt uns soziale Maschinen gestalten. In dieser Übersicht wurden eine Reihe von Phänomenen im Web und Methoden analytisch umrissen, die Gegenstand weiterer Web-Science-Forschung sein werden. Dabei ist das Web allerdings so vielfältig, dass die Fragen, wie es das Verhalten der Benutzer beeinflusst und wie daraus neue Information und neues Informationsverständnis geriert wird, damit nur angerissen sind. Insbesondere wurde hier die historische Entwicklung vernachlässigt, in der sich Muster und Modelle finden lassen, wie aus der Beteiligung vieler Anwender auf der Mikroebene (z. B. viele Benutzer stellen Webseiten zur Verfügung) Probleme auf der Makroebene resultieren, die aber auch oft zu neuen Einsichten und Lösungen führen (z. B. Pagerank). Diese Entwicklungen zu beschreiben, zu modellieren und auf neue Aufgaben anzuwenden ist Aufgabe der neuen Disziplin Web Science.
Literatur 01 Eugene Agichtein; Eric Brill; Susan Dumais: Improving web search ranking by incorporating user behavior information. SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on research and development in information retrieval, 19-26, New York, NY, USA, 2006. ACM Press 02 Nathan Newmann: Euro Privacy Agencies Slam Google’s Privacy Violations, Call for Empowering User Control of Data. Huffington Post, October 18, 2012 (http://www.huffingtonpost.com/nathan-newman/ euro-privacy-agencies-google_b_1974715.html) 03 Tim Berners-Lee; Wendy Hall; James A. Hendler; Kieron O’Hara; Nigel Shadbolt; Daniel J. Weitzner: A Framework for Web Science. Foundations and Trends in Web Science. now publishers, September 2006 04 Akash Kapur: Internet Governance – A Primer. Wikibooks (http://en.wikibooks.org/wiki/Internet_
452
C 7: Steffen Staab
Governance; Version vom 28. November 2011, abgerufen am 8. Oktober 2012) 05 Hania Farhan; Debra D’Agostino; Henry Worthington: Web Index 2012. World Wide Web Foundation (http://thewebindex.org/2012/10/2012-Web-Index-Key-Findings.pdf) 06 Lawrence Lessig: Code: And Other Laws of Cyberspace, Version 2.0. Basic Books 2006 07 Jonathan Zittrain: The Future of the Internet – And How to Stop It. 2008 08 Jason Ronallo: HTML5 Microdata and Schema.org. code{4}lib, issue 16, 2012-02-03, ISSN 1940-5758 (http://journal.code4lib.org/articles/6400) 09 Brian Keegan; Muhammad Aurangzeb Ahmad; Dmitri Williams; Jaedeep Srivastava; Noshir Contractor: Sic transit gloria mundi virtuali? Promise and peril at the intersection of computational social science and online clandestine organizations. ACM Web Science 2011: Conference Proceedings, June 14-17, 2012. Koblenz, Germany 10 Nikita Spirin; Jiawei Han: Survey on web spam detection: principles and algorithms. SIGKDD Exploration Newsletter. 13, 2 (May 2012), 50-64 (http://doi.acm.org/10.1145/2207243.2207252) 11 Paul Resnick; Neophytos Iacovou; Mitesh Suchak; Peter Bergstrom; John Riedl: GroupLens: an open architecture for collaborative filtering of netnews. Proceedings of the 1994 ACM conference on Computer supported cooperative work (CSCW '94). ACM, New York, NY, USA, 175-186 12 Robin D. Burke; Kristian J. Hammond; Benjamin C. Young: The FindMe Approach to Assisted Browsing. IEEE Expert 12 (4), 32-40 (1997) 13 Janette Lehmann; Mounia Lalmas; Elad Yom-Tov; Georges Dupret: Models of user engagement. User Modeling, Adaptation, And Personalization. LNCS 7379, Springer 2012, 164-175 14 Sofia Angeletou; Matthew Rowe; Harith Alani: Modeling and analysis of user behavior in online communities. The Semantic Web – ISWC 2011. LNCS 7031. Springer 2011, 35-50 15 Matthew Rowe; Miriam Fernandez; Sofia Angeletou; Harith Alani: Community analysis through semantic rules and role composition derivation. Journal of Web Semantics, 2012 16 Marcel Karnstedt; Matthew Rowe; Jeffrey Chan; Harith Alani; Conor Hayes: The effect of user features on churn in social networks. Third ACM/ICA Web Science Conference 2011, Koblenz, Germany, June 14-17, 2011 17 Jennifer Golbeck; Cristina Robles; Karen Turner: Predicting personality with social media. CHI Extended Abstracts 2011, 253-262, ACM 2011 18 Piotr Cofta: The Trustworthy and Trusted Web. Foundations and Trends in Web Science 2 (4), 243-381. now publishers, 2011 19 Jakub Mikians; Laszlo Gyarmati; Vijay Erramilli; Nikolaos Laoutaris: Detecting price and search discrimination on the internet. Hotnets '12 – Eleventh ACM Workshop on Hot Topics in Networks, Oct 29-30, 2012, Seattle, WA, USA, ACM 2012 20 Karen Spärck Jones: A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, Volume 28 Number 1, 1972, 11-21 21 J. Ginsberg; M. H. Mohebbi; R. S. Patel; L. Brammer; M. S. Smolinski; L. Brilliant: Detecting influenza epidemics using search engine query data. Nature 457, 1012-1014, 2009 22 Janaína Gomide; Adriano Veloso; Wagner Meira Jr.; Virgílio Almeida; Fabrício Benevenuto; Fernanda Ferraz; Mauro Teixeira: Dengue surveillance based on a computational model of spatio-temporal locality of Twitter. Third ACM/ICA Web Science Conference 2011, Koblenz, Germany, June 14-17, 2011 23 Klaas Dellschaft; Steffen Staab: On differences in the tagging behavior of spammers and regular users. Proc. of WebSci-2010, Raleigh, US, April 2010 24 Tim Berners-Lee: Weaving the Web, Harper-Collins, 1999 25 Lars Backstrom; Paolo Boldi; Marco Rosa; Johan Ugander; Sebastiano Vigna: Four Degrees of Separation. Fourth ACM/ICA Web Science Conference 2012, Evanston, USA, June, 2012 26 Hans Akkermans: Web dynamics as a random walk: How and why power laws occur. ACM Web Science 2012: Conference Proceedings, June 22-24, 2012. Evanston, IL, 1-10 27 David Easley; Jon Kleinberg: Networks, Crowds, and Markets: Reasoning About a Highly Connected World, Cambridge University Press, 2010 28 Klaas Dellschaft; Steffen Staab: An epistemic dynamic model for tagging systems. Proc. of the 19th ACM Conference on Hypertext and Hypermedia, HT '2008, Pittsburgh, PA, USA, June 19-21, 2008. ACM 2008,
C 7: Web Science
453
71-80 29 Sergey Brin; Lawrence Page: The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, Proceedings of the Seventh International World Wide Web Conference, Volume 30, Issues 1-7, April 1998, 107-117 30 A.-L. Barabási; R. Albert: Emergence of Scaling in Random Networks. Science 286 (1999) 509-512 31 D. J. De Solla Price: A General Theory of Bibliometric and Other Cumulative Advantage Processes. J. Amer. Soc. Inform. Sci. 27 (1976) 292-306 32 Fei-Yue Wang; Daniel Zeng; James A. Hendler; Qingpeng Zhang; Zhuo Feng; Yanqing Gao; Hui Wang; Guanpi Lai: A Study of the Human Flesh Search Engine: Crowd-Powered Expansion of Online Knowledge. Computer, 45-53, August, 2010, IEEE Press 33 Klaas Dellschaft; Steffen Staab: Measuring the influence of tag recommenders on the indexing quality in tagging systems. Proc. of the 23rd ACM Conference on Hypertext and Social Media, HT '12, Milwaukee, WI, USA, June 25-28, 2012. ACM 2012, 73-82 34 Lada A. Adamic; Natalie Glance: The political blogosphere and the 2004 U.S. election: divided they blog. Proceedings of the 3rd international workshop on Link discovery (LinkKDD '05). ACM, New York, NY, USA, 2005, 36-43 35 Eli Pariser: The Filter Bubble: What the Internet Is Hiding from You, Penguin Press, New York, May 2011 36 Christine B. Smith; Margaret L. McLaughlin; Kerry K. Osborne: Conduct Control on Usenet. Journal of Computer-Mediated Communication 2 (4), Wiley 1997 37 Luis von Ahn; Benjamin Maurer; Colin McMillen; David Abraham; Manuel Blum: recaptcha: Human-based character recognition via web security measures. Science 321.5895 (2008), 1465-1468 38 Georgia Demetriou; Peter Kawalek: Benefit-driven participation in open organizational social media platforms: the case of the SAP Community Network. Issues in Information Systems 10 (1), 601-611, 2010 39 Panagiotis G. Ipeirotis: Analyzing the amazon mechanical turk marketplace. XRDS: Crossroads, The ACM Magazine for Students. 17.2 (2010), 16-21 40 Winter Mason; Duncan J. Watts: Financial incentives and the performance of crowds. Proceedings of the ACM SIGKDD workshop on human computation. ACM, 2009 41 Brian Butler; Elisabeth Joyce; Jacqueline Pike: Don't look now, but we've created a bureaucracy: the nature and roles of policies and rules in wikipedia. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '08). ACM, New York, NY, USA, 1101-1110, 2008 (http://doi.acm. org/10.1145/1357054.1357227) 42 Ory Okolloh: Ushahidi, or 'testimony': Web 2.0 tools for crowdsourcing crisis information. Participatory Learning and Action 59.1 (2009), 65-70 43 Greg Linden; Brent Smith; Jeremy York; Amazon.com Recommendations: Item-to-Item Collaborative Filtering. IEEE Internet Computing 7 (1), 76-80, 2003 44 Felix Schwagereit; Ansgar Scherp; Steffen Staab: Survey on Governance of User-generated Content in Web Communities. Third ACM/ICA Web Science Conference 2011, Koblenz, Germany, June 14-17, 2011
URL-Verzeichnis URL1 URL2 URL3 URL4 URL5 URL6 URL7 URL8
http://commons.wikimedia.org/wiki/File:Human_Behavior_Co-constituting_the_Web.png http://schema.org http://www.w3.org/2011/prov/wiki/Main_Page http://meta.wikimedia.org/wiki/Wikidata http://delicious.com/ http://www.bibsonomy.org/ http://west.uni-koblenz.de/ http://en.wikipedia.org/wiki/IP_hijacking
(abgerufen am 8. Oktober 2012)
Michael Weller, Elena Di Rosa
C 8 Lizenzierungsformen C 8.1 Einleitung Wer fremdes Eigentum benutzen möchte, benötigt die Erlaubnis des Eigentümers, denn der Eigentümer kann Dritte von der Einwirkung auf ihm Gehörendes ausschließen. Dieser Grundsatz gilt nicht nur in Bezug auf Sachen (§ 903 BGB), sondern auch im Hinblick auf die hinreichend individuellen Ergebnisse eines kreativen, menschlichen Schaffensprozesses. Dies hat der deutsche Gesetzgeber im Urheberrechtsgesetz dadurch angeordnet, dass er dem Urheber eines schutzfähigen Gegenstandes das alleinige Recht einräumt, über eine Verwertung seines geistigen Eigentums zu bestimmen (§§ 12, 15 UrhG), soweit nicht überragende Interessen der Allgemeinheit einen Rückgriff auf das geistige Eigentum des Urhebers ausnahmsweise zwingend erfordern (§§ 44a ff. UrhG). C 8.1.1 Schutzbereiche Dem Urheber steht als originärer Rechteinhaber allein die Befugnis zu, Dritten die Partizipation an seinem geschützten Schaffensergebnis durch die Erteilung eines Nutzungsrechts (§ 31 UrhG) zu ermöglichen (Lit. 01, S. 133ff., Lit. 02) und schließlich aufgrund ihm unveräußerlich zustehender Urheberpersönlichkeitsrechte sich gegen eine entstellende Nutzung seines Werks oder dessen Nichtoder Falschzuordnung zu seiner oder einer anderen Person zur Wehr zu setzen (§§ 13, 14 UrhG). Die Einräumung von Nutzungsrechten an einem geschützten Gegenstand wird allgemein auch als Lizenzierung bezeichnet (lat.: licet = es ist erlaubt). Aufgrund der Regelungen in §§ 97 ff. UrhG kann der Urheber oder Inhaber ausschließlicher Nutzungsrechte gegen eine von ihm nicht erlaubte Nutzung des betreffenden Werks vorgehen. Darüber hinaus kann der Urheber ohne ein Nutzungsrecht einzuräumen, einseitig in eine bestimmte Nutzung seines Werkes durch eine entsprechende Erklärung eines diesbezüglichen Willens einwilligen (Lit. 03, S. 369ff). Zu beachten ist ferner, dass in Deutschland neben dem Urheber auch Personen, die eine wesentliche Investition erbringen, einen Schutz beanspruchen können, der dem Urheberschutz verwandt ist. Dies gilt beispielsweise für die Hersteller von Datenbanken, die nicht als eigenständige Werke geschützt werden (§§ 87a ff. UrhG, für Lichtbildner, § 72 UrhG, Tonträgerhersteller, §§ 85 f. UrhG, Sendeunternehmen, § 87 UrhG). Besondere Bestimmungen gelten auch für Software (§§ 69a ff. UrhG). Diese Besonderheiten können im vorliegenden Rahmen nicht ausführlich dargestellt werden. Gleichwohl ist auch hier für eine rechtmäßige Nutzung des geschützten Gegenstandes stets die Erlaubnis des Leistungsschutzberechtigten erforderlich, soweit nicht ausnahmsweise eine Nutzungshandlung von Gesetzes wegen erlaubt ist. C 8.1.2 Wandel der Publikations- und Erlaubnisphänomene War lange Zeit eine Verbreitung von zu multiplizierenden geschützten Gegenständen rein faktisch wenigen Spezialisten wie beispielsweise den Verlagen vorbehalten (Lit. 04, S. 95ff), hat die heute übliche Nutzung elektronischer Ressourcen über das Internet den Vertrieb und die Erreichbarkeit geschützter Gegenstände erheblich verändert. Hierauf haben die Nutzer elektronischer Medien reagiert und nicht nur eigene Publikationsformen, sondern auch eigene Lizenzierungsmöglichkeiten geschaffen. Die Entwicklung reicht von der Abbildung klassischer Verlagsangebote bis hin zu einem freien Zugang zu Gegenständen, die der Allgemeinheit zur Nutzung ohne konkrete Gegenleistung zur Verfügung gestellt werden, sog. Open Access- oder Open Content-Modelle (vgl. C 2 Open Access/Open Content).
C 8: Lizenzierungsformen
455
C 8.1.3 Rolle der Verwertungsgesellschaften Verwertungsgesellschaften werden nach ihrer gesetzlichen Konzeption im Interesse der Urheber tätig, indem sie die Rechte der Urheber für urheberrechtsrelevante Nutzungshandlungen wahrnehmen, d. h. Nutzungsrechte treuhänderisch für den Urheber verwalten, diese gegenüber Dritten einräumen und die tarifliche Vergütung geltend machen. Dies geschieht in der Regel jedoch erst auf der zweiten Stufe der Verwertung, soweit die Verwertung nicht individuell durch den Urheber selbst oder einen von ihm beauftragten Agenten erfolgt. In der Regel räumt der Urheber jedoch der Verwertungsgesellschaft die ihm zustehenden Nutzungsrechte exklusiv zur Wahrnehmung im Rahmen eines Wahrnehmungsvertrages ein. Die Verwertungsgesellschaft erteilt dann auf Anfrage Dritten eine nicht ausschließliche Nutzungserlaubnis nach ihren Tarifen. Der Urheber gibt also insoweit seine Zuständigkeit an die Verwertungsgesellschaft ab (Lit. 05, S. 119ff). Insbesondere bei Druckmedien ist also für ein Tätigwerden der Verwertungsgesellschaft das Vorausgehen von Verwertungshandlungen erforderlich (Lit. 06, S. 925ff). Die Grundlage des Tätigwerdens der Verwertungsgesellschaft ist in der Regel der mit dem Urheber zu schließende Wahrnehmungsvertrag. Dieser ist verbunden mit dem gesetzlichen Auftrag etwa zur Erhebung und Entgegennahme von Geräte- und Leermedienabgaben sowie einzelgesetzlich geregelter Abgaben für bestimmte Nutzungen im allgemeinen öffentlichen Interesse. Für Letztere besteht eine entsprechende Meldepflicht wie beispielsweise bei der öffentlichen Zugänglichmachung für Unterrichtsund Forschungszwecke gem. § 52a Abs. 4 UrhG. Soweit sich die Publikations- und Nutzungsphänomene infolge der Verbreitung geschützter Inhalte über elektronische Netzwerke gewandelt haben, hat auch die Rolle der Verwertungsgesellschaften einen Wandel erfahren (Lit. 07, S. 275ff). Sie müssen ihren Geschäftsbetrieb – wollen sie weiterhin für eine effektive Wahrnehmung der ihnen anvertrauten Rechtspositionen Sorge tragen – den neuen Gegebenheiten anpassen. Dass dies Schwierigkeiten bereiten kann, zeigt sich am Beispiel der GEMA, die von ihren Mitgliedern die umfassende Übertragung der Rechtewahrnehmung einfordert und lediglich das Streichen einzelner Nutzungsarten aus dem Wahrnehmungsvertrag zulässt. Damit ist aber dem Künstler, der Mitglied der GEMA ist, nicht mehr möglich, einen oder mehrere ausgewählte Titel unter einer Open Content-Lizenz zu veröffentlichen. Seitens der VG WORT erfolgt regelmäßig eine Teilnahme des Autors an den Ausschüttungen der Leermedien- und Geräteabgabe, wenn die frei lizenzierte Publikation bei ihr gemeldet ist. Auch hier folgt die Reaktion der Internetnutzer prompt: es bildete sich aus der Mitte der Künstler, Produzenten und Musikmanager, die GEMA-frei musizieren möchten, ein von Juristen unterstützter Kreis von Gründungsaktivisten zur Einrichtung der Cultural Commons Collecting Society (C3S). Dies wäre eine Verwertungsgesellschaft für frei lizenzierte Inhalte – künftig nicht nur Musik –, bei denen die kommerzielle Nutzung vorbehalten ist, die eine nutzungsbezogene Abrechnung zum Ziel genommen hat. Die Gründung wird durch das Deutsche Patent- und Markenamt als Genehmigungs- und Aufsichtsbehörde begleitet. Die Gesellschaft soll in der Rechtsform der Europäischen Genossenschaft (SCE) in Deutschland und einem weiteren Mitgliedstaat der EU in nicht mehr allzu ferner Zukunft gegründet werden. Urheber können seit September 2012 eine verbindliche Absichtserklärung abgeben, dieser (neuen) Verwertungsgesellschaft Rechte zur Wahrnehmung anzuvertrauen, sobald diese ihre Geschäftstätigkeit aufnehmen darf (URL1).
C 8.2 Gesetzliche Einräumung von Nutzungsrechten Der Gesetzgeber hat das Ausschließlichkeitsrecht des Urhebers in bestimmten Fällen eingeschränkt. Zu Zwecken, an deren Erfüllung ein überragendes allgemeines Interesse besteht, hat er privilegierten Personen die Nutzung fremden geistigen Eigentums von Gesetzes wegen erlaubt. Es handelt sich um die Schranken des Urheberrechts, die im Wesentlichen in §§ 44a ff. UrhG geregelt sind. Diese Einschränkungen, die sich mit der Sozialbindung des Eigentums aus Art. 14 GG begrün-
456
C 8: Michael Weller, Elena Di Rosa
den lassen (Lit. 01, Kap. 4 Rn. 2), hat der Urheber im Falle der gesetzlichen Lizenz jedoch nicht entschädigungslos hinzunehmen. Vorgesehen ist in diesen Fällen, dass der Urheber über die für ihn tätigen Verwertungsgesellschaften einen gerechten Ausgleich für die gesetzlich zugelassene Nutzung erhält (Lit. 01, Kap. 4 Rn. 5 ff). Entschädigungslos bleiben dagegen freie Nutzungen nach §§ 45, 48, 50, 51, 58, 59 und 60 UrhG, die nicht als gesetzliche Lizenz gelten (Lit. 01, Kap. 4 Rn. 3). In ihrer Qualifikation als Schranke umstritten ist auch die Zwangslizenz etwa in § 45a UrhG zugunsten des Tonträgerherstellers (Lit. 01, Kap 4 Rn. 4) – erst recht die Ausweitung von Zwangslizenzen auf andere Gegenstände. Die praktisch bedeutsamste Einschränkung des Ausschließlichkeitsrechts ist das Recht zur Anfertigung von Vervielfältigungen zum privaten und sonstigen eigenen Gebrauch, § 53 UrhG. Der von dem Gesetzgeber zur Anfertigung einer Privatkopie Berechtigte sichert über die sog. Geräte- und Leermedienabgabe die Einlösung des Entschädigungsanspruchs. Diese Abgabe ist vom Gerätehersteller oder -importeur an eine Verwertungsgesellschaft zu zahlen und wird nach den Verteilungsschlüsseln der Verwertungsgesellschaften an die von ihnen vertretenen Urheber ausgeschüttet. Auch wenn über die Berechnung dieses gerechten Ausgleichs und seine rechtliche Einordnung als Ersatz für einen Schaden, der dem Urheber durch die gesetzlich zulässige Nutzung seines geistigen Eigentums entsteht, sowie den Personenkreis der Verpflichteten gestritten wird (vgl. R1 aus deutscher Sicht bzw. R2 aus österreichischer Sicht), gilt dieser Entschädigungsgrundsatz auch für Urheberrechtsschranken zugunsten der Wissenschaft in §§ 52a, 52c UrhG (Lit. 08, Lit. 09). Die Schranken des Urheberrechts ermöglichen aufgrund ihres Eingriffscharakters mit dem entsprechenden Begründungserfordernis eine lediglich sehr eingeschränkte Nutzung fremden geistigen Eigentums. Dies gilt auch für die Fälle, in denen ein fremder Gedanke lediglich als Ausgangspunkt für einen eigenen Gedankengang in Bezug genommen wird. Hier ist derjenige, der Neues schafft, zum ordnungsgemäßen Zitat angehalten, § 51 UrhG, auch wenn bloße Ideen nicht durch das Urheberrecht geschützt werden. Die unbefugte Verwertung fremden geistigen Eigentums unter Anmaßung der Autorenschaft wird allgemein als Plagiat bezeichnet.
C 8.3 Rechtsgeschäftliche Einräumung von Nutzungsrechten Genügen die durch den Gesetzgeber zwingend eingeräumten gesetzlichen Nutzungsrechte nicht, eine geplante Nutzung zu legitimieren, bleibt dem Nutzungsinteressenten nur, sich um eine rechtsgeschäftliche Einräumung von Nutzungsrechten durch den Rechteinhaber zu bemühen. Andererseits kann auch der Urheber ein Interesse daran haben, von vornherein sein Werk für bestimmte Nutzungen freizugeben, um so eine möglichst weite Verbreitung und Rezeption seines Schaffens zu ermöglichen und zu erreichen. Hierzu kann der Urheber persönlich, räumlich und zeitlich beschränkte oder unbeschränkte Erlaubnisse zur Nutzung eines seiner Werke erteilen. Durch die Erteilung einer exklusiven – ausschließlichen – Lizenz an einen Lizenznehmer rückt dieser in die Position des Urhebers in Bezug auf die wirtschaftliche Auswertung ein. Der Lizenzgeber verliert die Befugnis, selbst über eine Nutzung zu entscheiden. Nicht übertragen werden können die aus dem Urheberpersönlichkeitsrecht unmittelbar fließenden Befugnisse, die allein dem Urheber zustehen. Erteilt der Rechteinhaber dagegen ein lediglich nicht ausschließliches, einfaches Nutzungsrecht, bleibt ihm unbenommen, weitere, nicht ausschließliche Nutzungsrechte an Dritte zu vergeben. C 8.3.1 Klassisches Modell der Erteilung von Nutzungsrechten beim gestuften Vertrieb Kann oder möchte der Urheber sein Werk nicht selbst vervielfältigen und verbreiten oder öffentlich zugänglich machen, schließt er hierzu mit Intermediären, die den Zugang zu seinem Werk vermitteln, Vereinbarungen ab, um dieses Ziel einer Vervielfältigung und Verbreitung oder öffentlichen Zugänglichmachung seines Schaffens zu erreichen. Hierbei entstehen typischerweise Rechteket-
C 8: Lizenzierungsformen
457
ten, da der beauftragte Intermediär sich regelmäßig weiterer Personen bedient, die ihn bei der Erfüllung seiner Aufgaben unterstützen. Die Hilfspersonen erhalten dabei vom Beauftragten des Urhebers abgeleitete Nutzungsrechte, die ihnen die Erledigung ihrer Hilfstätigkeit gestatten. C 8.3.2 Verlagsvertrag als gesetzliches Vertragsmodell Auf dem Weg eines urheberrechtlich geschützten Werkes zum Nutzer sind typischerweise Vermittler eingeschaltet, die ihrerseits auf der jeweiligen Vertriebsstufe, auf der sie agieren, über die Berechtigung für ihr Tun verfügen müssen. Auch wenn es den einheitlichen Typus des Urhebervertrages nicht gibt, lassen sich gleichwohl in den traditionellen Verträgen zwischen Autoren und Verlagen immer wiederkehrende dogmatische Grundstrukturen erkennen (Lit. 02, § 16 Rn. 1). So beinhaltet ein Urhebervertrag stets die Gestattung einer Nutzung des vom Urheber geschaffenen Gegenstandes (Lizenz). Diese Lizenz selbst unterliegt kaum dezidierten Regelungen, womit für die Parteien des Urhebervertrages eine weitreichende Gestaltungsfreiheit einher geht (Lit. 02, § 16 Rn. 5). Jedoch hat der Verlagsvertrag im Übrigen eine eigene, recht ausführliche gesetzliche Regelung durch das Verlagsgesetz seit 1901 erfahren (Lit. 02, § 16 Rn. 23). C 8.3.2.1 Allgemeines Es ist danach dem Verlag gesetzlich aufgegeben, das ihm zu überlassende Werk des Urhebers zu vervielfältigen und zu verbreiten, § 1 S. 2 VerlG, sowie dem Urheber eine Vergütung zu zahlen, §§ 22 ff. VerlG. Dabei kann eine Vergütung auch stillschweigend als vereinbart gelten, wenn zu erwarten ist, dass die Ablieferung des Werks nur gegen Vergütung erfolgt. Die Höhe der Vergütung bemisst sich im Zweifelsfall nach deren Üblichkeit. Bei einer Honorarvereinbarung in Formularverträgen bestehen Grenzen, die aus der Übertragungszwecklehre folgen. Dies soll dem Urheber die Möglichkeit eröffnen, eine Anpassung des Honorars zu fordern, wenn sein Werk über den ursprünglich angedachten Zweck der Rechteeinräumung hinaus verwendet wird (vgl. R3). Ferner ist gesetzlich bestimmt, dass der Verleger dem Urheber eines Schriftwerks pro 100 Abzügen ein Freiexemplar, mindestens jedoch fünf und höchstens 15 Exemplare zur Verfügung zu stellen hat, § 25 VerlG. Bei Verlegern von Musikwerken gilt abweichend eine übliche Zahl von Freiexemplaren. Diese Regelung ist jedoch nicht auf den Vertrag über Musik anzuwenden. Ihre Anwendung hängt vielmehr von den Umständen des Einzelfalles ab. Denkbar ist insbesondere, dass die Bestimmungen eines Wahrnehmungsvertrages mit einer Verwertungsgesellschaft mit denen des Verlagsvertrages kollidiert. Dies kann der Fall sein, wenn beispielsweise im Vertrag mit der Verwertungsgesellschaft bereits eine exklusive Rechteeinräumung erfolgt ist und daher der Musikurheber nicht mehr in der Lage ist, Rechte Dritten wie einem Verlag einzuräumen. Nicht dem klassischen Verlagsvertrag zugehörig sind der Kunstverlagsvertrag und der Illustrationsvertrag, die jedoch regelmäßig Elemente des Verlagsvertrages beinhalten. Festzuhalten bleibt, dass der Verlagsvertrag mehr ist als die bloße Einräumung von Nutzungsrechten an einen Intermediär. Durch die bloße Rechtsgewährung würde dieser nämlich nicht verpflichtet werden können, für die Zugangsvermittlung zum Werk eigene Anstrengungen zu unternehmen. C 8.3.2.2 Besonderheiten wissenschaftlicher Publikationen Der Markt der wissenschaftlichen Publikationen wird von einigen wenigen Verlagen dominiert (zu den mit der Konzentration einhergehenden Schwierigkeiten; vgl. R4, URL2), was insbesondere seit der jüngeren Vergangenheit heftigen öffentlichen Protest gegen das Marktverhalten dieser Intermediäre hervorruft (Lit. 08). Der Wissenschaftler ist einerseits bestrebt, seine Erkenntnisse möglichst weit im Rahmen einer anerkannten wissenschaftlichen Fachpublikation – in der Regel eines Journals – zu verbreiten. Hierzu überträgt er an den Verlag in der Regel im Zuge des schriftlich ab-
458
C 8: Michael Weller, Elena Di Rosa
zuschließenden Verlagsvertrages ausschließliche Nutzungsrechte auch für noch unbekannte Nutzungsarten i. S. von § 31a UrhG (Lit. 10; Lit. 11; vgl. auch R5). Jedoch statt für seine Publikation von dem Verleger eine Vergütung zu erhalten, wie im vorhergehenden Abschnitt beschrieben, ist es heute in einigen Wissenschaftsbereichen üblich, dass der Wissenschaftler dafür, dass sein Werk veröffentlicht und verbreitet wird, einen sog. Druckkostenzuschuss an den Verleger zahlt. Unter besonders heftiger Kritik steht das Einfordern von sog. Druckkostenzuschüssen und die Preispolitik der großen Verlage beim Publizieren von Ergebnissen wissenschaftlicher Forschung, die im Rahmen von Projekten mit öffentlicher Förderung erzielt wurden. Hierzu wird vorgebracht, dass die Öffentlichkeit gleich mehrfach für solche Forschung zahlt. Dies geschieht auf erster Stufe bei der Förderung des Forschungsvorhabens aus öffentlichen Kassen und dann wenigstens ein weiteres Mal bei dem Erwerb der Publikation durch öffentliche Bibliotheken wiederum mit öffentlichen Mitteln. Dadurch und durch Preissteigerungen bei Periodika der großen Wissenschaftsverlage, die die Bibliotheken zwingen, ihr Angebot zunehmend einzuschränken und nicht mehr in dem Umfang aufrecht zu erhalten, wie es in der Vergangenheit noch möglich war (Lit. 12, S. 17f), werden die Zugangshürden zu verfügbarem Wissen wesentlich erhöht (Lit. 09, S. 165ff). Die dispositiven Regelungen des Verlagsgesetzes und die aktuelle Rechtslage sichern die Position der Intermediäre sehr stark ab, wodurch diesen in den Augen der Kritiker quasi eine Verfügungsgewalt über die Zugänglichkeit bestimmter Publikationen zukommt (Lit. 12). Dies wird vielfach als Hemmnis für den gesellschaftlichen, kulturellen und wissenschaftlichen Fortschritt aufgefasst (Lit. 13). Eine Initiative zur Schaffung einer urheberrechtlichen Schranke zugunsten der Wissenschaft etwa in Form eines Zweitverwertungsrechts (Lit. 14, Lit. 15, Lit. 16, zusammenfassend: Lit. 09) für den Wissenschaftler nach oder ohne Embargofrist konnte aufgrund unionsrechtlicher Hürden (Lit. 17, Lit. 18, Lit. 19) eine Änderung der Rechtslage in Deutschland und anderen Mitgliedstaaten der EU noch nicht erreichen. Gleichwohl hat die Veröffentlichung von wissenschaftlichen Werken in frei zugänglichen Umgebungen wie beispielsweise den Instituten oder Universitäten angeschlossenen Repositorien, die infolge heute üblicher Internetnutzung sowie umfangreich und kostengünstig zur Verfügung stehendem Speicherplatz Publikationsaufgaben in elektronischen Umgebungen übernehmen, zugenommen. Hier stellen sich ganz besondere rechtliche Anforderungen an die Einräumung von Nutzungsrechten am eingelieferten Gegenstand (Lit. 20) und auch international wird eine Reaktion der Gesetzgeber und der Justiz auf die neuen Publikations- und Nutzungsphänomene gefordert (Lit. 21, Lit. 22).
C 8.4 Open Access- und Open Content-Modelle Anforderungen an ein freies Publizieren werden nicht nur im Hinblick auf dessen Verfügbarkeit gestellt, sondern auch und gerade im Hinblick auf die Erlangung von Rechtssicherheit für Autoren und Nutzer. Die Initiative openaccess.net formuliert dies, indem sie solche Lizenzen für nutzbar erklärt, die auf die jeweilige nationale Rechtsordnung angepasst sind. Des Weiteren wird gefordert, dass der Inhalt der Lizenz auch für den juristischen Laien gut verständlich, der Lizenztext gerichtsfest und möglichst nicht auslegungsbedürftig ist, der Lizenzinhalt soll ebenso wie die Metadaten in maschinenlesbarer Form und standardkonform vorliegen (Anforderungen an Open-Content-Lizenzen vgl. URL3). Darüber hinaus gibt es für Publikationsservices, die bestimmte Standards unter anderem im Hinblick auf die Rechtesituation einhalten, bereits Möglichkeiten der Zertifizierung etwa durch die Deutsche Initiative für Netzwerkinformation (DINI) e.V. (s. Punkt 2.4 des DINI-Zertifikats – URL4).
C 8: Lizenzierungsformen
459
C 8.4.1 Hintergrund Dem Bedürfnis entsprechend, sich bei der Zugänglichmachung eigenen Schaffens über das Internet (Lit. 22) nicht vollständig allen Rechten entäußern zu müssen, aber gleichwohl nicht auf kostenträchtige Publikations- und Verbreitungsmodelle zurückgreifen zu müssen, haben sich faktische Standards herausgebildet, die dem Urheber ermöglichen, Dritten oder der Allgemeinheit bestimmte Nutzungsrechte einzuräumen (Lit. 05). Die Gleichsetzung der Begriffe Open Access, Open Content oder Freeware mit einer in Deutschland durch die unverzichtbaren Urheberpersönlichkeitsrechte beschränkten umfassenden Nutzungsfreigabe ist daher verfehlt (Lit. 23, Rn. 116). Vielmehr bietet der Some Rights Reserved-Ansatz für bisweilen im All Rights Reserved-System auftretende Probleme Lösungsmöglichkeiten (Lit. 24), die jedoch den Urheber auffordern selbst tätig zu werden und sein Werk mit einer entsprechenden Lizenz zu versehen (Lit. 12, S. 14). In der Wissenschaft wird unter dem Begriff Open Access das kostenfreie Zurverfügungstellen von Ergebnissen wissenschaftlicher Forschungstätigkeit über verschiedene Publikationsprozesse verstanden (Lit. 09; vgl. C 3 Open Access – Open Data – Open Content). Während in der Praxis vielfach als die Ermöglichung von Open Access eine Zweitveröffentlichung verfolgt wird, verlangen die Open Access-Erklärungen, dass umfangreiche Nutzungsrechte an die Allgemeinheit übertragen werden. Im Regelfall greift der wissenschaftliche Autor daher für die Erst- oder die Zweitverwertung seines Werkes auf Open Content-Lizenzmodelle zurück, die im Prozess zur Erreichung einer allgemeinen Zugänglichkeit des Werks eine wichtige Rolle spielen (Lit. 25). Als wichtigste Lizenzmodelle sind hier zu nennen die Creative Commons Public Licenses (CCPL), die GNU Free Documentation License (FDL) für Handbücher und die GNU General Public License (GPL) im Softwarebereich, die Open Database License (ODBL) für Datenbanken, und die Digital Peer Publishing Licenses (DiPP) als auf die Wissenschaft in Deutschland zugeschnittenes Modell. Die Lizenzmodelle werden selbstverständlich auch außerhalb der Wissenschaft und teilweise sogar außerhalb ihres vorgesehenen Anwendungsfeldes verwendet. Bei vielen Zweitverwertungen gerät nur zu schnell in Vergessenheit, dass ein Rückgriff auf die hier vorgestellten Lizenzmodelle stets voraussetzt, dass der Urheber noch in der Lage ist, über Nutzungsrechte zu verfügen und diese nicht bereits exklusiv vergeben hat (Lit. 26). C 8.4.2 Gemeinsamkeiten der Standard-Lizenzmodelle Alle Standard-Lizenzen stellen für eine Vielzahl von Fällen vorformulierte Vertragsbedingungen dar, weshalb es sich um Allgemeine Geschäftsbedingungen handelt, die zwischen dem Lizenzgeber und dem Lizenznehmer explizit in eine abzuschließende Nutzungsvereinbarung einzubeziehen sind (§ 305 BGB; Lit. 05, S. 65, Lit. 23, Rn. 118). Von Shareware-Lizenzen unterscheiden sich Open Content-Lizenzen durch eine räumlich und zeitlich unbeschränkte, nicht exklusive Rechteeinräumung an jedermann (Lit. 23, Rn. 120, Lit. 25, S. 19). Die Einräumung von Nutzungsrechten erfolgt dabei in der Regel dadurch, dass der Lizenzgeber etwa über das Internet einen Schutzgegenstand unter ausdrücklichem Verweis auf die jeweilige Lizenz nebst Zurverfügungstellen des Lizenztextes selbst oder über einen Hyperlink zur Nutzung anbietet. Dabei handelt es sich um eine Offerte ad incertas personas, die dadurch angenommen werden kann, dass der Nutzer den zur Nutzung unter den betreffenden Lizenzbedingungen bereitgestellten Schutzgegenstand sich verschafft und nutzt (Lit. 23, S. 127, Lit. 25, S. 21ff). Dem Nutzer wird in der Regel wenigstens gestattet, den Schutzgegenstand zu eigenen Zwecken zu nutzen, aber auch zu vervielfältigen und öffentlich zugänglich zu machen. Die Vereinbarung einer konkreten Gegenleistung, insbesondere Lizenzgebühren, findet sich in Open Content-Lizenzen nicht (Lit. 25, S. 19). Die Mindestbedingungen, die an eine Nutzung des Lizenzgegenstandes geknüpft werden, sind die Anerkennung der Urheberschaft des Lizenzgebers. Darüber hinaus bieten CCPL und DiPP weitere Abstufungen der Rechteeinräumung, d. h. die lizenzgerechte Nutzung ist von der Erfüllung weiterer Voraussetzungen, die von dem Lizenzgeber
460
C 8: Michael Weller, Elena Di Rosa
in rechtlich zulässiger Weise bestimmt werden können, abhängig gemacht. Nicht mit Open Content-Lizenzen lizenzierbar sind Marken- und Kennzeichen- sowie technische Schutzrechte (Lit. 25, S. 19). Die Zahl der Lizenzmodelle und erst Recht der Lizenzen ist groß und auf alle einzugehen, würde den Rahmen dieser Darstellung sprengen (Übersicht des ifrOSS vgl. URL5). Als wichtigstes Lizenzmodell gelten heute die Creative Commons Public Licenses (Lit. 23 Rn. 119), in Deutschland gefolgt vom DiPP-Modell. Beide Varianten sollen nachfolgend näher beleuchtet werden, da sie auf das deutsche Recht zugeschnitten sind und damit die von open-access.net formulierten Anforderungen an Open Content-Lizenzen erfüllen. C 8.4.3 Creative Commons Wenn von Creative Commons (CC) die Rede ist, wird selten zwischen den verschiedenen denkbaren Bedeutungen unterschieden. Denn neben dem Lizenzmodell kann unter der Bezeichnung auch die CC-Organisation verstanden werden. Ferner wird bisweilen von der CC-Lizenz gesprochen, die es als solche jedoch gar nicht gibt, handelt es sich doch vielmehr um einen Lizenzbaukasten, aus dem der Urheber aus sechs Grundlizenzen eine ihm genehme Variante auswählen kann. C 8.4.3.1 Creative Commons Organisation Die CC-Organisation wurde im Jahr 2001 von den Informations- und Urheberrechtsexperten James Boyle, Michael Carroll und Lawrence Lessig, dem Wissenschaftler am Massachusetts Institute of Technology (MIT) Hal Abelson, dem Rechtsanwalt Eric Saltzman sowie dem Public Domain-Verleger Eric Eldred an der Stanford Law School in Kalifornien gegründet. Sie ist heute eine gemeinnützige Organisation, die in Massachusetts registriert ist und ihren Hauptsitz in San Francisco genommen hat (Lit. 27, S. 82). Davon organisatorisch getrennt ist die CC International Gemeinschaft mit Sitz in Berlin, die die Aufgabe hat, die internationalen Aktivitäten zu koordinieren (Lit. 27, S. 82). Darüber hinaus gibt es eine Zahl von nationalen CC-Projekten, die sich selbst finanzieren und/oder ehrenamtlich tätig sind. Ihre Hauptaufgabe besteht in der Portierung der Lizenz in die jeweilige nationale Rechtsordnung. Mittlerweile steht der Lizenzbaukasten in über 70 Jurisdiktionen zur Verfügung. In Deutschland wird das nationale CC-Projekt geleitet von Markus Beckedahl, zuständig für den Bereich Öffentlichkeitsarbeit (Public Project Lead), und von John Hendrik Weitzmann, zuständig für Rechtsfragen (Legal Project Lead). Die Ressourcen für die Öffentlichkeitsarbeit werden durch die newthinking communications GmbH in Berlin gestellt, die Unterstützung des Projektleiters Recht erfolgt durch die Europäische EDV-Akademie des Rechts gGmbH in Merzig sowie das Institut für Rechtsinformatik der Universität des Saarlandes in Saarbrücken (URL6). C 8.4.3.2 Creative Commons Lizenzbaukasten Wesentlichste und wohl am häufigsten verwendete Variante der CC-Lizenzen sind die allgemeinen CC Standard-Lizenzen (Lit. 28, S. 223f). Mit diesen sollte den Urhebern eine einfache Lizenzierungsmöglichkeit an die Hand gegeben werden, bei der es einen größeren Gestaltungsspielraum gibt, als bei der auf Software zugeschnittenen GNU GPL (Lit. 28, S. 225) und die eine gewisse Standardisierung herbeizuführen in der Lage ist (Lit. 32, S. 359ff). Daneben gibt es die CC Sampling-Lizenz, die als CC+ bezeichnete Erweiterung und das Projekt CC Zero, deren Bestimmungen (mit Aufgabe aller Rechte) im Einzelfall mit zwingenden Regelungen des deutschen Rechts nicht in Einklang stehen (Aufgabe der Persönlichkeitsrechte nicht möglich) und die daher hier nicht im Detail betrachtet werden. Die Standard-Lizenzen setzen sich aus vier Lizenzelementen zusammen, die sich zu sechs Grundlizenzen kombinieren lassen. Bei den Lizenzelementen handelt es sich um:
Symbol
C 8: Lizenzierungsformen
461
Kürzel
Beschreibung
BY
Namensnennung: Bei einer Nutzung des Lizenzgegenstandes muss der Name des Lizenzgebers angegeben werden.
NC
Non Commercial: Eine Nutzung des Lizenzgegenstandes, die vorrangig auf die Erlangung eines geschäftlichen Vorteils gerichtet ist, ist nicht gestattet.
ND
No Derivatives: Eine Bearbeitung des Lizenzgegenstandes ist nicht gestattet.
SA
Share Alike: Die Bearbeitung des Lizenzgegenstandes ist erlaubt, Abwandlungen müssen jedoch unter den Bedingungen der Lizenz des Ausgangswerks weitergegegeben werden.
Tab. 1: CC-Lizenzen nach Wikipedia (URL7)
Grundbestandteil jeder der sechs Grundlizenzen ist das Element BY – Namensnennung. Alle weiteren Elemente sind optional, wobei No Derivatives und Share Alike sich gegenseitig logisch ausschließen. Daraus folgen die sinnvollen Kombinationen BY, BY-NC, BY-ND, BY-SA, BY-NC-ND und BY-NC-SA (vgl. URL8). Die Bedeutung der Kombinationen erschließt sich aus der Bedeutung der Einzelelemente. Für jede Kombination gibt es ein eigenes Icon sowie einen maschinenlesbaren Code, die vom Lizenzgeber dem elektronisch vorliegenden Lizenzgegenstand beigegeben werden können. Aufgrund der Lizenzbestimmungen muss der Lizenztext dem Lizenznehmer zusammen mit dem Lizenzgegenstand zur Verfügung gestellt werden (Lit. 05, S. 84). Dies kann bei Lizenzgegenständen, die über elektronische Netzwerke zur Verfügung gestellt werden, durch einen Hyperlink auf den Lizenztext geschehen, wobei der Link zunächst auf den CC-typischen Commons Deed, die allgemein verständlich gehaltene Zusammenfassung der Nutzungsbedingungen, gesetzt werden kann, von dem aus mittels weiterem Link der vollständige Text der Lizenz erreichbar ist (Lit. 05, S. 84). C 8.4.3.3 Creative Commons Public License (CCPL) im deutschen Rechtsraum Als Besonderheit aller internationalen Lizenzmodelle weisen die CCPL eine Anpassung auf die jeweilige nationale Rechtsordnung auf. Die unported-Lizenzversion stellt dabei prinzipiell den Grundkonsens aller nationalen Varianten der Lizenz dar, ohne selbst anhand einer bestimmten Jurisdiktion entwickelt worden zu sein oder einer solchen zu unterstehen. Die deutsche Version 3.0 wurde auf der Grundlage der sog. Unported Licenses in ihrer Version 3.0 im Sommer 2007 in zahlreichen Sitzungen des Affiliate Teams im Besprechungsbereich des Instituts für Rechtsinformatik der Universität des Saarlandes zunächst aus dem Englischen ins Deutsche übersetzt und sodann an die Anforderungen der deutschen Rechtsordnung angepasst (portiert). Lange Zeit war unklar, inwieweit die CCPL in Deutschland als gerichtsfest gelten können. Das Landgericht Berlin (R6) geht von einer Wirksamkeit der Lizenzbestimmungen jedenfalls im Hinblick auf die in den Lizenztexten vorgesehenen Lizenzhinweise aus. In der juristischen Literatur findet diese Ansicht Zustimmung (z. B. Krieg R7). Auch im Hinblick auf AGB-rechtliche Grenzen der Einbeziehung einerseits sowie einer Inhaltskontrolle etwa in Bezug auf die Rückfallklausel für den Fall des Lizenzverstoßes oder der Verpflichtung des Lizenznehmers, Abwandlungen des Lizenzgegenstandes unter den Bedingungen der Lizenz des Ausgangswerks weiterzugeben, andererseits werden keine Bedenken geäußert (Lit. 23, Rn. 132ff; Zur Version 2.0 aber: Lit. 29, S. 57ff). Damit hebt sich dieses Lizenzmodell von anderen, dem anglo-amerikanischen Rechtsraum entstammenden Modellen ab, da dort damit gerechnet werden muss, dass wenigstens ein Teil der Lizenzbestimmungen an den Vorgaben des deutschen Rechts gemessen als unwirksam zu betrachten ist (Lit. 23, Rn. 117).
462
C 8: Michael Weller, Elena Di Rosa
Zu beachten bei dem CCPL-Modell ist, dass bei der Weitergabe des unveränderten Lizenzgegenstandes der Erwerber keine abgeleitete Lizenz erhält, da es dem Lizenznehmer untersagt ist, Unterlizenzen zu vergeben. Auf diese Weise kann keine Lizenzkette entstehen. Vielmehr erhält der Erwerber die Gestattung der Nutzung des Lizenzgegenstandes vom Urheber unter Botenschaft des Weitergebenden (Lit. 23, Rn. 128). C 8.4.3.4 Kritik an dem CC-Modell Die CC-Lizenzen sind nicht völlig unumstritten. Kritik entzündet sich z. B. daran, dass die Lizenzen keine gemeinsame Grundfreiheit garantieren, außer Kostenfreiheit (Lit. 30, S. 54). Zudem wird oft das CC-Lizenzmodell mit kommunistischen oder sozialistischen Ideen verbunden, in denen es zum Ziel erklärt wird, Künstler zu enteignen, was schlicht auf einem Missverständnis der Zielrichtung des Lizenzbaukastens beruht (Lit. 28, S. 228f). Als nicht von der Hand zu weisen ist die vielfach geübte Kritik an der Non-Commercial-Klausel im Lizenzbaukasten. Die Frage, was nicht kommerzieller Natur bei der Verwendung eines Lizenzgegenstandes ist, kann durchaus unterschiedlich beantwortet werden (Lit. 35). Im schlimmsten Fall kann die Wahl der NC-Klausel dazu führen, dass bestimmte Nutzungen, die dem Urheber möglicherweise sogar willkommen sind, unterbleiben, die Klausel sich also als Fallstrick erweist (Lit. 31, S. 271ff). Auf die oftmals aus Informationsmängeln resultierenden Fehleinschätzungen der Lizenzgeber hat CC in Deutschland reagiert und informiert in einer gemeinsam mit iRights.info und Wikimedia Deutschland herausgegebenen Broschüre über die Bedeutung der NC-Lizenzbedingung (Lit. 32). Mit Bedacht eingesetzt, kann die Wahl der NCKlausel einen kommerziellen Erfolg aber auch fördern (Beispiele: Lit. 05, S. 113ff). Schließlich wird vereinzelt in Vorträgen darauf hingewiesen, dass die Terminologie der Lizenzen nicht mit der des deutschen Rechts übereinstimmt (Lit. 36). C 8.4.4 Digital Peer Publishing (DiPP) Digital Peer Publishing ist eine im Jahr 2003 gestartete Initiative, die sich zum Ziel gesetzt hat, neue Formen des digitalen Informationsaustauschs und des Informationsmanagements sowie der Kommunikation im wissenschaftlichen Bereich zu fördern. Kern der Initiative bildet ein Netzwerk elektronischer Zeitschriften, deren Herausgeber an wissenschaftlichen Institutionen beheimatet sind. Ab dem Jahr 2004 erhielten zunächst acht E-Journals eine Förderung durch das nordrhein-westfälische Ministerium für Innovation, Wissenschaft, Forschung und Technologie. Im selben Jahr erfolgte der Aufbau einer Publikationsinfrastruktur. Die ersten Ausgaben der DiPP waren am 13.12.2004 online. Organisatorisch und technisch betreut wird die Initiative vom Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen. Die Initiative bietet nicht nur die Lizenz, sondern ein umfassendes Publikationssystem mit technischer, organisatorischer und rechtlicher Unterstützung der wissenschaftlichen Autoren. Sie unterscheidet sich dadurch maßgeblich von CC, wo eigene Publikationsinfrastrukturen oder Unterstützungsleistungen beim Einsatz der Lizenzen nicht vorgesehen sind (vgl. URL9 und URL10). Die DPPL ist mehrstufig aufgebaut und regelt den freien Zugang zu den Publikationen der DiPPInitiative. Ziel der Lizenz ist die konsequente Umsetzung des Open Access-Ansatzes. So berücksichtigt die Lizenz insbesondere wissenschaftliche Anliegen wie beispielsweise die Zitierfähigkeit, dauerhafte Auffindbarkeit der Inhalte sowie deren Integrität und Authentizität. Sie zielt aber anders als die CC-Lizenzen ausschließlich auf Textwerke bzw. E-Publishing von Zeitschriften ab (Lit. 29, S. 78ff). In ihrem Basismodul erlaubt die DPPL dem Nutzer eines lizenzierten Gegenstandes dessen Rezeption sowie unveränderte, jedoch lediglich elektronische Weitergabe und dessen öffentliche Zugänglichmachung. Die Rechteeinräumung erfolgt ohne Unterscheidung zwischen einer Nutzung zu kommerziellen oder nicht kommerziellen Zwecken. Die Rechte für die Verbreitung des Lizenz-
C 8: Lizenzierungsformen
463
gegenstandes in körperlicher Form verbleiben beim Lizenzgeber, der die Rechte gesondert einräumen kann. In den beiden Ausbaustufen modulare DPPL und freie DPPL kann der Urheber die Bearbeitung einzelner Teile (modular) oder des gesamten Werkes (frei) erlauben (vgl. Lit. 29, S. 78ff). Die Lizenztexte stehen in deutscher und englischer Sprache in der Version 3 vom November 2008 als HTML- oder PDF-Datei in der Basis als auch in ihren Ausbaustufen zur Verfügung. Die dazugehörigen FAQ werden zwar auch in den beiden vorgenannten Formaten, jedoch ausschließlich in deutscher Sprache vorgehalten. Die Lizenzen wurden ausweislich des einleitenden Hinweises in den Lizenztexten am Institut für Rechtsfragen der Freien und Open Source Software (ifrOSS) von Dr. Till Kreutzer und Prof. Dr. Axel Metzger erstellt. Sie haben bei ihrer Arbeit insbesondere die Berliner Erklärung zum Open Access berücksichtigt, die jedoch keine konkreten Vorgaben für die Lizenzgestaltung enthält. Frei von Kritik ist auch das DPPL-Modell nicht. So wird darauf hingewiesen, dass durch das mehrsprachige Zurverfügungstellen der Lizenz Unterschiede der Lizenzfassungen zwischen deutscher und englischer Sprache zu Lasten des Lizenzgebers gehen und die Lizenz trotz ihrer für das deutsche Recht entwickelten Form unwirksame Klauseln enthält (Lit. 29, S. 89).
C 8.5 Ausblick Auch wenn hier nur die beiden auf das deutsche Recht angepassten bzw. für das deutsche Recht entwickelten Lizenzmodelle der CC und DiPP als Beispiele für Lizenzierungsformen im Open Access- und Open Content-Bereich betrachtet werden konnten, darf nicht übersehen werden, dass die übrigen genannten Lizenzen sowie die bei den Repositorien verwendeten Deposit-Lizenzen eine praktisch bedeutsame Rolle spielen. Die Zahl der einzelnen Lizenzbestimmungen ist kaum zu überblicken und vor einer Entscheidung für die eine oder andere Lizenz muss sich der Verfügungsberechtigte darüber klar werden, welche Nutzungen er bereit ist, ohne Gegenleistung zu erlauben. Erst hiernach kann die grundlegende Entscheidung für ein klassisches Modell etwa im Wege des Abschlusses eines Verlagsvertrages oder für ein Open Access- bzw. Open Content-Modell unter Wahl einer für geeignet erachteten Open Content-Lizenz getroffen werden. Für wissenschaftliche Inhalte sollten sich Urheber, Repositorienbetreiber sowie Herausgeber von Zeitschriften an den Lizenzierungsempfehlungen von Forschungsförderern und anderen ausgewiesenen Institutionen orientieren. So sprach sich die Budapester Open Access-Initiative im Jahr 2012 explizit für die Verwendung der CC-Lizenz CC-BY im wissenschaftlichen Umfeld aus (vgl. Lit. 34). Ebenso sollte berücksichtigt werden, dass mit Rücksicht auf eine Zweitverwertung das klassische Verlagsmodell so angepasst wird, dass dem Urheber die Möglichkeit der Rechteeinräumung ggf. nach Ablauf einer Frist verbleibt. Auch etwaige Wahrnehmungsverträge mit Verwertungsgesellschaften sind vor der Entscheidung für ein Open Access- bzw. Open Content-Modell darauf zu überprüfen, ob dem Urheber die Rechteeinräumung in eigener Zuständigkeit noch möglich ist. Der Verfügungsgewalt des Urhebers entzogen sind jedenfalls die gesetzlich vorgesehenen Nutzungserlaubnisse.
Literatur 01 Wandtke, Arthur Axel: Urheberrecht. Berlin, 2009 02 Berger, Christian; Wündisch, Sebastian: Urhebervertragsrecht. Baden-Baden, 2008 03 Ungern-Sternberg, Joachim von: Schlichte einseitige Einwilligung und treuwidrig widersprüchliches Verhalten des Urheberberechtigten bei Internetnutzungen. GRUR 2009, 369 04 Pahlow, Louis: Lizenz und Lizenzvertrag im Recht des Geistigen Eigentums (Bd. 58), Tübingen, 2006 05 Rosenkranz, Timo: Open Contents. Heermann u. a. (Hrsg.), Geistiges Eigentum und Wettbewerbsrecht, Tübingen, 2011 06 Lucius, Wulf von: Verwerter und Verwertungsgesellschaften. ZUM 2008, 925
464
C 8: Michael Weller, Elena Di Rosa
07 Hansen, Katja: Recht der Verwertungsgesellschaften. Ensthaler u. a. (Hrsg.), Handbuch Urheberrecht und Internet, 2. Aufl., Frankfurt, 2010, 275 08 Marquardt, Wolfgang: Urheberrecht in der Wissenschaft – Für Fairness und Ausgewogenheit. Frankfurter Allgemeine Zeitung, Feuilleton vom 08.08.2012 09 Lutz, Alexander: Zugang zu wissenschaftlichen Informationen in der digitalen Welt. Heermann u. a. (Hrsg.), Geistiges Eigentum und Wettbewerbsrecht (Bd. 65), Tübingen, 2012 10 Wille, Stefan: Einräumung von Rechten an unbekannten Nutzungsarten als überraschende Klausel i.S. des § 305c I BGB. GRUR 2009, 470 11 Grohmann, Arno: Die Übertragungsfiktion für unbekannte Nutzungsrechte nach dem Zweiten Korb am Beispiel des Musikverlagvertrages. GRUR 2008, 1056 12 Steinhauer, Eric: Recht auf Sichtbarkeit, Hagen, 2010 13 Kuhlen, Rainer: Wissensökonomie und Wissensökologie zusammen denken. Helfrich u. a. (Hrsg.), Commons – Für eine Politik jenseits von Markt und Staat, Bielefeld, 2012, 405 14 Hansen, Gerd: Zugang zu wissenschaftlicher Information – alternative urheberrechtliche Ansätze. GRUR Int 2005, 378 15 Heckmann, Jörn; Weber, Marc Philipp: Open Access in der Informationsgesellschaft. GRUR Int 2006, 995 16 Pflüger, Thomas; Ertmann, Dietmar: E-Publishing und Open Access – Konsequenzen für das Urheberrecht. ZUM 2004, 436 17 Hirschfelder, Marcus: Open Access – Zweitveröffentlichungsrecht und Anbietungspflicht als europarechtlich unzulässige Schrankenregelungen? MMR 2009, 444 18 Hirschfelder, Marcus: Open Access – Grundlagen, internationale Vorgaben, rechtliche Umsetzbarkeit. JurPC 2009, JurPC Web-Dok. 46/2009 (http://www.jurpc.de/show?id=20090046; abgerufen am 23.09.2012) 19 Hirschfelder, Marcus: Zweitveröffentlichungsrecht für Wissenschaftler – Eine Erwiderung auf Hansen, GRUR Int 2009, 799. JurPC 2010, JurPC Web-Dok. 62/2010 (http://www.jurpc.de/show?id=20100062; abgerufen am 23.09.2012) 20 Kuhlen, Rainer; Seadle, Michael (Hrsg.): Zur urheberrechtlichen Gestaltung von Repositorien. Berlin, 2011 21 Carbera, Carolina Botero; Gaitàn, Julio Cesar: Von Märchen und Autorenrechten. Helfrich u. a. (Hrsg.), Commons – Für eine neue Politik jenseits vom Markt und Staat, Bielefeld, 2012, 354 22 Fröhlich, Gerhard: Die Wissenschaftstheorie fordert OPEN ACCESS. Information Wissenschaft & Praxis, 2012, 253 23 Paul, Jörg-Alexander: Rechteerwerb durch Lizenzverträge und Haftungsfragen. Hoeren u. a. (Hrsg.), Handbuch Multimedia-Recht, Teil 7.4, 31. Erg., München, 2012 24 Hietanen, Herkko: The Persuit of Efficient Copyright Licensing – How Some Rights Reserved Attempts to Solve the Problems of All Rights Reserved. Lappeenranta, 2008 25 Kreutzer, Till: Open Content-Lizenzen – Ein Leitfaden für die Praxis. Bonn, 2011 26 Mantz, Reto: Open Content-Lizenzen und Verlagsverträge – Die Reichweite des § 33 UrhG. MMR 2006, 784 27 Philapitsch, Florian: Die Creative Commons-Lizenzen. Medien und Recht 2008, 82 28 Gehring, Robert A.: Lessingletters-Remix – Die Creative Commons-Initiative. Djordjevic u. a. (Hrsg.), Urheberrecht im Alltag – Kopieren, bearbeiten, selber machen. 2. Aufl., Bonn. 2008, 223 29 Mantz, Reto: Open Access-Lizenzen und Rechtsübertragung bei Open Access-Werken. Spindler u. a. (Hrsg.), Rechtliche Rahmenbedingungen von Open Access-Publikationen. Göttingen, 2006, 57 30 Eidenberger, Markus; Ortner, Andreas: Kreativität in Fesseln, Dobusch u. a. (Hrsg.), Freie Netze – Freies Wissen, Linz, 2009, 54 31 Möller, Erik: Freiheit mit Fallstricken: Creative Commons-NC-Lizenzen und ihre Folgen. Lutterbeck u. a. (Hrsg.), Open Source Jahrbuch 2006, 271 32 Klimpel, Paul: Freies Wissen dank Creative Commons-Lizenzen – Folgen, Risiken und Nebenwirkungen der Bedingung „nicht kommerziell – NC“. Berlin, 2012 33 Linksvayer, Mike: Creative Commons – Die Wissensallmende in unsere Hände nehmen. Helfrich u. a. (Hrsg.), Commons – Für eine neue Politik jenseits von Markt und Staat, Bielefeld, 2012, 359
C 8: Lizenzierungsformen
465
34 Budapest Open Access Initiative: Ten years on from the Budapest Open Access Initiative: setting the default to open. September 2012 (http://www.opensocietyfoundations.org/openaccess/boai-10-recommendations) 35 Studie der Creative Commons Corp.: Defining noncommercial – A study how the online population understands noncommercial use. September 2009 36 Vortrag Axel Metzger: The Open Access Landscape in Germany – die rechtliche Umsetzung von OA: DiPP, Creative Commons und andere Lizenzmodelle im Rahmen des hbz-Symposiums vom Dezember 2008 (http://www.hbz-nrw.de/dokumentencenter/tagungen/berlin6/Folie_Metzger_hbz_11112008.pdf)
URL-Verzeichnis URL1 http://www.c-3-s.de (abgerufen am 25.09.2012) URL2 http://www.jurpc.de/show?id=20080088 (abgerufen am 25.09.2012) URL3 http://open-access.net/de/allgemeines/rechtsfragen/lizenzen (abgerufen am 24.09.2012) URL4 http://www.dini.de/dini-zertifikat (abgerufen am 11.10.2012) URL5 http://www.ifross.org/lizenzcenter (abgerufen am 23.09.2012) URL6 http://de.creativecommons.org/kontakt (abgerufen am 23.09.2012) URL7 http://de.wikipedia.org/Creative_Commons (abgerufen am 23.09.2012) URL8 http://de.creativecommons.org/was-ist-cc (abgerufen am 23.09.2012) URL9 http://www.dipp.nrw.de (abgerufen am 24.09.2012) URL10 http://de.wikipedia.org/wiki/Digital_Peer_Publishing (abgerufen am 24.09.2012)
Rechtsprechung R1 EuGH, Urt.v. 16.06.2011, C-462/09, m. Anm. Körber, GRUR 2011, 911 und Müller, ZUM 2011, 631 R2 Walter, MR-Int 2011, 144 R3 BGH, Urt. v. 31.05.2012 - I ZR 73/10 - GRUR 2012, 1031 m. Anm. Schulze, GRUR 2012, 993 ff. und Soppe, GRUR 2012, 1039 f R4 OLG Hamm, Urt. v. 16.02.008, I-4 U 157/07, m. Anm. Verch, JurPC Web-Dok. 88/2008 R5 LG Mannheim, Urt. v. 05.12.2011 - 7 O 442/11 m. Anm. Wiesemann, jurisPR-ITR 3/2012, Anm. 5 R6 Landgericht Berlin - Beschl. v. 08.10.2010 – 16 O 458/10 R7 jurisPR-ITR 20/2011 Anm. 3
Wolfgang Semar, Sascha Beck
C 9 Sicherheit von Informationssystemen C 9.1 Anforderungen an die Sicherheit von Informations- und Kommunikationssystemen Die Informatisierung insbesondere in Form von weltweiten, offenen Computernetzen setzt hohe Ansprüche an die sichere Übermittlung und Speicherung von Daten. Die Art und vor allem die Menge der Daten, die schützenswert sind, haben sich mit der Verbreitung der elektronischen Datenverarbeitung vom ursprünglich militärischen über das geschäftliche bis hin zum privaten Umfeld gewandelt. Für alle Partizipanten spielt die Sicherheit und die Verlässlichkeit bei der Datenhaltung und den Transaktionen eine wichtige Rolle. Dies gilt insbesondere angesichts der großen Verbreitung bspw. von kabellosen Datenübertragungen, cloud-basierten Speicherdiensten und Online-Shopping-Plattformen. Zudem gelten bei der Verarbeitung und Speicherung von personengebundenen Daten hohe Anforderungen zum Schutz der Privatsphäre. Daher werden Verfahren der Kryptografie eingesetzt, um u. a. die Vertraulichkeit der Kommunikation in Netzen zu garantieren oder die Identität der beteiligten Kommunikationspartner zweifelsfrei sicherzustellen. Darüber hinaus müssen alle Komponenten einer IT-Infrastruktur gegen vielfältige Bedrohungen und Angriffe abgesichert sein. Man unterscheidet verschiedene Sicherheitsziele, die als Kriterien zur Beurteilung sicherer Informationssysteme dienen. Nachfolgend sollen die wichtigsten Ziele kurz vorgestellt werden. C 9.1.1 Vertraulichkeit Das klassische Problem beim Austausch von Daten und Nachrichten ist die Vertraulichkeit bzw. Geheimhaltung. Der Inhalt von Nachrichten soll nur autorisierten Personen zugänglich gemacht werden. Es stellt sich also die Frage: Wie kann Alice eine Mitteilung über offene Netzwerke an Bob senden, ohne dass Mallory sie durch Überwachung des Datenverkehrs ebenfalls lesen kann? (In der Literatur werden fiktive Personen zum besseren Verständnis der Szenarien eingesetzt. Die beiden eigentlichen Kommunikationspartner werden als Alice und Bob bezeichnet. Mallory ist die Figur des Bösen, die die Kommunikation belauscht). Um Vertraulichkeit sicherzustellen, werden kryptografische Verfahren zur Verschlüsselung von Nachrichten eingesetzt (siehe C 9.3). C 9.1.2 Integrität Unabhängig davon ob eine Nachricht geheim bleiben soll oder nicht, haben normalerweise der Absender und der Empfänger ein großes Interesse daran, dass sie unverändert ankommt. Es stellt sich hier die Frage: Wie kann Bob eine Nachricht von Alice erhalten und sicher sein, dass sie nicht von Mallory oder durch einen technischen Fehler auf dem Kommunikationsweg verändert wurde? Ein weiteres Kriterium ist also die Integrität (Unversehrtheit) der ausgetauschten Daten oder von Daten, die auf einem beliebigen Medium gespeichert werden. Um dies sicherzustellen kann der Text mit einer Art elektronischem Fingerabdruck versehen werden (Lit. 12, S. 22). C 9.1.3 Authentizität Die Authentifikation stellt sicher, dass eine Nachricht auch wirklich von dem Absender stammt, der vorgibt, der Absender zu sein. Wie kann Bob sicher sein, dass die Nachricht wirklich von Alice
C 9: Sicherheit von Informationssystemen
467
stammt und nicht etwa von Mallory frei erfunden wurde? Dies ist folglich die Frage nach der Authentizität, der Echtheit der Nachricht. Erst der sichere Beweis, dass eine Person auch wirklich die ist, die sie vorgibt zu sein, führt bspw. beim E-Commerce zu befriedigenden Geschäftsabschlüssen. Verfahren zur Authentifikation können u. a. in der Form von Passwort-basierten Logins, biometrischen Systemen und digitalen Signaturen realisiert werden (siehe C 9.3.2.2). C 9.1.4 Autorisierung Ergänzend soll auch garantiert sein, dass ein authentifizierter Nutzer nur auf die Daten zugreifen darf, für die er eine Berechtigung bzw. Autorisation besitzt. Dazu muss eine Form der Kontrolle implementiert sein, die den Zugriff auf jede Ressource verlässlich prüft und reglementiert (Lit. 08, S. 313). Viele Computer-Betriebssysteme kennen zu diesem Zweck Verfahren zur Rechteverwaltung, bspw. durch Zugriffssteuerungslisten (Access Control Lists, ACL), mittels derer detailliert festgelegt werden kann, welcher Nutzer eine Zugriffsberechtigung auf welche Objekte und Dienste hat. C 9.1.5 Verbindlichkeit Damit der Absender einer Nachricht später nicht leugnen kann, dass diese, zum Beispiel eine Bestellung, tatsächlich von ihm stammt, müssen Verfahren zur Sicherung der Verbindlichkeit eingesetzt werden. Es wäre durchaus denkbar, dass Alice (fälschlicherweise) nachträglich behauptet, die Nachricht stamme nicht von ihr (Lit. 12, S. 25). Bob hat somit ein Interesse daran sicherzustellen, dass Alice nicht leugnen kann diese Nachricht so gesendet zu haben. Gleichzeitig sollte Bob auch nicht abstreiten können, dass er die Nachricht empfangen hat. Die Verbindlichkeit stellt somit die Beweisbarkeit des Ursprungs und Empfangs einer Nachricht sicher. Dazu gehört neben der oben beschriebenen Authentifizierung auch die sorgfältige Schlüsselgenerierung und Übermittlung, die gewährleisten, dass keine andere Person geheime Schlüssel kennen kann. Hinzu kommen Zertifikate, die eine vertrauenswürdige Stelle ausgestellt hat und die untrennbar mit der Identität des Besitzers verbunden sind. Erst diese Maßnahmen können einen rechtsverbindlichen Geschäftsabschluss sichern (siehe B 10.3.2.3). C 9.1.6 Verfügbarkeit Wenn ein Informationssystem den berechtigten Nutzern jederzeit den Zugriff auf die geforderten Daten oder Dienstleistungen bietet, gilt das Schutzziel der Verfügbarkeit als erfüllt. Die Verfügbarkeit kann beispielsweise durch technische Fehler in IT-Komponenten beeinträchtigt werden oder durch andere Nutzer, die das System überlasten. Dies kann in der Form von Denial-of-Service-Angriffen geschehen, bei denen durch eine übermäßige Anzahl von sinnlosen Anfragen eine derart große Last auf den angegriffenen Systemen provoziert wird, dass sie nicht mehr in der Lage sind, weitere Anfragen zu beantworten (Lit. 08, S. 310). C 9.1.7 Weitere Schutzziele Ein weiteres Ziel ist in manchen Situationen die Anonymität. So ist es beim Persönlichkeitsschutz notwendig, dass bestimmte Angaben zur eigenen Person nicht publiziert werden. Es kann aber auch notwendig sein, eine Vertraulichkeit nicht nur für den Nachrichteninhalt, sondern sogar während eines vollständigen Kommunikationsvorgangs sicherzustellen. Nur so kann gewährleistet werden, dass übermittelte oder gespeicherte Daten keiner konkreten Person z. B. bei einem verschlüs-
468
C 9: Wolfgang Semar, Sascha Beck
selten, elektronischen Bezahlvorgang zuordnet werden können. Als abgeschwächte Form der Anonymität kann Pseudonymisierung gesehen werden, bei der personenbezogene Daten so verändert werden, dass sie ohne Kenntnis des verwendeten Pseudonymisierung-Verfahrens nicht mehr einem Individuum zugeordnet werden können (Lit. 05, S. 13).
C 9.2 Angriffsszenarien und Gegenmaßnahmen Die vorgenannten Schutzziele können oftmals durch vorsätzliche Handlungen (Angriffe) oder durch andere Ursachen gefährdet werden. Neben absichtlichen Angriffen durch Cracker zu Zwecken der Datenmanipulation, Spionage oder Sabotage können auch andere Faktoren wie Höhere Gewalt (Naturkatastrophen, Arbeitsniederlegungen), Fahrlässigkeit (mangelhafte Programmierung), technisches Versagen oder organisatorische Mängel zu den Ursachen für die Verletzung von Schutzzielen zählen (Lit. 05, S. 17). Bei den Angriffen werden zwei wesentliche Typen unterschieden. Mittels passiven Angriffen wird versucht, Kommunikationsinhalte auszuspähen oder zu belauschen und somit das Schutzziel der Vertraulichkeit zu verletzen. Da durch sie keine Veränderung der übermittelten oder gespeicherten Daten erfolgt, sind sie schwerer zu detektieren. Aktive Angriffe zielen darauf ab, Daten und Nachrichten durch konkrete Eingriffe zu manipulieren, zu verfälschen oder die Kommunikation gänzlich zu unterbinden (Lit. 08, S. 313). Eine Auswahl von weit verbreiteten Angriffsszenarien und Bedrohungen wird nachfolgend kurz vorgestellt. Für Details zu den entsprechenden Angriffen und weiteren Szenarien sei auf die Literatur verwiesen (Lit. 05, Lit. 08). C 9.2.1 Buffer-Overflow Durch einen Pufferüberlauf-Angriff wird versucht, einen Fehler in der Programmierung eines Software-Produkts auszunutzen. Dabei wird von der Software nicht jede Benutzereingabe korrekt auf die zulässige Länge der Eingabe überprüft. Dadurch kann es dazu kommen, dass bei der Verarbeitung der Daten durch die Software der interne Speicher des Systems in nicht ordnungsgemäßer Weise überschrieben wird („Überlauf“). Auf diesem Weg können Angreifer eigenen Programmcode in das System einschleusen und zur Ausführung bringen. Gegenmaßnahmen bestehen in der konsequenten Kontrolle des Programmcodes bei der Entwicklung, insbesondere im Bereich der Verarbeitung von Benutzereingaben bzw. von Daten, die über Schnittstellen extern eingebunden werden. Zudem sollten Programme möglichst abgeschirmt von anderen Softwareprodukten ausgeführt werden (bspw. in sog. „Sandboxes“), so dass kein Zugriff auf die Speicherbereiche anderer Komponenten besteht. C 9.2.2 Computerviren, Würmer und Trojanische Pferde Computerviren sind Befehlsfolgen, die zur Ausführung ein weiteres Programm („Wirt“) benötigen. Sie können sich in anderen Softwareprodukten „einnisten“ und somit bei der Ausführung dieses Wirtprogramms ihre Schadwirkung entfalten. Im Gegensatz dazu sind Computerwürmer eigenständige Programme, die von einem Nutzer oder einer Systemanwendung aufgerufen werden müssen. Beide Typen sind in der Regel zur Reproduktion fähig (Lit. 05, S. 55ff). Ein Trojanisches Pferd ist eine Schadsoftware, die dem Nutzer eine Funktion vortäuscht (und diese auch erfüllt), aber im Hintergrund weitere, versteckte Funktionen durchführt. Sie bildet inzwischen den Großteil der im Internet verbreiteten Schadsoftware (Lit. 05, S. 81). Viren und Würmer verbreiten sich häufig über den Anhang von vermeintlich legitimen E-Mails, die von arglosen Nutzern geöffnet und damit ausgeführt werden (Social Engineering). Andere Verbreitungswege insbesondere von Würmern sind
C 9: Sicherheit von Informationssystemen
469
ungeschützte Lücken in Netzwerksoftware (bspw. Lovesan-Wurm 2003). Weitere Quellen sind zunehmend so genannte Drive-by-Downloads, über die eine Schadsoftware bereits beim Aufrufen einer infizierten Website unbemerkt durch die Ausnutzung einer Lücke in der Browser-Anwendung heruntergeladen werden kann. Gegenmaßnahmen gegen diese Typen von Schadsoftware sind die Schulung von Nutzern in Bezug auf mögliche Arten von Social-Engineering-Angriffe und der Einsatz von aktueller Anti-Viren-Software. C 9.2.3 Bot-Netze Über Bot-Netze können Rechner ferngesteuert werden, die über ein Trojanisches Pferd mit einer Schadsoftware infiziert wurden. Diese Bots bzw. Zombies werden oftmals für das massenhafte Versenden von Spam genutzt. Ebenfalls sind sie ein wesentlicher Bestandteil für das Durchführen von Denial-of-Service-Angriffen, bei denen (Web-)Server durch massenhafte sinnlose Zugriffe überlastet werden sollen (Verletzung des Schutzziels der Verfügbarkeit). Eines der größten Bot-Netze war das russische BredoLab, das zwischen 2009 und 2010 bis zu 30 Millionen PCs unter seiner Kontrolle hatte und darüber bis zu 3,6 Milliarden Spam-E-Mails pro Tag versendete. C 9.2.4 DNS-Spoofing, Web-Server-Spoofing Bei Spoofing-Angriffen wird versucht, den Nutzer unbemerkt auf eine andere Website umzuleiten, ihm dort legitime Inhalte vorzutäuschen und ihn somit zur Preisgabe sensitiver Daten zu verleiten (bspw. Online-Banking-Daten). Dies kann auf IP-Netzwerk-Ebene geschehen, indem durch Manipulation der Domain-Name-System-Kommunikation (DNS) dem Rechner des Nutzers eine falsche IPAdresse zur ursprünglich angeforderten WWW-Adresse zurückgegeben wird. Verbreitet sind auch homographische Angriffe, die darauf abzielen, dass der Nutzer in der Schreibweise ähnliche Webadressen aufruft (bspw. Verwendung von „i“ statt „l“ oder Einsatz von kyrillischen Schriftzeichen im Domainnamen) oder den eigenen Tippfehler in der Adresse nicht bemerkt. Abwehrmaßnahmen gegen Angriffe auf DNS-Ebene werden derzeit noch entwickelt (sicheres DNS: DNSSEC). Zur Vermeidung von homographischen Angriffen sollten URLs von sicherheitssensitiven Websites (z. B. Online-Banking-Site) nur aus bekannten und geprüften Lesezeichensammlungen aufgerufen werden. C 9.2.5 Cross-Site-Scripting Angriffe mittels Cross-Site-Scripting (XSS) gehören gegenwärtig zu den am häufigsten auftretenden Sicherheitsrisiken in Web-Anwendungen (Lit. 05, S. 174). Dabei versucht ein Angreifer Schadcode (in der Regel in der Scriptsprache JavaScript) über unzureichend gesicherte Formulare oder andere Eingabefunktionen in eine fremde Website einzuschleusen (etwa in ein Gästebuch oder Forum). Sobald ein Nutzer diese infizierte Website aufruft, wird der JavaScript-Code in seinem Browser ausgeführt. Auf diese Weise können Drive-by-Downloads realisiert werden (s.o.). Anbieter von Web-Anwendungen sollten daher sicherstellen, dass alle Eingaben von Dritten immer auf ihre Zulässigkeit geprüft und ungültige Bestandteile (wie JavaScript-Code) gegebenenfalls herausgefiltert werden. C 9.2.6 SQL-Injection Auch bei dem Angriffstyp SQL-Injection werden Lücken in Web-Anwendungen genutzt, um Schadcode in Websites einzufügen. Bei diesem Typus wird analog zu Cross-Site-Scripting versucht, über Eingabefelder oder URL-Parameter speziell formulierte Datenbankabfragen (in der Datenbank-Ab-
470
C 9: Wolfgang Semar, Sascha Beck
fragesprache SQL) in die Web-Anwendung einzuschleusen (injizieren), die dann serverseitig von der Web-Anwendung als Teil eines legitimen Kommandos interpretiert und ausgeführt werden. Dies kann zu unerlaubtem Zugriff auf geschützte Datenbereiche führen oder Manipulationsmöglichkeiten von Datenbeständen eröffnen. Zur Vermeidung von SQL-Injection-Angriffen ist es zwingend erforderlich, dass Entwickler von datenbankgestützten Web-Anwendungen Funktionen implementieren, die alle Nutzereingaben vor einer Übergabe an eine Datenbank prüfen und filtern. C 9.2.7 Konstruktionsprinzipien sicherer Systeme Um sichere Systeme zu entwerfen, sind von Jerome Saltzer und Michael Schroeder (Lit. 09) in den 1970er Jahren einige wesentliche Prinzipien entworfen worden, die bei dem Design- und Entwicklungsprozess (Security Engineering) von sicheren Systemen und Programmen berücksichtigt werden sollten. Zu diesen Prinzipien gehört u. a. das Erlaubnisprinzip, das fordert, dass zunächst jeder Zugriff auf Datenbestände oder Programmfunktionen verboten sein soll und erst nach einer ausdrücklichen Erlaubnis gewährt werden darf. Das Vollständigkeitsprinzip soll gewährleisten, dass jeder einzelne Zugriff jederzeit auf seine Zulässigkeit geprüft werden muss. Das Prinzip der Benutzerakzeptanz besagt, dass Sicherheitsmaßnahmen auf die Kooperation der Nutzer angewiesen sind und daher möglichst verständlich und einfach bedienbar sein sollten. Das Prinzip der minimalen Rechte schreibt fest, dass jeder Nutzer nur genau die Rechte erhalten soll, die er zur Erledigung seiner jeweiligen Aufgabe benötigt. Weitergehende Zugriffsrechte dürfen nicht vergeben werden. Schließlich fordert das Prinzip des offenen Entwurfs, dass die Sicherheit eines Systems nicht von der Geheimhaltung der eingesetzten Verfahren abhängen darf (security through obscurity), sondern alle Funktionsmechanismen offen gelegt werden sollten. Dieses Prinzip ist insbesondere auch bei der Entwicklung von kryptografischen Verfahren von großer Bedeutung (Lit. 05, S. 188), die im folgenden Kapitel beschrieben werden.
C 9.3 Kryptografische Verfahren Kryptografie ist die Lehre der Verschlüsselung von Daten. Kryptografische Verfahren werden genutzt, um einzelne Schutzziele zu realisieren. So wird beim Schutzziel der Vertraulichkeit ein Klartext durch eine Verschlüsselungsmethode in einen Geheimtext bzw. Chiffrat, überführt, hierdurch kann eine fremde Person den ursprünglichen Text nicht mehr erkennen. Der Verschlüsselungsvorgang wird als Chiffrieren, der Entschlüsselungsvorgang als Dechiffrieren bezeichnet (Lit. 12, S. 19). Genau genommen muss zwischen der Kryptografie, die sich mit der Verschlüsselung von Daten beschäftigt, und der Kryptoanalyse, die sich mit derer Entschlüsselung beschäftigt, unterschieden werden. Der Oberbegriff für beide Disziplinen ist Kryptologie (Lit. 11, S. 1). C 9.3.1 Verfahren zur Gewährleistung von Vertraulichkeit Sogenannte Konzelationssysteme (Verschlüsselungssysteme bzw. Kryptosysteme) sind Systeme, die zur Geheimhaltung von Daten oder Nachrichten genutzt werden. Der Illusion, dass das verwendete Verschlüsselungsverfahren nicht überwindbar sei, sollte man sich allerdings nicht hingeben. Aus der Tatsache, dass stets die Möglichkeit besteht, dass der verwendete Verschlüsselungsalgorithmus einem Dritten bekannt ist (Shannons Maxime), folgt eine weitere Grundregel der Kryptografie, die sogenannte Kerckhoffs Maxime. Die Sicherheit eines kryptografischen Verfahrens beruht nicht auf der Geheimhaltung des verwendeten Algorithmus, sondern alleine auf der Geheimhaltung des Schlüssels, der zum Dechiffrieren benötigt wird (Lit. 11, S. 8). Aus ihr folgt, dass ohne Kenntnis des
C 9: Sicherheit von Informationssystemen
471
Schlüssels kein Rückschluss vom Geheimtext auf den Klartext möglich ist, selbst bei Bekanntsein des verwendeten Verschlüsselungsalgorithmus. Wird ein Geheimtext ohne Kenntnis des Schlüssels entschlüsselt, gilt das Verschlüsselungsverfahren als gebrochen bzw. umgangssprachlich als geknackt. Ein Schlüssel gilt als kompromittiert, wenn er bspw. durch Diebstahl entwendet wurde (Lit. 08, S. 316). C 9.3.1.1 Symmetrische Verschlüsselung Symmetrische Verschlüsselungsverfahren werden bereits seit vielen Jahrhunderten genutzt. Sender und Empfänger haben sich dabei entweder auf einen Schlüssel geeinigt (Secret Key) oder der Dechiffrierschlüssel lässt sich aus dem Chiffrierschlüssel berechnen und umgekehrt (Lit. 01, S. 154). Symmetrische Verschlüsselungsverfahren werden auch als Secret-Key-Verfahren bezeichnet. Dabei werden in der Regel zwei grundlegende Verfahren unterschieden. Bei Substitutionsverfahren werden die Zeichen einer Nachricht durch andere Zeichen ersetzt. Transpositionsverfahren hingegen vertauschen die Positionen der Zeichen einer Nachricht. Diese beiden Verfahren werden oftmals in mehreren Durchgängen (Runden) angewendet und dabei miteinander kombiniert (Lit. 08, S. 317). Historische Verfahren Die berühmteste Verschlüsselung ist die von Gaius Julius Caesar. Er nutzte ein Substitutionsverfahren, um jeden der 20 Buchstaben des lateinischen Alphabets um drei Stellen nach rechts zu verschieben. Da diese zyklische Vertauschung mathematisch wie eine Addition von 3 (mit den Sonderregeln 18+3=1, 19+3=2, 20+3=3) funktioniert, nennt man das Verfahren auch Caesar-Addition. Die heute älteste bekannte Verschlüsselung ist die Skytale von Sparta (5. Jhdt. v. Chr.), die auf einem einfachen Transpositionsverfahren basiert. Ein Holzstab wurde mit einem schmalen Band aus Pergament spiralförmig umwickelt und dann der Länge nach mit einer Nachricht beschrieben. Den Text auf dem abgewickelten Pergamentstreifen sollten nur die Generäle lesen können, die über Stäbe vom gleichen Durchmesser verfügten (Lit. 02, S. 3). Im 16. Jhdt. entwickelte Blaise de Vigenère die Caesar-Methode weiter, indem er den Verschiebungsbetrag fortlaufend änderte, es wird somit eine Folge von Zahlen als Schlüssel, z. B. 12, 1, 19, 6, 2 auf den Klartext angewendet. Der erste Buchstabe wird um 12 Zeichen, der zweite um 1 Zeichen usw. verschoben. Nach dem Ende der Folge wird wieder von vorne angefangen. Man könnte sich den Schlüssel auch als Sequenz von Buchstaben (NBUGC; A wird um 12 Stellen auf N verschoben, usw.) vorstellen. Das Vigenère-Verfahren machen sich die sogenannten Rotormaschinen wie die im zweiten Weltkrieg verwendete Chiffriermaschine Enigma zu Eigen. Sie bestehen aus mehreren hintereinander liegenden drehbaren Scheiben. Jede dieser Scheiben weist vorne und hinten 26 Kontaktflächen auf, für jeden Buchstaben des Alphabets eine. Die Scheiben sind fest verdrahtet. Dies führt zu einer Permutation des Alphabets und somit zu einer einfachen Ersetzung von Buchstaben. Bereits bei drei Rotoren sind Schlüsselwörter mit einer Periodenlänge von 263 = 17.576 Zeichen möglich. Der Schlüssel besteht in der Angabe, welcher Rotor in welcher Reihenfolge einzusetzen ist und wie ihre jeweilige Anfangsstellung aussieht. Die Enigma bestand aus einer Kombination von bis zu acht austauschbaren Rotoren, die nach jedem Zeichen jeweils um einen anderen Betrag weitergeschaltet wurden. Zusätzlich besaß sie einen Reflektor, der dafür sorgte, dass jedes Zeichen zweimal in unterschiedlicher Richtung das Gerät durchlief, hinzu kam ein weiterer paarweiser Austausch von Zeichen, der je einmal am Anfang und am Ende der Operation durchgeführt wurde. Zum Schlüssel gehörte hier auch die Angabe, wie die Zeichenersetzung vorzunehmen war. Ist der Schlüssel genauso lang wie der zu chiffrierende Text, handelt es sich um das One-TimePad (Einmalblock)-Verfahren. Dies ist auch das einzige Verfahren, dessen Sicherheit mathematisch bewiesen wurde. Natürlich muss bei diesem Verfahren jedes Mal ein neuer Schlüssel verwendet werden (Lit. 02, S. 51). Die meisten aktuellen Verschlüsselungsverfahren arbeiten mit einem weiteren Trick. In jedem Verschlüsselungsschritt werden nicht Zeichen für Zeichen, sondern ein längerer Klartextblock verarbeitet und durch den Geheimtextblock ersetzt, wobei jedes Klartextzeichen
472
C 9: Wolfgang Semar, Sascha Beck
eines Blocks das gesamte Ergebnis beeinflusst (Lit. 12, S. 42). Dadurch werden Regelmäßigkeiten im Klartext über mehrere Zeichen hinweg verteilt (Diffusion). Ein Chiffrierungsschritt muss dabei so beschaffen sein, dass zwei Klartextblöcke, die sich nur in einem Zeichen unterscheiden, zu völlig unterschiedlichen Geheimtextblöcken führen. Diese Verfahren werden Blockverschlüsselungen genannt. Heutzutage werden Methoden mit mindestens 8 Byte, also 64 Bit, verwendet. Bei vielen Verfahren wird der Eingabeblock zu Anfang einer jeden Runde in zwei Hälften (R und L) zerlegt. Die Operationen (Kombination von Addition, Multiplikation, exklusives oder (XOR) und Vertauschungen) werden nur auf den R-Teil angewendet, ihr Ergebnis wird durch XOR mit L verknüpft und bildet die rechte Hälfte des Rundenergebnisses, während die linke Hälfte von dem unveränderten R gebildet wird. So wird für eine Hälfte des Blocks mit der anderen Hälfte Konfusion erzeugt, während die andere Hälfte unverändert bleibt. Diese wird in der jeweils folgenden Runde dem Konfusionsverfahren unterworfen. In jede einzelne Runde gehen Teile des Schlüssels ein. Verfahren mit dieser Methode werden als Feistel-Netzwerke bezeichnet. Die Dechiffrierung gestaltet sich bei Kenntnis des Schlüssels einfach, denn sie läuft in umgekehrter Reihenfolge die Inversen der elementaren Operationen durch und liefert als Ergebnis den Klartext. DES und seine Varianten Das bekannteste und lange Zeit am weitesten verbreitete symmetrische Verschlüsselungsverfahren ist der Data Encryption Standard (DES). Das Verfahren wurde 1976 in den Vereinigten Staaten als Bundesstandard anerkannt, es verwendet eine Blocklänge von 64 Bit sowie eine Schlüssellänge von 56 Bit und wird 16mal durchlaufen. Dadurch ergibt sich ein Schlüsselraum von 256 unterschiedlichen Schlüsseln. DES ist auf Standardrechnern jedoch durch Ausprobieren aller möglichen Schlüssel (Brute-Force-Attack) in weniger als 24 Stunden zu brechen, daher gilt DES als technisch veraltet. Eine auch heute noch sichere Variante von DES ist Triple-DES, die dreimalige, hintereinander geschaltete Anwendung von DES. Die Schlüssellänge steigt dadurch auf 168 Bit (etwa 3,74x1050 mögliche Schlüssel). AES Bei dem Advanced Encryption Standard (AES) handelt es sich um den Nachfolger von DES. Bei AES (ursprünglich als Rijndael-Algorithmus entwickelt) handelt es sich um eine frei verfügbare symmetrische 128-Bit-Blockchiffre mit Schlüssellängen von 128, 192 und 256 Bit, die schneller als TripleDES arbeitet. Sie ist seit 2001 in den USA standardisiert und wird auch vom amerikanischen Geheimdienst für Daten der höchsten Geheimhaltungsstufe verwendet (Lit. 10, S. 119). Bei einer AESSchlüssellänge von 256 Bit gelten Brute-Force-Attacken mit heutiger Computerleistung als nicht realistisch durchführbar, es ist jedoch nicht ausgeschlossen, dass sich in Zukunft durch die wachsende Hardwareleistung neue Angriffspunkte anbieten werden. AES-Alternativen Einen guten Kompromiss zwischen Sicherheit und Verfügbarkeit stellt der Blowfish-Algorithmus von Bruce Schneier dar. Die Blocklänge beträgt 64 Bit, die Schlüssellänge kann bis zu 448 Bit beliebig gewählt werden und der Algorithmus wird 16mal durchlaufen. Der Nachfolge-Algorithmus Twofish verschlüsselt 128-Bit-Blöcke und nutzt eine Schlüssellänge von bis zu 256 Bit. Als weitere Alternative bei der Suche nach dem Nachfolger für DES war der Algorithmus Serpent ein vielversprechender Kandidat. Er verwendet ebenfalls eine 128-Bit-Blocklänge, gilt allerdings als vergleichsweise zukunftssicher durch besonders große Sicherheitspuffer im Algorithmus, die auch bei einer markanten Leistungssteigerung gängiger Hardware kaum Angriffspotentiale erwarten lassen. Er ist dadurch jedoch auch deutlich langsamer als die Konkurrenten Rijndael und Twofish. Der in Japan entwickelte Algorithmus KASUMI wird vor allem im Mobilfunkbereich verwendet (im UMTS-Standard). Er ähnelt dem DES-Algorithmus und ist sehr effizient und schnell. Die Schlüssellänge und die Blocklänge betragen 128 Bit (Lit. 10, S. 132).
C 9: Sicherheit von Informationssystemen
473
C 9.3.1.2 Asymmetrische Verschlüsselung Bei der symmetrischen Verschlüsselung besteht immer die Notwendigkeit, den zu verwendenden Schlüssel über einen sicheren Kanal auszutauschen. Falls dieser Kanal nicht sicher ist, kann der Schlüssel abgehört werden. Mitte der 1970er Jahre veröffentlichten Whitfield Diffie und Martin Hellman sowie unabhängig von ihnen Ralph Merkle ein Verfahren, das dieses Problem des Schlüsselaustauschs löst, indem zum Chiffrieren ein anderer Schlüssel als zum Dechiffrieren verwendet wird (asymmetrisches Verfahren). Zusätzlich darf es nicht möglich sein, aus der Kenntnis eines Schlüssels den jeweils anderen abzuleiten. Wer ein solches Verfahren nutzt, muss zunächst ein Paar zusammengehörender Schlüssel generieren. Einen der beiden Schlüssel hält er geheim (Private Key), den anderen gibt er der Öffentlichkeit bekannt (Public Key). Diese Verfahren werden daher auch Public-Key-Verfahren genannt. Jeder, der nun eine verschlüsselte Nachricht an eine Person schicken will, besorgt sich deren frei verfügbaren öffentlichen Schlüssel, verschlüsselt seine Nachricht damit und verschickt den Geheimtext. Dieser so chiffrierte Text kann nur vom Empfänger mit seinem privaten, geheimen Schlüssel dechiffriert werden (Lit. 02, S. 94). Von zentraler Bedeutung ist somit, dass der Empfänger einer Nachricht den verwendeten Schlüssel vorgibt, nicht der Sender. RSA RSA, benannt nach den Entwicklern Ronald L. Rivest, Adi Shamir und Leonard M. Adleman, ist das bekannteste Public-Key-Verfahren und ein Quasi-Standard im Internet. Das Prinzip beruht darauf, dass es kein Problem darstellt, zwei große Primzahlen miteinander zu multiplizieren, es aber praktisch unmöglich ist, aus dem Produkt wieder die beiden Faktoren zu ermitteln. Dabei ist zu beachten, dass die beiden Faktoren sich in ihrer Länge deutlich unterscheiden. In praktischen Anwendungen variiert das Produkt zwischen 512 Bits (geringe Sicherheit) und 2048 Bits (sehr hohe Sicherheit) (Lit. 01, S. 207). Es wird allgemein angenommen, dass der Aufwand zur Wiederherstellung des Klartextes aus dem Chiffretext und dem öffentlichen Schlüssel äquivalent zur Faktorisierung des Produktes der beiden Primzahlen ist, allerdings gibt es dafür noch keinen mathematischen Beweis. RSA ist um den Faktor 1000 langsamer als AES. Dies mag als ein Nachteil von RSA erscheinen, ist aber tatsächlich eher von Vorteil. Denn für die Ver- und Entschlüsselung von normalen Mitteilungen fällt diese Zeit praktisch nicht ins Gewicht. Wer aber RSA mittels einer Brute-Force-Attacke brechen möchte, tut sich umso schwerer, je langsamer der Algorithmus ist. Auch bei alternativen Angriffsszenarien (bspw. Faktorisierungsangriff) gibt es derzeit keine realistische Perspektive, dass RSA bei ausreichender Schlüssellänge (2048 Bits und mehr) überwunden werden könnte. ElGamal Das Prinzip des 1985 von Taher ElGamal entwickelten Algorithmus beruht auf dem Problem des „diskreten Logarithmus“ (Lit. 03, S. 127). In praktischen Anwendungen variiert die Schlüssellänge zwischen 512 Bits (geringe Sicherheit) und 1024 Bits (sehr hohe Sicherheit). Eine Variante des ElGamal-Verfahrens ist der 1991 entwickelte Digital Signature Algorithm (DSA), der 1994 von der USStandardisierungsbehörde NIST zum Digital Signature Standard (DSS) erklärt wurde und ebenso wie RSA für digitale Signaturen verwendet werden kann (Lit. 11, S. 555). C 9.3.1.3 Hybride Verschlüsselung Da asymmetrische Verschlüsselungssysteme in der Regel sehr viel langsamer arbeiten als symmetrische Algorithmen, werden bei den im Internet gebräuchlichen Verschlüsselungsprogrammen häufig beide Verfahren eingesetzt. Bei einem Verbindungsaufbau erzeugt der Sender einen zufälligen Sitzungsschlüssel (Session Key), mit dem er die Nachricht verschlüsselt. Der Session Key wird mit dem öffentlichen Schlüssel des Empfängers verschlüsselt und zusammen mit der verschlüsselten Nachricht verschickt. Der Empfänger kann dann mit seinem privaten Schlüssel den asymmetrisch chiffrierten Schlüssel dechiffrieren und mit ihm die symmetrisch chiffrierte Nachricht dechif-
474
C 9: Wolfgang Semar, Sascha Beck
frieren. Durch diese Kombination (hybride Verschlüsselung) vereinigt man einen gesicherten, aber langsamen Schlüsseltausch mit einer schnellen, aber weniger sicheren Verschlüsselung. C 9.3.2 Verfahren zur Gewährleistung der Integrität und der Authentizität Moderne kryptografische Verfahren lassen sich aber nicht nur einsetzen, um Vertraulichkeit, sondern auch die drei Ziele Integrität, Authentizität und Verbindlichkeit zu erreichen. Man spricht dabei von Authentifikationssystemen. Dazu sind sogenannte Hashfunktionen erforderlich. Hashfunktionen sind mathematische Methoden, die aus einem beliebigen Klartext nach einem bestimmten Verfahren einen Fingerabdruck (Prüfsumme, Hashwert, Message Digest (MD)) der Nachricht generieren. Die Funktion verwandelt einen Klartext so in einen MD, dass auch die kleinste Veränderung des ursprünglichen Texts zu einem gänzlich anderen MD führt. Somit kann überprüft werden, ob der Text verändert wurde. Hashfunktionen sind nicht umkehrbar und gelten somit als Einwegfunktionen. Anders als beim Chiffrieren darf eine Wiederherstellung des Klartextes aus dem einmal erzeugten MD nicht möglich sein. Es kann jedoch vorkommen, dass zwei unterschiedliche Klartexte denselben Hash-Wert produzieren (Kollision). Der Vorteil dieses Verfahrens liegt in der Tatsache, dass anstatt des gesamten Textes lediglich ein kurzer MD besonders geschützt werden muss. Die zurzeit bekanntesten Hashfunktionen sind u. a. SHA-1 (Secure Hash Algorithm One), er wurde von der NSA (National Security Agency) entwickelt und als US-Standard angenommen. Der Hashwert hat eine Länge von 160 Bit. RIPEMD (RIPE-Message Digest) wurde im Rahmen des EU-Projektes RIPE (RACE Integrity Primitives Evaluation 19881992) von Dobbertin, Bosselaers und Preneel entwickelt. Generell bieten Hashfunktionen mit längeren Prüfziffern höhere Sicherheit. Gegenwärtig gelten die Nachfolge-Standards SHA-256 und SHA512 mit jeweils 256-Bit-Hash bzw. 512-Bit-Hash als sicher. Mittels Kollisionsangriffen auf SHA-1 wurden mit leistungsfähiger Computerhardware bereits erste Erfolge erzielt, weshalb dieses Verfahren als technisch veraltet gilt. Der ebenfalls veraltete, aber noch weit verbreitete Standard MD5, von Rivest entwickelt, erzeugt einen MD von 128 Bit Länge und kann mittlerweile auf Standard-PC-Hardware innerhalb weniger Stunden durch Kollisionsangriffe überwunden werden. C 9.3.2.1 Symmetrische Authentifikationssysteme Der Sender verschlüsselt den MD einer Nachricht und sie selbst mit dem geheimen Schlüssel, der beiden Kommunikationspartnern bekannt ist (Secret Key) und sendet Nachricht sowie MD an den Empfänger. Der Empfänger dechiffriert den MD und die Nachricht. Durch erneute Anwendung der Hashfunktion auf die Nachricht und Vergleich des Ergebnisses mit dem entschlüsselten MD kann er feststellen, ob die Nachricht während der Übertragung verändert wurde (Lit. 02, S. 69). Ein solches System hat einige Nachteile. Zum einen kann nur eine Person, die den geheimen Schlüssel kennt, eine solche Überprüfung vornehmen; wünschenswert wäre aber in vielen Situationen, dass jeder Beliebige die Echtheit einer Nachricht überprüfen kann. Zum anderen kann jeder, der über den zur Überprüfung nötigen Schlüssel verfügt, auch authentifizierte Nachrichten erstellen. Das bedeutet, dass das System in Gruppen von mehr als zwei Teilnehmern dem Empfänger keine Auskunft mehr darüber gibt, von wem eine bestimmte Nachricht eigentlich stammt, und dass es auch bei nur zwei Teilnehmern stets möglich ist, das Erstellen einer bestimmten Nachricht abzustreiten. Den MD könnte genauso gut der jeweils andere Kommunikationspartner verschlüsselt haben, denn auch er hat den Schlüssel (Lit. 07, S. 108). Integrität und Authentizität einer Nachricht werden also nur gegen Angriffe von außen stehenden Personen gesichert, Verbindlichkeit dagegen wird überhaupt nicht erreicht, da alle beteiligten Kommunikationspartner den geheimen Schlüssel besitzen.
C 9: Sicherheit von Informationssystemen
475
C 9.3.2.2 Asymmetrische Authentifikationssysteme und digitale Signaturen Erst die Kombination aus asymmetrischer Verschlüsselung und Hashwert bietet die Möglichkeit, ein Analogon zur menschlichen Unterschrift zu erzeugen, in diesem Zusammenhang wird von digitalen Signaturen gesprochen (Lit. 02, S. 115). Will jemand eine Nachricht als von ihm erstellt ausweisen (quasi unterzeichnen), wendet er eine Hashfunktion auf diese Nachricht an, den MD verschlüsselt er mit seinem Private Key und hängt das Ergebnis als digitale Signatur der zu übertragenden unverschlüsselten Nachricht an. Jeder, der im Besitz des zugehörigen Public Key ist, kann die Echtheit der Nachricht überprüfen indem er den MD dechiffriert und diesen mit dem von ihm neu berechneten MD vergleicht, der sich aus der unverschlüsselten Nachricht ergibt (gleiche Hashfunktion verwenden). Sind diese Werte identisch, wurde die Nachricht unterwegs nicht verändert. Signieren kann die Nachricht nur der Besitzer des Private Keys, so dass Integrität, Authentizität und Verbindlichkeit realisiert werden können. Allerdings kann bei diesem Verfahren jeder den Klartext lesen, da nur der MD verschlüsselt wurde. Will man auch noch Vertraulichkeit sicherstellen, muss das Verfahren erweitert werden (elektronischer Umschlag). Der mit dem Private Key des Senders chiffrierte MD wird der Nachricht angehängt. Die auf diese Weise verlängerte Nachricht wird nun mit dem Public Key des Empfängers chiffriert und übermittelt. Der Empfänger dechiffriert die verlängerte Nachricht mit seinem Private Key und trennt den immer noch chiffrierten MD von der nun dechiffrierten Nachricht ab, den er mit dem Public Key des Senders entschlüsselt. Er berechnet selbst den MD der Nachricht und vergleicht diesen mit dem vom Sender übermittelten MD. Stimmen sie überein, kann er sicher sein, dass die Nachricht vom Sender stammt, unterwegs nicht verändert und von keinem Dritten belauscht wurde (Lit. 12, S. 114). C 9.3.2.3 Zertifizierungsinstanzen und Public-Key-Infrastrukturen Eine vollständige Sicherstellung von Verbindlichkeit und Authentizität kann aber auch durch diese asymmetrischen Kryptografie-Verfahren allein noch nicht garantiert werden. Es besteht zunächst noch kein nachvollziehbarer Zusammenhang zwischen einem Private Key und der vorgeblich zu ihm gehörenden Person. Jemand kann sich als eine andere Person ausgeben, indem er unter deren Namen einen selbst erzeugten Private Key in Umlauf bringt. Dieses Problem kann durch das Einschalten eines vertrauenswürdigen Dritten gelöst werden, der sich für die Identität einer Person verbürgt. Dies kann über Vertrauensnetzwerke (Web of Trust) oder offizielle Zertifizierungsinstanzen (Certification Authority, CA, Trustcenter, TC) geschehen. CAs liefern mit digitalen Zertifikaten und Schlüsseln die Grundausstattung zur Teilnahme am rechtsverbindlichen und vertraulichen elektronischen Geschäftsverkehr. Sie überprüfen zunächst die Identität des Nutzers und generieren einen elektronischen Ausweis (Zertifikat), das bestätigt, dass der Public Key wirklich der beantragenden Person gehört (Lit. 03, S. 208). An dieses CA kann sich der Empfänger wenden und den Public Key des Senders abrufen. Von besonderer Bedeutung ist hierbei, dass die jeweiligen CAs nicht kompromittiert werden dürfen, da dies zu einem Zusammenbruch des Vertrauensnetzwerks führen kann. Diese Vertrauensnetzwerke werden auch als Public-Key-Infrastukturen bezeichnet. Das Format solcher Zertifikate lässt sich standardisieren, so dass sie automatisch auswertbar sind. Beispielhafte Standards zum Austausch derartiger Zertifikate sind X.509, PKIX und OpenPGP. Die Rechtsgültigkeit entsprechender digitaler Signaturen und Zertifikate und die Anforderungen an diese sind in der internationalen Gesetzgebung festgeschrieben. Das entsprechende deutsche Signaturgesetz (SigG) in der Fassung von 2001 lehnt sich in den meisten Aspekten an die EGSignaturrichtlinie 1999/93/EG an. Ergänzt wird es durch die Einzelregelungen in der Signaturverordnung (SigV). Ziel ist es, allgemein anerkannte und abgesicherte Rahmenbedingungen zur Nutzung einer „elektronischen Unterschrift“ im alltäglichen Geschäftsverkehr zu schaffen. Es werden dazu in der europäischen Rechtsprechung meist drei Abstufungen von digitalen bzw. elektronischen Signaturen unterschieden:
476 –– –– ––
C 9: Wolfgang Semar, Sascha Beck
Die einfache elektronische Signatur soll sich als beliebiger Text einer Person zuordnen lassen und stellt keine besonderen Ansprüche an Form und Ausgestaltung dieser Signatur. Die fortgeschrittene elektronische Signatur ist eine übliche digitale Signatur, die mit (kryptografischen) Verfahren erstellt wurde und bei der sichergestellt ist, dass sie nur von dem Signaturschlüssel-Inhaber erzeugt werden kann. Die qualifizierte elektronische Signatur ergänzt die fortgeschrittene elektronische Signatur durch ein qualifiziertes Zertifikat einer sichereren Signaturerstellungseinheit. Ein derartiges qualifiziertes Zertifikat darf nur durch Anbieter ausgegeben werden, deren Konformität mit dem Signaturgesetz und der Signaturverordnung überprüft wurden (Lit. 10, S. 532).
C 9.4 Sicherheit von elektronischen Zahlungssystemen Kryptografische Verfahren sind von zentraler Bedeutung für die sichere Funktionsweise von elektronischen Zahlungssystemen. Zur Systematisierung von derartigen Zahlungssystemen lassen sich mehrere Klassifikationsverfahren verwenden. So kann nach Art des Zahlungszeitpunkts (Pay before, Pay now, Pay later), der Höhe der Zahlung (Nano-, Micro-, Macro-Payment), des Transaktionswegs (absenderinitiiert, empfängerinitiiert), der Hard/Software-Komponenten oder nach Art der Basierung unterschieden werden. Für Details sei auf Lit. 04 verwiesen. C 9.4.1 Sicherheits-Anforderungen an elektronische Zahlungssysteme Die Anforderungen Vertraulichkeit, Authentizität, Integrität und Verbindlichkeit müssen insbesondere bei elektronischen Finanztransaktionen ausreichend erfüllt sein. Die Transaktionsdaten müssen vor unbefugtem Zugriff geschützt sein (Vertraulichkeit). Kreditkartendaten, persönliche Angaben von Kunden sowie Details zu den gekauften Waren dürfen nicht an Dritte gelangen. Diese müssen bei allen Transaktionspartnern sicher gespeichert sein, soweit eine Speicherung von Kreditkartennummern bei einem Händler in Kundendatenbanken überhaupt sinnvoll und erforderlich ist. Zudem muss sichergestellt werden, dass der Datentransfer der Zahlungsdetails über sichere Kanäle erfolgt, z. B. durch die Nutzung von verschlüsselten Datenverbindungen (SSL) für Online-ShoppingAngebote. Weiter ist es erforderlich, dass die Teilnehmer an einer finanziellen Transaktion mit Hilfe von digitalen Zertifikaten und Signaturen eindeutig identifiziert werden (Authentizität). In der Praxis überwiegt derzeit die Authentifikation mittels Passwort oder TAN/PIN-Verfahren. Auch die Integrität der übermittelten Transaktionsdaten ist von hoher Bedeutung. Keinesfalls darf es möglich sein, dass einzelne Angaben der Transaktion manipuliert werden können (Zahlbetrag, Empfänger des Geldbetrags, Art der Ware). Ferner ist die Verbindlichkeit beim Zahlungsverkehr wichtig. Keiner der Beteiligten darf abstreiten können, dass er die Zahlung in Auftrag gegeben oder erhalten hat. Auch Anonymität kann eine weitere Anforderung an elektronische Zahlungssysteme sein. Während übliches Papier-Geld in der Regel anonym im stationären Einzelhandel zum Erwerb von Artikeln oder Dienstleistungen eingesetzt wird, werden elektronische Transaktionen meist aufgezeichnet und sind damit nachvollziehbar. Der Wunsch nach Anonymität beim Zahlungsverkehr steht jedoch im Widerspruch zu den Anforderungen der Verbindlichkeit sowie Authentizität. Um dieses Problem zu lösen, wurden Zahlungssysteme geschaffen, die mithilfe kryptografischer Verfahren einen anonymisierten elektronischen Zahlungsverkehr ermöglichen sollen. Ein Vertreter ist die in Deutschland verwendete Geldkarte. Die virtuelle Bitcoin-Währung realisiert Anonymität, Verbindlichkeit und Authentizität mittels komplexer Kryptografie-Verfahren und einem anonymen Peer-toPeer-Netzwerk.
C 9: Sicherheit von Informationssystemen
477
C 9.4.2 Zahlungssysteme im World Wide Web Die größte Bedeutung im Web hat das klassische Zahlungsverfahren Vorkasse, bei dem der Kunde mittels Online-Banking den Rechnungsbetrag auf das Bankkonto des Händlers überweist. Auch Zahlung auf Rechnung, per Kreditkarte, Lastschrift und Nachnahme sowie Variationen klassischer Zahlungsverfahren wie Überweisungen via Dienstleister wie sofortüberweisung.de sind nach wie vor die bestimmenden Zahlungsverfahren. Bezogen auf den Umsatz bei deutschen Händlern spielt auch PayPal zunehmend eine bedeutende Rolle (Lit. 06). Dort kann der Kunde ein virtuelles Konto eröffnen, das er über klassische Zahlungsverfahren wie Kreditkarte oder Überweisung aufladen und das Guthaben dann zum Zahlen auf anderen Plattformen einsetzen kann. Weitere Dienstleister wie Amazon Payments, Moneybookers/Skrill, Google Checkout oder ClickandBuy setzen auf ähnliche Verfahren, indem sie die Rechnungssumme nach Abzug einer Provision an den jeweiligen Händler weiterreichen. Neue E-Geld-Konzepte wie die vorgenannte Bitcoin-Währung verzeichnen zwar ein deutliches Wachstum, spielen jedoch noch eine untergeordnete Rolle im Zahlungsverkehr. Zunehmend verbreiten sich auch zielgruppen-spezialisierte Zahlungsplattformen, wie zum Zwecke von social microdonations, hier kann man mit geringem Aufwand Kleinstbeträge in Form von Spenden an Ersteller beliebiger Web-Inhalte übermitteln (bspw. flattr.com). C 9.4.3 Mobile Zahlungssysteme Mobile Bezahlverfahren gewinnen angesichts der starken Verbreitung von Mobiltelefonen zunehmend an Bedeutung. Vor allem auf dem afrikanischen Kontinent haben sich Mobilfunk-basierte Zahlungssysteme für Kleinstbeträge etabliert. Ausgehend von Zahlungsverfahren, die über die Telekommunikationsrechnung abgerechnet werden (kostenpflichtige SMS oder sogenannte MehrwertRufnummern) sind inzwischen auch neue Systeme u. a. in den USA auf den Markt gekommen, die jedem Nutzer mit einem Smartphone die Annahme von Zahlungen via Kreditkarte ermöglichen (squareup.com). Auch hier tritt ein Anbieter auf, der eine Plattform zur Verfügung stellt, über den Händler und Kunden Zahlungen abwickeln können. Zunehmend bieten auch klassische Banken in Modellprojekten mobile Zahlungssysteme an (Popmoney der Citibank USA). Weitere neue technische Systeme bauen auf der Nahfunktechnik NFC (Near Field Communication) auf, die es Smartphones ermöglicht Zahlungen von Kleinstbeträgen auch ohne die Angabe einer PIN durchzuführen. Das Mobiltelefon soll zu einer Art „mobiler Geldbeutel“ ausgebaut werden. Noch bestehen allerdings offene Fragen hinsichtlich der Sicherheit derartiger Transaktionsverfahren.
Literatur 01 Bauer, Friedrich L.: Entzifferte Geheimnisse. Methoden und Maximen der Kryptologie. 3., überarb. Aufl. Berlin, Heidelberg, New York: Springer-Verlag, 2000, 503 S. 02 Beutelspacher, Albrecht: Kryptologie. Eine Einführung in die Wissenschaft vom Verschlüsseln, Verbergen und Verheimlichen; ohne alle Geheimniskrämerei, aber nicht ohne hinterlistigen Schalk, dargestellt zum Nutzen und Ergötzen des allgemeinen Publikums. 6., überarb. Aufl. Braunschweig; Wiesbaden: Vieweg, 2002, 152 S. 03 Buchmann, Johannes: Einführung in die Kryptographie. Berlin, Heidelberg: Springer, 1999, 229 S. 04 Dannenberg, Marius; Ulrich, Anja: E-Payment und E-Billing. Wiesbaden: Gabler, 2004, 272 S. 05 Eckert, Claudia: IT-Sicherheit. Konzepte – Verfahren – Protokolle. 7., überarb. und erw. Auflage. München: Oldenbourg Verlag, 2012, 1004 S. 06 E-Commerce-Center Handel: Internet-Zahlungsverfahren aus Sicht der Händler: Ergebnisse der Umfrage IZH6. Kurzauswertung. Februar 2012
478
C 9: Wolfgang Semar, Sascha Beck
07 Grimm, Rüdiger: Kryptoverfahren und Zertifizierungsinstanzen. Datenschutz und Datensicherheit (DuD) 1996, 27- 36 08 Meinel, Christoph; Sack, Harald: Digitale Kommunikation. Berlin, Heidelberg: Springer, X.media.press, 2009, 422 S. 09 Saltzer, Jerome H; Schroeder, Michael D.: The protection of information in computer systems. Proceedings of the IEEE 63 (9), 1278-1308 (1975) (http://web.mit.edu/Saltzer/www/publications/ protection/zuletzt 21.10.2012) 10 Schmeh, Klaus: Kryptografie. Verfahren, Protokolle, Infrastrukturen. 3., überarb. und erw. Auflage. Heidelberg: dpunkt.verlag, 2007, 772 S. 11 Schneier, Bruce: Angewandte Kryptographie. Protokolle, Algorithmen und Sourcecode in C. München: Pearson Studium, 2006, 844 S. 12 Selke, Gisbert: Kryptographie. Verfahren, Ziele, Einsatzmöglichkeiten. 1. Aufl. Köln: O’Reilly, 2000, 225 S.
Stefanie Haustein, Dirk Tunger
C 10 Sziento- und bibliometrische Verfahren C 10.1 Einführung Wissenschaftliche Kommunikation, das heißt der Austausch über Forschungsergebnisse, findet formal in Form wissenschaftlicher Publikationen statt. In den Naturwissenschaften und der Medizin steht damit vor allem ein Medium im Mittelpunkt: wissenschaftliche Fachzeitschriften. Die Gesamtmenge des formellen wissenschaftlichen Outputs ist einem ständigen Wachstum unterworfen. Hiermit ist nicht nur die Zunahme der Anzahl wissenschaftlicher Veröffentlichungen in den existierenden Journals gemeint, sondern auch die Zunahme an Zeitschriftentiteln selber (Lit. 46). Mit diesem Wachstumsprozess einher geht das Gefühl, einer ständigen Flut von wissenschaftlichen Veröffentlichungen gegenüberzustehen. Es wächst der Wunsch, einen Überblick zurückzuerhalten über die Entwicklung wissenschaftlicher Themen, den Output von Ländern oder Einrichtungen sowie die hiermit verbundene Wahrnehmung. Sziento- und bibliometrische Methoden versuchen dieser Informationsflut Herr zu werden und die relevantesten Dokumente, Zeitschriften, Autoren oder Institutionen eines Fachgebiets mit Hilfe quantitativer Methoden zu identifizieren. Nicht nur nach subjektivem Empfinden, sondern auch nach objektiven Kriterien hat das Interesse an sziento- und bibliometrischen Verfahren zugenommen, insbesondere etwa seit der Jahrtausendwende (Lit. 63). Dies kann einerseits mit Änderungsprozessen in der Vergabe wissenschaftlicher Förderung (Lit. 37, Lit. 42), aber auch mit dem veränderten und vereinfachtem Zugang zu Zitations- und Publikationsdatenbanken über das Internet erklärt werden (Lit. 62). In diesem Beitrag wird neben der Begriffsdefinition und -entwicklung gezeigt, wie eine Zitation Publikationen miteinander verbindet. Bibliometrische Gesetzmäßigkeiten geben Einblick in Verteilungszusammenhänge und -muster und verdeutlichen, dass bei der Erstellung bibliometrischer Analysen in der Regel nicht von einer Normalverteilung auszugehen ist, sondern eine schiefe Verteilung überwiegt. Veränderungsprozesse werden bei der Darstellung des Wachstums von Output sowie der Veränderung von Einzel- zu Mehrautorenschaft aufgegriffen. Einen Schwerpunkt des Beitrags bildet die auf Publikationen und Zitationen basierende Indikatorik. Abgerundet wird der Beitrag durch einen Ausblick auf alternative Impact-Messung, d. h. die Verwendung von Downloadstatistiken sowie von Altmetrics in szientometrischen Auswertungen.
C 10.2 Begriffsentwicklung und -abgrenzung Der Begriff „Bibliometrie“ wurde im Jahr 1969 durch A. Pritchard (Lit. 49) verbreitet. Er leitete ihn vom vorher verwendeten Term „statistical bibliography“ ab: „Therefore it is suggested that a better name for this subject […] is bibliometrics, i.e. the application of mathematics and statistical methods to books and other media of communication“ (Lit. 49, S. 349). Eine frühere Nutzung des Begriffes Bibliometrie geht auf Paul Otlet im Jahr 1934 in dessen Traité de Documentation zurück (Lit. 64, S. 237). Diodato verweist im „Dictionary of Bibliometrics“ zur Definition des Begriffes „Bibliometrie“ (Lit. 15, S. 13ff) auf zwei andere Quellen: „Bibliometrics is the application of various statistical analyses to study patterns of authorship, publication, and literature use“ (Lit. 33, S. 353). „Bibliometrics is the quantitative study of literatures as they are reflected in bibliographies“ (Lit. 69, S. 119). Neben dem Begriff „Bibliometrie“ werden auch immer wieder die Begriffe „Szientometrie“ (Lit. 44) und „Informetrie“ (Lit. 43), „Patentometrie“ sowie „Webometrie“ angeführt: Unter dem Oberbegriff Informetrie, der sich auf die statistische Analyse von Informationen generell bezieht, hat Szientometrie seinen Schwerpunkt auf wissenschaftlichen Informationen, Bibliometrie auf wissenschaftlichen Publikationen, Patentometrie auf Patenten sowie Webometrie (oder „Webometrics“) bei Internetdaten (Lit. 57). Die Begriffe Bibliometrie, Szientometrie und Informetrie werden auch quasi-syn-
480
C 10: Stefanie Haustein, Dirk Tunger
onym verwendet. Die Encyclopedia of Library and Information Science enthält einen historischen Abriss der Bibliometrie nebst umfangreicher Bibliographie bis zu den 1980er Jahren (Lit. 31). Einen umfassenden Überblick über die Literatur bietet Bar-Ilan (Lit. 05).
C 10.3 Die Zitation als Bindeglied zwischen Publikationen Eine Zitation ist die Bezugnahme in einer wissenschaftlichen Arbeit auf eine vorhergehende Publikation (vgl. hierzu Lit. 55, S. 34). Sie markiert einen Informationsfluss und signalisiert damit inhaltliche Nähe. Auf diesem Ansatz beruhte Eugene Garfields Idee zu einem Zitationsindex für die Verbesserung des Information Retrievals wissenschaftlicher Veröffentlichungen. Ein Zitationsindex „is an ordered list of cited articles each of which is accompanied by a list of citing articles“ (Lit. 19, S. 528). Es werden in einem Zitationsindex nicht nur die reinen bibliographischen Angaben verzeichnet, sondern zusätzlich die in einem Artikel referenzierten Fußnoten. Dies ist die Grundlage, um die Verbindungen zwischen den einzelnen wissenschaftlichen Artikeln nachzuweisen. „Any source citation may subsequently become a reference citation“ (Lit. 19, S. 528). Ziel ist es also, „… [to] find out the authors and documents, that have cited the given author or document“ (Lit. 15, S. 35). Während man bei der Durchsicht der Referenzen in Arbeiten, die für eine bestimmte Fragestellung interessant sind, stets nur ältere Publikationen zum gleichen Thema finden kann, kann man in einem Zitationsindex auch neuere Publikationen zur gleichen Thematik finden. Der in den 1960er Jahren von Eugene Garfield entwickelte Science Citation Index ist ein Beispiel für einen derartigen Index: Als Eugene Garfield den Science Citation Index entwickelt hat, war an eine Online-Datenbank noch nicht zu denken. Der ursprüngliche Index ist in Buchform erschienen und setzte sich aus verschiedenen Komponenten zusammen (Lit. 20, S. 546-550): So war es zum einen möglich, einen Aufsatz unter dem Namen jedes Autors (Source Index) zu finden. Die Zitationen wurden in diesem Teil allerdings nicht gelistet. Zusätzlich konnte man Aufsätze unter Schlagworten im Permuterm Subject Index finden. Hauptbestandteil war der eigentliche Citation Index, der Teil, in dem unter dem Namen des Erstautors die Aufsätze (aus allen zurückliegenden Kalenderjahren), die im Berichtsjahr von anderen Wissenschaftlern zitiert wurden unter Angabe der Zitatstellen gelistet waren. Der Science Citation Index ist auf Grund seiner Reputation und großen Bekanntheit auch gegenwärtig eine der am meisten verwendeten Quellen für bibliometrische Auswertungen. Vergleiche mit Scopus haben zu einer hohen Quote an Übereinstimmung in den Ergebnissen geführt (Lit. 02, Lit. 04). Dies bestätigt eine von Garfields Grundannahmen, dass es sogenannte Core Journals gibt: In einer relativ geringen Zahl an Zeitschriften findet sich der überwiegende Teil der zu einem Thema veröffentlichten Literatur.
C 10.4 Informetrische Gesetzmäßigkeiten In der Informetrie folgen die zu untersuchenden Sachverhalte nicht einer Gleichverteilung. Zur Beschreibung der empirisch gefundenen Verteilungen wurden verschiedene „Gesetze“ formuliert, von denen im Folgenden drei näher betrachtet werden: –– Bradfords Gesetz: Die Artikel eines wissenschaftlichen Themas verteilen sich auf drei Gruppen von Zeitschriften; jede Gruppe enthält ähnlich viele Publikationen. Die Zahl der Zeitschriften in jeder der drei Gruppen steht im Verhältnis 1:n:n², wobei n als Bradford multiplier bezeichnet wird. Die erste (kleinste) Gruppe enthält die Core Journals des Themengebietes, die zweite Gruppe beinhaltet solche, die in regelmäßigen Abständen zu einem Thema veröffentlicht und die dritte Gruppe wird gebildet von Journals, die eher wenig zu einem Thema beitragen (Lit. 11, Lit. 13). Auf dieser Aussage fußt die Möglichkeit, einen Zitationsindex nach wirtschaftlichen Maßstäben aufzubauen und von Beginn an keine hundertprozentige Abdeckung der Journals eines Fachgebietes erreichen zu müssen. Trotzdem ist es gerechtfertigt,
––
––
C 10: Sziento- und bibliometrische Verfahren
481
auf dieser Datengrundlage fundierte bibliometrische Auswertungen zu erstellen in der Sicherheit, mit den Kernzeitschriften einer Disziplin zu arbeiten. Lotkas Gesetz: Mit der Frage der Produktivität von Autoren hat sich Alfred Lotka um 1926 beschäftigt, als er das Gesetz aufstellte, dass die Anzahl der Autoren, die n Beiträge veröffentlichen ungefähr 1/n² der Anzahl der Autoren entspricht, welche nur einen Beitrag veröffentlichen (Lit. 36). Mit anderen Worten publizieren viele Autoren wenig, wenige Autoren aber viel. Zipfsches Gesetz: Dieses Gesetz befasst sich mit der Verteilung von Worten in einem Text. Zipf stellte fest, dass in einem bestimmten Text wenige Worte sehr häufig vorkommen und viele sehr selten. Gegeben sei die Häufigkeitsverteilung der Worte eines Textes. Hierzu stellte Zipf das Gesetzt auf, dass es einen Zusammenhang gibt zwischen dem Rang r eines Wortes in dieser Häufigkeitsverteilung und der Häufigkeit f seines Vorkommens im Text. Der sich ergebende Wert C ist dabei für jeden Text unterschiedlich: r * f = C (Lit. 70).
C 10.5 Wachstumsprozesse, Veränderungen in der Wissenschaftlichen Kommunikation In seinem Buch „Little Science – Big Science“ hat Derek de Solla Price über Wachstumsprozesse in der Wissenschaft geschrieben und hierbei auch die zuvor beschriebenen Gesetze vor Augen gehabt. Er zeigt auf, dass sich sowohl die Zahl wissenschaftlicher Journals als auch die Zahl an Wissenschaftlern ständig erhöht (Lit. 46, S. 8f). Diese Aussage schlägt sich auch nieder in der Anzahl an Veröffentlichungen, die in bibliographischen Datenbanken verzeichnet sind: Hier lässt sich von Jahr zu Jahr in der Regel eine Zunahme feststellen. Dies zeigt den Stellenwert an, den die Wissenschaft eingenommen hat: „Science and technology are the driving forces of our contemporary society. Analyses of these forces are indispensable in any national science policy or research management strategy. In view of this there is a need for valid and user-oriented analyses of scientific and technological developments“ (Lit. 41).
C 10.5.1 Wachstum von Output Die wissenschaftliche Community verfügt derzeit über einige Zehntausend wissenschaftlicher Zeitschriften mit Peer Review. Obwohl sich die Zahl der gecoverten Zeitschriften nur langsam erhöht, wächst der Output der dargestellten Weltregionen kontinuierlich und deutlich sichtbar. Grund ist eine ständig wachsende Zahl an Veröffentlichungen in den einzelnen Zeitschriften. Der Publikationsoutput der international renommierte Zeitschrift „Physical Review A“ stieg beispielsweise von 2002 auf 2011 um 49 % (nur Research Articles und Reviews). Bei der Aufteilung des weltweiten wissenschaftlichen Outputs auf Weltregionen ist ersichtlich: Europa ist der führende Forschungsraum weltweit, gefolgt von Nordamerika und der Asien-Pazifik-Region. Wie zuvor unter Lotkas Gesetz beschrieben, publizieren wenige Länder viel und viele Länder wenig Output. Die USA sind überwiegend für den nordamerikanischen Output verantwortlich, während China das überproportional aktivste Land des asiatischen Forschungsraumes ist. Der Output von China hat sich in der Vergangenheit teilweise exponentiell entwickelt (vgl. Lit. 23, Lit. 29). Durch die Zunahme an wissenschaftlichem Output schwindet die Übersicht über die Wissenschaftslandschaft. Es ist aber gerade für eine Forschungsnation von essentieller Bedeutung, die eigene Position zu kennen. „The ability to judge a nation’s scientific standing is vital for the governments, business and trusts that must decide scientific priorities and funding“ (Lit. 32).
482
C 10: Stefanie Haustein, Dirk Tunger
Die Aussage von King ist umso bedeutender, da Wissenschaft nicht mehr aus seiner Vielzahl an Einzelwissenschaftlern besteht, sondern aus global agierenden Großforschungseinrichtungen. Diese Einrichtungen sowie das Wissenschaftsmanagement in diesen Einrichtungen, aber auch deren Fördereinrichtungen müssen einen Überblick über die Entwicklung von Wissenschaft weltweit haben, um steuernd agieren zu können. C 10.5.2 Einzel- und Mehrautorenschaft wissenschaftlicher Publikationen Wissenschaftliche Publikationen werden zunehmend weniger in Einzelautorenschaft, dafür verstärkt in Mehrautorenschaft publiziert. Mehrautorenschaft ist definiert wie folgt: „An instance in which two or more individuals jointly author a document. In such a case, the author number of the document is greater than one. Multiple authorship is sometimes used synonymously with coauthorship […]“ (Lit. 15, S. 6).
Der genaue prozentuale Anteil von in Mehrautorenschaft verfassten Dokumenten variiert zwischen den einzelnen Fachgebieten, der eindeutige Trend der Zunahme ist aber in allen Disziplinen vorhanden. An einem Beispiel aus der Physik wird dies illustriert: Untersucht wurden alle Veröffentlichungen, die über die Subject-Kategorie des Web of Science zur Physik zuzuordnen sind für den 10-Jahreszeitraum von 2002 bis 2011, beschränkt auf den Dokumenttyp „Research Article“. Es wird deutlich, dass der prozentuale Anteil der in Mehrautorenschaft verfassten Dokumente von anfänglich 87 % auf 92 % kontinuierlich ansteigt und fast den gesamten Publikationsoutput der Physik in Journals des Web of Science umfasst. Dies verwundert nicht, bedenkt man, dass beispielsweise große physikalische Experimente überwiegend nur im Team zu bewältigen sind. Der Umfang der untersuchten Artikel, gemessen in Seiten, steigt dem gegenüber nur geringfügig an und liegt im Schnitt bei 8,5 Seiten pro Artikel. Pro Paper werden im Schnitt 26 vorhergehende Publikationen zitiert. Die durchschnittliche Zahl der Autoren eines Artikels stieg von 4,5 im Jahr 2002 auf knapp 7 im Jahr 2011. C 10.5.3 Zunehmende internationale Kooperation Der Begriff Mehrautorenschaft wurde oben bereits beschrieben. Was dort auf Ebene von Einzelautoren dargestellt wurde, ist ebenso auf Ebene von Einrichtungen oder Ländern gängige Praxis. So kann wissenschaftlicher Output auch nicht nur aus der Sicht eines Landes betrachtet werden, sondern sehr interessant ist die Betrachtung der gemeinsamen Publikationen zweier Länder: Ein Artikel wird üblicherweise als internationale Kooperation angesehen, wenn die Adressangaben der beteiligten Autoren mehr als ein Land umfassen (vgl. Lit. 41). Gemeinsame wissenschaftliche Publikationen bieten die Möglichkeit des wissenschaftlichen Austauschs und der gegenseitigen Ergänzung an Möglichkeiten. Die häufigsten Gründe für Kopublikation generell sind: –– Zugang zu Wissen, Fähigkeiten oder wissenschaftlichen Einrichtungen/Instrumenten, –– Teilen von Kosten und Risiken, –– gemeinsame Projekte (EU-Projekte haben stets Teilnehmer aus mehreren Ländern), –– Etablieren von Standards, –– Lösen von überregionalen oder globalen Problemen, –– Wissenschaft als Zugang zu weiterer wirtschaftlicher oder politischer Verbundenheit. Wissenschaftliche Zusammenarbeit hat sich in den vergangenen Jahren erheblich verstärkt: Untersuchungen belegen, dass hierbei nicht nur der Publikationsoutput einzelner Länder zugenommen hat, sondern auch deren generelle Vernetzung untereinander (Lit. 23, Lit. 29).
C 10: Sziento- und bibliometrische Verfahren
483
C 10.6 Indikatorik Mit der Entwicklung der ersten Zitationsindizes vom Retrieval-Werkzeug hin zur Datengrundlage in der Wissenschaftsevaluation geht auch die Entwicklung von publikations- und zitationsbasierten Indikatoren einher. Die meisten bibliometrischen Kennwerte versuchen, wissenschaftlichen Output in Form von Publikationen und dessen Wahrnehmung auf Grundlage von Zitationen abzubilden und so vergleichbar zu machen. Anwendung finden Indikatoren in der Bibliometrie heute auf Mikro-, Meso- und Makroebene zur Evaluation von einzelnen Publikationen, Autoren, Institutionen, Zeitschriften, Disziplinen, Städten oder Ländern. Einer der ersten und bekanntesten Indikatoren, der auf einen größenunabhängigen Vergleich wissenschaftlicher Zeitschriften abzielt, ist der Impact Factor. Garfield und Sher entwickelten ihn ursprünglich als größenunabhängiges Tool zur Auswahl der Kernzeitschriften eines Fachgebiets zur Aufnahme in den Science Citation Index (Lit. 17, Lit. 18, Lit. 22). Mittlerweile hat einerseits der Bedarf informetrischer Methoden in der Forschungsevaluation und die Komplexität der Quantifizierung von wissenschaftlichem Einfluss andererseits zu einer Vielzahl Indikatoren geführt, die sich nicht nur in der Ebene ihrer Anwendung, sondern auch durch die Berechnungsmethode oder durch die Definition der Datengrundlage (Publikations- und Zitationsfenster, berücksichtigte Dokumenttypen) unterscheiden. Das Fehlen von festen Standards hat dazu geführt, dass eine Fülle von bibliometrischen Kennwerten und Methoden existiert. Die zentralsten Indikatoren werden im Folgenden vorgestellt. Die grundlegendsten Kennwerte in der Bibliometrie sind die absolute Zahl an veröffentlichten Publikationen (P) und die darauf entfallende Menge von Zitationen (C). Die zu Grunde liegende Annahme dabei ist, dass wissenschaftliche Veröffentlichungen die formale Kommunikation von Forschungsaktivität und damit die wissenschaftliche Produktivität eines Autors, Instituts oder eines Landes widerspiegeln. Zitate, d. h. die formale Nennung einer Veröffentlichung in der Referenzliste einer anderen Publikation, gelten als Kennzeichnung des Informationsflusses und sind daher im Mertonschen Sinne die Währung im Wissenschaftssystem (Lit. 38). Je häufiger ein Dokument zitiert wird, desto mehr Einfluss hat es innerhalb der wissenschaftlichen Community. Die Anzahl der Zitate wird daher als Indikator zur Messung der Wahrnehmung genutzt. Disziplin Medicine Biology and biotechnology Chemistry Physics Engineering Geosciences Materials science Agricultural science Mathematics Information and computer science Nanotechnology Energy Multidisciplinary journals
Anzahl Publikationen durchschnittliche Zitationsrate 289.765 142.667 118.267 116.663 92.090 59.291 53.064 35.883 33.495 22.851 10.973 10.246 8.938
4,9 5,2 4,8 4,3 2,4 3,0 3,4 2,4 1,6 2,3 6,7 3,1 15,5
Tab. 1: Publikationsgewohnheiten in einzelnen Wissenschaftsdisziplinen: Angegeben ist die Anzahl an Veröffentlichungen sowie die durchschnittliche Zitationsrate einzelner Disziplinen mit Publikationsjahr 2007 in einer der Datenbanken des Science Citation Index, eingeschränkt auf Originalveröffentlichungen und Reviews. Mehrfachzuordnungen sind möglich.
484
C 10: Stefanie Haustein, Dirk Tunger
Als grundlegende bibliometrische Kenngrößen basieren die Anzahl der Publikationen und Zitationen auf der Annahme, dass sie in der Lage sind, wissenschaftliche Produktivität und Resonanz zu messen. Wie andere Indikatoren werden sie von verschiedenen Faktoren beeinflusst, sodass manche Aussagen nur eingeschränkt oder in manchen Bereichen überhaupt nicht möglich sind. Die Publikationsanzahl eines Wissenschaftlers ist nicht nur abhängig von der Länge seiner wissenschaftlichen Karriere und seiner Position, sondern auch von dem Fachgebiet, in dem er arbeitet. Mediziner publizieren mehr als Mathematiker (siehe Tab. 1). Hinzu kommt die Abdeckung der jeweiligen Disziplin in der für bibliometrische Analysen verwendeten Datenbasis sowie die Gewohnheit einer Disziplin, in Journals zu veröffentlichen (siehe Tab. 2). Datenbanken wie Web of Science und Scopus beschränken sich auf eine Auswahl von größtenteils englischen Zeitschriftenartikeln und Konferenzbeiträgen. Ist diese Auswahl nicht repräsentativ für den wissenschaftlichen Output einer Disziplin – dies ist vor allem in den Geistes- und Sozialwissenschaften der Fall – hat eine auf dieser Datenlage basierende Publikationsanalyse keine oder nur sehr eingeschränkte Aussagekraft (Lit. 14). Discipline Molecular biology & biochemistry Biological sciences (related to humans) Chemistry Clinical Medicine Physics and astronomy WoS average Applied physics and chemistry Biological sciences (animals and plants) Psychology and psychiatry Geosciences Other social sciences (medicine and health) Mathematics Economics Engineering Social sciences Humanities and arts
Publications (%) in journals in WoS WoS coverage 96 95 90 93 89 84 83 81 75 77 75 71 59 60 41 34
97 95 93 90 94 90 89 84 88 81 80 74 80 77 72 50
92 90 84 84 83 75 73 69 66 62 60 53 47 46 29 17
Tab. 2: Publikationsgewohnheiten in einzelnen Wissenschaftsdisziplinen (aus Lit. 14, S. 163): „Publications in Journals“ beschreibt den Anteil an Veröffentlichungen einer Disziplin, die durchschnittlich in Zeitschriften veröffentlicht wird. „Publications in WoS“ beschreibt den Anteil an Veröffentlichungen einer Disziplin, der im Web of Science gelistet ist. „Publications WoS coverage“ beschreibt den gesamten Anteil an Veröffentlichungen einer Disziplin, der im Web of Science insgesamt dargestellt wird.
Die Anzahl der erhaltenen Zitate unterscheidet sich zwischen Dokumenttypen. So wird ein durchschnittlicher Übersichtsartikel um ein vielfaches häufiger zitiert als eine Originalveröffentlichung, die primär Forschungsergebnisse beschreibt. Außerdem basieren Zitationsindikatoren auf der grundsätzlichen Annahme, dass Zitate positiven Einfluss kennzeichnen und die Referenzliste eines Dokuments alle und nur solche Quellen enthalten, die den Autor in seiner Arbeit beeinflusst haben. Bei der Vielzahl von Gründen zu zitieren und nicht zu zitieren (Lit. 39), ist die Aussagekraft von Zitationen als Qualitätsmerkmal vor allem in den Geistes- und Sozialwissenschaften unzulässig. In den Natur- und Ingenieurwissenschaften und der Medizin bilden negative Zitationen jedoch die Ausnahme. Ein hochzitierter Artikel hat also mehr Einfluss auf die wissenschaftliche Fachwelt ausgeübt als ein unzitiertes Dokument. Allerdings sollte selbstverständlich sein, dass eine einzige Kennzahl wie die Zitationsrate nicht in der Lage ist, das Standing einer Person, Institution oder
C 10: Sziento- und bibliometrische Verfahren
485
eines Landes innerhalb der wissenschaftlichen Community komplett zu erfassen, sondern dass es eines detaillierten, möglichst multidimensionalen Ansatzes bedarf, um wissenschaftlichen Impact adäquat abzubilden. Genauso können bibliometrische Analysen als quantitative Methode keinesfalls qualitative Ansätze wie Peer Review und Begutachtungsprozesse durch Experten ersetzen, sondern sollten vielmehr ergänzend zu Rate gezogen werden. C 10.6.1 Einfache Zitationskennwerte Zitationsraten (CPP), d. h. die durchschnittliche Anzahl an Zitationen pro Publikation, ermöglichen den größenunabhängigen Vergleich von Autoren, Institutionen, Zeitschriften usw. Üblicherweise findet hier das arithmetische Mittel Anwendung, auch wenn dieses nicht besonders geeignet ist, die mittlere Zitationsrate bei typischen informetrischen Verteilungen wiederzugeben. Wenige hochzitierte Dokumente können die durchschnittliche Zitationsrate extrem beeinflussen. Ein robusterer Indikator ist der Median. Angewendet werden können Zitationsraten auf jedes beliebige Set an Veröffentlichungen, wie z. B. alle Publikationen eines Landes, einer Forschungseinrichtung oder eines Autors. Dabei sollte eine gewisse Mindestanzahl von Publikationen nicht unterschritten werden, um statistische Vergleichbarkeit zu ermöglichen. Unterscheiden können sich Zitationsraten jedoch nicht nur auf der Aggregationsebene, sondern auch durch die genutzte Datenbank, die berücksichtigten Dokumenttypen sowie Publikations- und Zitationsfenster. Der bekannteste Zitationsindikator mit Einschränkung berücksichtigter Dokumenttypen und festgelegtem Publikations- und Zitationsfenster ist der Impact Factor (Lit. 22, Lit. 18). Eine weitere Möglichkeit zur Darstellung der spezifischen Verteilungen ist der Vergleich von Perzentilen. Ein spezifischer verteilungsbasierter Zitationsindikator ist der Anteil hochzitierter Dokumente. Anders als die Zitationsrate misst er nicht die durchschnittliche, sondern exzellente Performance (Lit. 61). Ein weiterer Kennwert, der versucht die beiden Größen – Publikationen und Zitationen – zu vereinen, ist der h-Index, benannt nach seinem „Erfinder“ Physiker Jorge E. Hirsch. Der h-Index ist wie folgt definiert: „A scientist has index h, if h of his or her Np papers have a least h citations each and the other (Np-h) papers have ≤h citations each.“ (Jorge E. Hirsch 2005)
Ein Wissenschaftler hat einen h-Index von 10, wenn er mindestens 10 Dokumente publiziert hat, die jeweils mindestens 10mal zitiert worden sind. Auch wenn der Indikator so versucht, die zwei Aspekte Output und Wahrnehmung zu vereinen, ignoriert er die Gesamtanzahl von Publikationen (der Wissenschaftler könnte genau diese 10 oder noch 100 weitere Veröffentlichungen haben) genauso wie die genaue Verteilung der Zitationen (der h-Index ist 10, egal ob die 10 Dokumente jeweils 10mal oder 1000mal zitiert wurden). Neben der Disziplinabhängigkeit ist der h-Index anders als eine Zitationsrate ein größenabhängiger Zitationskennwert, d. h. er ist abhängig von der Anzahl der Veröffentlichungen und den Zitationen. Allerdings erhöht sich der h-Index nicht gleichmäßig mit jedem weiteren Zitat. Waltman und van Eck (Lit. 67) führen die Inkonsistenzen und die daraus resultierende Unbrauchbarkeit als Indikator weiter aus. Trotz seiner Problematiken hat sich der hIndex, ähnlich wie der Impact Factor, in der Forschungsevaluation und unter Wissenschaftlern wegen seiner Einfachheit innerhalb kürzester Zeit etabliert und wird mittlerweile in Bewerbungsverfahren regelmäßig abgefragt. Darüber hinaus wurden zahlreiche Varianten des h-Index entwickelt, um die Defizite des Indikators zu beseitigen (Lit. 01, Lit. 18). Deren praktische Verwendung ist allerdings sehr eingeschränkt; sie sind bislang eher von akademischem Interesse.
486
C 10: Stefanie Haustein, Dirk Tunger
C 10.6.2 Normalisierte Zitationsindikatoren Um einen Vergleich von wissenschaftlichem Impact von Publikationen, Wissenschaftlern, Zeitschriften, Instituten usw. verschiedener Fachrichtungen zu ermöglichen, müssen oben genannte disziplinspezifische Unterschiede ausgeglichen werden. Diesen Ansatz verfolgen sogenannte normalisierte Zitationskennwerte. Grundsätzlich unterscheidet man hier zwischen „a posteriori“- und „a priori“-Normalisierungsmethoden (Lit. 24). A-posteriori-Indikatoren bzw. cited-side-Normalisierungen berechnen für eine zu untersuchende Menge von Dokumenten zunächst die herkömmliche Zitationsrate, um diese dann mit dem erwarteten Durchschnittswert aller Publikationen der jeweiligen Disziplinen zu vergleichen. Ein Wert über 1 gibt an, dass die untersuchten Veröffentlichungen besser als die durchschnittliche Publikation des jeweiligen Fachbereichs wahrgenommen werden, ein Wert unter 1 signalisiert unterdurchschnittliche Zitationsperformanz. Der Nachteil von a-posteriori-Normalisierungen ist, dass der Vergleich mit einem disziplinspezifischen Erwartungswert eine (mitunter willkürliche) Definition von Disziplinen voraussetzt. Eine Änderung in der Klassifikation kann somit Veränderungen der Ergebnisse zur Folge haben (Lit. 72). Beispiele für a-posteriori-normalisierte Indikatoren sind der Mean Normalized Citation Score (MNCS) (Lit. 65), Normalized Mean Citation Rate (NMCR) (Lit. 52) oder der J-Faktor (Lit. 03). Die a-priori- bzw. citing side- oder source normalized-Methode versucht die Abhängigkeit von Definitionen von Disziplinen zu umgehen, indem die Zitationen schon vor der Berechnung einer Zitationsrate normiert werden. Der Ausgleich von unterschiedlich hohen Zitationsfrequenzen zwischen den Disziplinen funktioniert dabei unter anderem an Hand der Länge der Referenzlisten der citing side, d. h. der zitierenden Quellen (Lit. 66, Lit. 71). Die Idee dahinter beruht auf der fraktionellen Zählweise von Zitationen, die Small und Sweeney (Lit. 54) im Kontext der Kozitationsanalyse einführen. Bei der disziplinspezifischen Normalisierung fallen Zitationen von Dokumenten mit kurzen Referenzlisten – und damit Disziplinen mit niedrigen Zitationsraten – stärker ins Gewicht und Zitationen von Veröffentlichungen mit vielen Literaturangaben – d. h. hohen Zitationsraten – zählen weniger. Anders als bei der a-posteriori-Normalisierung wird also nicht mit einem Erwartungswert verglichen, sondern Unterschiede im Zitationsverhalten schon vor, also a priori, der Berechnung des Indikators vorgenommen. Vertreter der a-priori-Normalisierung sind beispielsweise der Audience Factor (Lit. 71, Lit. 73), Source Normalized Impact per Paper (SNIP) (Lit. 40), Fractional Counted Impact Factor (Lit. 34) und Mean Source Normalized Citation Score (MSNCS) (Lit. 66). C 10.6.3 Gewichtete Zitationskennwerte Während Normalisierungskennwerte versuchen, Unterschiede zwischen Zitationen auszugleichen und zu relativieren, verfolgen gewichtete Indikatoren das Ziel Unterschiede herauszustellen und Zitationen von wichtigen Quellen mehr Gewicht zu geben als Verweise von weniger wichtigen. Die Grundlagen für gewichtete Zitationskennwerte legten Pinski und Narin mit den gewichteten Zeitschriftenindikatoren, dem Influence Weight und Influence per Publication. Sie argumentierten: „It seems more reasonable to give higher weight to a citation from a prestigious journal than to a citation from a peripheral one.“ (Lit. 45) Bei der Berechnung der Gewichtungen greifen sie auf netzwerktheoretische Ansätze und den iterativen Eigenvektor-Algorithmus von Bonacich (Lit. 09) zurück, der die Wichtigkeit eines Knotens in einem Netzwerk auf die Anzahl seiner direkten und indirekten Verbindungen zu anderen Knoten und damit seiner Position innerhalb des Netzwerks ermittelt. Bezogen auf wissenschaftliche Zeitschriften bedeutet dies, dass eine Zeitschrift viel Einfluss ausübt, wenn sie häufig von vielen einflussreichen Zeitschriften zitiert wird. Denselben Ansatz nutzten auch die Gründer von Google – Brin und Page – beim PageRank zur Optimierung des Rankings bei Google. Zu den gewichteten Zitationsindikatoren gehören die im Journal Citation Report des WoS gelisteten Eigenfactor und Article Influence Scores (Lit. 07, Lit. 08) und der auf Scopus-Daten basierende SCImago Journal Rank
C 10: Sziento- und bibliometrische Verfahren
487
(Lit. 16, Lit. 25). Es sollte betont werden, dass diese gewichteten Indikatoren dieselben Probleme wie einfache Zitationsraten haben, was die Abhängigkeit von disziplinspezifischen Unterschieden und die Wahl des geeigneten Zitationsfensters und der Dokumenttypen etc. angeht. So sind z. B. die laut SCImago Journal Rank zehn einflussreichsten Zeitschriften aus den Lebenswissenschaften und im Bereich der Informatik die bioinformatischen Journale (Lit. 25). Diese Prestige-Indikatoren sollten also ausschließlich auf vergleichbare Zeitschriften angewandt werden. C 10.6.4 Zeitbasierte Indikatoren Anders als die oben genannten Zitationskennwerte, welche den durchschnittlichen Zitationsimpact einer Menge von Dokumenten zu einem bestimmten Zeitpunkt messen, widmen sich Indikatoren wie zeitbasierte Indikatoren wie die Halbwertszeit der Zitationen (Cited Half-Life) oder der Referenzen (Citing Half-Life), der Price Index und die sogenannte Mean Response Time der Alterungsstruktur und dem Verfallsprozess wissenschaftlicher Publikationen. Während die Halbwertszeit in Analogie zum radioaktiven Zerfall den Zeitpunkt angibt, an dem 50 % aller Referenzen bzw. Zitationen veröffentlicht wurden, misst die Mean Response Time die Dauer von der Publikation einer Veröffentlichung zum Erhalt der ersten Zitation und damit die Reaktionsgeschwindigkeit. Der Price Index versucht durch den Anteil an aktueller Literatur die „Härte“ (hardness) der Wissenschaft zu bestimmen.
C 10.7 Alternative Impact-Messung Zitationen messen die formale Resonanz von wissenschaftlichen Publikationen. Der Einfluss einer Veröffentlichung wird nur dann messbar, wenn ein Autor diese zitiert. Vor dem Hintergrund, dass es viele Gründe gibt zu zitieren und vor allem nicht zu zitieren, wird deutlich, dass nicht jeder Einfluss formell belegt wird und auch nicht jedes Zitat tatsächlich Einfluss reflektiert (Lit. 39). Hinzu kommen Fehler in den Referenzen und Einschränkungen bezüglich der Abdeckung der Datenbank. Die gesamte Leserpopulation besteht darüber hinaus nicht nur aus Autoren, sondern umfasst mit „puren Lesern“ auch den Teil der Leserschaft, der nicht oder nicht regelmäßig publiziert (Lit. 59, Lit. 50). Es gibt andere Formen von Einfluss, die sich nicht in formaler wissenschaftlicher Kommunikation niederschlagen. Publikationen können Arbeitsalltag, Lehre und Politik und Gesellschaft im Allgemeinen beeinflussen, sie sind Grundlage für technischen Fortschritt. Während letzterer zum Teil durch Patentzitate messbar wird, ist die Bedeutung in den anderen Bereichen nur schwer zu erfassen. Hier stoßen Zitationsanalysen an ihre Grenzen. Sie sind nicht in der Lage, die gesamte Leserschaft zu erfassen (Lit. 51, Lit. 56, Lit. 27). Alternative Ansätze, die versuchen die gesamte Leserpopulation abzudecken, umfassen Statistiken über elektronische Volltextzugriffe und sogenannte altmetrics, welche Spuren von Wissenschaft im Web 2.0 erfassen. C 10.7.1 Downloads Mit dem Übergang zum elektronischen Publizieren wurden Statistiken über die Nutzung wissenschaftlicher Inhalte mit geringem Aufwand machbar. Logfiles auf Verlagsservern registrieren, wer, wann, wie häufig auf welches Dokument zugreift. Natürlich ist Volltextzugriff nicht gleichzusetzen mit Nutzen bzw. Lesen. Der Klick auf ein Dokument kann ein kurzen Blick auf den Titel und Abstract oder aber ausführliche Lektüre bedeuten; ein und derselbe Nutzer kann ein Dokument mehrmals aufrufen oder aber an einen großen Kreis aus Kollegen oder Studenten weiterreichen. Zugriff außerhalb der Verlagsseiten (z. B. Green Open Access) wird nicht gezählt (Lit. 60). Auch wenn Downloads die Anzahl der Leser nicht genau messen, sind sie dennoch ein guter Indikator für breite Nut-
488
C 10: Stefanie Haustein, Dirk Tunger
zung über Zitationen hinaus. Elektronische Downloadstatistiken ersetzen damit aufwändige Leserbefragungen und Nutzungsstatistiken über Aus- und Fernleihen und Dokumentlieferdienste im Bestandsmanagement von Bibliotheken (Lit. 26). In Analogie zu den zitationsbasierten Kennwerten wurden bereits eine Reihe von Indikatoren entwickelt, die auf Zugriffszahlen basieren (vgl. z. B. Lit. 50). Das größte Problem in der Berechnung von Downloadmetriken ist allerdings die fehlende Verfügbarkeit und Verlässlichkeit von Nutzungsdaten. Durch COUNTER (Counting Online Usage of NeTworked Electronic Resources) wurden Nutzungsstatistiken zwar erheblich standardisiert, allerdings sind die über die Journal Reports gelieferten Zugriffszahlen nicht detailliert genug, um sinnvolle Downloadindikatoren zu berechnen. Voraussetzung für die Berechnung der Großzahl der Nutzungsmetriken sind Zugriffszahlen auf Artikelebene (Lit. 27). Darüber hinaus liefern die Verlage lediglich lokale Statistiken an subskribierende Bibliotheken. Globale Zugriffszahlen sind wegen ihrer kommerziellen Sensibilität nicht zugänglich. Anders verhält es sich bei Open-Access-Zeitschriften, die auf Grund von niedrigen Nutzerzahlen keine Abbestellungen befürchten müssen. Die PLoS-Zeitschriften gehen mit gutem Beispiel voran und stellen mit ihren Article Level Metrics Zugriffszahlen pro Artikel pro Monat frei zur Verfügung. Diese Daten können genutzt werden, um spezifische Unterschiede zwischen Einfluss auf Autoren (Zitationen) und einer breiteren Leserschaft (Volltextzugriff) zu analysieren. Ein weiterer Vorteil von Downloads ist, dass die Messung quasi in Echtzeit geschehen kann. Downloads können so als eine Art Frühindikator für spätere Zitationen fungieren (Lit. 12). C 10.7.2 Altmetrics Mit der Entwicklung des Web 2.0 und wissenschaftsspezifischer Social Software sind Möglichkeiten entstanden, den Einfluss von Wissenschaftlern und deren Publikationen im weiteren Sinne zu erfassen (Lit. 35). Hinter dem Stichwort altmetrics (Kurzform für alternative metrics) verbirgt sich die Idee, wissenschaftlichen Impact in Web-2.0-Plattformen zu erfassen. Dabei geht es nicht darum, konventionelle Zitationsanalysen zu ersetzen, sondern zusätzliche Aspekte von Einfluss abzubilden. Dazu zählen beispielsweise Erwähnungen auf Twitter, in Blogbeiträgen, Kommentaren und Wikipedia-Artikeln oder das Abspeichern von Artikeln in Online-Social-Reference-Mangagern und Social-Bookmarking-Systemen (Lit. 47, Lit. 48). Natürlich unterscheiden sich diese Daten hinsichtlich Qualität und Aussagekraft. Eine ausführliche Erwähnung in einem Blogbeitrag hat sicherlich einen anderen Wert als die Ankündigung einer neuen Veröffentlichung auf 140 Zeichen über Twitter. Um die Leserschaft von wissenschaftlichen Publikationen zu erfassen, haben sich Social-Bookmarking-Tools und Reference-Manager wie CiteULike, BibSonomy und Mendeley als mögliche Datenquellen herausgestellt (Lit. 28, Lit. 06, Lit. 35). Sie haben den Vorteil, dass sie anders als Tweets einen etablierten Teil des wissenschaftlichen Kommunikationsprozesses abbilden, nämlich das Suchen und Verwalten von wissenschaftlicher Literatur. Mit der Entwicklung vom Papier in physikalischen Ordnern über PDFs in elektronischen Ordnern auf der lokalen Festplatte bis hin zu bibliografischen Einträgen in der Cloud enstehen nun Daten über die Nutzung von wissenschaftlichen Artikeln quasi als Beiprodukt der Literaturverwaltung. Was „Nutzung“ in diesem Fall aussagt, bedarf weiterer qualitativer Untersuchungen, gegenüber Downloads erscheinen Social Bookmarks aber aussagekräftiger, robuster und weniger manipulierbar, „insofar as they result from the intentional behavior of users interested in marking an item for future use rather than from pure navigation patterns“ (Lit. 58, S. 104).
C 10: Sziento- und bibliometrische Verfahren
489
C 10.8 Ausblick Der Beitrag hat gezeigt, welche Möglichkeiten sziento- und bibliometrische Verfahren in der Wissenschaftsforschung und -förderung bieten, aber auch versucht zu verdeutlichen, wo die Grenzen dieser quantitativen Methode liegen. Die Menge der vorhandenen Indikatoren zeigt, dass Zitationsanalysen verschiedene Aspekte formaler wissenschaftlicher Kommunikation abbilden und es „keinen 'Superindikator' [gibt], der die Frage nach der Qualität wissenschaftlicher Arbeit ultimativ beantworten würde“ (Lit. 30, S. 326). Nicht ein einzelner Indikator oder ein Ranking, sondern nur ein Set an unterschiedlichen Indikatoren ist in der Lage, ein komplexes Gesamtbild wiederzugeben. Dennoch muss angemerkt werden, dass gerade wegen dieser Komplexität eine Vielzahl bibliometrischer Indikatoren rein akademischen Charakter behält und nur ein geringer – oft (zu) simpler – Teil Eingang in die Anwendung gefunden hat. Da bibliometrische Analysen verstärkt zur Verteilung von Forschungsmitteln eingesetzt werden, bekommen sie automatisch eine „unvermeidbare politische Relevanz“, auf die Weingart bereits in der Vergangenheit hingewiesen hat (Lit. 68, S. 23). Der Beitrag zeigt, dass Bibliometrie sich zu einer eigenen Disziplin an der Schnittstelle von Informationswissenschaft, Sozialwissenschaft/ Soziologie und Mathematik entwickelt hat. Die thematische Diversifikation ist in den vergangenen Jahren stark vorangeschritten. Wie der letzte Abschnitt des Beitrags zeigt, werden ergänzend neue Datenquellen aus dem Web 2.0 in Betracht gezogen, die Messung von Impact im breiteren Sinne betrachten und damit den klassischen zitationsbasierten Ansatz von Bibliometrie erweitern. Zusammenfassend ist festzuhalten, dass bibliometrische Verfahren eine quantitative Methode beschreiben, die idealerweise durch weitere Informationen, beispielsweise in Form qualitativer Aspekte, ergänzt wird (vgl. hierzu Lit. 53).
Literatur 01 Alonso, S.; Cabrezizo, F. J.; Herrera-Viedma, E.; Herrera, F.: h-Index: A review focused in its variants, computation and standardization for different scientific fields. Journal of Informetrics 3 (4), 273-289, 2009 02 Archambault, E.; Campbell, D.; Gingras, Y.; Larivière, V.: Comparing of science bibliometric statistics obtained from the web and Scopus. Journal of the American Society for Information Science and Technology 60 (7), 1320-1326, 2009 03 Ball, R.; Mittermaier, B.; Tunger, D.: Creation of journal-based publication profiles of scientific institutions – A methodology for the interdisciplinary comparison of scientific research based on the J-factor. Scientometrics 81 (2), 381-392, 2009 04 Ball, R.; Tunger, D.: Science indicators revisited – Science Citation Index versus SCOPUS: A bibliometric comparison of both citation databases. Information Services and Use 26 (4), 293-301, 2006 05 Bar-Ilan, J.: Informetrics at the beginning of the 21st century – A review. Journal of Informetrics 2 (1), 1-52, 2008 06 Bar-Ilan, J.; Haustein, S.; Peters, I.; Priem, J.; Shema, H.; Terliesner, J.: Beyond citations: Scholars' visibility on the social Web. Proceedings of the 17th International Conference on Science and Technology Indicators (Vol. 1, 98-109). Montréal, Kanada, 2012 07 Bergstrom, C. T.: Eigenfactor: Measuring the value and prestige of scholarly journals. College & Research Libraries News 68 (5), 314-316, 2007 08 Bergstrom, C. T.; West, J. D.: Assessing journals with the Eigenfactor Metrics. Neurology 71 (23), 1850-1851, 2008 09 Bonacich, P.: Factoring and weighting approaches to clique identification. Journal of Mathematical Sociology 2, 113-120, 1972 10 Bornmann, L.; Mutz, R.; Hug, S. E.; Daniel, H.-D.: A multilevel meta-analysis of studies reporting correlations between the h-index and 37 h-index variants. Journal of Informetrics 5 (3), 346-359, 2011
490
C 10: Stefanie Haustein, Dirk Tunger
11 Bradford, S. C.: Sources of information on specific subjects. Engineering 137, 85-86, 1934 12 Brody, T.; Harnad, S.; Carr, L.: Earlier web usage statistics as predictors of later citation impact. Journal of the American Society for Information Science and Technology 57 (8), 1060-1072, 2006 13 de Bellis, N.: Bibliometrics and Citation Analysis. Plymouth: The Scarecrow Press, 2009 14 Craig, I. D.; Ferguson, L.: Journals ranking and impact factors: how the performance of journals is measured. Cope, B. & Phillips, A. (Hrsg). The Future of the Academic Journal, 159-193. Oxford: Chandos Publishing, 2009 15 Diodato, V.: Dictionary of Bibliometrics. New York: Harworth Press, 1994 16 Falagas, M. E.; Jouranos, V. D.; Arenciba-Jorge, R.; Karageorgopoulos, D. E.: Comparison of SCImago journal rank indicator with journal impact factor. Faseb Journal 22 (8), 2623-2628, 2008 17 Garfield, E.: Citation indexes for science. A new dimension in documentation through association of ideas. Science 122, 108-111, 1955 18 Garfield, E.: Citation analysis as a tool in journal evaluation. Journals can be ranked by frequency and impact of citations for science policy studies. Science 178 (4060), 471-479, 1972 19 Garfield, E.: Science Citation Index – A New Dimension in Indexing. Essays of an Information Scientist, Vol. 7, 525-535, 1984 20 Garfield, E.: Permuterm Subject Index: An autobiographical review. Essays of an Information Scientist, Vol. 7, 546-550, 1984 21 Garfield, E.: Evaluating research: Do Bibliometric Indicators Provide the Best Measures? Essays of an Information Scientist, Vol. 12, 93-100, 1989 22 Garfield, E.; Sher, I. H.: New factors in evaluation of scientific literature through citation indexing. American Documentation 14 (3), 195-201, 1963 23 Glänzel, W.; Schubert, A.: Analysing scientific networks through co-authorship. H. F. Moed, W. Glänzel, U. Schmoch (Hrsg.), Handbook of Quantitative Science and Technology Research. The Use of Publication and Patent Statistics in Studies of S&T Systems, 257-276. Dordrecht: Kluwer Academic Publishers, 2007 24 Glänzel, W.; Schubert, A.; Thijs, B.; Debackere, K.: A priori vs. a posteriori normalisation of citation indicators. The case of journal ranking. Scientometrics 87 (2), 415-424, 2011 25 Gonzalez-Pereira, B.; Guerrero-Bote, V. P.; De Moya-Anegon, F.: A new approach to the metric of journals' scientific prestige: The SJR indicator. Journal of Informetrics 4 (3), 379-391, 2010 26 Gorraiz, J.; Gumpenberger, C.: Going beyond citations: SERUM – A new tool provided by a network of libraries. Liber Quarterly 20 (1), 80-93, 2010 27 Haustein, S.: Multidimensional Journal Evaluation. Analyzing Scientific Periodicals Beyond the Impact Factor. Berlin, Boston: de Gruyter Saur, 2012 28 Haustein, S.; Siebenlist, T.: Applying social bookmarking data to evaluate journal usage. Journal of Informetrics 5 (3), 446-457, 2011 29 Haustein, S.; Tunger, D.; Heinrichs, G.; Baelz, G.: Reasons for and developments in international scientific collaboration: does an Asia-Pacific research area exist from a bibliometric point of view? Scientometrics 86 (3), 727-746, 2011 30 Hornbostel, S.: Wissenschaftsindikatoren – Bewertungen in der Wissenschaft. Opladen: Westdeutscher Verlag, 1997 31 Kent, A.: Bibliometrics, history of the development of ideas. Kent, A. (Hrsg.), Encyclopedia of Library and Information Science, Vol. 42, Suppl. 7, 144-219. New York: Verlag Marcel Dekker, 1987 32 King, D. A.: The scientific impact of nations. Nature 430 (6997), 311-316, 2004 33 Lancaster, F. W.: Measurement and Evaluation of Library Services. Washington, DC: Information Resources, 1977 34 Leydesdorff, L.; Opthof, T.: Normalization at the field level: Fractional counting of citations. Journal of Informetrics 4 (4), 644-646, 2010 35 Li, X.; Thelwall, M.; Giustini, D.: Validating online reference managers for scholarly impact measurement. Scientometrics 91, 461-471, 2012 36 Lotka, A. J.: The frequency-distribution of scientific productivity. Journal of the Washington Academy of Sciences 16, 317-323, 1926
C 10: Sziento- und bibliometrische Verfahren
491
37 Marx, W.: Forschungsbewertung auf der Basis von Zitierungen – Aussagekraft und Grenzen der Methode. Publikationsverhalten in unterschiedlichen wissenschaftlichen Disziplinen – Beiträge zur Beurteilung von Forschungsleistungen, 132-155, Bonn, Germany, 2009 38 Merton, R. K.: Sociology of Science: Theoretical and Empirical Investigations. Chicago: The University of Chicago Press, 1973 39 MacRoberts, M. H.; MacRoberts, B. R.: Problems of citation analysis – A critical review. Journal of the American Society for Information Science 40 (5), 342-349, 1989 40 Moed, H.: Measuring contextual citation impact of scientific journals. Journal of Informetrics 4 (3), 265-277, 2010 41 Moed, H.: Measuring China's research performance using the Science Citation Index. Scientometrics 53 (3), 281-296. 2002 42 Münch, R.: Die akademische Elite. Frankfurt am Main: Suhrkamp Verlag, 2007 43 Nacke, O.: Informetrie. Ein neuer Name für eine neue Disziplin. Nachrichten für Dokumentation 30 (6), 219-226, 1979 44 Nalimov, V. V.; Mulchenko, B. M.: Measurement of Science. Study of the Development of Science as an Information Process. Washington, DC: Foreign Technology Division, 1971 45 Pinski, G.; Narin, F.: Citation influence for journal aggregates of scientific publications – Theory with application to literature of physics. Information Processing & Management 12 (5), 297-312, 1976 46 Price, D. J. De Solla: Little Science, Big Science. New York, London: Columbia University Press, 1963 47 Priem, J.; Hemminger, B. M.: Scientometrics 2.0: Toward new metrics of scholarly impact on the social Web. First Monday 15 (7), 2010 48 Priem, J.; Taraborelli, D.; Groth, P.; Neylon, C.: altmetrics: A manifesto, 2010 (http://www.altmetrics.org/ manifesto) 49 Pritchard, A.: Statistical Bibliography or Bibliometrics. Journal of Documentation 25 (4), 348-349, 1969 50 Rowlands, I.; Nicholas, D.: The missing link: Journal usage metrics. Aslib Proceedings 59 (3), 222-228, 2007 51 Schlögl, C.; Stock, W. G.: Impact and relevance of LIS journals: A scientometric analysis of international and German-language LIS journals – Citation analysis vs. reader survey. Journal of the American Society for Information Science and Technology 55 (13), 1155-1168, 2004 52 Schubert, A.; Braun, T.: Relative indicators and relational charts for comparative-assessment of publication output and citation impact. Scientometrics 9 (5-6), 281-291, 1986 53 Schumacher, G.; Tunger, D.; Smith, A.; Preston, S.; Knott, B.: Materials research in Europe: Mapping excellence and looking ahead. JOM: The Journal of the Minerals, Metals & Materials Society 59 (2), 75-77, 2007 54 Small, H.; Sweeney, E.: Clustering the Science Citation Index using co-citations – I. A comparison of methods. Scientometrics 7 (3-6), 391-409, 1985 55 Stock, W. G.: Publikation und Zitat – Die problematische Basis empirischer Wissenschaftsforschung. Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft 29. Köln: Fachhochschule Köln, 2001 56 Stock, W. G.: The inflation of impact factors of scientific journals. ChemPhysChem 10 (13), 2193-2196, 2009 57 Stock, W. G.; Weber, S.: Facets of informetrics. Information. Wissenschaft & Praxis 57 (8), 385-389, 2006 58 Taraborelli, D.: Soft peer review: Social software and distributed scientific evaluation. Proceedings of the 8th International Conference on the Design of Cooperative Systems, 99-110, 2008 59 Tenopir, C.; King, D. W.: Towards Electronic Journals: Realities for Scientists, Librarians and Publishers. Washington, DC: Special Libraries Association. 2000 60 Thelwall, M.: Journal impact evaluation: A webometric perspective. Scientometrics 92, 429-441, 2012 61 Tijssen, R. J. W.; Visser, M. S.; van Leeuwen, T. N.: Benchmarking international scientific excellence: Are highly cited research papers an appropriate frame of reference? Scientometrics 54 (3), 381-391, 2002 62 Tunger, D.: Bibliometrische Verfahren und Methoden als Beitrag zu Trendbeobachtung und -erkennung in den Naturwissenschaften. Jülich: Forschungszentrum Jülich GmbH, Eigenverlag, 2007
492
C 10: Stefanie Haustein, Dirk Tunger
63 Tunger, D.; Wilhelm, J.: „Spieglein, Spieglein an der Wand …“ – Die Bibliometrische Community im Spiegel ihrer eigenen Methodik. BIT-Online, 15 (2), 127-133, 2012 64 Umstätter, W.: Szientometrische Verfahren. Kuhlen, R., Seeger, T., Strauch, D. (Hrsg.), Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis, Band 1, 237-243. München: Saur Verlag, 2004 65 van Raan, A. F. J.; van Eck, N. J.; van Leeuwen, T. N.; Visser, M. S.; Waltman, L.: The new set of bibliometric indicators of CWTS. Book of Abstracts of the 11th International Conference on Science and Technology Indicators, 291-293, Leiden, the Netherlands, 2010 66 Waltman, L.; van Eck, N. J.: A general source normalized approach to bibliometric research performance assessment. Book of Abstracts of the 11th International Conference on Science and Technology Indicators, 298-299, Leiden, the Netherlands, 2010 67 Waltman, L.; van Eck, N. J.: The inconsistency of the h-index. Journal of the American Society for Information Science and Technology 63 (2), 406-415, 2012 68 Weingart, P.; Winterhager, M.: Die Vermessung der Forschung – Theorie und Praxis der Wissenschaftsindikatoren. Frankfurt am Main: Campus Verlag, 1984 69 White, H. D.; McCain, K. W.: Bibliometrics. Annual Review of Information Science and Technology 24, 119-186, 1989 70 Zipf, G. K.: The meaning-frequenzy relationship of words. Journal of General Psychology 33, 251-256, 1945 71 Zitt, M.: Citing-side normalization of journal impact: A robust variant of the audience factor. Journal of Informetrics 4 (3), 392-406. 2010 72 Zitt, M.; Ramana-Rahary, S.; Bassecoulard, E.: Relativity of citation performance and excellence measures: From cross-fields to cross-scale effects of field-normalisation. Scientometrics 63 (2), 373-401, 2005 73 Zitt, M.; Small, H.: Modifying the journal impact factor by fractional citation weighting: The audience factor. Journal of the American Society for Information Science and Technology 59 (11), 1856-1860, 2008
D: Informationsinfrastruktur
Dirk Lewandowski D 1 Suchmaschinen
495
Ben Kaden D 2 Elektronisches Publizieren Jens Olf, Uwe Rosemann D 3 Dokumentlieferung
509
520
Reinhard Altenhöner, Sabine Schrimpf D 4 Langzeitarchivierung 529 Hermann Huemer D 5 Normung und Standardisierung
541
Ulrike Spree D 6 Wörterbücher und Enzyklopädien
550
Joachim Griesbaum D 7 Social Web 562 Jens Klump, Roland Bertelmann D 8 Forschungsdaten 575 Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs D 9 Lernen mit Medien 584 Angelika Menne-Haritz D 10 Archive 596 Axel Ermert, Karin Ludewig D 11 Museen 609 Hans-Christoph Hobohm D 12 Bibliothek im Wandel
623
Thomas Breyer-Mayländer D 13 Medien, Medienwirtschaft
634
Helmut Wittenzellner D 14 Transformation von Buchhandel, Verlag und Druck
648
Elke Thomä, Heike Schwanbeck D 15 Patentinformation und Patentinformationssysteme
661
Dirk Lewandowski
D 1 Suchmaschinen D 1.1 Einleitung Eine Suchmaschine (auch: Web-Suchmaschine; Universalsuchmaschine) ist ein Computersystem, das Inhalte aus dem World Wide Web mittels Crawling erfasst und über eine Benutzerschnittstelle durchsuchbar macht, wobei die Ergebnisse in einer nach systemseitig angenommener Relevanz geordneten Darstellung aufgeführt werden. Dies bedeutet, dass Suchmaschinen im Gegensatz zu anderen Informationssystemen nicht auf einem klar abgegrenzten Datenbestand aufbauen, sondern sich ihre Inhalte durch Traversieren des Web zusammensuchen. Man kann Suchmaschinen daher auch als Metainformationsdienste bezeichnen, welche nicht auf einen selbst erstellten Datenbestand zurückgreifen, sondern durch Erfassung der Inhalte unterschiedlicher Datenangebote aus dem Web den eigenen Datenbestand (Index) aufbauen. Zum anderen grenzt diese Definition Suchmaschinen von anderen Suchsystemen, die nicht auf Inhalte des World Wide Web zurückgreifen, ab. Suchmaschinen sind zuerst einmal Information-Retrieval-Systeme, deren Besonderheit vor allem darin liegt, dass sie eben ihre Indices aus den verstreut vorliegenden Dokumenten des World Wide Web aufbauen und sich außerdem hinsichtlich der Benutzerführung und Trefferdarstellung dem Zielpublikum der Laiennutzer anpassen. Mittlerweile hat sich das Verhältnis zwischen Suchmaschinen und konventionellem Information Retrieval aber zunehmend umgekehrt: Während frühe Suchmaschinen sich noch sehr stark an konventionellen Information-Retrieval-Systemen orientierten, kommen viele der wesentlichen Entwicklungen des Information Retrieval in den letzten Jahren entweder direkt von den bekannten Suchmaschinenanbietern oder entstanden in Kooperation mit ihnen. So sind die großen Suchmaschinenanbieter auch Vorreiter für Entwicklungen im Information Retrieval geworden. Andere Informationssysteme orientieren sich vor allem in Hinblick auf die Benutzerführung und die Trefferanordnung und -darstellung an ihnen. Beispielhaft kann auch angeführt werden, dass Information-Retrieval-Lehrbücher sich zunehmend auf Suchmaschinen beziehen bzw. den Anwendungsfall Suchmaschinen bereits in ihrem Titel tragen (Lit. 01, Lit. 02, Lit. 03). D 1.1.1 Zugänge zu den Inhalten im World Wide Web Suchmaschinen sind bei weitem nicht der einzige Zugang zu Daten im Web. Wenn man jedoch die Nutzungszahlen betrachtet, kann man feststellen, dass sie sich weitgehend als der Zugang zu den Angeboten im Web etabliert haben. Die Popularität der Suchmaschinen geht sogar so weit, dass sie neben E-Mail der beliebteste Dienst des Internet sind (Lit. 04). Die wichtigsten alternativen Zugänge zu Web-Inhalten (vgl. auch Lit. 05) sind: –– Web-Verzeichnisse (auch: Web-Kataloge; Lit. 06), welche Websites klassifizieren, was ein hierarchisches Browsing ermöglicht und vor allem für die Suche nach einigen guten Quellen zu einem Thema mit hoher precision geeignet ist. Während Web-Verzeichnisse vor allem in den frühen Jahren des World Wide Web beliebt waren, haben sie heute nur noch geringe Bedeutung. –– Social-Bookmarking-Dienste (vgl. Lit. 07), in denen Nutzer Webseiten bzw. Websites speichern, annotieren und mit anderen Nutzern teilen können. –– Frage-Antwort-Dienste (vgl. Lit. 08), in denen Nutzer der Nutzer-Gemeinschaft Fragen stellen können, die asynchron beantwortet werden können.
496
D 1: Dirk Lewandowski
Einen Sonderfall stellen Metasuchmaschinen dar, die auf Nutzerseite den allgemeinen Suchmaschinen vergleichbar sind, jedoch selbst keinen Index aufbauen, sondern auf die Indices mehrerer anderer, echter Suchmaschinen zurückgreifen. Dabei wird eine Suchanfrage in dem Moment, in dem ein Nutzer sie an die Meta-Suchmaschine stellt, an die zugrunde liegenden Suchmaschinen weitergeleitet. Die zurückgegebenen Ergebnisse werden zusammengefasst und in einer einzigen Trefferliste zusammengefasst. Die Vorteile von Metasuchmaschinen werden in einer größeren Abdeckung des Webs und in einer besseren Relevanzbewertung durch die Zusammenfassung der Urteile der zugrundeliegenden Suchmaschinen gesehen. Allerdings sind diese Annahmen nicht empirisch bestätigt. In der Praxis spielen Metasuchmaschinen keine Rolle mehr, und auch die theoretische Fundierung des Ansatzes wird stark angezweifelt (Lit. 09). Von den allgemeinen Suchmaschinen sind die Spezialsuchmaschinen zu unterscheiden (vgl. Lit. 10). Diese sind thematisch beschränkt und machen damit eine zielgenaue Recherche möglich, wobei das Ranking speziell auf die von ihnen erschlossenen Dokumente angepasst werden kann, ebenso wie die sachliche Erschließung der Dokumente. Schließlich ergeben sich auch Vorteile bei der Darstellung der Ergebnisse, welche auf den individuellen Zweck der Spezialsuchmaschinen sowie auf das Niveau der Zielgruppe angepasst werden kann (Lit. 10, S. 56). Dass Spezialsuchmaschinen nicht durch Universalsuchmaschinen ersetzt werden können, ergibt sich aus den Problemen der letzteren: –– Sie haben technische Beschränkungen und können (trotz des Etiketts universal) nicht das gesamte Web abdecken, –– es bestehen finanzielle Hürden, die die Erfassung der Inhalte und ihre Erschließung beschränken, –– Universalsuchmaschinen richten sich an den Durchschnittsnutzern aus, –– sie müssen eine einheitliche Erschließung aller indexierten Inhalte betreiben. D 1.1.2 Anfragetypen Um die große Zufriedenheit der Nutzer mit Suchmaschinen zu verstehen, aber auch, um die Problemfelder bei der Websuche aufzeigen zu können, ist vor allem ein Verständnis der an die Suchmaschinen gerichteten Anfragen wichtig, und hier vor allem die Unterscheidung nach Anfragetypen. Von Andrei Broder (Lit. 11) stammt die maßgebliche Unterscheidung nach informationsorientierten (informational), navigationsorientierten (navigational) und transaktionsorientierten (transactional) Suchanfragen. –– Mit navigationsorientierten Anfragen soll eine Seite (wieder)gefunden werden, die dem Benutzer bereits bekannt ist oder von der er annimmt, dass sie existiert. Beispiele sind die Suche nach Homepages von Unternehmen (Microsoft) oder nach Personen (Heidi Klum). Solche Anfragen haben in der Regel ein richtiges Ergebnis. Das Informationsbedürfnis ist befriedigt, sobald die gewünschte Seite gefunden wird. –– Bei informationsorientierten Anfragen ist das Informationsbedürfnis meist nicht durch ein einziges Dokument zu befriedigen. Der Nutzer möchte sich stattdessen über ein Thema informieren und liest deshalb mehrere Dokumente. Informationsorientierte Anfragen zielen auf jeden Fall auf statische Dokumente, nach dem Aufruf des Dokuments ist also keine weitere Interaktion auf der Website nötig, um an die gewünschten Informationen zu gelangen. –– Mit transaktionsorientierten Anfragen wird eine Website gesucht, auf der anschließend eine Transaktion stattfindet, etwa der Kauf eines Produkts, der Download einer Datei oder die Recherche in einer Datenbank. Die Angaben über die Anteil der Anfragetypen am Gesamt der Suchanfragen schwankt, da Studien, die sich mit diesem Thema beschäftigen, nicht auf einer gemeinsamen Datenbasis beruhen und sich hinsichtlich verwendeter Suchmaschine, Zeitraum und Klassifikationsmethode unterscheiden
D 1: Suchmaschinen
497
(vgl. Lit. 12). Allerdings sind sich die Studien einig, dass alle drei Anfragetypen einen nennenswerten Anteil der Anfragen ausmachen. Insbesondere der hohe Anteil der navigationsorientierten und der einfachen informationsorientierten Anfragen legt die Vermutung nahe, dass sich die Zufriedenheit der Nutzer mit den Suchmaschinen zu einem großen Teil durch die erfolgreiche Beantwortung dieser Suchanfragen erklären lässt. D 1.1.3 Suchmaschinenmarkt Der weltweite Markt für Web-Suchmaschinen wird momentan von nur wenigen Anbietern bestimmt. Allen voran ist hier die Suchmaschine Google zu nennen, welche weltweit einen Marktanteil (gemessen in Suchanfragen) von mehr als zwei Dritteln hat (Lit. 13). Stärkster Konkurrent zu Google ist Microsoft mit seiner Suchmaschine Bing. Auch wenn diese keine vergleichbaren Werte erreichen kann, so erreicht sie doch zumindest in den USA einen recht hohen Markanteil von etwa 16 Prozent (zusammen mit seinem Partner Yahoo, der Bing-Ergebnisse anzeigt, knapp 29 Prozent; Lit. 14), während sie international eine weit geringere Rolle spielt. In Europa sind die nationalen Suchmaschinenmärkte durch ein Quasi-Monopol von Google gekennzeichnet (Lit. 15). Diese Suchmaschine erreicht in den meisten Ländern einen Anteil von mehr als 90 Prozent der Suchanfragen. Außerhalb Europas haben sich teilweise gewichtige nationale Suchmaschinen etablieren können; etwa Baidu in China oder Yandex in Russland. Inwieweit es diesen Anbietern gelingen wird, sich auch international zu platzieren, bleibt abzuwarten. Zu unterscheiden ist zwischen Suchmaschinen, die einen eigenen Datenbestand nutzen (die bisher genannten) und solchen, die auf den Index eines Partners zurückgreifen und dadurch eigentlich nicht als eigenständige Suchmaschinen bezeichnet werden können. Prominentestes Beispiel hierfür ist Yahoo, welches seine eigene Suchmaschine im Jahr 2009 aufgegeben hat zugunsten einer Kooperation mit Bing, dessen Ergebnisse seitdem unter dem Yahoo-Label angezeigt werden. In Deutschland greifen beispielsweise Portale wie T-Online, Web.de, GMX und AOL auf Google-Ergebnisse zurück. Rechnet man die Marktanteile dieser Suchportale, welche sämtlich auf Google zurückgreifen, zu dem Marktanteil von Google hinzu, so ergibt sich für diese Suchmaschine ein Marktanteil von mehr als 90 Prozent (Lit. 16). Auf die daraus entstehenden Probleme wird weiter unten eingegangen. Zu unterscheiden ist damit zwischen einem Markt für Suchmaschinen als Produkte, die sich an den Endkunden wenden (und oft nicht viel mehr sind als ein Suchinterface, das auf einen der bekannten Indices zurückgreift) und einem Markt für Web-Indices, die primär durchaus auch für andere Zwecke als für die Suche erstellt sein können (hier sind vor allem Analysezwecke im Bereich Suchmaschinenoptimierung sowie die Reputationsanalyse für Unternehmen zu nennen).
D 1.2 Aufbau algorithmischer Suchmaschinen In diesem Abschnitt wird beschrieben, wie eine Suchmaschine grundlegend aufgebaut ist. Empfehlenswerte und umfangreiche Darstellungen finden sich in Lit. 02 und Lit. 03. Neben der Datenbasis (dem Index) besteht eine Suchmaschine aus drei Hauptkomponenten: Dem Crawler, dem Indexer und dem Searcher. Die Unterteilung der Bereiche folgt Risvik & Michaelsen (Lit. 17).
498
D 1: Dirk Lewandowski
Web
Crawler
Indexer
Searcher
Nutzer
Lokale Kopie „des Web“ Abb. 1: Aufbau einer Web-Suchmaschine (nach Lit.17)
D 1.2.1 Datenbasis Als Datenbasis dienen den Suchmaschinen die Inhalte des Webs, die eigenständig aufgefunden werden müssen. Da die Inhalte im Web verteilt vorliegen, kann eine Vollständigkeit des Datenbestands, der im Idealfall eine aktuelle und vollständige lokale Kopie des Web ist, nicht gewährleistet werden. Web-Suchmaschinen haben den Anspruch, einen möglichst hohen Anteil des gesamten Web zu erfassen und für die Suche verfügbar zu machen. Die damit verbundenen Schwierigkeiten werden deutlich, wenn man die Menge der im Web vorhandenen Dokumente betrachtet. Diese kann zwar nicht exakt ermittelt werden, und eine solche Zahl wäre aufgrund der nahezu beliebigen automatischen Kombinierbarkeit von Inhalten zu immer neuen Dokumenten auch nicht aussagekräftig, aber Suchmaschinen sehen sich doch vor der Herausforderung, einen Index aus vielen Milliarden Dokumenten zusammensetzen zu müssen. Deren Indexierung ist nicht nur ressourcenintensiv und kostspielig, sondern wird durch zwei Faktoren erschwert: Zum einen muss der Index kontinuierlich aktuell gehalten werden, zum anderen müssen sogenannte Spam-Dokumente aus dem Index ausgeschlossen werden. Dabei handelt es sich um von der Suchmaschine nicht erwünschte Dokumente, vor allem um solche, die einzig und allein zu dem Zweck erstellt wurden, Suchmaschinen und Nutzer über ihre tatsächliche Intention zu täuschen. Während Suchmaschinen früher einen einzigen Index (den Web-Index) aufbauten, aus dem alle Suchanfragen bedient wurden, haben sich inzwischen verschiedene Standard-Indices etabliert, aus denen eine Web-Suchmaschine besteht. Dazu gehören neben dem Web-Index ein Nachrichten-, ein Bilder- und ein Video-Index. Während es der Anspruch des Web-Index ist, das Web möglichst vollständig abzudecken, fokussieren die Spezialsuchen (vertikale Indices) auf bestimmte Themen und werden aus begrenzten Quellenmengen zusammengestellt, welche vorab ausgesucht wurden. So basieren Nachrichtensuchmaschinen auf den Dokumenten aus zuvor intellektuell ausgewählten Quellen. Durch die Beschränkung der vertikalen Suchen auf klar umgrenzte Kollektionen lassen sich Indexierungsintervalle und -tiefe den entsprechenden Bedürfnissen anpassen. So ist zum Beispiel bei einer Nachrichtensuchmaschine aufgrund des hohen Aktualitätsanspruchs eine häufigere Indexierung nötig (und aufgrund der weit geringeren Dokumentenmenge auch möglich) als bei der Erstellung des allgemeinen Web-Index. In Tab. 1 sind beispielhaft einige Kollektionen der Suchmaschine Google aufgezählt und kurz erläutert. Selbstverständlich können alle diese Kollektionen direkt angesteuert werden (damit handelt es sich um Spezialsuchmaschinen, s.o.), allerdings werden auch Treffer aus allen diesen Kollektionen in die Trefferlisten der Websuche eingebunden (Universal Search). Dadurch ergibt sich eine besondere Vielfalt, die durch die Verwendung eines einzigen Index nicht zu erreichen wäre.
D 1: Suchmaschinen
499
Bei den vertikalen Kollektionen zeigt sich, dass nicht (nur) wie in der Websuche auf die allgemein im Web zugänglichen Inhalte zurückgegriffen wird (oder eine Auswahl daraus; siehe Lit. 10, S. 57f), sondern auch gesonderte Kollektionen aufgebaut werden (bspw. durch das Einscannen von gedruckten Büchern für die Google Buchsuche). Vaidhyanathan (Lit. 18) teilt die Dienste von Google in drei Bereiche ein, die auch auf andere Suchmaschinen übertragbar sind: 1. Scan and link: Fremde Inhalte werden erfasst, aggregiert und zur Suche zur Verfügung gestellt (Beispiel: Websuche). 2. Host and serve: Von den Nutzern selbst erstellte Inhalte werden auf der eigenen Plattform gesammelt und gehostet (Beispiele: Blogger, Youtube). 3. Scan and serve: Google bringt Dinge aus der echten Welt in die digitale (Beispiele: Google Books, Google Street View) Von den allgemeinen Suchmaschinen, die vordergründig nur den ersten Punkt bedienen, wird erwartet, dass sie in allen drei Bereichen aktiv sind. Aus dem eigenen Hosten von Inhalten (Punkt 2) ergibt sich der Vorteil, dass umfangreiche Metadaten (von der Autorenverifikation bis zu Nutzungsdaten) anfallen und die den Dienst betreibende Suchmaschine exklusiv über diese zusätzlichen Daten verfügt. Bereich
URL
Erläuterung
Nachrichten
http://news.google.de
Bilder Maps
http://www.google.de/imghp http://maps.google.de
Bücher
http://books.google.de
Shopping
http://www.google.de/shopping
Videos
http://www.google.de/videohp
Wissenschaft
http://scholar.google.de
Durchsucht werden die Inhalte von manuell ausgewählten Nachrichtenquellen. Bei der Indexerstellung besonderer Schwerpunkt auf der Aktualisierung des Index. Durchsucht Bilder, die im freien Web gefunden wurden. Verbindet proprietäres Kartenmaterial mit Inhalten aus dem freien Web und Bewertungen aus dem eigenen Dienst Google Places. Durchsucht eingescannte Bücher; Unterscheidung zwischen gemeinfreien Büchern, die im Volltext angepasst werden, und geschützten Werken, von denen ausgewählte Seiten angezeigt werden. Produktsuche, die vor allem auf von den Händlern angelieferten strukturierten Daten beruht. Durchsucht Videos, die im Web auf verschiedenen Plattformen frei verfügbar sind. Durchsucht wissenschaftliche Artikel und Bücher, die entweder in Repositories, auf den Websites von Wissenschaftlern und Hochschulen oder durch kooperierende Verlage zur Verfügung gestellt werden. Verbindung von kostenlosen Inhalten/Versionen und kostenpflichtigen Werken.
Tab. 1: Kollektionen einer Suchmaschine (Beispiel Google; Auswahl)
D 1.2.2 Crawling Die Aufgabe des Crawlers (auch: Spider) ist es, neue Dokumente aufzufinden, indem Hyperlinks innerhalb bereits bekannter Dokumente verfolgt werden. Der Crawling-Vorgang findet kontinuierlich statt.
500
D 1: Dirk Lewandowski
Da das Web keine zentrale Struktur hat und damit auch nicht auf eine bestimmbare absolute Menge von Dokumenten zugegriffen werden kann, müssen Suchmaschinen neue und aktualisierte Dokumente auf anderem Wege finden. Dies geschieht vor allem durch das Verfolgen von Hyperlinks. Als Basis dafür dient eine Ausgangsmenge (seed set) bekannter Webseiten. Die in diesen enthaltenen Links werden verfolgt, die so gefundenen Dokumente indexiert und wiederum die darin enthaltenen Links verfolgt. Auf diese Weise sollen möglichst alle im Web vorhandenen Dokumente gefunden werden. Dies ist jedoch in der Praxis nicht der Fall: Zum einen hängt die so erreichbare Abdeckung stark von dem seed set ab, zum anderen haben Untersuchungen gezeigt, dass die Verbindungen der Dokumente untereinander nicht so stark sind, dass durch einfache Linkverfolgung alle Dokumente zu finden wären (Lit. 19). Neben dem Auffinden neuer Dokumente ist es die Aufgabe des Crawlers, bereits bekannte Dokumente auf Aktualisierungen zu prüfen und sicherzustellen, dass die Dokumente zwischenzeitlich nicht gelöscht wurden. Crawling ist also auch in Bezug auf die bereits bekannten Dokumente kein abgeschlossener Vorgang, sondern muss kontinuierlich stattfinden. Suchmaschinen priorisieren die zu besuchenden Dokumente (deren URLs bereits bekannt sind und im Crawler Queue zwischengespeichert werden), beispielweise nach Popularität (gemessen in der Regel anhand der Verlinkungsstruktur, aber auch anhand von Zugriffen) oder nach Aktualisierungsintervall (häufig aktualisierte Website wie beispielweise Nachrichten-Websites werden häufiger auf Aktualisierungen und neue Dokumente geprüft). Crawler können nur die Inhalte des Webs erreichen, die über Links zugänglich sind. Dabei handelt es sich um das surface web (Oberflächenweb), im Gegensatz dazu bezeichnet das invisible web (unsichtbares Web; auch: deep web) diejenigen Inhalte, auf die die Suchmaschinencrawler nicht zugreifen können. Gründe hierfür sind vor allem die fehlende Verlinkung, die Abschottung der Inhalte hinter Passwort-Abfragen und dynamische Inhalte, die erst im Moment einer Abfrage aus Datenbanken generiert werden (Lit. 20, Lit. 21, Lit. 22). Inzwischen haben sich die Suchmaschinen auch darauf eingestellt, Inhalte aus dem invisible web zu indexieren. Spezielle Crawler stellen Suchanfragen in vorher gefundenen Suchformularen (Lit. 23). Dabei versuchen sie, passende Suchanfragen aufgrund des Kontexts des Suchformulars zu erschließen. Es geht dabei allerdings vor allem um das Auffinden von umfangreicheren Dokumenten (zum Beispiel im PDF-Format), und es ist bislang unklar, zu welchem Grad die Suchmaschinen mit dieser Methode das invisible web sichtbar machen. Für den Aufbau der oben beschriebenen Kollektionen haben die Suchmaschinen jeweils eigene Crawler entwickelt, die bestimmte Datenbestände abfragen. So ist beispielweise ein Crawler, der Nachrichteninhalte für die News-Suche abfragen soll, anders eingestellt als der allgemeine WebCrawler. Da die Nachrichtensuche nur eine recht beschränkte Menge ausgesuchter Quellen umfasst, ist es hier möglich, diese in sehr kurzen Abständen auf neue und veränderte Inhalte zu prüfen. Crawler für Spezialsuchmaschinen oder spezielle Kollektionen können auch so eingestellt werden, dass sie bestimmte Inhalte, die sonst zum invisible web gehören, mit abfragen können. So ist es beispielsweise dem Crawler von Google Scholar (durch Vereinbarungen mit den entsprechenden Verlagen) möglich, auch Inhalte abzufragen, die hinter der Paywall der Anbieter stehen. D 1.2.3 Indexer Die Aufgabe des Indexers ist es, die vom Crawler gelieferten Dokumente so zu zerlegen und aufzubereiten, dass sie in der Suche effizient verarbeitet werden können. Das System zur Syntaxanalyse (parsing module) zerlegt die gefundenen Dokumente in indexierbare Einheiten (einzelne Wörter, Wortstämme oder N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments. Dadurch wird ein invertierter Index erstellt, der für jede indexierte Einheit diejenigen Dokumente verzeichnet, in denen diese vorkommt. So wird in der Suche ein schneller Zugriff ermöglicht, da nicht alle Dokumente durchsucht werden müssen, sondern nur anhand der Suchbegriffe abgeglichen
D 1: Suchmaschinen
501
werden muss, in welchen Dokumenten diese vorkommen. Ein Nachteil des Verfahrens liegt darin, dass Informationen, die in diesem Prozess nicht berücksichtigt werden (beispielsweise vom Betreiber einer Website erstellte, umfangreiche Metadaten), später auch nicht recherchiert werden können. Diese Form der Indexierung ist nicht suchmaschinenspezifisch (vgl. B 11 Automatische Indexierung und B 15 Modelle im Information Retrieval sowie aus KSS-5 Kap. B 5 Indexieren und B 12 Wissensmanagement). Eine gute Einführung bietet auch Lit. 02. D 1.2.4 Searcher Gibt der Nutzer eine Suchanfrage ein, so wird der Index abgefragt. Das Anfragemodul (searcher oder query module) setzt die eingegebene Suchanfrage in eine weiterverarbeitbare Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst, dass sie entsprechend im Index abgefragt werden können. Die Ergebnisse werden aus dem Index gelesen und für den Suchenden aufbereitet.
D 1.3 Ranking Kernkomponente jeder Suchmaschine ist das Ranking, welches auf die gefundene Treffermenge angewendet wird. Vor allem bedingt durch das Nutzerverhalten im Web, welches durch wenig elaborierte Anfragen und die starke Fokussierung auf die ersten Trefferplätze der Ergebnisliste gekennzeichnet ist (Lit. 24, Lit. 25, Lit. 26, Lit. 27), ist ein Ranking nötig, welches sich vor allem auf die Präzision der Suchergebnisse konzentriert. Die Vollständigkeit der Treffermenge (Recall) steht demgegenüber im Hintergrund. D 1.3.1 Rankingfaktoren Auch wenn die Rankingverfahren der Suchmaschinen nicht offengelegt werden und es sich, wenn man jeden einzelnen Faktor berücksichtigt, um ein Zusammenspiel von hunderten von Faktoren handelt, so haben sich doch vier Bereiche herausgebildet, die für das Ranking der Ergebnisse bestimmend sind. Mittels textspezifischer Faktoren wird abgeglichen, welche Wörter der Suchanfrage in den zu durchsuchenden Dokumenten vorkommen und daher in die Treffermenge mit aufgenommen werden sollen. Das Vorkommen der Suchbegriffe kann sich auch auf im Dokument vorkommende Varianten der Suchbegriffe oder Wörter aus auf das Zieldokument verweisenden Dokumenten (aus den Ankertexten) beziehen (Lit. 28, S. 70). Neben dem Vorkommen der Suchbegriffe wird mittels Textstatistik ein Vorkommen an exponierter Stelle (z. B. Überschrift, Beginn des Dokuments, besondere Hervorhebung) höher gewichtet. Zweiter bestimmender Bereich im Ranking ist die Messung der Popularität von Dokumenten, meist durch deren Verlinkung (Beispiele für Algorithmen: PageRank, Lit. 29), HITS (Lit. 30), aber auch durch das Klickverhalten der Nutzer (Erfassung über Logfiles, Toolbars). Dritter Rankingbereich ist die Aktualität. Je nach Zweck der Anfrage kann es sinnvoll sein, entweder besonders aktuelle Dokumente oder statische, dafür populäre Dokumente anzuzeigen. Da linktopologische Algorithmen tendenziell ältere Dokumente bevorzugen, wird Aktualität auch als Ausgleichsfaktor herangezogen. In der Praxis sind meist durchmischte Trefferlisten zu finden, in die einige besonders aktuelle Dokumente eingestreut werden. Lokalität berücksichtigt den Standort des Nutzers. Ein einfaches Beispiel ist die Bevorzugung von Dokumenten aus Deutschland, wenn der Standort des Nutzers dort identifiziert wird. Zuneh-
502
D 1: Dirk Lewandowski
mend wird aber auch eine genaue Standortbestimmung des Nutzers vorgenommen; vor allem auch in Hinblick auf die Suche von mobilen Endgeräten aus. D 1.3.2 Personalisierung der Suchergebnisse Die bislang letzte große Entwicklung im Ranking ist die Personalisierung der Suchergebnisse (Lit. 31). Sie kann in den Bereich der nutzungsstatistischen Verfahren eingeordnet werden: Personalisierung aufgrund des Verhaltens eines einzigen Nutzers erfolgt anhand impliziter Information aus seinem Surfverhalten; explizite Daten können zusätzlich über Bewertungen (entweder durch den Nutzer selbst oder durch seine Kontakte in einem sozialen Netzwerk) gewonnen werden. Die Personalisierung der Suchergebnisse wird vielfach kritisch gesehen. Sie führe dazu, dass die Ergebnisse der Suchmaschinen vor allem die eigene Meinung bestätigen würden und andere Meinungen unterdrückt würden. Außerdem wären Entdeckungen, wie sie in nicht-personalisierten Suchergebnissen möglich gewesen wären, nun nicht mehr möglich, oder doch zumindest unwahrscheinlicher. Die Kritik von Eli Pariser in seinem Buch The Filter Bubble (Lit. 32) berücksichtigt, dass Nutzer schon immer Medien nach ihrem Geschmack ausgewählt hätten, allerdings würde durch die Personalisierung durch Suchmaschinen (und Soziale Netzwerke) eine neue Dimension erreicht: So wäre die Filterblase erstens dadurch gekennzeichnet, dass sie auf jeden Nutzer individuell angepasst sei und jeder Nutzer eben unterschiedliche Ergebnisse zu sehen bekäme, zweitens dadurch, dass sie für den Nutzer unsichtbar bleibe, und drittens, dass sich Nutzer nicht für oder gegen die Personalisierung ihrer Ergebnisse entscheiden könnten, sondern die Verfahren ohne Rückfrage von den Suchmaschinen angewendet werden würden. Unstrittig ist allerdings, dass die Personalisierung von Suchergebnissen zu einer weit besseren Ergebnisqualität führen kann, da eben gerade die individuelle Anpassung auf den einzelnen Nutzer viele Ergebnisse, die für die Masse relevant sein können, für den einzelnen Nutzer jedoch nicht, ausgefiltert werden können. Die Debatte hat sich hier allerdings verlagert von einer Kritik an den Suchmaschinen dafür, dass sie auf die Masse ausgerichtete, oberflächliche Ergebnisse anzeigen würden hin zu einer Kritik an der (zu starken) Anpassung an den einzelnen Nutzer. D 1.3.3 Zur Geschichte der Suchmaschinen und ihres Rankings Anhand der Rankingfaktoren und der Reihenfolge der vorangegangenen Darstellung lässt sich auch kurz die Geschichte des Suchmaschinenrankings beschreiben. Frühe Suchmaschinen wie Excite, Lycos und AltaVista waren noch stark an konventionellen Information-Retrieval-Systemen orientiert und setzten demnach das dort übliche textstatistische Ranking ein. Unter der Annahme, dass alle Dokumente, die in einen Datenbestand aufgenommen werden, potentiell von gleicher Qualität sind, kann ein solches Ranking (vor allem verbunden mit der Annahme, dass Nutzer bereit und in der Lage sind, treffsichere Suchanfragen zu formulieren) zu guten Ergebnissen führen. Im Kontext des Web, wo die Dokumente von einer Vielzahl von Autoren mit unterschiedlichsten Motiven erstellt werden, muss jedoch zusätzlich die Zuverlässigkeit der Dokumente bestimmt werden. Frühe Suchmaschinen litten unter einer Vielzahl von sog. Spam-Dokumenten, also nicht relevanten Dokumenten, die erstellt wurden, um die Suchmaschinen zu täuschen. So listeten etwa zahlreiche Suchmaschinen zur Suchanfrage white house die Website whitehouse.com, ein Pornoangebot. Erst die linktopologischen Verfahren (ab etwa 1998) (hier allen voran: Google) konnten dieses Problem lösen. Dass auch Aktualität eine entscheidende Rolle spielt, wurde im Suchmaschinenbereich klar, als Nutzer nach den Terroranschlägen des 11. September 2001 nach aktuellen Nachrichten zum Thema suchten, die Suchmaschinen allerdings – wenn sie denn überhaupt erreichbar waren – vorwiegend ältere Dokumente anzeigten (Lit. 33), die von den linktopologischen Verfahren tendenzi-
D 1: Suchmaschinen
503
ell bevorzugt werden (Lit. 28, S. 123ff). So wurde Aktualität als Rankingfaktor mit eingeführt; daneben wurden spezielle Kollektionen für aktualitätskritische Inhalte (wie Nachrichten, Blog-Artikel, usw.) aufgebaut. Während Suchmaschinen schon früh ihre Rankingverfahren an das benutzte Länderinterface angepasst hatten und für die aus unterschiedlichen Ländern gestellte gleiche Suchanfrage die Ergebnisse in unterschiedlicher Reihung ausgaben, erfolgt seit etwa 2008 eine Anpassung der Ergebnisse auf den konkreten Standort des Nutzers. D 1.3.4 Suchmaschinenoptimierung Unter Suchmaschinenoptimierung (search engine optimization; SEO, Lit. 34, Lit. 35) versteht man alle Maßnahmen, nicht etwa die Qualität der Suchmaschine zu verbessern, sondern die dazu geeignet sind, die Position von Webseiten im Ranking der Suchmaschinen zu verbessern. Die Maßnahmen reichen von einfachen technischen Maßnahmen, die dabei helfen, die Dokumente überhaupt für Suchmaschinen indexierbar zu machen bis hin zu komplexen Manipulationen der Verlinkungsstruktur der auf die zu optimierenden Dokumente verweisenden Seiten. Suchmaschinenoptimierung steht im Spannungsfeld zwischen einer Hilfeleistung auch für die Suchmaschinen und deren Manipulation. Man spricht bei einer Optimierung nach den Regeln der Suchmaschinenbetreiber von white hat, und im Gegensatz dazu von black hat, wenn es sich um gezielte Manipulationen handelt, die die Nutzungsbedingungen der Suchmaschinenbetreiber unterlaufen. Suchmaschinenoptimierung ist ein Bestandteil des Suchmaschinenmarketings (search engine marketing, SEM; siehe Lit. 36; vgl. C 4 Online-Marketing); beide Begriffe werden jedoch häufig fälschlicherweise gleichgesetzt. Suchmaschinenmarketing bezeichnet alle Marketingmaßnahmen, die mittels Suchmaschinen durchgeführt werden, zu nennen ist hier neben der Suchmaschinenoptimierung die Platzierung von Textanzeigen auf Suchergebnisseiten (search engine advertising, SEA).
Anzeigen Universal SearchErgebnisse Organische Ergebnisse
Abb. 2: Universal-Search-Ergebnisseite (Beispiel Google)
504
D 1: Dirk Lewandowski
D 1.4 Ergebnispräsentation Als Standard für die Präsentation von Ergebnissen in Web-Suchmaschinen hat sich die Listendarstellung etabliert. Diese wird jedoch durch die Einstreuung von weiteren Ergebnissen gebrochen. Die Integration der Ergebnisse aus den unterschiedlichen Kollektionen erfolgt mittels des Universal-Search-Ansatzes (Lit. 37, Lit. 38). Hierbei wird an der konventionellen Ergebnisdarstellung in Form einer sortierten Liste festgehalten, allerdings werden die Ergebnisse aus den vertikalen Indices (sofern solche vorhanden sind) an geeigneter Position in die Trefferliste eingestreut. Ein Beispiel einer solchen Darstellung ist in Abb. 2 zu sehen. Auf den Suchmaschinen-Ergebnisseiten (search engine results pages; SERPS) werden unterschiedliche Ergebnistypen präsentiert (siehe Abb. 2): –– Organische Ergebnisse: Dabei handelt es sich um die echten Suchergebnisse, d. h. um aus dem Web-Index mittels Algorithmen generierte Ergebnisse, wobei die Algorithmen alle Dokumente im Index gleich behandeln. Diese Ergebnisse sind zwar von außen beeinflussbar (siehe Suchmaschinenoptimierung oben), allerdings nicht direkt käuflich. –– Werbetreffer (nach Googles Bezeichnung auch AdWords): Hierbei handelt es sich um kontextbasierte Textanzeigen, die passend zu einer Suchanfrage angezeigt werden und in ihrer Darstellung organischen Treffern ähneln (Titel, Beschreibung, URL-Angabe). Suchmaschinen sind verpflichtet, diese Treffer entsprechend als Werbung zu kennzeichnen. Die Platzierung der Werbetreffer erfolgt nach einem Auktionsverfahren zwischen den Werbetreibenden, die pro getätigtem Klick auf die Werbung bezahlen (Lit. 39). –– Universal-Search-Ergebnisse: Hierunter sind Treffer zu verstehen, die nicht aus dem allgemeinen Web-Index kommen, sondern aus gesondert aufgebauten Kollektionen. Solche Treffer werden in der Regel innerhalb der Liste der organischen Treffer platziert. Die Trefferdarstellung weicht in der Regel von der der organischen Ergebnisse ab und ist auf die jeweilige Kollektion angepasst. So werden beispielsweise Video-Ergebnisse mit einem Vorschaubild (anstatt der üblichen textuellen Beschreibung) präsentiert. –– Fakteninformationen: Suchmaschinen zeigen zunehmend direkte Antworten zu geeigneten Suchanfragen an. Diese reichen von der simplen Beantwortung von Faktenfragen (Wie hoch ist die Zugspitze?) über die Einbindung von Faktencontainern (Wetter Hamburg) bis hin zur Zusammenstellung aggregierter Informationen zu Entitäten wie Städten oder Personen (Beispiel Google Knowledge Graph, Abb. 3).
Abb. 3: Präsentation von Fakteninformationen auf der SERP (Google Knowledge Graph in der rechten Spalte)
D 1: Suchmaschinen
505
In der Trefferpräsentation von Suchmaschinen ist zwischen dem sichtbaren und dem unsichtbaren Bereich zu unterscheiden (Lit. 38). Ersterer bezeichnet den ohne Scrollen auf einem Bildschirm sichtbaren Bereich der Trefferseite, wobei dieser je nach Bildschirmauflösung (und eingestellter Fenstergröße) unterschiedlich groß sein kann. Als unsichtbarer Bereich wird derjenige Teil einer Trefferseite bezeichnet, der erst durch Scrollen sichtbar wird. Studien haben gezeigt, dass ein großer Teil der Nutzer von Web-Suchmaschinen auf den Ergebnisseiten nicht scrollt, und dass der wesentliche Teil der Klicks auf Ergebnisse im sichtbaren Bereich entfällt (Lit. 40).
D 1.5 Bedeutung der Suchmaschinen für die Informationsbeschaffung, Problembereiche Suchmaschinen sind heute die vorherrschenden Informationssysteme, was sich in ihrer enormen Popularität ausdrückt. Dies hat zur Folge, dass sie sich auf der einen Seite an das Verhalten ihrer Nutzer anpassen, dieses auf der anderen Seite aber auch prägen. Sie setzen damit Trends und Nutzer erwarten von anderen Information-Retrieval-Systemen eine vergleichbar einfache Bedienung und eine ähnliche Trefferaufbereitung und -qualität. Es zeigt sich allerdings auch, dass Suchmaschinen universell eingesetzt werden und Nutzer selten vor einer Recherche fragen, ob die Suchmaschine überhaupt das am besten geeignete Informationssystem zur Befriedigung des aktuellen Informationsbedürfnisses ist. Angesichts der enormen Bedeutung der Suchmaschinen ist es verwunderlich, wie wenig über die Qualität dieser Suchwerkzeuge und die Auswirkungen der starken Fokussierung der Nutzer auf Suchmaschinen für Recherchen aller Art bekannt ist. Wenn Recherchen sowohl im privaten als auch im professionellen Bereich vor allem über Suchmaschinen durchgeführt werden, so ist zu fragen, welche Treffer sie anzeigen, welche ausgewählt werden und welchen Einfluss die Suchmaschinen mittels ihrer Rankingalgorithmen auf die Informationsauswahl und letztlich die Wissensaneignung innerhalb der Gesellschaft haben. In dieser Hinsicht sind vor allem vier Problembereiche zu sehen: Externer Einfluss auf die Suchergebnisse durch Suchmaschinenoptimierung, Werbetreffer, Verzerrungen und Monopolisierung des Suchmaschinenmarkts. Das Themenfeld Suchmaschinenoptimierung wurde oben hinsichtlich seiner Vorgehensweisen und seiner Möglichkeiten beschrieben. Im positiven Sinne leistet Suchmaschinenoptimierung einen Beitrag zur Erschließung der Inhalte durch Suchmaschinen; auf der anderen Seite kann sie eine Manipulation der Ergebnislisten darstellen, die so weit gehen kann, dass Spam-Dokumente hoch platziert angezeigt werden. Während die Suchmaschinenoptimierung mittlerweile eine etablierte Branche ist und kaum ein kommerzielles Unternehmen ohne ihre Dienste auskommt, ist der Einfluss der Suchmaschinenoptimierung auf die Informationsrecherche noch weitgehend unerforscht. Vor allem bei informationsorientierten Suchanfragen (im Gegensatz zur Suche nach Produkten und Dienstleistungen) besteht hier großer Bedarf. Suchmaschinen sind nicht zuletzt auch Instrumente zur Generierung unternehmerischer Gewinne. Werbetreffer generieren den weit überwiegenden Umsatz der Suchmaschinenbetreiber, andere Erlöse spielen nur eine untergeordnete Rolle (Lit. 41). Werbung in Suchmaschinen ist so erfolgreich, weil sie kontextbasiert ist, d. h. auf Suchanfragen hin angezeigt wird. Ein Nutzer, der eine Suchanfrage eingibt, offenbart bereits ein Interesse. John Batelle spricht in diesem Zusammenhang von der database of intentions (Lit. 42), über die Suchmaschinen verfügen. Nimmt man nun die durch den Abgleich der Suchanfrage mit der Werbung erreichte Relevanz zusammen mit der Darstellung der Werbetreffer, die den organischen Ergebnissen ähnelt, sowie die Positionierung der Werbetreffer direkt oberhalb der organischen Ergebnisse zusammen, so liegt die Vermutung nahe, dass zumindest ein Teil der Nutzer nicht in der Lage ist, die Werbetreffer von organischen Treffern zu unterscheiden. Bisherige Studien (welche jedoch nur beschränkte Teilnehmerzahlen aufweisen) deuten auf diesen Umstand hin (Lit. 43, Lit. 44, Lit. 45).
506
D 1: Dirk Lewandowski
Verzerrungen (Bias) in Suchmaschinen ergeben sich auf verschiedenen Ebenen (Lit. 46, Lit. 47). So wird den bekannten Suchmaschinen unter anderem vorgeworfen, sie würden ihre eigenen Angebote in den organischen Trefferlisten (Lit. 48, Lit. 49) und bei den Universal-Search-Ergebnissen (Lit. 38) bevorzugen. Aus diesem Grund ist eine Debatte über die sog. Such-Neutralität entbrannt; im Kern geht es um die Verantwortung der Suchmaschinenbetreiber für eine klare Kennzeichnung ihrer Interessenskonflikte auf den Suchergebnisseiten. Als letzter wichtiger Problembereich ist die Aufteilung des Suchmaschinenmarkts zu nennen. Wie oben beschrieben, besteht in den europäischen Ländern ein Quasi-Monopol durch Google, welches nicht nur zu einer mangelnden Vielfalt führt, sondern dieser Suchmaschine auch die Erstellung von Nutzerprofilen erlaubt, die bei einer Verteilung der Anfragen auf mehrere Suchmaschinen nicht möglich ist. Eine wesentliche Schwierigkeit für neue Suchmaschinen stellt neben der Marktdominanz von Google (und seiner zugegebenermaßen guten Qualität) der finanzielle und technische Aufwand für die Erstellung und Pflege eines Web-Index dar. Würde man die Dominanz einer einzigen Suchmaschine aufbrechen wollen, so wäre die Bereitstellung eines Web-Index, der für alle Marktteilnehmer zu gleichen und fairen Konditionen abfragbar ist, als erster Schritt anzusehen.
D 1.6 Ausblick Ein Blick in die Zukunft ist immer schwierig – nichtsdestotrotz können bereits heute Bereiche genannt werden, die zukünftige Suchmaschinen prägen werden: Suchmaschinen entfernen sich schon heute von der üblichen Ausgabe einer Trefferliste auf eine gestellte Suchanfrage hin. Wir werden in Zukunft eine Abwendung von den Dokumenten hin zu Antworten und von der Suchmaschine aus Dokumenten zusammengestellten Informationen erleben. Die Trefferseite (SERP) wird zunehmend zum Ergebnis selbst. Die zweite Entwicklung betrifft die Eingabe von Suchanfragen. Während heute die meisten Suchen noch durch eine Suchanfrage ausgelöst werden, wird in Zukunft die weit überwiegende Zahl von Suchanfragen aufgrund von Kontextinformationen automatisch generiert werden. Wir können heute schon sehen, dass auf Portalen explizite Suchen von Navigationsklicks nicht mehr unterschieden werden können; im Fall eines Klicks wird oft eine Suchanfrage ausgelöst, ohne dass der Nutzer dies merken würde. Betrachtet man nun vor allem mobile Endgeräte, so können kontextbasierte Suchanfragen beispielsweise aus einer Kombination des Standorts des Nutzers, seiner Kontakte, seiner aus vergangenen Aktionen bekannten Präferenzen und der aktuellen Zeit generiert werden. So kann einem Nutzer beispielsweise am Nachmittag ein Café empfohlen werden, das seinen Präferenzen entspricht und in dem er aktuell Freunde treffen kann, die sich gerade dort aufhalten. In diesem Beispiel werden Suchanfragen an verschiedene Systeme geschickt und die Ergebnisse kombiniert, allerdings ohne dass der Nutzer explizit eine Suchanfrage eingibt. Wir sehen hier das Verschmelzen von Suche und Empfehlungssystemen. Damit wird Suche allgegenwärtig, auch wenn sich unser Verständnis von Suche damit verändert. Suche wird nicht nur bestehen bleiben, sondern weiterhin an Bedeutung gewinnen. Was sich ändern wird, ist die Sichtbarkeit der Suche. Diese wird zurückgehen.
Literatur 01 Büttcher, S.; Clarke, C.L.A.: Information Retrieval: Implementing and Evaluating Search Engines. MIT Press, Cambridge, Mass, 2010 02 Croft, W.B.; Metzler, D.; Strohman, T.: Search Engines: Information retrieval in practice. Pearson, Boston, MA, 2010 03 Baeza-Yates, R.; Ribeiro-Neto, B.: Modern Information Retrieval: The Concepts And Technology Behind
D 1: Suchmaschinen
507
Search. Addison Wesley, Harlow, 2011 04 Eimeren, B.V.; Frees, B.: Drei von vier Deutschen im Netz – ein Ende des digitalen Grabens in Sicht? Media Perspektiven, 334-349, 2011 05 Griesbaum, J.; Bekavac, B.; Rittberger, M.: Typologie der Suchmaschine im Internet. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen, 18-52. Akademische Verlagsgesellschaft Aka GmbH, Heidelberg, 2009 06 Hamdorf, K.: Jenseits von Google – Erschließung und Recherche von Internet-Angeboten durch Webkataloge. Information Wissenschaft und Praxis. 55, 22-224, 2004 07 Peters, I.: Folksonomies und Kollaborative Informationsdienste: Eine Alternative zur Websuche? Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web-Suche, 29–53. Akademische Verlagsanstalt AKA, Heidelberg, 2011 08 Gazan, R.: Advances in Information Science: Social Q & A. Journal of the American Society for Information Science and Technology, 62, 2301-2312, 2011 09 Thomas, P.: To What Problem Is Distributed Information Retrieval the Solution? Journal of the American Society for Information Science & Technology. 63, 1471-1476, 2012 10 Lewandowski, D.: Spezialsuchmaschinen. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen, 53–69. AKA, Heidelberg, 2009 11 Broder, A.: A taxonomy of web search. ACM Sigir forum, 36, 3-10, 2002 12 Lewandowski, D.; Drechsler, J.; Mach, S.V.: Deriving Query Intents From Web Search Engine Queries. Journal of the American Society for Information Science and Technology, 63, 1773-1788, 2012 13 Press Release: comScore Reports Global Search Market Growth of 46 Percent in 2009 (http://comscore. com/Press_Events/Press_Releases/2010/1/Global_Search_Market_Grows_46_Percent_in_2009) 14 Sterling, G.: August Search Share: Bing Hits ‘All Time High’ (http://searchengineland.com/august-searchshare-bing-hits-all-time-high-133021) 15 Maaß, C.; Skusa, A.; Heß, A.: Der Markt für Internet-Suchmaschinen. Handbuch Internet-Suchmaschinen, 3-17, 2009 16 Webhits: Webhits Web-Barometer (http://www.webhits.de/deutsch/index.shtml?webstats.html) 17 Risvik, K.M.; Michelsen, R.: Search engines and web dynamics. Computer Networks, 39, 289-302, 2002 18 Vaidhyanathan, S.: The Googlization of Everything (and why we should worry). University of California Press, Berkeley, CA, 2011 19 Broder, A.; Kumar, R.; Maghoul, F.; Raghavan, P.; Rajagopalan, S.; Stata, R.; Tomkins, A.; Wiener, J.: Graph structure in the web. Computer networks, 33, 309-320, 2000 20 Sherman, C.; Price, G.: The Invisible Web: Finding Hidden Internet Resources Search Engines Can’t See. Cyberage Books, 2001 21 Bergman, M.K.: The deep Web: Surfacing hidden value. Journal of Electronic Publishing, 7, 1-17, 2001 22 Lewandowski, D.; Mayr, P.: Exploring the academic invisible web. Library Hi Tech. 24, 529-539, 2006 23 Madhavan, J.; Ko, D.; Kot Kot, L.; Ganapathy, V.; Rasmussen, A.; Halevy, A.: Google’s Deep-Web Crawl. Conference on Very Large Data Bases, 1241–1252. VLDB Endowment, Auckland. 2008 24 Spink, A.; Jansen, B.J.: Web search: public searching on the Web. Kluwer Academic Publishers, Dordrecht, 2004 25 Schmidt-Mänz, N.: Untersuchung des Suchverhaltens im Web: Interaktion von Internetnutzern mit Suchmaschinen. Verlag Dr. Kovac, 2007 26 Lorigo, L.; Haridasan, M.; Brynjarsdóttir, H.; Xia, L.; Joachims, T.; Gay, G.; Granka, L.; Pellacini, F.; Pan, B.: Eye tracking and online search: Lessons learned and challenges ahead. Journal of the American Society for Information Science and Technology, 59, 1041-1052, 2008 27 Pan, B.; Hembrooke, H.; Joachims, T.; Lorigo, L.; Gay, G.; Granka, L.: In Google we trust: users’ decisions on rank, position, and relevance. Journal of Computer-Mediated Communication, 12, 801-823, 2007 28 Lewandowski, D.: Web Information Retrieval: Technologien zur Informationssuche im Internet. Deutsche Gesellschaft f. Informationswissenschaft u. Informationspraxis, Frankfurt am Main, 2005 29 Page, L.; Brin, S.; Motwani, R.; Winograd, T.: The PageRank citation ranking: Bringing order to the web. Stanford InfoLab, 1999
508
D 1: Dirk Lewandowski
30 Kleinberg, J.: Authoritative sources in a hyperlinked environment. Journal of the ACM, 46, 604-632, 1999 31 Riemer, K.; Brüggemann, F.: Personalisierung der Internetsuche – Lösungstechniken und Marktüberblick. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen, 148–171. Akademische Verlagsgesellschaft Aka, Heidelberg, 2009 32 Pariser, E.: The Filter Bubble: What The Internet Is Hiding From You. Viking, London, 2011 33 Wiggins, R.W.: The Effects of September 11 on the Leading Search Engine. First Monday, 6, 20-21, 2001 34 Fischer, M.: Website Boosting 2.0: Suchmaschinen-Optimierung, Usability, Online-Marketing, 2009 35 Erlhofer, S.: Suchmaschinen-Optimierung für Webentwickler. Galileo Press, Bonn, 2007 36 Schultz, C.D.: Suchmaschinenmarketing. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen, 70-98. Akademische Verlagsgesellschaft Aka GmbH, Heidelberg, 2009 37 Quirmbach, S.: Universal Search – Kontextuelle Einbindung von unterschiedlicher Quellen und Auswirkungen auf das User Interface. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen, 220-248. Akademische Verlagsgesellschaft Aka GmbH, Heidelberg, 2009 38 Höchstötter, N.; Lewandowski, D.: What users see – Structures in search engine results pages. Information Sciences, 179, 1796-1812, 2009 39 Jansen, J.: Understanding sponsored search: Core elements of keyword advertising. Cambridge University Press, New York, 2011 40 Höchstötter, N.: Koch, M.: Standard parameters for searching behaviour in search engines and their empirical evaluation. Journal of Information Science, 35, 45-65, 2009 41 Google Annual Report, 2011 42 Batelle, J.: The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture. London: Portfolio. Brealey, London [u. a.], 2005 43 Fallows, D.: Search engine users: Internet searchers are confident, satisfied and trusting – but they are also unaware and naive. Pew Internet & American Life Project, Washington, DC, 2005 44 Marable, L.: False oracles: consumer reaction to learning the truth about how search engines work. research report, 30, 1-66, 2003 45 Bundesverband Digitale Wirtschaft: Nutzerverhalten auf Google-Suchergebnisseiten: Eine EyetrackingStudie im Auftrag des Arbeitskreises Suchmaschinen-Marketing des Bundesverbandes Digitale Wirtschaft (BVDW) e.V., 2009 46 Weber, K.: Search Engine Bias. Lewandowski, D. (ed.) Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web-Suche, 265–285. Akademische Verlagsanstalt AKA, Heidelberg, 2011 47 Röhle, T.: Der Google-Komplex: Über Macht im Zeitalter des Internets. Transcript, Bielefeld, 2010 48 Edelman, B.: Hard-Coding Bias in Google „Algorithmic“ Search Results (http://www.benedelman.org/ hardcoding/) 49 Edelman, B.; Lockwood, B.: Measuring bias in „organic“ web search (http://www.benedelman.org/ searchbias/)
Ben Kaden
D 2 Elektronisches Publizieren Allgemein bezeichnet Elektronisches Publizieren die Veröffentlichung eines Inhalts in einer digital codierten Form (Datei). Publikationen in digitalen Netzen sind notwendig dematerialisiert. Sie sind in jeder Hinsicht Code und folglich mehr sprachliches als Objektphänomen. Diese Eigenschaft teilen sie mit den programmierten Umgebungen (Plattformen, Schnittstellen etc.), in denen sie bereitgestellt werden. Vor dieser Grundannahme wird der Paradigmenwechsel im Verständnis des Phänomens der Publikation beim elektronischen Publizieren sichtbar. Ähnlich der natürlichen Sprache ermöglicht dieser Zustand der absoluten Kodifizierung ein kaum überschaubares Kombinations- und Ausdruckspotenzial, aus dem heraus sich formal und inhaltlich neue Publikationspraktiken entfalten, die noch vor 10 Jahren kaum vorhersehbar waren. 2012 ist das elektronische Publizieren in den meisten Publikationskontexten die Hauptform. Selbst dort, wo Bücher oder Zeitschriften als reine Printausgaben in den Buchhandel gelangen, ist zumindest die Erstellungskette weitgehend digital, so dass der Weg zum E-Book oder E-Journal zumindest technisch offen steht. Ein eventuell noch vorhandenes Insistieren auf Print beruht entweder auf einer allgemeinen Skepsis gegenüber dem elektronischen Publizieren oder auf bewusst so gesetzten Geschäftsmodellen, in der Erkenntnis, dass man manche Produkte schlecht als Druckvorlagen (z. B. Publikumszeitschriften) verkaufen kann bzw. der Markt dafür noch nicht bereit ist und in Rezeptionsvorlieben. Für die Anbieter von Inhalten scheinen digitale Netzwerke ökonomisch ideal zu sein, denn diese ermöglichen es, einen Inhalt regional und zeitlich unbegrenzt mit vergleichsweise wenig Aufwand zu einer potenziell großen Zahl von Rezipienten und damit auch Kunden zu übertragen. In dieser leichten Übertragbar- und Kopierbarkeit liegt zugleich das Hauptproblem der kommerziellen Nutzung: Ist eine Datei einmal im Netz, kann sie auch unter Umgehung der kontrollierten Vertriebswege der Anbieter in gleicher Weise verbreitet werden. Sie wird unkontrollierbar. Während Zugangs- und Hardwareanbieter dann immer noch verdienen können, sind die Einnahmen der Inhalteanbieter gefährdet. Diese nicht unbegründete Angst hat viele Verlage lange vor dem Einstieg ins elektronische Vollpublizieren zurückschrecken lassen. Die Druckausgabe war immer noch der beste Kopierschutz. Durchhalten ließ sich das freilich nicht. Inwieweit das elektronische Publizieren in der Wissenschaft als Testfläche für heutige Geschäftsmodelle eine Rolle spielte, ist schwer abzuschätzen. Unbestreitbar entwickelte sich das Publizieren in der Wissenschaft als Vorreiter auf diesem Gebiet. Dank des weitgehend kalkulierbaren Absatzmarkts der wissenschaftlichen Bibliotheken ließen sich in diesem Bereich auch die ersten offensichtlich tragfähigen Geschäfts- und Erlösmodelle im E-Publishing entwickeln. Und zwar parallel und später auch verschränkt mit dezidiert nicht kommerziellen Open Access -Publikationsmodellen (Lit. 34; vgl. C 2 Open Access/Open Content). Eine weitere, erst in den letzten Jahren entstandene Form des elektronischen Publizierens ist die der so genannten nutzergenerierten Inhalte, besonders in Folge des Web 2.0 (Lit. 26). Passender wäre vielleicht die Bezeichnung amateur run media gewesen, denn gemeint ist ja vor allem dass nicht hauptberufliche Autoren oder auch Indexer publizierend bzw. interessanterweise auch erschließend tätig werden (vgl. B 8 Benutzerzentrierte Erschließungsverfahren). Der aktuelle Aufschwung im Bereich des Self-Publishing, das häufig Selbstvermarktung und Eigenvertrieb einschließt, führt mittlerweile zu einer Rückvermischung mit der Printkultur. Hierbei treten an die Stelle der Zuschussverlage im elektronischen Kontext Vertriebsplattformen und andere publikationsbegleitende Dienstleister. Die Intensität (und auch Heterogenität) des klassischen und elektronischen Publikationsgeschehens entwickelte sich deutlich weiter. Das Verlagswesen (Buch) liegt mit 96.273 Erst- und Neuauflagen im Jahr 2011 auf einem sehr hohen Niveau. Der Buchmarkt mit einem Umsatz von 9,6 Mrd. Euro im selben Jahr präsentiert sich als bedeutender Wirtschaftszweig. Zwar bieten zur Zeit mehr
510
D 2: Ben Kaden
als 50 Prozent der Verlage E-Books an; deren Anteil am Umsatz macht allerdings erst knapp 1 % aus. (Börsenverein, 2012). Dazu kommt das unüberschaubare Angebot an Publikationen im Zeitungs-, Zeitschriften- und Online-Bereich. Entsprechend besteht die Herausforderung an Verlage weniger in der Verfügbarkeit und dem Zugang als in dem Gewinnen von Aufmerksamkeit. Auf der Seite der Rezipienten verschiebt sich der Druck von der Beschaffung eines Inhalts hin zur Selektion. Dies führt nicht zuletzt zu veränderten Anforderungen an das Informationsverhalten. Das Filtern eines Angebots auf eine zuvor definierte Relevanz ist heute mehr denn je eine zentrale Informationskompetenz. Gleiches gilt für den Gebrauch von Rückkopplungstechnologien: Elektronische Publikationen enthalten potenziell die Möglichkeit, Lektürespuren – Markierungen, Annotationen, Kommentare, Fortsetzungen – direkt zu integrieren. Waren es traditionell separierte Texte, die aufeinander Bezug nahmen, so sind elektronische Publikationsstrukturen von einer wechselseitigen Durchdringbarkeit auch mit einer explizierten Nutzungsbiographie also Repräsentationen der Rezipienten geprägt, die die Frage nach den Grenzen eines Dokuments neu aufwirft (Lit. 14). Dies betrifft vorrangig die Wissenschaft, schlägt sich aber zunehmend auch im Social-Media-Bereich nicht zuletzt durch die Begleitkommunikationen zu Publikationen im WWW durch. Daraus entsteht eine Dynamik, die unter anderem die Grenzen dessen, was man als elektronische Publikation definieren kann, permanent überschreitet, herausfordert und verschiebt, obgleich sich derzeit eine gewisse Konzentrations- und Konsolidierungsphase abzeichnet. Konsolidierung bedeutet dabei, dass elektronisches Publizieren mit digital vermitteltem Kommunizieren zusammenfließt. Zusammen mit mobilen Nutzungstechnologien für Netzinhalte entwickelt sich Kommunikation zu einem allgegenwärtigen Geschehen. Welche Akteure und Inhaltsformen in welchen Zusammenhängen wie lange welche Rolle spielen werden, lässt sich kaum voraussagen. Die Ablösung des Papiers durch den Bildschirm und des Satzspiegels durch den Mark-Up-Text ist in gewisser Weise eine technologische Entfesselung aller drei Bezugsdimensionen für Publikationen: die Erstellung, die Verbreitung und die Rezeption.
D 2.1 Eine kurze Geschichte des elektronischen Publizierens Die erste große Popularisierung des elektronischen Publizierens erfolgte in den 1980er Jahren im Zusammenhang mit der Entwicklung von elektronischen Datenverarbeitungssystemen zum innerorganisationalen Informationsmanagement (Lit. 05). Zur gleichen Zeit entstanden subskribierbare elektronische Textnachrichten nach dem Modell von Mailing-Listen. Eine N-Gram-Analyse des Google Books-Korpus zeigt das massive Aufkommen der Zeichenkette electronic publishing ab den späten 1970er Jahren, einen Höhepunkt gegen Ende der 1980er, danach einen Einbruch und schließlich einen weiteren Anstieg bis in die zweite Hälfte der 1990er. Danach folgt ein Einbruch, was mutmaßlich mit einer Differenzierung der Begrifflichkeit erklärt werden kann. Ausdrücke wie digital publishing oder online publishing treten erst nach 1990 auf. Für die Zeichenkette elektronisches Publizieren lässt sich ein ähnlicher, jedoch im Detail sprunghafterer Verlauf feststellen. Die Frage, inwieweit man vom elektronischen oder vom digitalen Publizieren sprechen sollte, muss hier offen bleiben. Bei der Bibliothek (bzw. library) setzte sich der Ausdruck digital durch, bei den Publikationen elektronisch (Lit. 29). Der Ausdruck electronic publishing ist offenbar etabliert und wird, wie N-Gram-Analysen zeigen, auch heute vielfach häufiger verwendet als sein Pendant digital publishing. Bevor es elektronische Volltexte gab, waren es vor allem Abstracting- und Bibliografie-Dienste, die angesichts des wachsenden Datenaufkommens Verfahren der maschinengestützten Datenverarbeitung nutzten. Mit MEDLARS (Medical Literature Analysis and Retrieval System) existierte seit 1964 ein elektronisches Nachweissystem, das Publikationsmetadaten entsprechend verarbeitete und zugänglich machte. Der Schritt, die Publikationen im Volltext über ähnliche Kanäle zu verbreiten, war eine Frage der technischen Machbarkeit. Mit MEDLINE (bzw. MEDLARS online) wurde An-
D 2: Elektronisches Publizieren
511
fang der 1970er Jahre das Online-Prinzip eingeführt. (Das Wort „online“ taucht im Google-Korpus zu etwa dieser Zeit auf.) Dabei sind die Verfahren naturgemäß mit den technologischen Möglichkeiten verknüpft. Bereits 1979 sah Susan Crawford e-only-Varianten, und damit „a new age of electronic publishing“ voraus (Lit. 09). So lässt sich eine Entwicklungslinie von den elektronischen (Volltext-)Datenbanken zu den heutigen E-Publikationen nachvollziehen. Wobei die Grundidee der Datenbank und der Relationierbarkeit der in ihr abgelegten Inhalte nach wie vor bzw. sogar mehr denn je als Grundidee des elektronischen Publikationswesens dient. Zusammen mit der Mark-Up-Technologie bildet sie die Grundmatrix elektronischer Publikationen in digitalen Netzen. Erste Produkte eines breiteren Marktes für elektronische Publikationen basierten vor allem auf Datenträgern wie der CD-ROM. Über diesen Weg ließen sich auch umfangreiche Datenbestände oder Editionen analog zu gedruckten Publikationen im Buchhandel verkaufen. Dieser Medientyp, der bis in die späten 1990er Jahre als digitale Leittechnologie galt (Lit. 06), scheint heute angesichts allgegenwärtiger leistungsfähiger Datenübertragungsinfrastrukturen zumindest im Bildungs- und Wissenschaftsbereich marginalisiert. Er findet sich vor allem noch als Beilage zu Printprodukten und im Lehrmittelbereich. Publikationen wie „100 Werke der Weltliteratur, die jeder haben muss“ sind als experimenteller Vorläufer für den heutigen E-Book-Markt zweifellos bedeutsam. Die Nutzungshürden dieser Produkte (und die damals unzureichenden Datenübertragungsgeschwindigkeiten) standen jedoch der Massennutzung im Weg, der es eben weniger an Volltextsuche als an bequemer Lektüre gelegen war (Lit. 24). Mit der heute weithin verfügbaren Breitbandtechnologie ließ sich mit dem Distributionskanal Internet der Vorteil der Trägerunabhängigkeit digital codierter Inhalte weitaus konsequenter und bequemer ausspielen. Zudem können mit Cloud-Technologien Inhalte hardwareübergreifend abgerufen und verwaltet werden, was die Nutzung unterschiedlicher Ausgabegeräte und den Hardwarewechsel ohne eine meist sehr aufwändige Datenmigration ermöglicht. Seit etwa zwei bis drei Jahren finden sich auch elektronische Lesegeräte auf dem Markt, die offensichtlich zureichend intuitiv und lesefreundlich sind, um tatsächlich mit der Druckseite zu konkurrieren. Unklar bleibt, inwieweit in diesem Medium hypertextuelle Mehrwerte (externe Verknüpfungen) eine Rolle spielen (können). Bisher scheint der Rezeptionsvorgang weitgehend dem von Druckmedien – also dem mehr oder weniger linearen Lesen – zu folgen. Andererseits könnte die Social Media-Hausse der letzten Jahre hier tatsächlich zu Verschiebungen in der Nutzungspraxis führen (vgl. D 7 Social Web). Generell unterscheiden sich die auf Publikumsmärkte orientierten Nutzungsformen (s. unten) aber von denen der wissenschaftlichen und der Fachinformation. Wissenschaft basiert neben Verfahren wie Messung, Auswertung und Analyse zu großen Teilen auf Recherche. Wissenschaftliche Publikationen bestehen zu großen Teilen auf direkten Bezügen auf andere Publikationen. Entsprechend hielten sich im wissenschaftlichen Bereich CD-ROM-Datenbanken auch weitaus länger und wurden intensiver genutzt. Die digitale Codierung von Inhalten besitzt also als grundlegenden Vorteil die präzise und auch vollständige Navigation über Zeichenketten. Damit lassen sich große Bestandsmengen zielgerichtet und selektiv durchsuchen und für die Rezeption aufbereiten. Rezeptionsökonomisch verspricht dies besonders bei der Recherche deutliche Vorteile. Die Zusammenführung von Prinzipien der digitalen bzw. Online-Recherche mit denen der rechnergestützten Datenanalyse, der Verfahren des Desktop Publishing und schließlich der Online-Kommunikation integrierte einen großen Teil dessen, was die Wissenschaft für ihre Arbeit braucht. Insofern war diese Konvergenz für diese Nutzergruppe besonders interessant. Die Entwicklung zu webbasierten virtuellen Forschungsumgebungen, die spezifische Anforderungen bestimmter Wissenschaftsdisziplinen differenziert adressieren, erscheint vor diesem Hintergrund folgerichtig. Die elektronische Datenverarbeitung und auch das elektronische Publizieren, das mit ähnlichen Maschinen möglich wurde, fanden erwartungsgemäß zunächst bei datenintensiven Wissenschaften, vorzugsweise Naturwissenschaften, erste Anwender. In diesen Bereichen waren die Mehrwerteffekte offensichtlicher und auch größer. Inwieweit das wahrgenommene Akzeptanzgefälle für elekt-
512
D 2: Ben Kaden
ronische Publikationen von den datenintensiveren metrischen Disziplinen hin zu den lektüre- und deutungsorientierteren Fächern auch empirisch trägt, muss hier offen bleiben. Generell scheint es aber tatsächlich so, dass die Fächer, die man traditionell als Zeitschriftenwissenschaften bezeichnet, eher zur Digitalisierung ihrer Fachkommunikationen übergingen, als die so genannten Buchwissenschaften. Neben der reinen Datenabfrage ging es den WissenschaftlerInnen der erstgenannten Kategorie auch um einen möglichst schnellen Austausch beispielsweise von Forschungsergebnissen und also Publikationen. Druckmedien verzögerten diesen Prozess aufgrund der langwierigen Herstellungskette, die zwar eine zusätzliche Wertschöpfung darstellt, diese aber besonders in kleinen Communities nur begrenzt entfaltet. In gewisser Weise steht jedes Mitglied einer Community in Bezug auf bestimmte Publikationen ohnehin unter einem Rezeptionszwang bei zugleich weitgehend vorstrukturierten Publikationsregeln: Die Community muss für sie relevante Forschungserkenntnisse zeitnah zur Kenntnis nehmen. Da die Verzögerungen im Durchsatz vom Manuskript zur Publikation aber oft zu lang sind, behelfen sich viele Communities traditionell mit Preprints, die im elektronischen Bereich auch E-Prints genannt werden. Gerade in den Naturwissenschaften, die als erste das elektronische Publizieren ab den frühen 1990er Jahren zum Regelverfahren entwickelten und Printpublikationen sukzessiv marginalisierten (vgl. Lit. 08), entstand parallel eine Variante der elektronischen Preprint-Publikation, die zwar im Reputationserwerb eine nachgeordnete Rolle spielte, den Informationsfluss selbst innerhalb der Community auch abseits des Verlagswesens weitgehend abzusichern schien. Eine der ersten Plattformen für diese Praxis war arXiv.org. Die bei Zeitschriften eingereichten Fassungen von Artikeln wurden dort zeitgleich zur Einreichung der Community zugänglich gemacht, so dass eine sehr zeitnahe Ebene von Wissenschaftskommunikation als Ergänzung und nicht selten de facto auch als Ersatz zur Zeitschriftenpublikation entstand. Das aus der Zeitkomponente in der Wissenschaft hervorgehende Pre-Publishing nutzte als erstes die Möglichkeiten der Online-Publikation und erwies sich als ein erstes Erfolgsmodell und vor allem als Wegbereiter für das Open Access-Modell, das erst durch digitale Publikations- und Kommunikationsmittel möglich wurde. In bestimmten Disziplinen, vorrangig in den Naturwissenschaften, erreichen Open Access-Neugründungen allerdings mittlerweise Akzeptanzgrade, die teilweise über denen vieler klassischer verlagseditierter Zeitschriften liegen (Lit. 22; ausführlich zu diesem Thema C 2 Open Access/Open Content).
D 2.2 Elektronisches Publizieren heute Heute sind elektronische Publikationen selbstverständlicher Bestandteil des gesamten Publikationswesens sowohl in der Wissenschaft wie auch im Fach- und Publikumsbuchhandel. Die Anteile sind unterschiedlich verteilt: Auf den allgemeinen Publikumsmärkten bleibt es vorerst bei einem Nischensegment – allerdings mit starker Wachstumsprognose. Eine Umfrage des Branchenverbandes Bitkom ermittelte, dass etwa elf Prozent der Bundesbürger E-Books lesen. Der Marktanteil von E-Books am deutschen Buchhandel steht allerdings auch 2012 nach wie vor in einem Missverhältnis zu der dem Medienwandel zuteilwerdenden Aufmerksamkeit und liegt (mit 4,7 Millionen verkauften E-Books) bei ca. ein bis zwei Prozent (Lit. 04). Für die USA geht man von einem Marktanteil von etwa 15 % aus. Allgemein wird eine Bedeutungszunahme für diese Segment angenommen und entsprechend investieren die Verlage nicht zuletzt auch in das Marketing zur Durchsetzung dieser Technologien (vgl. Lit. 10). In der Wissenschaft ist das elektronische Publizieren weitgehend ein Normalverfahren. Ein Großteil der formalisierten Wissenschaftskommunikation erfolgt über elektronische Zeitschriften. Die großen Wissenschaftsverlage wie auch Anbieter von Zusatzdienstleistungen (Suchmaschinen, Literaturverwaltungssysteme, Soziale Netzwerke) schaffen zudem einen zusätzlichen Verwaltungsund Nutzungsraum für Publikationen. Parallel existieren und entstehen im Open Access-Bereich elektronische Zeitschriften (Goldener Weg) und Repositorien (Grüner Weg). Die Forschungsförde-
D 2: Elektronisches Publizieren
513
rung in Deutschland ist weitgehend auf die Durchsetzung von Verfahren und Strukturen zur elektronischen Literaturversorgung und folgerichtig auch zum elektronischen Publizieren, mit einem Schwerpunkt auf Open Access, ausgerichtet (Lit. 13). Aktuelle Studierendengenerationen, die mit elektronischen Semesterapparaten in ihr Studium einsteigen, sehen vermutlich in Printbeständen der Universitätsbibliotheken nur mehr eine Optionalform zu den digitalen Inhalten. Wobei es in diesem Kontext auch erhebliche disziplinäre Unterschiede gibt. Im Lehrbuch- bzw. Lehrmittelbereich scheinen E-Books bzw. E-Textbooks und interaktive virtuellen Lernumgebungen, die den Rahmen traditioneller Publikationsformen deutlich überschreiten, zunehmend akzeptiert. Das könnte auch generationale Gründe haben (vgl. Lit. 01).
D 2.3 Merkmale und Bedingungen elektronischer Publikationen Das Konzept der Publikation verweist auf die Möglichkeit einer allgemeinen Zugänglichkeit zu einem Inhalt. Begreift man Publikation als eine Kommunikationshandlung, dann gibt es abstrakt einen Publizierenden als Sender und eine (unbestimmte) Öffentlichkeit als Empfänger. Im engeren Sinn sind die Inhalte in einer Weise medial, die – etwa im Gegensatz zu einer Aufführung oder Sendung – ihre zeitversetzte Nutzung ermöglicht. Das verweist auf die dritte Größe im Kommunikationsschema: den Kanal, das Medium. Mit dem Zusatz elektronisch, rückt das Medium in den Mittelpunkt. Und damit die Frage, wie welche Veränderung der Eigenschaften dieses Übertragungsbereiches auf den Sender und auf den Empfänger zurückwirkt. In Anlehnung an Pettenati (Lit. 27) lassen sich auf einer sozio-pragmatischen Ebene drei Kategorien unterscheiden: traditionell, alternativ und subversiv. Mit traditionell meine ich Verfahren des elektronischen Publizierens, die weitgehend die Eigenschaften der Printkultur digital reproduzieren. Alternativ bezieht sich auf die Loslösung von diesen Vorgaben. Subversiv bedeutet dagegen die Überwindung einer klaren Eingrenzung des Konzepts der Publikation, die sich, wie ich zeigen werde, als Perspektive in digitalen Kommunikationsnetzen abzeichnet.
D 2.4 Was ist eine (elektronische) Publikation? Strukturell ergibt sich sowohl für Sender wie auch Empfänger beim elektronischen Publizieren in digitalen Netzen zunächst eine Flexibilisierung des Zugangs. Ein Endgerät sowie eine stabile digitale Kommunikationsinfrastruktur ermöglichen beiden Seiten zeit- und ortsunabhängig in eine solche Kommunikationshandlung einzutreten. Publizierte Inhalte sind dabei nichts anderes als nach bestimmten Regeln und Normen erstellte und verteilte Nachrichten. Publikationen sind demnach inhaltlich und strukturell so stabilisierte Aussagen, dass sie auch von Dritten nachvollziehbar rezipiert werden können. Diese Stabilisierung führte traditionell zur Zuschreibung einer besonders hohen Aussagenverbindlichkeit und damit wiederum zu einer beigemessenen hohen Referenzier- und Bewertbarkeit. Eine Veröffentlichung genießt gegenüber anderen Kommunikationsformen wie Gespräch, Brief oder E-Mail den Nimbus, elaboriert, kontrollierbar, stabil und daher besonders verlässlich zu sein. Im WWW und besonders in Sozialen Netzwerken wird die Stabilisierung jedoch durchlässig. Ein professionell anmutendes Layout (Theme) für ein Weblog ist in einer Minute installiert und bildet Inhalte in einer Oberfläche ab, die ohne Probleme an verlagsseitig gestaltete Angebote erinnert. Der darin eingepflegte Inhalt kann dagegen für eine Öffentlichkeit völlig irrelevant sein. Dennoch ist er wie ausdrücklich als Publikationen intendierte Inhalte u. U. eindeutig referenzierbar, strukturell genauso aufbereitet und (i. d. R. auch dauerhaft) verfügbar. Auch an dieser Stelle entstehen Mischformen, die sich schwer in traditionelle Kategorisierungsrahmen für Publikationen einpassen lassen und auch eine erweiterte Rezeptions- bzw. Beurteilungskompetenz einfordern.
514
D 2: Ben Kaden
D 2.5 Hypertextualität und Hybride Publikationen Die Hypertextualität sowie die in vielen Social Media Formen vorhandenen adaptiven und interaktiven Erweiterungen relativieren die Abgeschlossenheit einer Publikation. In digitalen Netzen verliert sich dieses Merkmal zusehends. Neben den stabilisierenden traditionellen Publikationsformen, die in diesen Umgebungen die Regeln ihrer Geschlossenheit reproduzieren, entwickeln sich alternative Mischformen und neue (subversive) Varianten. Für diese scheint der allgemein oft pejorativ verwendete Ausdruck Content tatsächlich zutreffend. Er bezeichnet hier den digital verarbeitbaren Inhalt einer Nachricht – sei es nun ein wissenschaftlicher Aufsatz, eine Passage aus diesem, ein Gedicht, ein Foto oder ein Blogposting. Ein Inhalt wird auf der technischen Ebene von den formalspezifizierenden Bestandteilen, den Metadaten, abgegrenzt. Elektronische Publikationen sind immer zugleich meta-mediale Publikationen (vgl. Lit. 21), denn sie fassen Inhalte mit Metadaten zu einem Objekt zusammen. Daraus ergibt sich, dass beide Dimensionen unabhängig voneinander auch mit anderen Daten kombiniert werden können. Auf dieser Grundlage werden Hybridformen möglich. Metadaten können auch mit anderen Metadaten verbunden und publiziert werden. Das ist kein neues Verfahren, sondern eher eine eigene Traditionslinie von der Bibliografie bis zu Karteien jeder Art (vgl. dazu Lit. 17). Neu ist dagegen die Verknüpfbarkeit mit rezeptionsspezifischen Metadaten, die von den Abrufund Verlinkungszahlen bis hin zu den Empfehlungsstrukturen in Sozialen Netzwerken reichen. Der Facebook-Like-Button ermöglicht ein rezeptives Bekenntnis, das wiederum an einen Akteur gebunden ist und die Einzelpublikation maschinenlesbar in ein übergeordnetes Netzwerk, eine hypertextuelle Rhizomatik (zum Konzept vgl. Lit. 12) einbindet. Dies ermöglicht prinzipiell unüberschaubar viele Kombinationsmöglichkeiten und dabei auch Annäherungslinien. Die Publikation ist in diesen Kontexten als Einzelphänomen vielleicht noch eingegrenzt lokalisierbar. Wichtiger als ihr Speicherort, der recht diffus in einer Cloud sein kann, also in einem austauschbaren Rechenzentrum, werden jedoch ihre Identifizierbarkeit und ihre Wechselwirkung mit anderen Akteuren und Inhalten. Man kann hier im Anschluss an die Akteur-Netzwerk-Theorie tatsächlich von Aktanten (Lit. 19) sprechen. Aktanten sind hierbei Wirkungszusammenhänge, die sich aus der (temporären) Einbindung von Inhalten in semantische (Beziehung zu anderen Inhalten) und pragmatische (Beziehung zu Akteuren sowohl der Erzeugung wie auch der Rezeption) Netze ergeben. Das ist insofern für die Frage der Abgrenzbarkeit elektronischer Publikationen relevant, als dass solche Kontexte selbst visualisiert und als Publikationen adressiert werden können (vgl. B 5 Informationsvisualisierung). Im Ergebnis werden subversive Publikationsstrukturen in dem Sinne möglich, dass in diesen digitalen Zusammenhängen das Konzept der Publikation grundsätzlich zugunsten einer Folgestruktur aufgelöst wird, für die bislang freilich keine eindeutige Bezeichnung existiert.
D 2.6 Publikationsregeln Weiterverarbeitung und Vernetzung werden aber nur durch verbindliche technische Standards und begleitende soziale Regeln überhaupt möglich. Angesichts der vergleichsweisen Neuheit des Phänomens des elektronischen Publizierens konstatierte Peter Schirmbacher 2005 treffend: „Verständlicherweise fehlen viele Regeln, Standards und festgefügte Verhaltensweisen.“ (Lit. 30) D 2.6.1 Technische Standards Mittlerweile haben sich aber gerade auf der technischen Ebene bestimmte stabile Grundelemente etabliert, die Allgemeingültigkeit beanspruchen können. Wer Inhalte im digitalen Nutzungsraum des WWW publizieren möchte, muss sich an diese Standards halten. Allerdings gilt das nur auf einer sehr elementaren Ebene als Fundamentalfestlegung. Andere Bereiche, besonders auch bei den
D 2: Elektronisches Publizieren
515
Darstellungs- und Dateiformaten, sind dadurch gekennzeichnet, dass vor allem die Entwicklungsrichtung und der Handlungsrahmen standardisiert werden, sie selbst jedoch stetig optimiert und erweitert werden. Dies erfolgt teilweise zwangsläufig anhand der Strukturmerkmale anderer Anwendungen (Betriebssysteme etc.), die Kompatibilität schlicht einfordern. Jedoch zeigt die Diskussion um die E-Book-Formate, dass es dort, wo Marktanteile neu verteilt werden, zu Parallelentwicklungen kommen kann. D 2.6.2 Soziale Regeln Für die erfolgreiche Etablierung neuer Publikationsformen ist die Kenntnis der jeweiligen Publikums- und Rezeptionskulturen und deren Regeln entscheidend. Digitale Infrastrukturen zur Wissenschaftskommunikation sind nur durchsetzbar, wenn sie die konkreten Publikations- und Rezeptionspraxen der jeweiligen Communities berücksichtigen. Entwicklungsprojekte für elektronische Publikationsstrukturen müssen also abstimmen, was in welchem Rahmen mit welchen Kosten technisch machbar ist und was von wem zu welchen Kosten gewünscht wird. Gerade die vergleichsweise mühsame und langwierige Durchsetzung des Mediums E-Book am Markt zeigt, wie sich soziale Erwartungen, Normen und Praxen nur langsam an technische Möglichkeiten anpassen. Sicherlich werden alternative Publikationsvarianten auch in der Wissenschaftskommunikation genutzt: Weblogs als schnelle Publikationsformen (oft in Kombination mit sozialen Netzwerken als Distributionsplattformen), Wikis zur kollaborativen Erstellung von Texten. Sie gelten jedoch derzeit (noch) weitgehend als Zusatzwerkzeuge im Publikationsprozess. Für die Anerkennung einer Publikation als wissenschaftlich wird meistens nach wie vor eine nach traditionellen Regeln formalisierte Variante (die prinzipiell auch als Printpublikation akzeptiert würde) eingefordert. Gründe dafür mögen neben der Gewohnheit auch die Skepsis hinsichtlich der Gewährleistung der Authentizität und Reputation der Autorschaft und Validität dynamischerer Publikationsformen sowie die Rechtekontrolle sein.
D 2.7 Perspektiven Wie dargestellt gibt es derzeit eine dreigliedrige Entwicklung für Publikationsmodelle in digitalen Netzen: die traditionelle Variante, die alternative Variante und die subversive Variante. Sie werden von Entwicklungen wie Filterdienstleistungen, Strukturen zur Erhebung von Rezeptions-Metadaten sowie generell Oberflächen zur Weiternutzung bzw. publikationsbezogenen Kommunikationen begleitet. D 2.7.1 Traditionelle E-Publikationen Bisher dominieren im Bereich der E-Books wie auch der digital vermittelten Wissenschaftskommunikation Verfahren, die gängige Praxen und Darstellungsformen aus dem Druckbereich für die elektronische Abbildung, Verbreitung und Rezeption von Inhalten weitgehend übernehmen (Lit. 32). Für E-Books existieren entsprechende Endgeräte (Reader), die das Medium Buch bis in die Hardware hinein simulieren und/oder bestimmte (standardisierte) Dateiformate, die nicht zuletzt wie beim PDF-A-Format zur Stabilisierung der Dokumentenform beitragen. Das Verhältnis von Autor und Leser bleibt bei dieser Form weitgehend klassisch getrennt. Ein Vertrieb analog zum Stückgutabsatz des Buchhandels ist hier möglich und gewünscht. Die treibenden Akteure sind daher vor allem die klassischen Verlage bzw. in der Wissenschaft auch Fachgesellschaften und Wissenschaftler selbst. Gerade in der Wissenschaft ist zumindest das Medium des E-Journals vollauf etabliert. Die Zuschreibung sozialer Bedeutung (Reputation) erfolgt in diesem Zusammenhang unterschieds-
516
D 2: Ben Kaden
los wie bei der Printpublikation. Auch für die verlagspublizierten elektronischen Bücher dürfte dies zunehmend zutreffen. Weniger die Medienform selbst, sondern ihre institutionelle Organisation scheint hier maßgeblich zu sein. Mittlerweile werden auch Distributoren und Technologieanbieter (Amazon, Apple) auf diesem Feld aktiv. Im Self-Publishing-Bereich spielen zudem Privatpublizierende und diese unterstützende Dienstleister eine Rolle. Die sich aus dem globalen Charakter des WWW ergebende Möglichkeit einer direkten weltweiten Vermarktung von Inhalten bei gleichbleibenden Distributionskosten wird vor allem durch die international sehr unterschiedliche Urheberrechts-/Copyright-Lage erschwert. Digitale Publikations-, Distributions- und Nutzungsformen lassen sich beispielsweise im deutschen Urheberrecht nur sehr begrenzt in Abstimmung mit den prinzipiellen digitaltechnologischen Möglichkeiten bringen. Die Rechtslage für elektronische bzw. digitalisierte Publikationen weicht selbst an vielen Stellen von der für trägermediengebundene Publikationen ab (beispielsweise bei der Frage des Weiterverkaufs oder des Verleihen von E-Books, vgl. Lit. 16). Der strukturelle Unterschied zwischen elektronischen und trägergebundenen Publikationen erfordert prinzipiell eine neue rechtliche Definition (vgl. Lit. 31). Zum Primärvertrieb entwickeln sich in Überschneidung zu Publikations- und Kommunikationsformen des Web 2.0 bzw. Sozialer Netzwerke in wachsender Zahl Begleitangebote, die Rezeptionskontexte erschließen und eine Art Community-Bildung (bzw. Kommunifizierung) um die Inhalte betreiben. Für die daraus entstehenden, oft temporären Communities wird das individuelle Rezeptionsverhalten über bestimmte Plattformen zu einem halböffentlichen Handeln (Lit. 33, Lit. 18). Auf diese Weise verändern elektronische Publikationsformen auch Kulturtechniken wie die der Lektüre geschlossener Dokumente (vgl. Lit. 11, Lit. 33). D 2.7.2 Alternative Publikationsformen Weiterhin gibt es offen bzw. auf Rückkopplung angelegte, verstärkt auf Hypertextualität ausgerichtete Varianten des elektronischen Publizierens, die den Publikationsbegriff zwangsläufig herausfordern (vgl. A 7 Hypertext). Metaphern wie die des elektronischen Buches werden hierbei sukzessive obsolet. Denn rein strukturell lassen sich sämtliche über das WWW verfügbaren und adressierbaren Kommunikationen bis hin zur Twitter-Nachricht in gewisser Weise als elektronische Publikation verstehen. Was eine Publikation ist, bleibt daher Sache entweder der Intention (die Publikation wird klar als eine solche gekennzeichnet) oder der Interpretation durch Metadienste bzw. durch Rezipienten. Besonders interessant wird die Frage bei Bibliotheken mit Sammelauftrag und Pflichtexemplarrecht. Wie z. B. offene Dokumente gesammelt werden sollen, ist derzeit kaum entschieden. Die Position, dass die Inhalte aus diesem Bereich zum Sammelgut z. B. einer Nationalbibliothek gehören, wird allerdings vertreten (Lit. 25). Es bleibt schwer eingrenzbar, welche Akteure hier wie tätig werden (sollen). Institutionen bedienen sich dieser Werkzeuge genauso wie Privatpersonen. Geschäftsmodelle finden sich für diese Form des elektronischen Publizierens vorrangig im Dienstleistungs- und Infrastrukturbereich und im Einsatz der Medien für Werbung und Marketing. Verbreitung und Nutzung von Inhalten dieses Typs funktionieren prinzipiell fast nur, wenn sie frei verfügbar sind und genutzt werden können. Die prinzipielle digitale Demokratisierung des Zugangs zu Publikationsmöglichkeiten löst dennoch in gewisser Weise eine lang gehegte Utopie ein. Seit der Frühphase des öffentlichen Internets wurden denn auch große Erwartungen an ein entsprechendes Emanzipations- und zugleich Marktpotential formuliert (exemplarisch Lit. 23). Daher erweisen sich die simpel und kostenarm nutzbaren Publikationsplattformen des Web 2.0 auch als eine Art gesamtgesellschaftliches Open Access-Prinzip, zumal die dort publizierten Inhalte selten zugriffsbeschränkt sind. Der Unterschied beispielsweise zur Wissenschaftskommunikation ist jedoch, dass die Informationsqualität dieser Inhalte häufig schwer abschätzbar ist. Es fehlen –
D 2: Elektronisches Publizieren
517
im Gegensatz beispielsweise zur Wissenschaft – verbindlich anerkannte und formalisierte Verfahrensstandards zur Kontrolle auf entsprechende Informationsqualität. Eine weitere Lücke ergibt sich bei den Abrechnungs- und Geschäftsmodellen. Versuche, alternative Publikationsplattformen über freiwillige Zahlungen (Social Payment) oder Werbung gegenzufinanzieren sind bislang selten umfassend erfolgreich. Social Media-basierte Publikationsstrukturen mit verlässlicher Qualität bzw. Relevanz sind nach wie vor nur entweder durch Eigenengagement oder Querfinanzierungen stabilisierbar. D 2.7.3 (Subversive) Post-Publikationen: Remixe und Primärdatenpublikation Eine besondere (subversive) Form der Vermischung von Medienformen bis hin zu neuen Spielarten der Multimedialität ergibt sich aus der so genannten Remixability (Lit. 20) von Inhalten, die mit anderen Inhalten zum Beispiel in Mash-Ups (Lit. 15) kombiniert werden können. Man könnte auch von Post-Publikationen sprechen, da hier meist bereits Publiziertes verarbeitet wird. Die eigenschöpferische Leistung besteht dabei ausdrücklich aus der Collage und Verknüpfung von Bestehendem. Solche Nachnutzungsspielarten erinnern besonders an das Verfahren der Semiose: Eine Aussage erzeugt in der Kommunikation automatisch eine Referenzstruktur, aus der eine neue Aussage hervorgeht, die gleichermaßen referenzierbar ist. Dieser Prozess ist unendlich verlängerbar und auch abseits des schöpferischen Remixes ein Begleitphänomen automatischer Datenvernetzung z. B. über Nutzungsprofile. Das Remix-Verfahren spielt dabei nicht nur in der Kunst oder Populärkultur eine Rolle (wenngleich es dort am intensivsten Anwendung findet), sondern ist auch für die Fach- und Wissenschaftskommunikation im Sinne von Metapublikationen bedeutsam. Beispiele sind z. B. so genannte Overlay Journals (Lit. 07), die das Prinzip von erschließenden Overlay-Diensten vorwiegend für bibliografische Daten auf die eigentlichen Inhalte ausweiten. So können besonders Inhalte aus Repositorien unter bestimmten Gesichtspunkten und nach bestimmten Regeln neu kontextualisiert werden. Dieser Prozess ist sogar weitgehend automatisiert vorstellbar. Wendet man ihn auf Metadaten an (oder auch auf Volltextindexierungen), sind sich selbst aktualisierende Bibliografien genauso denkbar wie bereits dank RSS etablierte Alerting-Verfahren. Besonders interessant sind die sich daraus ergebenen Datenstrukturen als Primärdatenbestand beispielsweise für die so genannten Digitalen Geisteswissenschaften, die über quantitative Auswertungen Rückschlüsse auf Prozesse der Werkgenese und Rezeption ziehen können. Dabei können Primärdaten durchaus als eigenständige elektronische Publikationen auftreten und prozessiert werden. Mit dem Konzept der Digital Curation bewegt man sich deutlich im Umkreis des Komplexes der Herausgeberschaft. Die Publikation erfolgt dabei über das Arrangement, die Erschließung und die Aufbereitung der Materialien. Wo die Grenze zwischen Publikation und bloßer Verfügbarmachung verläuft, ist schwer festzulegen. Akteure sind hier unter dem Stichwort Remix (mit anderen Vorzeichen) auch Plattform- und Suchmaschinenbetreiber und schließlich die Wissenschaft, die besonders im Umgang mit Primärdaten ein wachsendes Interesse hinsichtlich der Entwicklung von Infrastrukturen und Nutzungsrahmen entwickelt. (vgl. D 8 Forschungsdaten). Inwieweit sich aus Primär- und Metadaten eine Ware analog zu Kreativinhalten erzeugen lässt, ist derzeit offen. D 2.7.4 Filterverfahren Angesichts der Fülle des Angebots und des gleichbleibenden Bedürfnisses der Rezipienten nach Qualität entwickelt sich ein publikationsbegleitender Bereich, der aus der wissenschaftlichen und Fachinformation bekannte sowie neue Filter- und Selektionsmechanismen (beispielsweise über Popularitätsmessungen oder direkte Bewertungskommunikationen zu den Inhalten) auch für Publikumsmärkte adaptiert. Suchmaschinen (vgl. D 1 Suchmaschinen) sind vielleicht die bekannteste
518
D 2: Ben Kaden
Erweiterung von Retrieval-Verfahren auf einen entwicklungsoffenen Publikationsraum. In jedem Fall entsteht auf der Grundlage automatischer Indexierungen und Relationierungen oder auch weiterer automatischen Verfahren (vgl. B 4 Text Mining und Data Mining) eine weitere publikationsbegleitende Metadatenstruktur, die die formalbeschreibenden, die inhaltsbeschreibenden und die rezeptionsbasierten Metadaten ergänzt. Nicht wenige Anbieter erhoffen sich zudem gerade in elektronischen Netzen durch die Abrufzählung eine stärkere Kontrolle und Transparenz hinsichtlich der Nutzung, Einbindung und Vernetzung ihrer Inhalte. Dass das Rezeptionsverhalten auf diese Weise dokumentiert (und kontrolliert) werden kann, zeigt sich als ein zentraler technischer Unterschied zu gedruckten Publikationen. Über die Kombination beispielsweise von Login-Daten und Bewegungsanalysen im Bestand können Anbieter präzise Aussagen zur Nutzung ihres Angebotes treffen und dieses entsprechend weiter entwickeln bzw. um Zusatzdienste wie Vorschlagssysteme erweitern.
D 2.8 Zusammenfassung Elektronisches Publizieren ist heute weitgehend gleichbedeutend mit der Publikation in Digitalen Kommunikationsnetzen, unabhängig davon, ob diese nur als Übertragungskanal oder gleich als Abbildungsort genutzt werden. Durch Mobile Computing lassen sich prinzipiell über das Auslesen von QR-Codes darüber hinaus direkte Verknüpfungen zwischen Print- und elektronischen Publikationen herstellen. Diverse Rückkopplungsformen sind so denkbar. Es kommt also zu einer weitreichenden Durchdringung von Publikations- und Kommunikationswelten, die auch von Akteuren der Publikations- und Informationsmärkte forciert wird. Weder ein Ende noch über die nächsten zwei bis drei Jahre herausreichende Trends sind derzeit absehbar. In jedem Fall scheinen Publikations- und Kommunikationshandeln im Web zunehmend zu konvergieren, so dass möglicherweise eine Re-Definition des Konzeptes der Publikation perspektivisch notwendig wird. Bisher lässt sich eine dreiteilige Entwicklung beobachten. Einerseits setzen sich traditionelle Publikationsmodelle im Sinne des E-Publishing betont an die Printkultur angelehnt im Web fort. Weiterhin entstehen Hybridformen einer Art Social Publishing. Diese verknüpft in gewisser Weise die traditionelle Form mit Formen des Post-Publizierens, die einerseits so genannte Remix- und Mash-Up-Verfahren und andererseits eine konsequente Entfaltung semantischer und pragmatischer Netzwerkstrukturen umfasst, bei denen (kuratierte) Daten und als Publikationen intendierte Inhalte stärker zusammenfließen. Ausgangspunkt vieler Entwicklungen in diesem Bereich waren wissenschaftliche bzw. wissenschaftsbegleitende Anwendungen und Verfahren.
Literatur 01 Barber, Marianne: “You can build it but will they come?“ A Trial Implementation of eTextbooks at The College of Law. Legal Information Management. 11 (4) 238-240, 2011 02 Björk, Bo-Christer: The hybrid model for open access publication of scholarly articles: A failed experiment? Journal of the American Society for Information Science & Technology; 63 (8) 1496-1504, 2012 03 Börsenverein des Deutschen Buchhandels: Wirtschaftszahlen [2011]. Frankfurt/Main (http://www. boersenverein.de/de/portal/Wirtschaftszahlen/158286) 04 Börsenverein des Deutschen Buchhandels: Markt mit Perspektiven. Das E-Book in Deutschland 2011 (http://de.slideshare.net/boersenverein/ebookstudie-2012-presseversion) 05 Bowyer, Neil: Electronic Publishing: A Powerful New Tool. Industrial Management & Data Systems, Vol. 86 Iss: 1/2, 2-13, 1986 (http://dx.doi.org/10.1108/eb057429) 06 Brown, David: Electronic publishing and libraries: planning for the impact and growth to 2003. London, New Jersey: Bowker Saur, 1996 07 Brown, Josh: An Introduction to Overlay Journals. Repositories Support Project. 2010 (http://hdl.handle.
D 2: Elektronisches Publizieren
519
net/10760/5840) 08 Butterworth, Ian: The impact of electronic publishing on the academic community. European Review, Vol. 6, Issue 01, February 1998, 97-102 (http://dx.doi.org/10.1017/S1062798700003057) 09 Crawford, Susan: From Hard Copy to Electronic Publishing: Problems in Accessing the Literature. JAMA. 1979; 241 (4) 399-400 (http://dx.doi.org/10.1001/jama.1979.03290300041030) 10 Cronenburg, Petra von: In der dunklen Höhle. Zur Zukunft des Buches. Aus Politik und Zeitgeschichte, 41-42, 2012 (http://www.bpb.de/apuz/145372/in-der-dunklen-hoehle-zur-zukunft-des-buches?p=all) 11 Darnton, Robert: Old Books and E-Books. European Review, Vol. 15, Issue 02, Mai 2007, 165-170, 2007 12 Deleuze, Gilles; Guattari, Felix: Rhizom. Berlin: Merve, 1977 13 DFG – Deutsche Forschungsgemeinschaft: Die digitale Transformation weiter gestalten – der Beitrag der Deutschen Forschungsgemeinschaft zu einer innovativen Informationsinfrastruktur für die Forschung. Bonn, 2012 (http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_ transformation.pdf) 14 Frohmann, Bernd: Revisiting “what is a document?“. Journal of Documentation. 65, 2, 291-303, 2009 (http://dx.doi.org/10.1108/00220410910937624) 15 Gehlen, Dirk von: Mashup. Lob der Kopie. Berlin: Suhrkamp Verlag, 2011 16 Hartmann, Thomas: Weiterverkauf und „Verleih‘‘ online vertriebener Inhalte. GRUR 11/2012 17 Krajewski, Markus:Zettelwirtschaft. Die Geburt der Kartei aus dem Geiste der Bibliothek. Berlin: Kadmos, 2007 18 Lang, Anouk: From codex to hypertext: reading at the turn of the twenty-first century. Amherst : University of Massachusetts Press, 2012 19 Latour, Bruno: Eine neue Soziologie für eine neue Gesellschaft. Einführung in die Akteur-NetzwerkTheorie. Frankfurt/Main: Suhrkamp, 2007 20 Lessig, Lawrence: Remix: Making art and commerce thrive in the hybrid economy. New York: Penguin, 2009 21 Manovich, Lev: Understanding Meta-Media. Arthur Kroker, Marilouise Kroker (Hrsg.): Critical Digital Studies. A Reader. Toronto: University of Toronto Press, 2008. 106-111 22 MPG – Max Planck Gesellschaft: Pressemeldung: Hoher Impact Factor für Open Access-Journale der Max-Planck-Gesellschaft (http://idw-online.de/pages/de/news488288 2012) 23 National Writers Union: Authors in the new information age : a working paper on electronic publishing issues. Oakland. National Writers Union, 1995 24 Noll, A. Michael: Videotex: Anatomy of a failure. Information & Management. Vol. 9, Issue 2, September 1985, 99-109 (http://dx.doi.org/10.1016/0378-7206(85)90031-X) 25 ÖNB – Österreichische Nationalbibliothek: Vision 2025. Wissen für die Welt von Morgen, 2012 (http:// www.onb.ac.at/files/Vision_Einzelseiten300_yumpu.pdf) 26 O’Reilly, Tim: What is Web 2.0: Design Patterns and Business Models for the Next Generation of Software. Sebastopol: www.oreilly.net, 2005 (http://www.oreilly.de/artikel/web20.html) 27 Pettenati, Corrado: Electronic Publishing at the End of 2001. Maura Barone (Hrsg.) Proceedings of the 7th Int. Conference on Advanced Technology & Particle Physics. River Edge: World Scientific, 2002 28 Riehm, Ulrich; Knud Böhle; Bernd Wingert: Elektronisches Publizieren. Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.), Grundlagen der praktischen Information und Dokumentation. München: K.G.Saur, 2004 29 Stäcker, Thomas: Die Digitale Bibliothek – auf der Suche nach einem Phantom. Christine Haug; Vincent Kaufmann (Hrsg.), Kodex Jahrbuch 1/ 2011. Wiesbaden: Harrasowitz, 1-8 30 Schirmbacher, Peter: Eine neue Kultur des elektronischen Publizierens. cms journal 27, Berlin: 2005, 19-22 31 Steinhauer, Eric W.: Das Urheberrecht als Benutzungsrecht in der digitalisierten Bibliothek. Christine Haug; Vincent Kaufmann (Hrsg.), Kodex Jahrbuch 1/ 2011. Wiesbaden: Harrasowitz, 103-113 32 Vassiliou, M.; Rowley, J.: Progressing the definition of ‘e-book’. Library Hi Tech, 26 (3), 355-368, 2008 33 Vogel, Anke: Der Buchmarkt als Kommunikationsraum: Eine kritische Analyse aus medienwissenschaftlicher Perspektive. Wiesbaden: VS Verlag, 2011 34 Willinsky, John: The access principle: the case for open access to research and scholarship. Cambridge, MIT Press, 2006
Jens Olf, Uwe Rosemann
D 3 Dokumentlieferung D 3.1 Einleitung Die Versorgung mit Fachliteratur im Zuge der Dokumentlieferung (gebräuchlich sind auch die Bezeichnungen Document Delivery oder Volltextversorgung) war in Deutschland in der vergangenen Zeit einem ständigen Wandel unterworfen und hat jüngst an Dynamik noch zugelegt. Im Vergleich zu anderen europäischen Staaten wie England oder Frankreich hat Deutschland erst spät zu einer umfassenden nationalen Einheit gefunden. In der Zeit der Kleinstaaten gab es keinen überregional koordinierten Aufbau von Bibliotheksbeständen. Und erst ab 1912 gibt es in Deutschland eine Nationalbibliothek. Mit dem System der Fernleihe, das sich seit dem Ende des 19. Jahrhunderts entwickelte, begann in Deutschland eine koordinierte überregionale Literaturversorgung. Eine markante Weiterentwicklung fand nach dem Krieg statt, als mit der Einrichtung der Sondersammelgebiete die Literaturversorgung für Wissenschaft und Forschung besonders unterstützt und ausgebaut wurde. Mit der Förderung der Deutschen Forschungsgemeinschaft wurde seit 1949 das System der Sondersammelgebietsbibliotheken errichtet. Einen zusätzlichen Beitrag leisten die drei Zentralen Fachbibliotheken (siehe D 3.4), die für die Fachinformationsversorgung anwendungsorientierter Gebiete zuständig sind und deren Aufgaben auch die Dokumentlieferung einschließen (Lit. 01). Über das reine Versenden von monographischer Literatur (hierunter fallen auch spezielle Materialien wie Dissertationen oder Forschungsberichte) hinaus werden Fachaufsätze, Konferenzbeiträge und einzelne Buchkapitel im Rahmen der Dokumentlieferung bereitgestellt. In den vergangenen Jahren ist, insbesondere im wissenschaftlichen Bereich (Lit. 02), eine Änderung im Nutzungsverhalten festzustellen. Elektronische Angebote werden zunehmend bevorzugt. Durch diese Entwicklung haben sich für die Dokumentlieferung neue Geschäftsfelder ergeben, in denen verstärkt Anbieter mit einer ausschließlich vermittelnden Funktion auftreten. Während früher die Voraussetzung für die Dokumentlieferung der Besitz des Dokumentes (durch den Ausliefernden) war, ist heute der physische Ort der Aufbewahrung (oder der Speicherort bei elektronischem Material) nicht notwendigerweise räumlich mit dem Lieferanten verbunden. Elektronische Zugänge, Vermittlungsmöglichkeiten und Lieferformen setzen im Minimalfall lediglich die legitimierte Verfügungsgewalt (heute zumeist durch Lizenzierung) voraus. Jenseits technischer und rechtlicher Hürden wird heute die Vision greifbar: Lieferung jeglicher Publikation (jeglichen Materials), zu jeder Zeit, an jeden Ort, in kürzester Zeit. Als Akteure treten dafür außer den klassischen Versorgern, den Bibliotheken, nun auch Anbieter von Fachinformation mit einem zusätzlichen Dokumentlieferangebot, Verlage oder reine Informationsdienstleister auf. Auch wenn jeder Anbieter die verfügbaren technischen Möglichkeiten nutzt, sollen hier kurz die typischen Unterschiede aufgezeigt werden: 1. Bibliotheken können für die Dokumentlieferung, abhängig von ihren Sammelschwerpunkten, auf ihre eigenen, umfassend aufgebauten Bestände zurückgreifen. 2. Verlage (z. B. Wiley, Springer) nutzen für die, in der Regel elektronische, Dokumentlieferung die Literatur, die sie in digitaler Form besitzen. 3. Anbieter von Fachinformationen, wie beispielsweise die WTI Frankfurt oder Genios, haben keine eigenen Bestände, aus denen die Dokumentlieferung erfolgen kann. Sie bieten neben ihrem ursprünglich entwickelten Produkt, den fachspezifischen Informationssammlungen und oft eigenen oder gehosteten Datenbanken, den Mehrwert der Dokumentlieferung an. Diese Dienstleistung wird in der Regel mit einem oder mehreren Anbietern durchgeführt, die den Content in digitaler oder konventioneller Form zur Verfügung stellen können. 4. Bei reinen Informationsdienstleistern besteht das originäre Geschäftsmodell in der Dokumentvermittlung, Beispiele hierfür sind die Firmen Reprints Desk oder Infotrieve. Auch hier
D 3: Dokumentlieferung
521
erfolgt die Auslieferung bzw. Bereitstellung des Volltextes in erster Linie aus dem digitalen Bestand (z. B. direkt aus lizenzierten Inhalten von Verlagen), aber auch aus dem physischen Bestand von Dritten.
D 3.2 Nutzer der Dokumentlieferung Die Dokumentlieferung in Form der Fernleihe (bei dieser Art der Dokumentlieferung erhält ein Kunde die bestellte Literatur in der Bibliothek, in der er für die Fernleihe angemeldet ist in physischer Form) oder in Form der Direktlieferung (in diesem Fall erhält der Endnutzer das Dokument unmittelbar – digital bzw. in Print – z. B. an seinen Arbeitsplatz) wird von einer Vielzahl unterschiedlicher Gruppen genutzt. Im Rahmen von Unterricht und Ausbildung nutzen Schüler und Auszubildende auch die Angebote der Dokumentlieferung zur Informationsbeschaffung. Aus dem Bereich der Hochschulen kommen die Studierenden, Lehrenden, Doktoranden und Forscher als Kunden. Außerdem gibt es Interessenten aus den Bereichen Wirtschaft, Industrie und Verwaltung. Dabei reicht die Spanne über alle Branchen und Disziplinen, von der Medizin über die Technik und Naturwissenschaften bis zu den Gesellschafts-, Politik- und Wirtschaftswissenschaften. Nutzer kommen weiterhin aus der industriellen Forschung, beispielsweise aus den Bereichen Chemie, Pharmazie oder aus der anwendungsorientierten Technik. Auch Personen in Weiterbildungsmaßnahmen oder privat Interessierte nehmen die Dokumentlieferung in Anspruch.
D 3.3 Welche Materialien werden angeboten? Ein Dokument ist der Träger einer potenziellen Information, die als Einheit wahrgenommen wird. Die Darstellungsform (Text, Bild usw.) kann unterschiedlich sein, ist also keineswegs auf Text beschränkt. Während die klassischen Inhalte der Dokumentlieferung gedruckte Texte sind, die häufig auch Abbildungen, Grafiken, Tabellen und Formeln enthalten, umfasst die Dienstleistung Dokumentlieferung in neuerer Zeit zunehmend Materialien, die digital gespeichert sind und deren schnelle und leichte Verbreitung erst durch neue, elektronische Kommunikationswege möglich wird. Darunter sind Bilddateien, audiovisuelle Formate (Ton- und Filmdokumente), dreidimensionale Modelle, Noten, chemische Formeln und visualisierte Forschungsdaten.
D 3.4 Welche Dienste gibt es in der Dokumentlieferung? Die klassische Form der Dokumentlieferung ist der Leihverkehr oder Fernleihdienst, mit dem zwischen Bibliotheken Dokumente ausgetauscht werden, die am Zielort dem Bibliothekskunden zur Verfügung gestellt werden. Die Regelungen hierzu sind in der Leihverkehrsordnung (LVO) für die Bundesrepublik Deutschland (Lit. 03) niedergelegt. Das Spektrum reicht hier vom Buch- und Kopienversand (Bücherautodienst) bis zur elektronischen Übermittlung (Abgabe an den Kunden in Print). Im Minimum fällt pro Bestellung eine geringe Fernleihgebühr an, die sich allerdings bei Überschreitung eines definierten Rahmens (z. Zt. 20 Seiten bei einer Kopie) um zusätzliche Kosten erhöhen kann. Für Bestellungen im Internationalen Leihverkehr (ILV) gibt es keine einheitliche Gebührenordnung. In der zurückliegenden Zeit hatten sich neben dem Leihverkehr weitere Angebote für die Dokumentlieferung, die Direktlieferdienste, entwickelt. Zunächst sind hier die Dienste der Zentralen Fachbibliotheken zu nennen: Deutsche Zentralbibliothek für Medizin, ZB MED; Deutsche Zentralbibliothek für Wirtschaftswissenschaften, ZBW; Technische Informationsbibliothek, TIB. Seit 2009 bilden sie den Goportis-Leibniz-Bibliotheksverbund Forschungsinformation. Dazu kommen
522
D 3: Jens Olf, Uwe Rosemann
Dienste von einzelnen Bibliotheken, Bibliotheksverbünden oder Bibliothekszusammenschlüssen. Beispielhaft genannt seien hier die Angebote der ETH Zürich, der British Library und subito. Subito ist ein gemeinnütziger eingetragener Verein. Dieser Dokumentlieferdienst wird von einem Zusammenschluss von wissenschaftlichen Bibliotheken aus Deutschland, Österreich und der Schweiz betrieben. Angeboten wird die Lieferung von Zeitschriftenaufsätzen und die Ausleihe von Büchern bzw. die Lieferung von Teilkopien aus Büchern. Die Recherche erfolgt entsprechend im subito-Zeitschriftenkatalog oder in den subito-Buchkatalogen. Das Spektrum des Dienstleistungsangebotes ist stark von den lizenzrechtlichen Bedingungen geprägt, unter denen der Dienst betrieben wird. Deutlich wird das z. B. bei der differenzierten Einteilung der Kundengruppen. In fünf Kundengruppen werden nichtkommerzielle, kommerzielle und private Kunden aufgeteilt. Allein in der Nutzergruppe 1 werden 6 Fälle unterschieden. Auf der Basis dieser Unterteilung werden die Lizenzgebühren erhoben. Der Wohnsitz des Kunden ist relevant für das zur Verfügung stehende Angebot an Dienstleistungen. In der Zuordnung wird der deutschsprachige Raum oder außerhalb unterschieden. Zum deutschsprachigen Territorium zählen die Länder Deutschland, Österreich, Liechtenstein und die Schweiz. Eine eigene Kundengruppe bilden bei subito Bibliotheken, die überwiegend aus öffentlichen Mitteln finanziert werden. Für diesen Kreis gibt es das Angebot des subito Library Service. Hierfür gibt es klare Regeln. So muss die Bibliothek im Auftrag eines eigenen Bibliothekskunden (diese wiederum müssen im direkten subito-Dienst den Kundengruppen 1 oder 3 angehören) bei subito bestellen. Das an die bestellende Bibliothek gelieferte Dokument darf dem Kunden nur als Kopie (bei Büchern ist die Ausleihe möglich) ausgehändigt werden. Einerseits ist das Verfahren hinsichtlich der Lieferform recht restriktiv, andererseits bietet dieser Dienst den Vorteil, dass Kunden nahezu weltweit beliefert werden können (ausgenommen sind die USA und Großbritannien). Zu den Gründen, die die Entstehung von Direktlieferangeboten besonders begünstigt haben, zählen u. a. zwei Entwicklungen. Zum einen erzeugt die Beschleunigung bei der Produktion und praktischen Verwertung von Forschungsergebnissen in Wissenschaft und Industrie den Druck, Fachinformation schnellstmöglich verfügbar zu haben, zum anderen ist infolge stark gestiegener Preise für viele Fachzeitschriften (die amerikanische Association of Research Libraries gibt für den Zeitraum von 1986-2003 eine Steigerung der Preise um 215 % an; Lit. 04) die Anzahl der gehaltenen Titel in Bibliotheken deutlich reduziert worden. Die lokale Verfügbarkeit, insbesondere spezieller fachlich ausgerichteter Literatur ist dadurch zurückgegangen. Die schnelle überregionale Versorgung kann durch die Direktlieferung gesichert werden. Während im Nationalen Leihverkehr keine Differenzierung nach Kundengruppen vorgenommen wird, wenden sich die Direktlieferdienste der Bibliotheken an unterschiedliche Zielgruppen. Entsprechend differenziert gibt es verschiedene Konditionen für private, akademische und kommerzielle Kunden, sowie eigene Regelungen für Schüler und Studierende. In den letzten Jahren hat auf der Basis der elektronischen Verfügbarkeit von Dokumenten ein fundamentaler Wandel auf der Anbieterseite stattgefunden. War es bisher für einen Anbieter nötig, über einen physikalisch vorhandenen und ausreichend großen Bestand an Dokumenten verfügen zu können, hat die neue technische Entwicklung die Chance eröffnet, Bestände virtuell zusammenzutragen bzw. ein Angebot aus unterschiedlichen digitalen Quellen zu generieren. Die elektronische Vermittlung von Volltexten kann in kürzester Zeit an beliebige Orte erfolgen. Produzenten und Vermittler von Fachliteratur treten als weitere Lieferanten auf. Es handelt sich dabei um Fachverlage (z. B. Elsevier, Hirzel, Springer, Wiley) oder Unternehmen aus dem Bereich des Informationsmanagements, die Bibliotheks-, Verlags- und zum Teil Dokumentlieferangebote Dritter zusammengefasst anbieten. Repräsentanten dafür sind Infotrieve, Reprints Desk oder FIZ AutoDoc. Dieser Dienst ist ein Angebot aus dem Leibniz-Institut FIZ Karlsruhe. Die Volltextvermittlung erfolgt aus Beständen von Bibliotheken, Verlagen und durch die zusätzliche Belieferung durch an-
D 3: Dokumentlieferung
523
dere Dokumentlieferanten. Als Service wird hier die Verwaltung kundeneigener Bestände und Lizenzen angeboten. Kommerzielle Anbieter differenzieren in der Regel nicht nach Kundengruppen und berechnen, unabhängig vom Status des Bestellers (z. B. Privatperson, Schüler, industrieller Kunde), einen einheitlichen Preis sowie die durch den jeweiligen Anbieter oder Vermittler festgelegte Lizenzgebühr. Dadurch ist das Preisniveau, im Vergleich zu der klassischen Dokumentlieferung durch Bibliotheken im Durchschnitt höher. Aber das Angebot kann wesentlich übersichtlicher und schlanker dargestellt werden.
D 3.5 Prozess der Anmeldung – Lieferung – Bezahlung Der Vorgang der Dokumentlieferung soll letztlich für den Kunden möglichst einfach gestaltet sein. Auch wenn funktionale, kundengerechte Lösungen angestrebt werden, gibt es eine Anzahl Parameter, die die Dienstleistung beeinflussen. Einige von ihnen können von den Anbietern gesteuert werden, andere werden von äußeren Umständen (technischer, rechtlicher Natur) bestimmt. In dem folgenden Abschnitt werden die Themen in der Reihenfolge aufgenommen, wie sie im Fall der Nutzung eines Dokumentlieferdienstes vorkommen können. Für den Fernleihverkehr benötigt der Kunde bei der von ihm genutzten Bibliothek ein eigenes Konto. Das kann durch eine einfache zusätzliche Anmeldung angelegt werden. Für die Nutzung anderer Dokumentlieferdienste muss der Kunde bei der Anmeldung die für die geschäftliche Beziehung und die praktische Abwicklung der Dokumentauslieferung notwendigen Daten angeben. Dazu gehören die Adressdaten des Kunden und gegebenenfalls die Rechnungs- und Lieferanschriften, des Weiteren kann eine Zuordnung zu einer Kundengruppe notwendig sein. Zusätzliche Angaben beziehen sich auf die Lieferung selbst: Z. B. gilt eine besondere Dringlichkeit, gibt es eine bevorzugte Zustellform usw. Von Interesse kann für einen Kunden auch sein, in welchem Umfang Bestell- und Kundendaten zur Erledigung eines Auftrages an Dritte weitergegeben werden dürfen (hier kann z. B. der Schutz von Firmengeheimnissen eine Rolle spielen). D 3.5.1 Warum gibt es unterschiedliche Kundengruppen? Eine Differenzierung nach unterschiedlichen Kundengruppen hängt davon ab, ob ein Anbieter seine Preise zielgruppenspezifisch gestaltet (so werden z. B. bei subito und den Zentralen Fachbibliotheken akademische Kunden und Unternehmen unterschieden), ferner wird zum Teil berücksichtigt, welche rechtlichen Bestimmungen für unterschiedliche Kundengruppen gelten (Beispiele sind hier unterschiedlich vereinbarte Tantiemensätze oder unterschiedliche Lieferkonditionen für Inlands- und Auslandslieferungen). Eine Sonderstellung nimmt hier der Deutsche Leihverkehr ein, für dessen Leistung in jedem Nutzungsfall, unabhängig vom beruflichen Status des Kunden eine Verrechnungseinheit (gegenwärtig 1.50 €) berechnet wird, solange der Umfang nicht über die Normallieferung hinausgeht. Im Direktlieferdienst angewendete Kategorien der Einteilung nach Kundengruppen berücksichtigen z. B. den Ausbildungsstatus (so wird bei tantiemepflichtig abgerechneten Bestellungen aus Bibliotheken wegen der Abgabepflicht gegenüber der VG WORT nach Schülern, Auszubildenden, Studierenden, Privatpersonen usw. unterteilt). Ferner wird unterschieden nach der Art der Ausbildungs- bzw. Beschäftigungsverhältnisse (z. B. nach Mitarbeitern an Hochschulen, Mitarbeiter aus überwiegend aus öffentlichen Mitteln finanzierter Einrichtungen, Mitarbeiter sämtlicher juristischer Personen des öffentlichen Rechts, kulturelle oder soziale Institutionen und Kirchen, Mitarbeiter von kommerziellen und industriellen Einrichtungen und Selbstständige) oder rechtlichem Status (z. B. Privatpersonen). Als Beispiel sei hier die Regelung für die gegenwärtig von Bibliotheken an die VG WORT abzuführende Tantieme angeführt (nur für Lieferungen innerhalb Deutsch-
524
D 3: Jens Olf, Uwe Rosemann
lands) (Lit. 05). Sie beträgt für Schüler 1 €, für Mitarbeiter aus überwiegend öffentlich geförderten Forschungseinrichtungen 2 €, für kommerzielle Kunden 12 € und für Privatpersonen 3 €. Unter diesen Bedingungen – und in der Gesamtheit eher verwirrenden Differenzierung zwischen unterschiedlichen Kundengruppen – erbringen z. B. der Dokumentlieferdienst subito sowie die daran beteiligten Bibliotheken ihre Leistungen. Andere Anbieter wie insbesondere Vermittler von Fachinformation (wie z. B. AutoDoc, Infotrieve oder Reprints Desk) treten mit einfacheren Nutzungsbedingungen auf, indem lediglich eine oder nur wenige Kundengruppen zur Verfügung stehen. Im einfachsten Fall gibt es keine Unterscheidung von Kundengruppen und im Standardfall wird eine Tantieme gezahlt, die auch Auslandslieferungen einbezieht. Das Kostenmodell wird dadurch transparent und einfach zu verstehen, allerdings entfallen damit auch vergünstigte Angebote, z. B. für Studierende. D 3.5.2 Dokumentlieferarten und Zugriffsmöglichkeiten Der Dokumentlieferdienst ist bei einer Reihe von Anbietern lediglich über ein Bestellportal zu erreichen, bei anderen gibt es die Möglichkeit, direkt aus einer Recherche heraus eine Dokumentlieferung zu initiieren. Die komfortabelste Möglichkeit ein Dokument zu nutzen bietet der direkte elektronische Zugriff. Unmittelbar aus der durch eine Recherche erzeugten Trefferanzeige kann der Fachartikel vom Kunden im günstigsten Fall im freien Zugriff heruntergeladen und genutzt werden, oft genug jedoch ist die Nutzung beim kommerziellen Angebot mit nicht unerheblichen Kosten verbunden (s. unten). Die stetig wachsende Zahl an Open-Access-Angeboten (ArXiv erreicht im Jahr 2012 vermutlich mehr als 7000 Zugänge im Monat; Lit. 06) oder unter anderen rechtlichen Rahmenbedingungen frei verfügbare Materialien sind bei den Dokumentlieferanten in der Regel in das Angebot integriert worden und werden mit den kostenpflichtigen Angeboten vermittelt. Über die urheberrechtlichen Rahmenbedingungen für die Dokumentlieferung aus Beständen von Bibliotheken oder aus Quellen, deren Nutzung durch lizenzrechtliche Vereinbarungen ermöglicht wird, gibt es weitgehend Konsens. Weniger klar ist die rechtliche Situation bei der Anlage und bei dem Betrieb von frei zugänglichen Sammlungen elektronischer Publikationen in Fachrepositorien, institutionellen Repositorien und auf anderen Publikationsservern. Die hier veröffentlichten Publikationen sind in der Regel wissenschaftliche Publikationen, die direkt von Autoren eingestellt werden oder in Form von Zweitveröffentlichungen (häufig über das Modell der sogenannten Green Road) verfügbar gemacht werden. In beiden Fällen müssen die Verwertungsrechte für das jeweilige Werk geregelt werden. Im Mindestfall betrifft das die Vervielfältigung, die Verbreitung und die öffentliche Zugänglichmachung. Zumeist gelten für die Werke im Bestand eines Repositoriums unterschiedlich umfassende Verwertungsrechte (für Zweitveröffentlichungen liegen die exklusiven Nutzungsrechte in der Regel bei einem Verlag und nicht mehr beim Autoren), so dass sich die betreibenden Institutionen (Universitäten, Forschungszentren und andere Bildungseinrichtungen) besonderen Anforderungen bei der urheberrechtlichen Gestaltung gegenübersehen. Weitere Rechtsprobleme betreffen u. a. Haftungsfragen für die Inhalte und die Weitergabe von Inhalten an andere Repositorien (Lit. 07). Ein spezielles Angebot gibt es mit den DFG-finanzierten (Nationallizenzen) bzw. DFG-geförderten (Allianzlizenzen) Lizenzen für elektronische Medien. Im Rahmen des Förderprogrammes „Überregionale Literaturversorgung und Nationallizenzen“ wurden von 2004-2010 für die Verwendung im nationalen Rahmen Lizenzen von abgeschlossenen digitalen Publikationen erworben, damit an deutschen Hochschulen, Forschungseinrichtungen und wissenschaftlichen Bibliotheken die Versorgung mit elektronischer Fachinformation nachhaltig verbessert wird. Wissenschaftlern, Studierenden und wissenschaftlich interessierten Privatpersonen soll der Zugang zu Datenbanken, digitalen Nachschlagewerken und Wörterbüchern, elektronischen Zeitschriften und E-Books ermöglicht werden. Die Auswahl der Produkte erfolgte unter Be-
D 3: Dokumentlieferung
525
teiligung der wissenschaftlichen Bibliotheken und der Fachgesellschaften in Deutschland. Einen Zugriff erhalten wissenschaftliche Institutionen oder Privatperson in Deutschland bzw. mit ständigem Wohnsitz in Deutschland. Dieser Nutzerkreis hat, nach Anmeldung, auf die im Rahmen der Förderprogramme lizenzierten Materialien freien Zugriff. Die Lizenzen gewähren einen dauerhaften Zugriff. Für die Nationallizenzen hatte die DFG eine Vollfinanzierung gewährt. In einem grundsätzlich davon abweichenden Modell werden seit dem Jahr 2011 die Allianz-Lizenzen erworben. Der Schwerpunkt liegt auf der Erwerbung von dynamischen Produkten (z. B. Zeitschriften und Datenbanken), und die Konsortialteilnehmer müssen einen Eigenbeitrag von 75 % der Kosten aufbringen. Über opt-in-Modelle können sich Interessenten auch in einem bereits ausgehandelten Vertrag noch für die aktuelle Nutzung eines Konsortialproduktes freischalten lassen. Eine Archivierung ist erst ab einem bestimmten Alter der Veröffentlichung vorgesehen (moving wall), und dann erst ist auch eine flächendeckende Bereitstellung der lizenzierten Inhalte vorgesehen (Lit. 08). Häufig ist der direkte Zugriff auf ein elektronisches Dokument allerdings kostenpflichtig. Die Preise variieren von Anbieter zu Anbieter in einer sehr weiten Spanne und liegen in Einzelfällen im Bereich von unter 4 € bis über 70 €, wobei für die meisten Abrufe ein Preis zwischen 10 € und 30 € verlangt wird. Für diese Zugriffsform hat sich die Bezeichnung Pay-per-View-Nutzung (PPV) herausgebildet. In den Anfängen dieser Angebotsform haben die meisten Anbieter der Volltexte (vorwiegend Verlage) auf einer sehr restriktiven Form der Auslieferung der Aufsätze bestanden, was für die Kunden Nutzungseinschränkungen bedeutete. Dokumente, die mit dem Schutzmechanismus des Digital Rights Management (DRM) ausgeliefert werden, können in der Regel nur an einem Rechnerarbeitsplatz genutzt werden, und die Zahl der Aufrufe des Dokumentes am Arbeitsplatz ist begrenzt. Diese Abwertung einer eigentlich komfortablen Nutzungsmöglichkeit hat den Zuspruch der Kunden in Grenzen gehalten, so dass immer mehr Anbieter von Volltexten weiche Varianten des DRM einsetzen (die Nutzungseinschränkungen sind deutlich vermindert) bzw. vollständig darauf verzichten. Häufig wird als Schutz vor unrechtmäßigem Kopieren ein digitales Wasserzeichen in das Dokument eingefügt. Eine andere Möglichkeit für einen schnellen Zugriff bietet das Angebot der E-Mail-Lieferung (falls kein verlagseigenes PPV-Angebot vorliegt). Diese geht jedoch immer vom Lieferanten aus, und es entsteht im Vergleich zur PPV-Nutzung immer ein zeitlicher Verzug. Abgesehen von den Fällen, in denen mit dem Rechteinhaber die Nutzung der elektronischen Vorlage vereinbart ist, wird für die E-Mail-Lieferung eine analoge Vorlage eingescannt und anschließend elektronisch verschickt. Die erstellte digitale Kopie darf, nach dem Urheberrecht, nur für die Bearbeitung des vorliegenden Bestellvorganges verwendet werden. Eine Speicherung darüber hinaus ist nicht zulässig, und die Datei ist zu löschen. Anstelle des Versands kann die Bereitstellung auch über die Möglichkeit des ftp-Zugriffes erfolgen, bei der ein Kunde aktiv von einem Server ein bereitgestelltes Dokument abrufen kann. Mit den seit einiger Zeit existierenden Möglichkeiten des Cloud-Computing ist es denkbar, solche Dokumente auch in einem Netzwerk-Dateisystem (z. B. unter dem Webdienst Dropbox) bereitzustellen. Monographische Literatur wird in der Regel physisch ausgeliefert. D 3.5.3 Liefergeschwindigkeiten Sofern vom Besteller benötigte Dokumente nicht sofort im elektronischen Zugriff genutzt werden, sei es wegen Nichtverfügbarkeit oder weil eine Lieferung auf einem alternativen Weg gewünscht ist, bieten die Lieferanten unterschiedliche zeitliche Optionen an, unter denen Aufträge bearbeitet und ausgeführt werden. Für Dienste, die gegenüber der Standarddienstleistung beschleunigt erledigt werden, wird ein entsprechend höherer Preis erhoben (die Aufschläge gegenüber dem Normalpreis liegen etwa zwischen 15 € und 30 €). Die Bezeichnungen für die angebotenen Dienste unterscheiden sich bei einzelnen Dienstleistern, und nicht alle bieten Liefergeschwindigkeiten in der beschriebenen Differenziertheit:
526 –– –– ––
D 3: Jens Olf, Uwe Rosemann
Alle Dokumentlieferanten bieten eine Normal- bzw. Standardlieferung an. Das bedeutet im Regelfall Bearbeitungszeiten von 72 h (betrachtet werden hier Werktage). Im Eildienst erfolgt die Bearbeitung eines Auftrages in der Regel innerhalb von 24 h. Sehr eilige oder Superrush-Bestellungen werden in wenigen Stunden (2 h bzw. 3 h) erledigt und an den Kunden ausgeliefert.
D 3.5.4 Rechtliche Situation Die Vermittlung, Auslieferung und Nutzung von Dokumenten ist in rechtlicher Hinsicht stark vom Urheberrecht bestimmt. Gerade in den letzten Jahren haben sich die Rahmenbedingungen für die Dokumentlieferung deutlich verändert. Bei originär elektronischen Angeboten sind bezüglich der Länder, in die ausgeliefert werden kann – auch im internationalen Rahmen – allein die lizenzrechtlichen Regelungen maßgeblich, die mit den Rechteinhabern getroffen sind. Für andere Lieferarten der Dokumentlieferung (E-Mail, Fax, Kopie) gelten im nationalen und internationalen Bereich zunächst ebenfalls die Abmachungen mit den Rechteinhabern. Wenn es mit diesen keine vertraglichen Regelungen gibt, gelten innerhalb von Deutschland die Bestimmungen der VG WORT. In der Verwertungsgesellschaft WORT haben sich Autoren und Verlage zusammengeschlossen. Die Aufgabe der VG WORT ist es, die Urheberrechte ihrer Mitglieder und weiterer Berechtigter wahrzunehmen. Für die Dokumentlieferung sind die Tarife zum Kopienversand gültig. Werden zur Abwicklung einer Bestellung Beiträge aus Zeitschriften oder Zeitungen bzw. Teile aus eine Monografie vervielfältigt und per Post, Fax oder elektronisch versandt, ist eine Vergütung zu entrichten. Die Höhe der Vergütung richtet sich nach der Einteilung der Kundengruppen. Eine Ausnahme gilt für Verlage, die ihre elektronischen Angebote in der Elektronischen Zeitschriftenbibliothek Regensburg (EZB) angezeigt haben. Für diese Angebote werden die Rechte nicht durch die VG WORT wahrgenommen. Eine dem Urheberrecht genügende elektronische Auslieferung muss entweder lizenziert sein (siehe oben) oder sie kann nicht in dieser Lieferform erfolgen. Über Deutschland hinaus können die Regelungen der VG WORT nicht angewendet werden. D 3.5.5 Wie setzen sich die Kosten zusammen? In der Regel setzen sich die Preise für den Endkunden (abgesehen von steuerlichen Belastungen) aus einer Service- oder Grundgebühr des Lieferanten (eventuell Vermittlungsgebühr) und einem Tantieme-/Lizenzanteil zusammen. Als weitere Komponenten bei der Preisbildung können die Art der Lieferung, die Liefergeschwindigkeit und das Bestimmungsland der Lieferung Berücksichtigung finden. Die Grundgebühr wird im Normalfall für die Basisdienstleistung des Lieferanten berechnet. Eine zusätzliche Vermittlungsgebühr kann anfallen, wenn die Dokumentlieferung, mit Einverständnis des Kunden, über Dritte abgewickelt wird. Dieses kann der Fall sein, wenn der unmittelbar angesprochene Dienst die Informationsversorgung nicht leisten kann, der Kunde aber möglichst nur einen Dokumentlieferanten als Ansprechpartner für seine Informationsversorgung haben möchte. Unterschiede bei Preisen für die Lieferform resultieren im Wesentlichen aus dem personellen, zum Teil aus dem technischen Aufwand, der für die Dokumentlieferung geleistet wird. Im günstigsten Fall greift der Kunde sofort auf die elektronische Ausgabe zu, je nach Anbieter besteht aber auch die Möglichkeit der Lieferung per E-Mail, per Post oder auch noch per Fax. Auch bei der preislichen Gestaltung in Abhängigkeit von der Liefergeschwindigkeit liegt der Grund im erhöhten Personaleinsatz für die eiligen Bestellungen.
D 3: Dokumentlieferung
527
Zusätzlich fällt für jedes ausgelieferte Dokument (eine Ausnahme bilden hier die Angebote, die im freien Zugriff erhältlich sind) eine Tantiemezahlung an, die an den Rechteinhaber (das sind in der Regel die Verlage) abgeführt wird. Wenn die Zahlung nicht unmittelbar geleistet wird, nimmt die Verwertungsgesellschaft Wort (VG WORT) die Rechte der Verwertung wahr.
D 3.6 Perspektive für die Dokumentlieferdienste Die klassische Dokumentlieferung verändert sich gegenwärtig sehr stark und ihre Bedeutung wird zurückgedrängt. Die wichtigsten Gründe dafür liegen hauptsächlich in der zunehmend elektronisch verfügbaren Fachinformation. Damit ist der unmittelbare, direkte Zugriff möglich, und die Liefermöglichkeit ist nicht, wie früher, an den physischen Besitz gebunden. Ferner liegen die Ursachen in einem sich wandelnden Kommunikationsverhalten und neuen Möglichkeiten der Vernetzung in Wissenschaft und Forschung. Die im Wesentlichen durch das Internet und daran anknüpfende elektronische Netzwerke gebotenen Austauschmöglichkeiten verlagern die Wege von Informationsflüssen weg von den klassischen Informationsvermittlern. Für die umfassende Versorgung und zur Verbreitung von Fachinformation wird die Dokumentlieferung, trotz des Wandels, eine gewisse Bedeutung behalten. Auch wenn der Umfang der Liefermenge abnehmen wird, gibt es, insbesondere in Bibliotheken, spezielle Bestände, die überregional nur über die Dokumentlieferung genutzt werden können. Der Wandel der Kundenbedürfnisse, der technische Fortschritt und die Veränderung des medialen Angebotes erfordern dennoch eine ständige Weiterentwicklung des Versorgungsangebotes, um für die Kunden den größtmöglichen Nutzen zu erzeugen. Neue Wege werden z. B. von DeepDyve beschritten, einem Anbieter, der Kunden einzelne, elektronisch verfügbare Aufsätze über einen bestimmten Zeitraum nur im lesenden Zugriff zur Verfügung stellt. Der Preis dafür ist deutlich niedriger als für die Lieferung des Dokumentes (das Lesen eines kompletten Artikels wird für weniger als 1 € angeboten, der Preis steigt aber, wenn eine höhere Verfügbarkeitsdauer gewünscht wird). Ein anderes Modell sieht vor, dass jeweils nur Teile eines Dokumentes geliefert werden (einzelne Seiten, Bilder, Grafiken) wofür ebenfalls ein ermäßigter Preis berechnet wird. Auf der Anbieterseite ist zu erwarten, dass die Kette vom umfassenden Rechercheangebot über eine einfache Bestellmöglichkeit zur schnellen und sicheren Lieferung durch technische Weiterentwicklungen und durch Kooperationen (auch über den nationalen Rahmen hinaus) geschlossen wird.
Literatur 01 Richtlinien zur überregionalen Literaturversorgung der Sondersammelgebiete und Virtuellen Fachbibliotheken, Stand 01.03.2012 (http://www.dfg.de/download/pdf/foerderung/programme/lis/ richtlinien_lit_versorgung_ssg.pdf) 02 Astor, Michael; Klose, Georg; Heinzelmann, Susanne; Riesenberg, Daniel: Evaluierung des DFG-geförderten Systems der Sondersammelgebiete. Bonn, Oktober 2011, Kap. 7 (http://www.dfg.de/ download/pdf/dfg_im_profil/geschaeftsstelle/publikationen/evaluierung_ssg.pdf) 03 Die Ordnung des Leihverkehrs in der Bundesrepublik Deutschland – Leihverkehrsordnung (LVO), Beschluss der Kultusministerkonferenz vom 19.09.2003 (http://www.bibliotheksverband.de/fileadmin/ user_upload/DBV/vereinbarungen/Leihverkehrsordnung.pdf) 04 Woll, Christian: Wissenschaftliches Publizieren im digitalen Zeitalter und die Rolle der Bibliotheken. Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft 46. Köln, 2005 (http://www.fbi. fh-koeln.de/institut/papers/kabi/volltexte/band046.pdf) 05 Tarif zur Regelung der Vergütung von Ansprüchen nach § 53a UrhG. München, 19. Dezember 2011 (http://
528
D 3: Jens Olf, Uwe Rosemann
www.vgwort.de/fileadmin/pdf/tarif_uebersicht/Tarif_Kopienversand_inkl._Leihverkehr.pdf) 06 Statistik der Anzahl monatlich bei ArXiv hochgeladenen Aufsätze auf dem Server der Cornell University Library (http://arxiv.org/show_monthly_submissions; geprüft am 12.11.2012) 07 Kuhlen, Rainer; Seadle, Michael: Zur urheberrechtlichen Gestaltung von Repositorien: Handreichung für Universitäten, Forschungszentren und andere Bildungseinrichtungen. Projekt IUWIS – Institut für Bibliotheks- und Informationswissenschaft Humboldt-Universität zu Berlin, Berlin 2011 (http:// www.iuwis.de/sites/default/files/IUWIS%20Zur%20urheberrechtlichen%20Gestaltung%20von%20 Repositorien.pdf) 08 DFG-geförderte Lizenzen für elektronische Medien. (http://www.nationallizenzen.de/, geprüft am 12.11.2012) Im deutschsprachigen Raum erscheinen Veröffentlichungen zur Dokumentlieferung in den bekannten Bibliothekszeitschriften – allerdings ohne spezifische Schwerpunktbildung. Eine der international führenden Zeitschriften zur Thematik ist die von Emerald Group Publishing herausgegebene „Interlending & Document Supply“.
Reinhard Altenhöner, Sabine Schrimpf
D 4 Langzeitarchivierung D 4.1 Digitale Langzeitarchivierung in der Wissenschafts- und Kulturdomäne: Ausgangsbedingungen und Grundelemente In der Folge einer immer umfassenderen Nutzung digitaler Arbeitsinstrumente in der wissenschaftlichen Information und Kommunikation, in Wirtschaft und Gesellschaft, aber auch in der privaten (Medien-)Kommunikation verändern sich sowohl die Arbeitsmittel als auch der Arbeits- und Publikationsprozess insgesamt. Ob es Datenreihen aus einer statistischen Erhebung sind, die digitale Edition eines historischen Manuskripts und eine Debatte dazu oder eine digitalisierte und aufbereitete Sammlung: Die Auseinandersetzung mit dem digital vorliegenden Material erfolgt transparenter, breiter und durchlässiger zwischen den einzelnen Veröffentlichungsstadien. Nicht nur die Ergebnisse, sondern auch Vorstufen, Diskussionen, Auswertungswerkzeuge, Visualisierungen usw. liegen digital vor und damit rückt die Frage, wie diese Daten dauerhaft verfügbar gehalten werden können und auch noch in späterer Zeit zitierfähig und unmittelbar nutzbar bleiben, stärker in den Blickpunkt. Verfügbarkeit heißt hier zweierlei: Auf der einen Seite das zumindest inhaltlich unverfälschte digitale Objekt selbst, das online vorhanden und aufrufbar sein muss, zum anderen aber eine funktionierende Arbeitsumgebung, die es erlaubt, auf die jeweilige Datei zuzugreifen (der passende Viewer, ggf. geeignete Softwarewerkzeuge zur Bearbeitung und Speicherung) und letztlich auch das erforderliche Wissen, um mit dem entsprechenden digitalen Objekt auch zu arbeiten (z. B. Angaben zur Entstehung des Objekts, seiner technischen oder auch persönlichen Entstehungsumgebung, eingesetzten Werkzeugen zur Aufbereitung von Daten usw.). Alarmrufe wie die Warnung vor dem kollektiven digitalen Alzheimer, von dem wir alle bedroht seien, versuchen, wirksam auf die prinzipielle Gefährdung hinzuweisen. Zwar gibt es bislang nur wenige Beispiele für wirklich eingetretene schwere Datenverluste, aber es bestehen ohne Zweifel Risiken: Zunächst einmal können die digitalen Daten selbst verloren gehen oder zum Teil unbrauchbar werden. Digitale Daten werden im sog. Binärcode als eine Folge von spezifisch angeordneten Nullen und Einsen auf einem Datenträger gespeichert. Ist nun der Datenträger physisch beschädigt, können die auf ihm enthaltenen Daten nicht mehr ausgelesen werden. Zwar lassen sich mit erheblichem Aufwand oftmals Daten von beschädigten Datenträgern rekonstruieren, aber mit teilweisen Verlusten muss in diesem Fall gerechnet werden. Aber auch das Fehlen geeigneter Lesegeräte kann sich als Problem erweisen, wenn man eine Diskette eines der weniger verbreiteteren Diskettenformate unter den über 20, die bekannt sind, in den Händen hält. Je nach Dateityp können teilweise Ausfälle bedeuten, dass bei der Anzeige zum Beispiel einer Grafikdatei Farb- oder Pixelfehler auffallen; es kann aber auch bedeuten, dass ein Programmpaket beispielsweise nicht mehr gestartet werden kann. Insofern sind Dateien unterschiedlich anfällig, aber die Tragweite der Folgen einer beschädigten Datei lässt sich nicht vorherbestimmen. Nun ist die sichere Speicherung digitaler Daten ein Themenfeld, das ganz generell im Umfeld der Informationstechnologie und der Daten- und Rechenzentren bekannt ist: Hier existieren erprobte Verfahren, die sicherstellen, dass Datenverluste im professionell betriebenen Umfeld sehr selten sind. Dennoch ist die Speicherung von Daten über sehr lange Zeiträume, also auch über die Lebenszyklen unterschiedlicher Speichersysteme hinweg, noch immer eine Herausforderung. Das liegt vor allem daran, dass die Langzeitspeicherung häufig mit einem konkreten Zeitstempel versehen ist (zum Beispiel Rechnungen, Vertragsunterlagen, Kontoinformationen), nach dessen Erreichen die betroffenen Daten gelöscht werden (können). Das bedeutet, dass es demzufolge auch ein vordefiniertes Datum gibt, zu dem IT-Systeme abgeschaltet bzw. bis zu dem sie noch aufrecht erhalten werden können, ohne dass ein Konzept für die Überführung in eine andere Technologie vorliegen müsste. Ein solches Ablaufdatum ist im Bereich von Wissenschaft und Technik, aber auch überall da, wo es um die kulturelle Überlieferung geht, nicht festgelegt: Hier meint Langzeit tatsächlich auf unbestimmte
530
D 4: Reinhard Altenhöner, Sabine Schrimpf
Dauer. Vor diesem Hintergrund müssen in diesem Kontext von vornherein Generationswechsel von Systemen eingeplant werden, die einen Transfer von großen Datenmengen von einem auf ein anderes System erforderlich machen. Da solche Schritte sehr viel leichter fallen, wenn die beteiligten Technologien noch verbreitet im Einsatz sind, müssen solche Planungen frühzeitig beginnen. Über die Risiken, die durch den Defekt oder die mangelnde Verfügbarkeit der entsprechenden Leseeinheiten zu Tage treten, hinaus besteht aber auch die Gefahr, dass die für die Nutzung einer Datei erforderlichen technischen Werkzeuge (zum Beispiel der Viewer, der eine CAD-Datei anzeigt und über seine Funktionen nutzbar macht) nicht mehr ohne weiteres vorhanden sind oder nur in einer bestimmten Betriebssystemumgebung funktionieren, die wiederum nicht zur Verfügung steht. Unter Umständen setzt auch die Software selbst eine bestimmte Hardware (eine spezielle Grafikverarbeitung, spezielle Treiber) oder Hardwarekonfiguration voraus. Auch aus solchen Konstellation heraus können digitale Objekte unbenutzbar werden. Das Handlungsrepertoire, das Archiven zur Verfügung steht, ist begrenzt (vgl. D 10 Archive) und lässt sich – eine kontrollierte und gesicherte Speicherumgebung einmal vorausgesetzt – im Wesentlichen auf zwei Handlungsstränge reduzieren: Zum einen die rechtzeitige und genau dokumentierte, hinreichend ausgetestete Überführung von Daten aus einem nicht mehr beherrschbaren Format in ein anderes, das von dem Archiv beherrscht wird und eine Zukunftsperspektive hat. Diese nach Möglichkeit reversibel gehaltene Aktivität wird Migration genannt. Zum anderen die sogenannte Emulation, die im Wesentlichen darauf beruht, dass in einer modernen Hard- und Softwareumgebung eine historische Umgebung von Hard- und Software in einer Weise nachgestellt wird, dass die jeweilige Datei so benutzt werden kann, als ob sie in der Umgebung liefe, für die sie einmal erstellt wurde. Beide Strategien eignen sich prinzipiell für alle digitalen Objekte und dennoch wird man sagen können, dass bei einfachen, massenhaft vorkommenden Formaten die Migration eher zum Einsatz kommen wird als bei komplexen Multimedia-Formaten, die zudem oft auch proprietär mit einer Software verknüpft sind. Wann aus diesen Strategien abgeleitete Maßnahmen greifen, obliegt der Entscheidung des Archivs; es liegt aber auf der Hand, dass die Migration sich besser für präventive, zeitlich von der Nutzung entkoppelte Verfahren (unter Umständen sogar vor der Übergabe ans Archiv im Sinne einer Normalisierung) eignet, während die Emulation on the fly – allerdings auf der Basis eines erprobten Verfahrens – ausgeführt wird. In der öffentlichen Wahrnehmung ist die digitale Langzeitarchivierung oder eigentlich richtiger Langzeitverfügbarkeit digitaler Objekte in den letzten Jahren deutlich prominenter geworden. Die Vision, in der große Teile des analogen Quellenmaterials aus dem historisch gewachsenen Bereich der Kulturdomäne digital zur Verfügung stehen und unmittelbarer Teil virtuell-kollaborativer Forschungsumgebungen sind, wird zunehmend realer. Der hohe investive Aufwand, der hier betrieben wird, zieht Maßnahmen für die angemessene Sicherung des entstehenden digitalen Materials folgerichtig nach sich und beflügelt die Anstrengungen zum Aufbau einer geeigneten organisatorischen und technischen Infrastruktur. Diese Situation spiegelt sich auch in der deutlich anschwellenden Literatur, zur Orientierung sei hier auf den regelmäßig aktualisierten Überblick von C. Bailey Jr. verwiesen (Lit. 03), ferner zum Einstieg auf Borghoff (Lit. 04), zur Situation in Deutschland Altenhöner (Lit. 01), zu aktuellen internationalen Entwicklungen Giaretta (Lit. 11).
D 4.2 Terminologische Klärungen und Abgrenzungen Die Sicherung der Langzeitverfügbarkeit digitaler Objekte unterscheidet sich in einigen Aspekten von zum Teil ähnlich benannten Aufgaben, die bei der Speicherung digitaler Daten oder auch der Absicherung des Zugangs zu ihnen anfallen. So ist die Archivierung im Sinne einer besonderen Datenablage oder eines oder mehrerer Datenbackups ein gängiger Schritt in der Informationstechnik, der in vielen Umgebungen tägliche Praxis darstellt. Um den besonderen Anspruch einer unbegrenzten, nicht terminierten Archivierung aufzunehmen, wird daher gerne von Langzeitarchivierung gesprochen. Dieser Begriff hat sich im deutschen Sprachgebrauch durchgesetzt. Im Gegensatz zur tra-
D 4: Langzeitarchivierung
531
ditionellen Bestandserhaltung spielt in der digitalen Langzeitarchivierung allerdings der Erhalt des physischen Trägermaterials keine Rolle. Dieser ist, wenn überhaupt, nur Mittel zum Zweck. Ziel der Langzeitarchivierung ist es, den in einer Datei verkörperten Inhalt auch in im Vergleich zum Produktionszeitraum veränderten technologischen Umgebungen zur Anzeige zu bringen. So wie in der digitalen Welt Original und Kopie nicht unterscheidbar sind, besteht idealerweise auch kein Unterschied zwischen einer Ursprungsversion einer Datei und einer mehrfach in aktuellere Formate migrierten Datei. Diese Aussage macht deutlich, worum es geht: An die Kernforderung, die Nutzbarkeit der Datei zu sichern, sind Anforderungen geknüpft, die sich auf eine abstrakte Größe (den in der Datei verkörperten Inhalt) richten, die mit der Datei selbst nur noch bedingt verbunden ist. Wenn aber die technische Grundlage, letztlich also der physische Bestand, der den Ausgangspunkt für das bietet, was der Nutzer als nutzbare Datei angeboten bekommt, von diesem nicht überprüft und Abweichungen nicht erkannt werden können, ergeben sich ganz andere Anforderungen an das Archiv. Die Bewahrung der Verfügbarkeit eines digitalen Objekts beinhaltet also nicht nur konkrete Maßnahmen, sondern vor allem auch den Nachweis darüber, dass sie auch tatsächlich erfolgen. Wesentliche Stichwörter dafür, was nachgewiesen werden muss, sind aus der Perspektive der Nutzer: Die Integrität und Authentizität, also die Unversehrtheit des Objekts, das grundsätzlich nicht verändert werden darf, kann durch das Archiv garantiert werden, ebenso wie die Authentizität (es wird wirklich das Objekt vorgelegt, das sein ausgewiesener Urheber ursprünglich erzeugt hat und das an das Archiv abgegeben wurde). Aber auch die technische Interpretierbarkeit des an die Präsentationsebene übergebenen digitalen Objekts ist wesentlich, ergänzt durch den wohl entscheidenden Prüfstein für den Erfolg der Maßnahmen zur Langzeitverfügbarkeit des Objekts: seine Benutzbarkeit, zu der auch die Nachvollziehbarkeit von Informationen gehört, die der Nutzengruppe zur Verfügung gestellt werden mit dem Ziel, das Objekt in seinem historischen Kontext zu verstehen. Die Implikationen, die sich aus einer solchen zielgerichteten Ausrichtung der Maßnahmen zur Langzeitarchivierung ergeben, spielen in der Modellbildung zur Langzeitarchivierung eine große Rolle (Vgl. hierzu auch Abschnitt D 4.4).
D 4.3 Kooperation und Arbeitsteilung, Strategische und Infrastruktur-Aspekte Gezielte, durchaus spartenübergreifende Kooperation und arbeitsteilige Ansätze sind angesichts der Vielfalt des digitalen Materials und der Komplexität der technischen und organisatorischen Fragestellungen bei der digitalen Langzeitarchivierung unbedingt geboten. Im Sinne eines gemeinsamen Infrastrukturaufbaus müssen Zuständigkeiten geklärt und Absprachen getroffen werden. Das reicht von der klaren Aufteilung von Sammelzuständigkeiten bis zur gemeinsamen Arbeit an technischen und rechtlichen Fragestellungen und der Verständigung auf Standards. Während sich für die Sammlung und Archivierung physischer Objekte über Jahrzehnte und Jahrhunderte eine effiziente Aufgabenteilung zwischen Bibliotheken, Archiven und Museen und den föderalen Ebenen eingespielt hat, sind verbindliche Regelungen für eine überregionale und spartenübergreifende Aufgabenteilung bezogen auf digitale Materialien erst in Ansätzen vorhanden. Im Bibliotheksbereich wurde der gesetzliche Sammel- und Archivierungsauftrag der Deutschen Nationalbibliothek 2006 auf unkörperliche Medienwerke erweitert. Einzelne, aber bei weitem nicht alle Bundesländer haben in der Folge ebenfalls die Sammelaufträge ihrer Pflichtexemplarbibliotheken erweitert. Institutionelle Aufträge behalten weiterhin ihre Gültigkeit bzw. werden explizit auf digitale Objekte ausgeweitet – etwa von der Hochschule, die ihrer Bibliothek den Auftrag für die Sicherung von Publikationen erteilt oder die Sorge für Forschungsdaten, die in der Hochschule anfallen. Im Archivbereich gilt die mandatierte Zuständigkeit für alle vom Archiv als solche bewerteten archivwürdigen Unterlagen und damit implizit auch für digitale Unterlagen. Im Museumsbereich gibt es keine gesetzlichen Regelungen, aber auch hier treten digitale Objekte zunehmend in den Fokus (vgl. D 11 Museen). Absprachen zwischen den einzelnen Zuständigkeitsebenen sind zwar kontinuierlich in Gange, es sind aber längst noch nicht alle Fragen geklärt.
532
D 4: Reinhard Altenhöner, Sabine Schrimpf
Beim Bestandsaufbau und der späteren Bestandserhaltung sind (lizenz-)rechtliche Fragestellungen zu beachten. Anders als bei gedruckten Publikationen wird bei digitalen Publikationen kein Werkstück erworben, sondern ein Exemplar durch den urheberrechtlichen Akt der Vervielfältigung in die Sammlung einer Einrichtung aufgenommen. Zur redundanten Speicherung und bei Migrationen müssen wiederum Vervielfältigungen angelegt werden. Urheberrechtliche Schranken reichen hier nicht aus (Lit. 24), so dass ergänzende Vereinbarungen erforderlich sind. Bibliotheken müssen z. B. prüfen, ob ihre Kauf- bzw. Lizenzverträge sie zu Langzeitarchivierungsmaßnahmen am erworbenen Exemplar ermächtigen und ggf. neu verhandeln. JISC stellt dafür einen Modellvertrag mit Archivierungsklausel zur Verfügung (Lit. 15). Für viele Einrichtungen hat sich die Arbeitssituation erheblich verändert: Zu den konventionellen Aufgaben kommt ein neuer Arbeitsbereich hinzu, dessen Bewältigung inhaltlich, aber auch unter Ressourcengesichtspunkten gesteigerte Anforderungen stellt. Mag der Betreuungsaufwand anfänglich überschaubar sein, steigt er für die einzelne Einrichtung aber kontinuierlich an. Die Kosten für den Unterhalt der erforderlichen IT-Infrastruktur sind laufend und aufgrund der vergleichsweise kurzen Auswechselzyklen in Form der jährlichen Belastung hoch (im Vergleich zur Ausgangsinvestition). Da der finanzielle Spielraum der öffentlichrechtlich finanzierten, für die digitale Archivierung zuständigen Gedächtnisorganisationen absehbar begrenzt ist, ist es umso wichtiger, Strategien zu entwickeln, wie die vorhandenen Mittel am effizientesten eingesetzt werden können. Nachnutzbarkeit und Interoperabilität sind in dem Kontext die zwei wesentlichen Schlagworte. Für beide spielt die Standardkonformität einmal entwickelter Archivierungslösungen eine große Rolle. Proprietäre Systeme, bei denen unklar ist, ob der Anbieter sie in einigen Jahren noch unterhalten wird, stellen für ihre Anwenderinstitutionen ein nicht unerhebliches, auch finanzielles, Risiko dar. Für Institutionen mit Langzeitsicherungsanforderungen ist es daher wichtig, sich zügig auf verwendete oder zu verwendende Komponenten und Schnittstellen zu einigen. Nur so kann Anbieterunabhängigkeit, Interoperabilität der einzelnen Archivierungslösungen und Vertrauenswürdigkeit in der Langzeitarchivierung sichergestellt werden. Einzelne Akteure innerhalb einer wirklich umfassend gedachten Archivierungsinfrastruktur müssen der Überprüfung nach gewissen Qualitätskriterien standhalten können. Mit dem nestorKriterienkatalog für Vertrauenswürdige digitale Langzeitarchive, der seit 2012 als DIN 31644 auch in das deutsche Normenwerk überführt wurde (Lit. 07) liegen solche Qualitätskriterien vor. Perspektivisch werden Langzeitarchive auf Basis der DIN-Norm ihre DIN-Konformität von unabhängigen Gutachtern zertifizieren lassen können. Insgesamt wird deutlich, dass die Bibliotheken ebenso wie andere Einrichtungen der Informationsinfrastruktur bei der digitalen Langzeitarchivierung vor einer erheblichen strukturellen Herausforderung stehen, die perspektivisch wenn nicht sogar über ihren Fortbestand und Verbleib in der Infrastruktur so doch ihre Rolle dort entscheiden.
D 4.4 (Kultur-)Politische Dimension Die strategische Herausforderung, digitale Daten längerfristig nutzbar zu halten, rückte erstmals Mitte der neunziger Jahre auf die politische Agenda. In Deutschland wies die DFG 1995 im Positionspapier „Elektronische Publikationen“ erstmals auf die Verantwortung wissenschaftlicher Bibliotheken bei der Langzeitarchivierung digitaler Publikationen hin (Lit. 09). Sie forderte Pflichtexemplarregelungen für elektronische Publikationen und sah im skizzierten Strukturmodell zur Organisation der Langzeitarchivierung besonders die (damals noch) Deutsche Bibliothek (heute: Deutsche Nationalbibliothek) sowie die Staats- und Landesbibliotheken der Länder in der Pflicht. Die personal- und kostenintensive Archivierungsfunktion im Gefüge des Publikationsprozesses solle in überregionaler Zusammenarbeit kooperativ ausgestaltet werden.
D 4: Langzeitarchivierung
533
Auf europäischer Ebene äußerte sich zuerst der Europäische Rat in seiner Entschließung vom 25. Juni 2002 über die „Erhaltung des Gedächtnisses der Zukunft – Konservierung der digitalen Inhalte für künftige Generationen“ (Lit. 10). Dort wurde anerkannt, dass die europäische Gesellschaft und Wirtschaft zunehmend von digitalen Informationen abhängig sind, und dass diese Informationen, die einem raschen technologischen Wandel unterliegen und teils auf unbeständigen Trägermedien gespeichert sind, vom Verlust bedroht sind, wenn nicht aktive Erhaltungsmaßnahmen ergriffen werden. Bei der Erhaltung digitaler Informationen sah der Europäische Rat bei den Gedächtnisinstitutionen wie Archiven, Bibliotheken und Museen eine entscheidende Bedeutung. Die europäische Kommission bzw. die Mitgliedsstaaten wurden aufgefordert, die Entwicklung von Strategien für die Erhaltung digitaler Kulturgüter zu fördern, die entstehenden Kosten zu analysieren und geeignete Investitionsmechanismen (einschließlich Private-Public-Partnerships) zu prüfen. Mechanismen zum Wissensaustausch sollten mit dem Ziel, vorhandene Qualifikationen zu verbessern, geschaffen und das Feld insgesamt durch die Förderung experimenteller Anwendungen und Technologien in Forschungsprogrammen entwickelt werden. Auf internationaler Ebene folgte 2003 die UNESCO-Charta zur Bewahrung des digitalen Kulturerbes (Lit. 22). Darin erkannte die UNESCO-Generalversammlung an, dass Ressourcen für Information und künstlerische Ausdrucksweisen zunehmend in digitaler Form produziert, verbreitet, genutzt und erhalten werden und dass damit ein neues Vermächtnis – das digitale Erbe – entsteht. Sie räumte weiterhin ein, „dass dieses digitale Erbe in Gefahr ist, verloren zu gehen und dass seine Erhaltung für gegenwärtige und künftige Generationen eine dringende Aufgabe von weltweiter Bedeutung ist“. Sie stellte Handlungsbedarf fest und regte die Entwicklung von universalen Strategien und Grundsätzen für den Erhalt des digitalen Erbes an. Auswahlprinzipien sollten an jeweils gegebene nationale oder lokale Besonderheiten angepasst werden. Als zentrales Element der nationalen Erhaltungspolitik wurden die Archivgesetzgebung und Pflichtexemplarregelungen gesehen. Die Mitgliedsstaaten sollten nationale Verantwortlichkeiten klären und dabei auch Urheber, Verleger, die relevanten Industrien und Institutionen des kulturellen Erbes einbeziehen. Sich selbst bot die UNESCO als Forum an, das zur Ausarbeitung von Strategien und Grundsätzen genutzt werden könne. Die UNESCO-Charta gehört zu den häufig zitierten Grundsatz-Dokumenten zur digitalen Langzeitarchivierung. Konkret hat die UNESCO den Faden im Jahr 2011 wieder aufgenommen. Seitdem wird die Aktualisierung der Charta vorbereitet. Auf nationaler Ebene wurden seit der allgemeineren Erkenntnis, welche Dimension die Herausforderung des Erhalts digitaler Materialien bedeutet, in verschiedenen Ländern unterschiedliche Maßnahmen ergriffen. Die von EU und UNESCO geforderte Ausarbeitung nationaler Strategien wurde dabei in den seltensten Fällen angegangen. Eine Ausnahme bildet hier die USA mit ihrem „National Digital Information Infrastructure and Preservation Program“, das seit 2002 vom amerikanischen Kongress mit mehreren Millionen US Dollar gefördert wurde. Zügiger gelingt die Anpassung der rechtlichen Rahmenbedingungen: Die Mehrheit der EU-Mitgliedsstaaten hat elektronische Pflichtexemplarregelungen eingeführt bzw. ihre Archivierungsgesetzgebung hinsichtlich digitalen Materials aktualisiert. In Deutschland stellt das 2006 aktualisierte „Gesetz über die Deutsche Nationalbibliothek“, das den Sammel- und Archivierungsauftrag der Bibliothek auf „unkörperliche Medienwerke“ ausdehnt, einen Eckpfeiler für die langfristige Erhaltung eines beträchtlichen Teils des kulturellen digitalen Erbes dar. Das von Liegmann und Schwens im Jahr 2004 formulierte Ziel, eine Kooperationsstruktur zu entwickeln, die entsprechend der Strukturen im analogen Bereich die Bewahrung und Verfügbarkeit aller fachlich und kulturell relevanten Veröffentlichungen, Objekten, Daten und Archivalien in digitaler Form gewährleistet, ist bislang ein Desiderat geblieben (Lit. 21). Mit nestor, dem Kompetenznetzwerk für digitale Langzeitarchivierung gibt es allerdings eine Organisationsstruktur, die als domänenübergreifende Plattform zur Vernetzung von Institutionen und zum Wissenstransfer agiert.
534
D 4: Reinhard Altenhöner, Sabine Schrimpf
D 4.5 Methoden, Konzepte, Vorgehensmodell der digitalen Langzeitarchivierung Methodisch müssen alle Lösungsansätze für die digitale Langzeitarchivierung berücksichtigen, dass es sich bei digitalen Objekten um vermittelte Objekte handelt. Während bei Druckwerken der Inhalt nicht vom Träger zu lösen ist und vom Rezipienten unmittelbar wahrgenommen werden kann, besteht das digitale Objekt aus einem abstrakten Datenstrom, der erst durch technische Vermittlung auf einem Bildschirm zur Anzeige gebracht werden kann. Ziel der digitalen Langzeitarchivierung ist daher auch nicht per se die unveränderte Erhaltung des originalen Datenstroms, sondern die Erhaltung der zur Anzeige gebrachten Performance, wie dies in einem Konzept der National Archives of Australia genannt wird. Das Performance Model (Lit. 18) zerlegt das Konzept des digitalen Objekts in logische Komponenten: Der als Quelle (Source) bezeichnete Datenstrom wird mittels eines bestimmten Prozesses von ausgeführter Hard- und Software (Process) angezeigt oder ausgegeben. Durch den Prozess wird die Performance erzeugt, die der Rezipient je nach Art des digitalen Objekts als akustische oder visuelle Signale wahrnimmt. Das PREMIS-Datenmodell (Lit. 19) führt einige technisch unterscheidbare Zwischenebenen ein. Dort wird die Datei (File) als kleinste unterscheidbare Einheit des Datenstroms benannt. Aus einer bestimmten Anzahl von Dateien setzt sich eine logische Repräsentation (Representation) zusammen. Intellektuelle Einheiten (z. B. eine digitale Publikation) können in unterschiedlichen Repräsentationen vorliegen (z. B. einmal als PDF-Datei und einmal als HTML-Datei). Technisch beschreibbar, und damit Gegenstand von Langzeitarchivierungsmaßnahmen, sind der Datenstrom, die Datei und die Repräsentation. Die intellektuelle Einheit ist ähnlich wie die Performance ein abstraktes Konzept dessen, was der Rezipient wahrnimmt. Hinter PREMIS verbirgt sich aber mehr als einfach ein Datenmodell. Das Akronym steht für „PREservation Metadata: Implementation Strategies“. Mit PREMIS besteht ein an der Library of Congress gepfleger de-facto-Standard für die Implementierung von Langzeitarchivierungsmetadaten. Diese Metadaten sind essentiell für die Planung und Dokumentation von Langzeitarchivierungsmaßnahmen. Zu ihnen gehören technische und strukturelle Informationen über die zu archivierenden Objekte, über ihre Entstehungskontexte, ihre Beziehungen und Verknüpfungen untereinander. Diese Metadaten können auf Ebene des Datenstroms, der Datei und der Repräsentation erhoben werden, nicht aber auf Ebene der Intellektuellen Einheit (vgl. B 2 Metadaten). So wie intellektuelle Einheiten in verschiedenen Repräsentationen unterschiedlich verkörpert werden können, können durch die Wahl verschiedener Prozesse aus ein und demselben Datenstrom unterschiedliche Performances entstehen (z. B. die gleiche Textdatei im Texteditor anders dargestellt werden als in MS Word oder im Webbrowser). Durch die Fortentwicklung der Technik verändern sich die Prozesse zur Anzeige oder Ausgabe des Datenstroms (z. B. neue Webbrowser), so dass die ursprünglichen Performances der Quellen nicht auf Dauer in der einmal konzipierten Form möglich sind. In dem Kontext kommt der Bestimmung der wesentlichen Eigenschaften eines digitalen Objekts eine große Bedeutung zu. Sie werden im Performance Model als Essential characteristics eingeführt. Später werden sie in der Literatur meist nur noch Significant Properties genannt. Dabei geht es um die Eigenschaften, die in jeder Performance enthalten sein müssen, damit das Wesen des digitalen Objekts gewahrt wird. Das kann zum Beispiel der formatierte Text eines Word-Dokuments sein, die Reihenfolge und Kolorierung der Bilder in einem PDF-Dokument oder die Tonfolge und Lautstärke in einer Audiodatei. Diese Eigenschaften gilt es über alle Veränderungen der Technik hinweg zu bewahren. Verantwortung für die Planung und Ausführung von Langzeitarchivierungsmaßnahmen trägt die archivierende Institution, die im OAIS-Referenzmodell (Lit. 06) normativ beschrieben ist. Das dort ausgestaltete „Offene Archiv-Informations-System“ (OAIS) besteht aus einer „Organisation aus Menschen und Systemen, die das Ziel verfolgen, Informationen zu erhalten und einer vorgesehenen Zielgruppe zugänglich zu machen“. Das OAIS agiert im Zusammenspiel mit Informationsproduzenten, den Archivnutzern und dem Management, das die Zielsetzung des OAIS verantwortet. Die Inf-
D 4: Langzeitarchivierung
535
rastruktur des OAIS wird mit sechs Funktionseinheiten vorgegeben, in denen der gesamte Archivierungslebenszyklus von der Übernahme von Informationen ins Archivsystem (Ingest) bis zur Bereitstellung für die Endnutzer (Access) abgedeckt wird. Dazwischen befinden sich noch der Archivspeicher (Archival Storage), die Datenverwaltung (Data Management), die Bestandserhaltungsplanung (Preservation Planning) sowie die Archivverwaltung (Administration). Eine wesentliche Aufgabe des OAIS ist das Monitoring der für die Informationsnutzung vorgesehenen Zielgruppe, der sogenannten Designated Community sowie der technischen Weiterentwicklung (Technology Watch). Das OAIS hat zu beurteilen, ob der Zielgruppe die technischen Mittel und ausreichend Kontextwissen zur Verfügung stehen, um die archivierten Information zu benutzen.
D 4.6 Der Weg ins Archiv: Aspekte der Praxis Eine sehr entscheidende Funktion eines Langzeitarchivs ist die geordnete Überführung digitaler Objekte in seine Obhut. Die Qualität dieses Ingests (um in der Terminologie des OAIS-Standards; Lit. 06 zu bleiben), also der technisch-organisatorische Ablauf in der Vorbereitung, Validierung und Charakterisierung der Objekte, bestimmt in der Folge das Maß an Möglichkeiten, die dem Langzeitarchiv für die Erfüllung seiner Aufgaben zur Verfügung stehen. Je mehr Information dabei zu den einzelnen Objekten oder ganzen Sammlungen vorhanden ist und je detaillierter das einmal eingespielte Objekt analysiert werden konnte, um so früher und zielgerichteter können im Archiv Prozesse greifen, die die Verfügbarkeit sicher stellen. Beispielsweise können aus einer großen Menge PDF-Dateien diejenigen herausgefiltert werden, die mittels eines bestimmten, im Nachhinein als fehlerhaft arbeitenden Werkzeugs erzeugt wurden. Angesichts der Tatsache, dass es eine Vielzahl solcher Werkzeuge zur Erzeugung von PDF gibt, ist dieses Problem auch nicht rein fiktiv. Ende 2011 wurde zum Problem des Ingests ein Standard vorgelegt (Lit. 08), der als praktisch orientierte Anleitung für die Organisation des Workflows gelten kann und konkrete Vorschläge für das (planende) Vorgehen zur Einrichtung solcher kontrollierbarer Abläufe dient. In der Praxis zeigen sich allerdings weitere Herausforderungen: Zum einen handelt es sich um erhebliche Datenmengen, die nur durch den Einsatz automatisierter und skalierender Verfahren zu bewältigen sind. Gleichzeitig ist die Zahl der potenziell relevanten Formate groß und viele von ihnen weisen einen erheblichen Komplexitätsgrad auf. Dies gilt auch für Formate, die dezidiert mit der Perspektive entstanden sind, die Langzeitarchivierung von in ihnen gespeicherten Objekten zu erleichtern, beispielsweise für die PDF/A Standard-Familie (Lit. 14). Vor diesem Hintergrund beschränken sich Archive häufig auf bestimmte Formatgruppen. Die meisten Einrichtungen verfügen bereits vor dem Einstieg in die digitale Langzeitarchivierung über definierte Verfahren, wie digitale Objekte in ihre Infrastruktur angeliefert werden. Dies betrifft zum einen den Tausch von Metadaten zu digitalen Objekten, der in abgestimmten Standardformaten über definierte technische Lieferverfahren seit Jahrzehnten erfolgt; zum anderen aber auch Festlegungen, die sicherstellen, dass das digitale Objekt selbst korrekt übergeben wird. Die Verfahren hierfür sind noch nicht gefestigt, so dass die entsprechenden Abläufe häufig durch händische Eingriffe gekennzeichnet sind. Insbesondere die Verknüpfung zwischen Metadatum und Objekt selbst (das ja wiederum aus einer größeren Gruppe von Daten bestehen kann, die unter Umständen auch nicht nur in der Zuständigkeit eines Anbieters allein liegen) bzw. ihr Erhalt stellt eine Herausforderung dar. Praktisch kann dies bedeuten, dass es zwischen dem Metadatenset und dem zum Beispiel in einem ZIP-Ordner zusammengeführten Objekten eine stabile Verknüpfung basierend auf einem eindeutigen Identifikator gibt. Nur so ist sichergestellt, dass nach dem Transfer der Daten die Zusammenführung im Archivsystem selbst, aber auch mit den Recherchesystemen gelingt. In der praktischen Umsetzung werden häufig spezifische Vereinbarungen zwischen Liefer- und Empfängerseite getroffen, die einen hohen Pflege- und Kontrollaufwand aufweisen. Dieser Aufwand ist auch nur schwer minimierbar, weil zu viele heterogene Komponenten hineinspielen (beispielsweise spezifische Publikationssysteme). Änderungen in diesen Abläufen ziehen An-
536
D 4: Reinhard Altenhöner, Sabine Schrimpf
passungsbedarf im Bereich der Workfloworganisation für die Belieferung des Langzeitarchivs nach sich, müssen umgesetzt, kommuniziert und dokumentiert werden. Kontinuierlich kommen neue Produzenten von digitalen Objekten hinzu, entstehen neue Datenformate, können neue optimierte Schnittstellentechnologien genutzt werden. Vor diesem Hintergrund wird deutlich, dass Anlieferungsprozesse im Bereich der Langzeitarchivierung einem ständigen Anpassungsdruck unterliegen. In vielen Fällen mag es sich um einmalige Übergaben handeln, in denen die produzierende Stelle alle Verantwortung an das Archiv überträgt. In anderen Fällen aber gibt es ein Interesse der produzierenden oder kuratierenden Stelle, nutzbare Versionen des Objekts ihren Kunden anbieten zu können. Auch kann es sehr hilfreich für das Archiv sein, auf die Expertise der Produzenten weiter zugreifen zu können. In der Folge bedeutet dies, dass eine objektbasierte Kommunikations- und Austauschverknüpfung bestehen sollte, die maschinengestützt den Transfer von Information sicherstellt. Insgesamt sind die hier zu leistenden Aufwände hoch. Die Verfügbarkeit von technisch und organisatorisch flexibel anpassbaren Methoden ist eine wichtige Voraussetzung für die erfolgreiche Umsetzung von Maßnahmen der Langzeitarchivierung. Die Fähigkeit zur Übernahme solcher Aufgaben setzt also die Verfügbarkeit von kompetentem Personal oder Dienstleistern voraus, vor allem aber gut etablierte Prozesse zur störungsfreien Bewältigung einer Vielzahl von Einzelfällen. Eine bestätigte erfolgreiche Übernahme von Objekten mit dem Ziel ihrer Aufnahme ins Archiv setzt über die korrekte technische Abwicklung des Datentransfers weitere Aktivitäten voraus: Die digitale Langzeitarchivierung macht die Analyse der Objekte und die Erhebung differenzierter Informationen zu ihnen zwingend erforderlich. Hierzu gehören die Untersuchung der technischen Validität und Ladbarkeit der Objekte, die Abklärung, dass sie frei von Zugriffsbeschränkungen sind, die die Durchführung von Maßnahmen im Archiv behindern, die Verfügbarkeit von Informationen zu den technischen Entstehungsbedingungen (die üblicherweise für den Upload von Dokumenten für ein Repository keine Bedeutung haben) und schließlich die Bestimmung der technischen Betriebsumgebung, die vorausgesetzt wird sowie auch Informationen zum Entstehungs- und Nutzungskontext eines digitalen Objekts – all das sind wichtige Daten, die erhoben und maschinenlesbar im Rahmen des Ingest-Prozesses dokumentiert werden. Treten Probleme oder Klärungsbedarf auf, muss dies im Dialog mit dem Produzenten oder Ablieferer aufgearbeitet werden bis zu dem Zeitpunkt, an dem das fragliche Objekt oder auch eine ganze Sammlung vom Archiv übernommen und verantwortlich betreut werden kann. Vor diesem Hintergrund ist deutlich, dass in Einrichtungen, die die Aufgabe der Langzeitarchivierung übernehmen, schon in der mittelfristigen Perspektive eine durchgreifende Anpassung wenn nicht komplette Transformation des Workflowgefüges erforderlich ist. In der Praxis befindet sich die Langzeitarchivierung in einem Übergangstadium. IT-Systeme zur Langzeitarchivierung wurden bislang häufig weder technisch noch organisatorisch im Workflow integriert. Außerdem sind sie bislang häufig in ihrer Leistungsfähigkeit begrenzt und skalieren schlecht.
D 4.7 Tools und Werkzeuge, Dienste Die Umsetzung funktionaler Anforderungen zur digitalen Langzeitarchivierung erfordert geeignete IT-gestützte Werkzeuge in sehr unterschiedlichen Bereichen. Teilweise bestehen auch Überschneidungen zu den Anforderungen aus ganz anderen Themenfeldern, beispielsweise ist die Validierung von Metadaten auf ihre syntaktische Korrektheit hin auch im Umfeld des reinen Metadatentauschs erforderlich. Werden Daten-Transferschnittstellen in vielen Anwendungsbereichen genutzt, ist das Suchen von Daten oder auch eine Workflow-Engine zur Steuerung eines Ablaufprozesses in vielen Anwendungen erforderlich. Damit verschiedene Werkzeuge in einen IT-gestützten Prozess eingebunden werden können, müssen standardisierte und offen dokumentierte Schnittstellen sowohl für die technische Übermittlung der Objekte als auch für die semantisch korrekte und verstandene Übergabe zur Verfügung stehen. Und trotz einiger Anstrengungen fehlen bislang breit akzeptierte Konventionen im Bereich der Interoperabilität von Langzeitarchiven, konkret: Der Austausch von
D 4: Langzeitarchivierung
537
Objekten und der ggf. an sie geknüpften Versionshistorie, in der die über einen Zeitraum von vielen Jahren durchgeführten Aktivitäten dokumentiert sind, ist bislang nur in ersten Ansätzen realisiert, beispielsweise im von der DFG geförderten LuKII-Projekt (Lit. 13). Die ersten dezidierten Systeme zur Langzeitarchivierung digitaler Objekte entstanden etwa ab dem Jahr 2000, als Maßstäbe setzend ist hier das Digital Information Archive System (DIAS) der Fa. IBM zu nennen, das im Auftrag der niederländischen Nationalbibliothek mit dem Anspruch entwickelt wurde, eine Komplettlösung zur Abbildung aller im OAIS-Modell benannten Funktionsbereiche inkl. aller Schnittstellen nach außen darzustellen (Lit. 20, Lit. 02). Der solitäre Ansatz von DIAS wurde in den nächsten Jahren durch wesentliche Erweiterungen aufgebrochen und wirkte prägend für eine Reihe von weiteren Entwicklungen, insbesondere die Software Rosetta der Firma ExLibris oder auch die Lösung SDB der britischen Firma Tessella. Kennzeichnend für diese Systeme, die gewissermaßen noch Vertreter einer ersten Generation von Systemen im Bereich der Langzeitarchivierung sind, ist, dass sie jedenfalls zunächst als geschlossene Gesamtlösung konzipiert wurden. Inzwischen haben sich aber auch bei diesen Systemen andere Konzepte durchgesetzt, die sich durch einen modularen Aufbau, eine höhere Integrationsfähigkeit in existierende Systemlandschaften und ganz generell durch die Nutzung verteilter IT-Infrastrukturen charakterisieren lassen. Diese Entwicklungstendenzen prägen die Aktivitäten der jüngsten Vergangenheit: Implementierungsleistungen erfolgen für bestimmte Arbeitsbereiche der Langzeitarchivierung, streng genommen lassen sicher hierzu auch Bemühungen rechnen, existierende Systeme zur Speicherung und Bereitstellung digitaler Objekte schrittweise um zusätzliche technische Komponenten zur Langzeitarchivierung anzureichern. Gut zehn Jahre nach den ersten Systementwicklungen ist das Angebot grundsätzlich breiter und vielfältiger geworden, gleichzeitig aber auch unübersichtlicher. Vergrößert wird dieses Angebot noch durch eine große Zahl von häufig aus Forschungsprojekten resultierenden Ansätzen und Tools, zum Beispiel zur Validierung von Objekten oder zur Emulation einzelner Betriebsumgebungen. Kooperative Arbeitsstrukturen wie die Sammlung und Bereitstellung von Informationen zu Formaten und zu potenziell nutzbaren Viewern für diese Formate werden zu einem Element einer sich etablierenden Infrastruktur. Da nämlich ein großer Teil der Langzeitarchive überlappende Dateiformatbestände vorhalten wird, darunter die besonders weit verbreiteten Formate wie PDF, JPG, TIFF, HTML, ist ein zentraler, kooperativ gepflegter Nachweis von Formatinformationen naheliegend. Mit PRONOM und UDFR existieren zwei solcher File Format Registries, die von der Community mit Informationen angereichert und zur Langzeitarchivierungsplanung genutzt werden können (Lit. 12, Lit. 23). Der sich diversifizierende Markt an Anwendungen, der offensichtliche Bedarf an individuellen Lösungen, die besondere Charakteristik der Anforderung, eine langfristig stabile Lösung zu erhalten, die noch nicht erfolgte Ausprägung eines Marktes (zwischen Goldgräberstimmung und erheblichen Unsicherheiten und auch Abbrüchen), dazu (forschungs-)politische Interessen und Aktivitäten lassen insgesamt eine Gemengelage entstehen, in der die fachlich-technische Orientierung für eine einzelne Einrichtung ebenso schwierig ist wie die Entscheidung zur Inanspruchnahme verlässlicher und vor allem langfristig verfügbarer technischer Services. Unabhängig von der Frage, welche Software- und darauf aufsetzend Supportstruktur letztlich gewählt wird, wie also das System weiter entwickelt oder gepflegt wird, muss der Archivbetreiber sicherstellen, dass er auf die Anpassung/Erweiterung des Systems Einfluss nehmen kann. Das klingt zunächst banal, muss aber vor dem Hintergrund der besonderen Verantwortung für archivierte Materialien in anderer Weise abgesichert werden als sonst: In einer Situation, in der der Markt aus den genannten Gründen hinsichtlich Flexibilität und Anpassungsfähigkeit Beschränkungen aufweist, und in der gleichzeitig eine Langfristperspektive angelegt wird, muss bei Systementscheidungen sichergestellt sein, dass diese Aspekte besonders berücksichtigt werden – zum Beispiel durch die Vereinbarung von technischen Notausstiegen, durch offene und vollständige Dokumentation und durch die getestete Verfügbarkeit transparenter Programmierschnittstellen (APIs). Nur in hohem Maß kooperativ angelegte und technisch modular umgesetzte Systemarchitekturen sind am Markt auf Dauer überlebensfähig, und nur sie sind in der Lage, erforderliche Innovati-
538
D 4: Reinhard Altenhöner, Sabine Schrimpf
onen oder auch bloße Anpassungen an Anforderungen in angemessenen Weiterentwicklungszyklen zu implementieren. Dies gilt gleichermaßen für kommerziell getriebene Lösungen als auch für Ansätze, die grundsätzlich auf Open Source Software (OSS) basieren und damit einen prinzipiell für die Aufnahme weiterer Entwicklungspartner offeneren Ansatz verfolgen. Für viele der Ansätze im OSS-Umfeld gilt allerdings, die sie sich auf bestimmte Funktionsbereiche wie zum Beispiel die performante Speicherung und Verteilung von Daten konzentrieren (Lit. 05), so dass andere Funktionsbereiche wie zum Beispiel das Metadatenhandling weniger intensiv verfolgt werden. Der Bedarf, die Einführung von Langzeitarchivierungsdiensten in einzelnen Einrichtungen zu unterstützen, spiegelt sich auch an der zunehmenden Zahl von Entscheidungstools wider, die helfen, in strukturierter Weise notwendige Festlegungen systematisch aus einer Sammlung von relevanten Merkmalen herauszuarbeiten (Lit. 16). In einer Perspektive von fünf bis zehn Jahren kann erwartet werden, dass die verschiedenen heute durchaus parallelen oder gegeneinander laufenden Angebote sich arrondieren werden. Schon jetzt ist erkennbar, dass sich ein Trend zum Angebot von spezifischen Diensten für die Langzeitarchivierung wie zum Beispiel Speicherplatz mit einer definierten Qualität verstärkt und die dahinter stehenden Möglichkeiten zur Verteilung von IT-Infrastruktur und dem ortsunabhängigen Angebot von Services eine zunehmend wichtigere Rolle spielen. Dahinter steht vielleicht letztlich auch die Einsicht, dass die Relevanz der eigentlichen Softwareentwicklung schwindet gegenüber der Erkenntnis, dass Einführung und betriebliche Umsetzung der Langzeitarchivierung in intregrierten Prozessen in einer Einrichtung und ein darauf aufsetzendes systematisches Risikomanagement die wesentlich aufwändigere Seite darstellen.
D 4.8 Berufsbild, Aus-, Fort-, Weiterbildung Die Anforderungen der digitalen Langzeitarchivierung bleiben nicht ohne Folgen für die Qualifikationsprofile, die Einrichtungen der Informationsinfrastruktur benötigen (vgl. A 2 Professionalisierung in der Informationsarbeit). Da das Anwendungsfeld der digitalen Langzeitarchivierung multidisziplinär ist und sich aus Teilbereichen der Informatik, Computerwissenschaft, der Bibliotheksund Informationswissenschaft, des Archiv- und Dokumentationswesens, der Wirtschaftswissenschaft und der Sozialwissenschaft zusammenfügt, ist es schwierig, das Berufsbild des digitalen Archivars scharf zu definieren. Bislang jedenfalls spielt das in der Praxis angesammelte Erfahrungswissen die entscheidende Rolle bei der professionellen Profilbildung. Immerhin werden aber die Kompetenzen, die für die Planung von Langzeitarchivierungsmaßnahmen benötigt werden und die ggf. von einem Team von Personen abgedeckt werden sollten, bereits 2006 als Ergebnis der ersten Projektphase des nestor-Projekts benannt: Neben grundlegenden Kenntnissen im Bereich der digitalen Langzeitarchivierung sind dies allgemeine IT-Kenntnisse und besonders Kenntnis von Datensicherungs-, Datenrettungs- und Langzeitsicherungsstrategien, Wissen zu einschlägigen Standards, Kenntnis der rechtlichen Aspekte, der Kostenaspekte und der allgemeinen Rahmenbedingungen wie Strategien, Infrastruktur und Policies (Lit. 17). Diese Inhalte finden auch zunehmend Eingang in die einschlägigen Ausbildungs- und Studienordnungen im informationswissenschaftlichen Bereich. Hilfreich ist im deutschsprachigen Raum sicher die Qualifizierungsinitiative von nestor, die in dieser Form international einmalig ist. Hier haben sich zwölf Hochschulen per Memorandum of Understanding zusammengeschlossen und arbeiten auf ein abgestimmtes Curriculum hin. Außerdem machen diese Einrichtungen Fortbildungsangebote, die sich an Berufstätige richten und daher der berufsbegleitenden Qualifizierung dienen. Hervorzuheben ist hierbei besonders die nestor school, ein jährlich stattfindendes ca. dreitägiges Blockseminar mit Vorträgen und Praxisübungen zur Thematik. Trotz einiger Anstrengungen und sichtbarer Erfolge auf dem Gebiet der Professionalisierung der Aus- und Fortbildung bleibt hier noch erheblicher Ausbaubedarf: Die Etablierung und Verstetigung eines verlässlichen Qualifikationsniveaus verschafft nicht nur unmittelbar Personal einstellenden Einrichtungen ein besseres Potenzial, sondern sie
D 4: Langzeitarchivierung
539
spart letztlich Ressourcen und sorgt auch dafür, dass über gemeinsame Sprache und Ausbildungsstand vorhandene Ansätze zur spartenübergreifenden Kooperation und verstärkten technischen und organisatorischen Interoperabilität erfolgreicher greifen können.
Literatur 01 Altenhöner, Reinhard; Brantl, Markus; Ceynowa, Klaus: Digitale Langzeitarchivierung in Deutschland – Projekte und Perspektiven. ZfBB, H. 3/4, 2011, 184-196 02 Altenhöner, Reinhard; Steinke, Tobias: „Kopal: cooperation, innovation and services: digital preservation activities at the German National Library“. Library Hi Tech, Vol. 28, No. 2, 2010 03 Bailey, Charles W., Jr.: Digital Curation and Preservation Bibliography. Houston: 2010-2011 (http://www. digital-scholarship.org/dcpb/dcpb.htm; Zugriff am 28.9.2012) 04 Borghoff, Uwe M: Langzeitarchivierung: Methoden zur Erhaltung digitaler Dokumente. Heidelberg: 2003 05 Caplan, Priscilla; Chou; Carol: DAITSS Grows Up: Migrating to a second generation preservation system. Proceedings of IS&T Archiving 2011, Salt Lake City, Utah: May 2011, 101-104 06 CCSDS: Open Archival Information System (OAIS) (2002) (http://public.ccsds.org/publications/ archive/650x0b1.pdf; zuletzt geprüft am 29.9.2012) 07 DIN 31644:2012:04 (D) Information und Dokumentation – Kriterien für vertrauenswürdige digitale Langzeitarchive. Berlin: 2012 08 DIN 31645:2011-11(D) Information und Dokumentation – Leitfaden zur Informationsübernahme in digitale Langzeitarchive. Berlin: 2011 09 DFG: Elektronische Publikationen im Literatur- und Informationsangebot wissenschaftlicher Bibliotheken. Hrg. vom Bibliotheksausschuss der Deutschen Forschungsgemeinschaft, 1995 (http://www.dfg.de/ download/pdf/dfg_im_profil/reden_stellungnahmen/download/epub.pdf; zuletzt geprüft am 29.9.2012) 10 Europäischer Rat: Entschließung des Rates vom 25. Juni 2002 über die Erhaltung des Gedächtnisses der Zukunft – Konservierung der digitalen Inhalte für künftige Generationen. Amtsblatt der Europäischen Gemeinschaften, 6.7.2002 (http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:C:2002:162:0004 :0005:DE:PDF; zuletzt geprüft am 29.9.2012) 11 Giaretta, David: Advanced Digital Preservation. Berlin, Heidelberg: 2011 12 Goethals, Andrea: The Unified Digital Formats Registry. Information Standards Quarterly 22 (2010) 2, 26-29 13 Hein, Stefan; Schmitt, Karlheinz; Werb, Virginie: LuKII – LOCKSS und kopal Infrastruktur und Interoperabilität. Dialog mit Bibliotheken 23 (2011) 1, 51-53 14 ISO 19005-1:2005, Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1), ISO 19005-2:2011, Document management – Electronic document file format for long-term preservation – Part 2: Use of ISO 32000-1 (PDF/A-2) 15 JISC: The Model NESLi2 Licence for Journals. Hrg. von Join Information Systems Committee (JISC), 2012 (http://www.jisc-collections.ac.uk/nesli2/NESLi2-Model-Licence-/; zuletzt geprüft am 29.9.2012) 16 Kulovits, Hannes; Becker, Christoph; Kraxner, Michael; Motlik, Florian; Stadler, Kevin; Rauber, Andreas: Plato: A Preservation Planning Tool Integrating Preservation Action Services. Lecture Notes in Computer Science 5173 (2008) 413-414 17 Neuroth, Heike: Qualifizierung im Themenbereich „Langzeitarchivierung digitaler Objekte. Nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Hrg. v. H. Neuroth, A. Oßwald, R. Scheffel, S. Strathmann, K. Huth (Version 2.3), Göttingen, 2010 (urn:nbn:de:0008-20100617364 = http:// nbn-resolving.de/urn/resolver.pl?urn:nbn:de:0008-20100617364handbuch/index.php; zuletzt geprüft am 29.9.2012) 18 NLA: National Archives of Australia: An Approach to the Preservation of Digital Records. Canberra, 2002 (http://www.naa.gov.au/Images/An-approach-Green-Paper_tcm16-47161.pdf; zuletzt geprüft am 29.9.2012). 19 PREMIS Data Dictionary for Preservation Metadata version 2.2. Hrg. von PREMIS Editorial Committee, 2012 (http://www.loc.gov/standards/premis/v2/premis-2-2.pdf; zuletzt geprüft am 29.9.2012)
540
D 4: Reinhard Altenhöner, Sabine Schrimpf
20 Ras, Marcel: The KB e-Depot: Building and Managing a Safe Place for E-journals. LIBER Quarterly: The Journal of European Research Libraries 19 (2009) 1, 44-53 (http://liber.library.uu.nl/publish/ articles/000276/article.pdf) 21 Schwens, Ute; Hans Liegmann: Langzeitarchivierung digitaler Ressourcen. Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. 5., völlig neu gefasste Ausgabe. München: 2004, 567-570 (http://nbn-resolving.de/urn:nbn:de:0008-2005110800; zuletzt geprüft am 29.9.2012) 22 UNESCO: Charta zur Bewahrung des digitalen Kulturerbes. Paris, 2003 (http://www.unesco.de/444.html; zuletzt geprüft am 29.9.2012) 23 Unified Digital Formats Registry (UDFR) (http://www.udfr.org/; zuletzt geprüft am 29.9.2012) 24 nestor-AG Recht: Digitale Langzeitarchivierung als Thema für den 3. Korb zum Urheberrechtsgesetz. Urheberrechtliche Probleme der digitalen Langzeitarchivierung. nestor-Stellungnahme. Ohne Ort: Februar 2011 (http://files.dnb.de/nestor/berichte/nestor-Stellungnahme_AG-Recht.pdf; zuletzt geprüft am 11.10.2012)
Hermann Huemer
D 5 Normung und Standardisierung D 5.1 Einleitung Die Begriffe Norm und Standard werden im Deutschen zunehmend synonym verwendet, wohl auch deshalb, weil beide im Englischen mit standard übersetzt werden. Bei aufmerksamem Lesen der Literatur lässt sich aber dennoch ein Unterschied feststellen. So wird Norm tendenziell eher für sogenannte technische Normen verwendet, die auch als öffentliche Normen bezeichnet werden (die Normen von ISO, CEN, DIN etc., Lit. 01). Der Begriff Standard bezeichnet folglich eher sogenannte private Normen (Werknormen), die nicht über gesetzlich anerkannte Normungsorganisationen erzeugt und vertrieben werden und daher nicht den Geltungsanspruch öffentlicher Normen erheben können.
D 5.2 Normung als Wirtschaftsfaktor Durch einheitliche Anforderungsprofile an Produzenten, Dienstleister, Produkte oder Prozesse werden gleiche Bedingungen für die Anbieter im Geltungsbereich der jeweiligen Normen geschaffen. Europäische Normen tragen somit zur Harmonisierung des europäischen Binnenmarktes bei. Internationale Normen können zur Beseitigung von Handelsbarrieren, eine Forderung der Welthandelsorganisation WTO, und zur Senkung der Markteintrittskosten beitragen. Dies hat besonders für exportorientierte Länder wie Deutschland, Österreich und die Schweiz große Bedeutung. Standardisierte Werkzeuge senken die Produktionskosten. Ebenso kann die Standardisierung von Schnittstellen und Austauschformaten die Transaktionskosten für die Informationsbeschaffung reduzieren. Umgekehrt können Anpassungskosten entstehen, insbesondere bei nachträglicher Adaptierung, wenn man Normkonformität anstrebt, sei es im Rahmen von Qualitätssicherung oder mit dem Ziel einer Zertifizierung. Auch die Informationswirtschaft profitiert von internationalen Normen für ihr Fachgebiet. Folgende Beispiele mögen dies verdeutlichen: International einheitliche Codierungssysteme für z. B. Ländernamen (Lit. 02), Sprachen- (Lit. 03) und Währungszeichen (Lit. 04) sowie Numerierungssysteme wie ISBN (International Standard Book Number, Lit. 05), ISSN (International Standard Serial Number, Lit. 06), ISMN (Internationale Standard-Musik-Nummer, für gedruckte und digitalisierte Notensätze, Lit. 07), ISRC (Internationaler Standard Ton- und Bildtonaufnahmeschlüssel, Lit. 08), ISAN (Audiovisual Work Identifier, Lit. 09), ISWC (International Standard Musical Work Code, Lit. 10), ISIL (Nummern für Bibliotheken und Informationseinrichtungen, Lit. 11) und andere stellen für die elektronische Datenverarbeitung und den maschinellen Datenaustausch unverzichtbare Hilfsmittel für die eindeutige Identifizierung von Dokumenten dar. Das „Dublin Core Metadata Element Set“ (Lit. 12) ermöglicht die Domain-übergreifende Beschreibung von WWW-Ressourcen, indem es die für ein Anwendungsprofil typischen Elemente definiert. Dadurch wird die Wiederauffindbarkeit solcher Objekte wesentlich erleichtert. Ein Kategorienkatalog für Dokumente (Lit. 13) enthält alle für die formale und inhaltliche Erschließung gebräuchlichen Datenelemente, die den Anwendern zur Verfügung stehen. Die Normen der Reihe ISO 8459 (Lit. 14) enthalten Kategorienkataloge für spezielle Bibliotheksanwendungen wie z. B. den Fernleihverkehr oder die Erwerbung. Die Reihe der EDIFACT-Normen (Lit. 15) wird überdies zur Strukturierung von Dokumenten im elektronischen Datenaustausch für Verwaltung, Industrie und Handel eingesetzt.
542
D 5: Hermann Huemer
D 5.3 Prinzipien der Normung Die Erstellung neuer Normen wird von vier wesentlichen Prinzipien getragen: –– Transparenz (der Normenentwicklung) –– Kohärenz (des Normenbestands) –– Konsens (der interessierten Kreise) –– Publizität (durch öffentliche Verfügbarkeit) Freiwilligkeit verglichen mit gesetzlichen Normen, Orientierung am Stand der Technik, Orientierung an den Bedürfnissen des Marktes, Aktualität (Normen werden in der Regel alle fünf Jahre vom zuständigen Gremium daraufhin überprüft, ob sie noch dem Stand der Technik entsprechen), Sicherheit von Produkten (safety) und für Personen (security) und Umweltschutz werden neben Kompatibilität von Produkten und Qualitätssicherung im Sinne des Verbraucherschutzes zunehmend wichtige Prinzipien von Normung. –– Transparenz und Offenheit: Die Entwicklung öffentlicher Normen steht allen Stakeholder-Gruppen wie Unternehmen, Behörden, Vertretern der Wissenschaften, Konsumentenvertretern usw. offen. Neue Normprojekte werden öffentlich angekündigt. Jede Entwurfsnorm (Draft Standard) muss zur öffentlichen Begutachtung (Public Enquiry) aufgelegt werden, bevor sie als Norm verabschiedet werden kann. –– Kohärenz und Konsistenz: Das nationale Normenwerk muss in sich konsistent und kohärent, also widerspruchsfrei und stimmig sein. Da Europäische Normen von allen CEN-Mitgliedern in ihr nationales Normenwerk übernommen werden, müssen bestehende nationale Normen zugunsten der gemeinsamen Europäischen Normen zurückgezogen werden, falls sie inhaltlich mit diesen konfligieren. Normen dürfen keine Patent- oder Markenrechte und keine Gesetze verletzen. –– Konsens: Jeder neue Normentwurf (Work Draft) kann nur mit Konsens (mit qualifizierter Mehrheit oder einstimmig) als Entwurfsnorm zur öffentlichen Begutachtung aufgelegt werden. Daraufhin muss in den nationalen Normungsgremien Konsens über die Annahme der Entwurfsnorm und in einer zweiten Abstimmungsrunde (Formal Vote) über die Annahme der adaptierten Entwurfsnorm hergestellt werden. Im Falle einer europäischen oder internationalen Entwurfsnorm ist jedes nationale Mitglied verpflichtet abzustimmen (mit ja, nein oder Enthaltung). Für die Annahme als ISO-Norm ist eine Mehrheit von 75 Prozent aller Ja- und NeinStimmen erforderlich. Für eine Europäische Norm bedarf es 71 Prozent der (in Analogie zum Europäischen Rat) gewichteten Stimmen. Um diese hohe Zustimmung zu erreichen, ist es notwendig, alle Stakeholder-Gruppen rechtzeitig in den Normungsprozess einzubinden und Lobbying für die neue Norm zu betreiben. –– Publizität: Jede Entwurfsnorm muss der Öffentlichkeit zur Stellungnahme vorgelegt werden und kann daher käuflich erworben werden. Alle eingehenden Kommentare müssen in den zuständigen Gremien behandelt werden. Schließlich werden die neuen Normen von den nationalen Normungsorganisationen bzw. deren Verlagen publiziert und vertrieben.
D 5.4 Ziele der Normenarbeit Standardisierung verfolgt das Ziel der Interoperabilität und Interkonnektivität von Methoden, Konzepten, Prozessen, Systemen, Produkten und Dienstleistungen. Dadurch soll ein betriebs- und volkswirtschaftlicher Nutzen generiert werden. Die Anwendung von Standards erfolgt zwar freiwillig, doch können Vertragspartner Standards zu Bestandteilen von Verträgen erklären. Sie kön-
D 5: Normung und Standardisierung
543
nen auch als Voraussetzung für die Vergabe von (meist öffentlichen) Aufträgen herangezogen werden. Nach EN 45020 (Lit. 16) können Ziele der Normung die Begrenzung der Vielfalt, Zweckdienlichkeit, Kompatibilität, Austauschbarkeit, Gesundheit, Sicherheit, Umweltschutz, Schutz des Erzeugnisses, gegenseitige Verständigung, wirtschaftliche Ausführung oder Handel sein. Gemäß dem „New Approach to Technical Harmonization and Standardization“ (Lit. 17) können Gesetze auf Normen referenzieren und diese somit für verbindlich erklären. Umgekehrt werden immer mehr Standards mit dem Ziel erstellt, Handlungsanweisungen für die konkrete Umsetzung von Gesetzen zur Verfügung zu stellen. Die Europäische Standardisierung verfolgt das Ziel des Abbaus technischer Handelshemmnisse im Binnenmarkt durch folgende Maßnahmen: –– Europaweite Harmonisierung nationaler Normen; –– gemeinsame und einheitliche Einführung bzw. Übernahme von ISO-Normen; –– Erarbeitung Europäischer Normen (EN) von Grund auf, wenn dies durch Erfordernisse in Europa gerechtfertigt ist und keine geeigneten internationalen oder nationalen Normen existieren, die als Bezugsdokument herangezogen werden können; –– Unterstützung internationaler Standardisierung innerhalb der ISO; –– Bereitstellung von Verfahren für die gegenseitige Anerkennung von Prüfergebnissen und Zertifizierungssystemen auf europäischer Ebene; –– Zusammenarbeit mit der Europäischen Union (EU), Europäischen Freihandelszone (EFTA) und anderen internationalen staatlichen Organisationen, sodass in deren Richtlinien und Rechtsgrundlagen auf Europäische Normen verwiesen werden kann (new approach); –– Zusammenarbeit mit anderen internationalen Regierungs-, Wirtschafts-, Berufs- und Wissenschaftsorganisationen in Fragen der Normung.
D 5.5 Die Organisationen der Internationalen Normung Die internationale Normung wird von drei Organisationen koordiniert: –– ISO International Organization for Standardization –– IEC International Electrotechnical Commission –– ITU International Telecommunication Union Diese haben sich in der World Standards Cooperation (WSC) zusammengeschlossen und haben ihren Sitz in Genf (Schweiz). ISO International Organization for Standardization: Die ISO ist die internationale Dachorganisation und weltweite Vereinigung von 164 nationalen Normungsorganisationen. Sie wurde 1946 als Nachfolgerin der ISA (International Standards Association) gegründet. Die Normenentwicklung vollzieht sich in Komitees („Technical Committees“, TC oder „Project Committees“, PC), „Sub-Komitees“ (Sub-Committee, SC) und Arbeitsgruppen („Work Groups“, WG), je nach Umfang des Zuständigkeitsbereiches. Komitees werden von Chairpersons, Arbeitsgruppen von Convenors geleitet. Diese Vorsitzenden werden jeweils von einem Secretary (Projektmanager) betreut, der von einem der nationalen Mitglieder gegen Kostenersatz bereitgestellt wird. Das Zentralsekretariat in Genf ist im wesentlichen auf administrative und koordinierende Arbeiten beschränkt. Neben Internationalen Normen werden sogenannte Publicly Available Specifications (PAS) produziert. Diese Dokumente sind weniger anspruchsvoll in ihrer Erstellung, aber auch schwächer in ihrer normierenden Kraft.
544
D 5: Hermann Huemer
IEC International Electrotechnical Commission: Die Internationale Elektrotechnische Kommission ist für die Normung in den elektrischen und elektronischen Fachbereichen zuständig. Sie arbeitet eng mit der ISO zusammen und bedient sich auch ihrer Verfahrensrichtlinien. ITU International Telecommunication Union: Die ITU ist eine Spezialagentur der Vereinten Nationen für Informations- und Kommunikationstechnologie, die zur Entwicklung technischer Normen in diesem Fachgebiet befugt ist.
D 5.6 Die Organisationen der Europäischen Normung Die gemeinsame Europäische Normungsinstitution setzt sich aus zwei Teilorganisationen zusammen, CEN und CENELEC mit Sitz in Brüssel (Belgien). Darüber hinaus gibt es auch eine europäische Normungsorganisation für Telekommunikation, das ETSI. CEN Comité Européen de Normalisation: Das CEN (European Committee for Standardization) wurde 1975 gegründet. Es setzt sich heute aus über 400 Fachausschüssen und deren Arbeitsgruppen zusammen, die Europäische Normen (EN) und andere Regelwerke wie CEN Technical Specifications (CEN/TS), Technical Reports (CEN/TR) und CEN Workshop Agreements (CWA) entwickeln. Die Fachausschüsse („CEN Technical Committees“, kurz CEN/TC) werden mit Delegierten aus den CEN-Mitgliedern (33 nationale Normungsorganisationen aus den EU- und EFTA-Staaten sowie aus Kroatien, der Türkei und Mazedonien) beschickt, die von ihren nationalen Normungsgremien inhaltlich unterstützt werden, aber auf eigene Kosten arbeiten. Darüber hinaus bestehen Kooperationen (Liaisons) mit sogenannten Associates, also europäischen Organisationen (z. B. ANEC (European Association for the Co-ordination of Consumer Representation in Standardisation), NORMAPME (European Office of Crafts, Trades and Small and Medium-sized Enterprises for Standardization)), aber auch mit nicht-europäischen Partnern (wie z. B. Jordanien). Der Anstoß zu neuen Normen kann von jedem CEN-Mitglied, vom zuständigen CEN/TC oder von Interessensgruppen und sogar Einzelpersonen kommen. Erkennt jemand einen Normungsbedarf, so reicht er mit Unterstützung eines nationalen Normungsinstituts, das Mitglied bei CEN ist, ein neues Projekt ein. Findet der Antrag eine ausreichende Unterstützung unter den CEN-Mitgliedern (zwei Drittel der abgegebenen Ja- und Nein-Stimmen, zumindest fünf potentielle Unterstützer, die sich zur Mitarbeit in einem CEN/TC bereiterklären), so wird entweder ein bestehendes, fachlich kompetentes Komitee damit beauftragt oder ein neues Komitee gegründet. In letzterem Fall übernimmt idealerweise das einreichende Institut das Projektmanagement (Secretariat) und der Antragsteller den Vorsitz (Chair). Sodann konstituiert sich das neue Komitee, beschließt sein Arbeitsprogramm und hat daraufhin bis zu drei Jahre Zeit, ein Normungsdokument zu erstellen. CENELEC Comité Européen de Normalisation Electrotechnique: CENELEC, das Europäische Komitee für Elektrotechnische Normung (European Committee for Electrotechnical Standardization) wurde 1973 gegründet. Es arbeitet sowohl räumlich als auch organisatorisch eng mit CEN zusammen und ist speziell für die europäische Normung im elektrotechnischen Bereich zuständig. ETSI European Telecommunication Standards Institute: ETSI hat sich zu einer international tätigen Normungsorganisation im Bereich der Informationsund Kommunikationstechnologie entwickelt, die eng mit CEN und CENELEC kooperiert. Es stellt seine Normen kostenlos als Downloads zur Verfügung.
D 5: Normung und Standardisierung
545
D 5.7 Nationale Beteiligung an internationaler und europäischer Normung Die deutschsprachigen Länder sind bei ISO und CEN durch das DIN Deutsches Institut für Normung e. V., das ASI Österreichisches Normungsinstitut/Austrian Standards Institute und die SNV Schweizerische Normen-Vereinigung vertreten. Alle drei sind als gemeinnützige Vereine organisiert und repräsentieren die Stakeholder aus Wirtschaft, Verwaltung, Wissenschaft und Technik in CEN- und ISO-Gremien. Die nationalen Normungsgremien, sogenannte Spiegelkomitees oder Normenausschüsse, werden an den nationalen Normungsorganisationen auf unbestimmte Zeit eingerichtet und umfassen idealerweise Vertreter aller Interessensgruppen, um Konsens in der Normenschaffung sicherzustellen. Ihr Zuständigkeitsbereich umfasst auch rein nationale Normen und Regelwerke (wie z. B. DIN-Normen, ÖNormen und SN-Normen, sowie DIN-SPECs, ON-Regeln u. a.) des jeweiligen Fachbereichs, obgleich deren Bedeutung gegenüber Europäischen und Internationalen Normen im Schwinden begriffen ist. Die Normenausschüsse bzw. Normungskomitees können Arbeitsausschüsse bzw. Arbeitsgruppen einrichten, um ihre Ressourcen auf konkrete Normvorhaben zu fokussieren. Die Mitglieder dieser Normungsgremien werden als Experten bezeichnet. Sie nehmen auf eigene Rechnung an der Normungsarbeit teil und bringen die Standpunkte der von ihnen vertretenen Stakeholder-Gruppe (Kammern, Konsumenten/Verbraucherschutz, Wirtschaftsverbände, öffentliche Hand etc.) persönlich ein. Die Normungsinstitute stellen dafür gegen Rechnung (je nach Geschäftsmodell) die Sitzungsinfrastruktur, das Projektmanagement, das Regelwerk zur Normenschaffung sowie Marketing, Verlag und Vertrieb von Normungsdokumenten zur Verfügung.
D 5.8 Normung im Bereich Information und Dokumentation Die traditionellen Bereiche der Normung sind die chemische Industrie, Elektrotechnik, Elektronik und Telekommunikation, Maschinenbau und Bauwesen. Dazu kommen die Bereiche Gesundheitswesen, Lebensmittelsicherheit, Verkehrs- und Transportwesen sowie Informationstechnik. Als fächerübergreifend können die Bereiche Sicherheit und Umweltschutz betrachtet werden. Neuerdings hält die Normung Einzug in den Bereichen Managementsysteme und Dienstleistungen. Dort hat die ISO 9000-Serie über Qualitätsmanagement in Unternehmen einen höheren Bekanntheitsgrad erlangt, da in zahlreichen Ausschreibungen und Verträgen die Normkonformität mit ISO 9001 gefordert wird. Diese kann durch ein entsprechendes Zertifikat nachgewiesen werden. Bereits im Jahr 1927 wurde am DIN der Normenausschuss Bibliotheks- und Dokumentationswesen (NABD) gegründet. Die Arbeit dieses Ausschusses wird heute durch den Normenausschuss Terminologie (NAT) ergänzt. (Für einen Überblick für Normen im Bibliotheks- und Dokumentationswesen vgl. Lit. 18.) In Österreich entsprechen diesen Ausschüssen das Komitee 69 „BADOS – Bibliotheks-, Archiv-, Dokumentations-, Informationswesen und optische Speichersysteme“ und das Komitee 33 „Terminologie und andere Sprach- und Content-Ressourcen“. Die nationalen Ausschüsse finden ihre internationale Entsprechung im ISO/TC 37 „Terminologie und andere Sprachressourcen“, sowie im ISO/TC 46 „Information und Dokumentation“. D 5.8.1 ISO/TC 37 Terminologie und andere Sprachressourcen Das ISO/TC 37 umfasst die Standardisierung von Grundsätzen, Methoden und Anwendungen in der Terminologie und anderen Sprach- und inhaltlichen Ressourcen im Kontext multilingualer Kommunikation und kultureller Diversität. Das aktuelle Sekretariat wird von SAC/China in Kooperation mit dem vorigen Sekretariat von ASI/Österreich (twinned secretariat) gestellt. Dieses TC wurde bereits 1951 auf Betreiben von Eugen
546
D 5: Hermann Huemer
Wüster, dem österreichischen Pionier der Terminologie, unter dem Titel „Terminologie. Grundlagen und Koordination“ reaktiviert (Lit. 19). Die neuesten Normen des TC behandeln das Language resource management. Folgende Untergremien sind etabliert: –– TC 37/AG Advisory group –– TC 37/JAC ISO 639 RA Joint Advisory Committee –– TC 37/TCG Terminology Coordination Group for TC37 –– TC 37/WG 8 Ontologies – Linguistic, terminological and knowledge organization aspects –– TC 37/WG 9 Data category registry –– TC 37/SC 1 Principles and methods; Sekretariat: SAC/China; 4 WG –– TC 37/SC 2 Terminographical and lexicographical working methods; Sekretariat: SCC/Canada; 6 WG –– TC 37/SC 3 Systems to manage terminology, knowledge and content; Sekretariat: DIN/Deutschland; 4 WG –– TC 37/SC 4 Language resource management; Sekretariat: KATS/Südkorea; 6 WG –– TC 37/SC 5 Translation, interpreting and related technology; Sekretariat: ASI/Österreich; 2 WG D 5.8.2 ISO/TC 46 Information und Dokumentation Das ISO/TC 46 umfasst die Standardisierung von Methoden in Bibliotheken, Informations- und Dokumentationszentren, Verlagen, Archiven, in der Schriftgutverwaltung (Records Management), in der musealen Dokumentation, von Indexierungs- und Referate-Dienstleistungen, sowie in der Informationswissenschaft. Das aktuelle Sekretariat wird von AFNOR/Frankreich gestellt. Zu seinen jüngsten Ergebnissen zählen unter anderem Normen für „(digital) records management“, für ein „Digital object identifier system“ sowie für „RFID in libraries“. Folgende Untergremien sind etabliert: –– TC 46/WG 2 Coding of country names and related entities –– TC 46/WG 3 Conversion of written languages –– TC 46/WG 4 Terminology of information and documentation –– TC 46/WG 6 Storage for archive materials –– TC 46/WG 7 Presentation of periodicals –– TC 46/SC 4 Technical interoperability; Sekretariat: SFS/Finnland; 5 WG –– TC 46/SC 8 Quality - Statistics and performance evaluation; Sekretariat: DIN/Deutschland; 8 WG –– TC 46/SC 9 Identification and description; Sekretariat: ANSI/USA; 11 WG –– TC 46/SC 11 Archives/records management; Sekretariat: SA/Australien; 9 WG D 5.8.3 Weitere ISO-Normenausschüsse Weitere ISO-Normenausschüsse, die sich mit Themen der Information und Dokumentation beschäftigen oder diese berühren, sind –– ISO/IEC JTC 1 Information technology; Sekretariat: ANSI/USA; 2 WG, 19 SC –– ISO/TC 6 Paper, board and pulps; Sekretariat: SCC/Canada; 3 WG, 2 SC mit insgesamt 14 WG –– ISO/TC 10 Technical product documentation; Sekretariat: SIS/Schweden; 4 WG, 4 SC mit insgesamt 11 WG –– ISO/TC 12 Quantities and units; Sekretariat: SIS/Schweden; 18 WG –– ISO/TC 36 Cinematography; Sekretariat: ANSI/USA –– ISO/TC 42 Photography; Sekretariat: ANSI/USA –– ISO/TC 130 Graphic technology; Sekretariat: DIN/Deutschland –– ISO/TC 145 Graphical symbols; Sekretariat: BSI/Großbritannien; 2 WG, 3 SC mit insgesamt 7 WG
–– ––
ISO/TC 154 ISO/TC 171
D 5: Normung und Standardisierung
547
Processes, data elements and documents in commerce, industry and administration; Sekretariat: NEN/Niederlande; 3 WG Document management applications; Sekretariat: ANSI/USA; 3 SC mit insgesamt 12 WG
Die eingerichteten Normungsgremien bilden nicht sämtliche Bereiche des Fachgebiets ab, sondern stehen vielmehr für jene Bereiche, in denen eine internationale Vereinheitlichung von Verfahrensweisen, Software-Produkten oder Dienstleistungen für notwendig erachtet wird, um Qualität, Kompatibilität und Effizienz zu gewährleisten.
D 5.9 Private Standards Während Rechtsnormen (Gesetze, Richtlinien, Verordnungen, technical regulations) vom Gesetzgeber erlassen werden, werden öffentliche Normen (technische Normen) von Stakeholder-Komitees erarbeitet, nach einer öffentlichen Begutachtung konsensual beschlossen und schließlich von den nationalen Normungsorganisationen veröffentlicht (gegen Entgelt öffentlich zugänglich gemacht). Letzteren obliegt die Einhaltung der Prinzipien der Standardisierung, und es stehen ihnen die Urheber- und Verwertungsrechte zu. Private Standards (Werknormen) hingegen unterliegen keinen formalen Einschränkungen (Lit. 20) und beziehen ihre Akzeptanz am Markt aus einer entsprechenden Vormachtstellung oder Glaubwürdigkeit der Proponenten. D 5.9.1 IFLA-Standards Die IFLA (International Federation of Library Associations and Institutions) hat im Jänner 2012 ein „Committee on Standards“ eingerichtet. Dieses Gremium soll die weitere Erstellung von bibliographischen Standards koordinieren. IFLA-Standards (Lit. 21) reichen von Katalogisierungsstandards (z. B. „International Standard Bibliographic Description“ ISBD) über Dienstleistungsstandards (z. B. „Standards for Public Libraries“) hin zur Erschließung (z. B. „Resource Description and Access“ RDA). Dabei wird über nationale Normungsorganisationen auch mit ISO (im ISO/TC 46) zusammengearbeitet. Bemerkenswert an den IFLA-Standards ist die Tatsache, dass sie keine ISO-Normen, sondern ihrer Natur nach bloß Grundsätze, Empfehlungen und Leitlinien, sogenannte private Standards sind. Auch die 2011 publizierte „ISBD: International Standard Bibliographic Description – Consolidated Edition“ entspricht keinem internationalen Standard im Sinne von ISO. Im Gegensatz dazu wurde die ISBN (International Standard Book Number) tatsächlich als internationaler Standard von ISO, nämlich als ISO 2108 Standard approbiert. Als weitere Beispiele für private, also nicht öffentlich anerkannte Standards sollen noch die beiden Archiv-Standards OAIS und ISAD(G) sowie der Dokumentenstandard MoReq 2010 erwähnt werden. D 5.9.2 Open Archival Information System OAIS Das Open Archival Information System (OAIS) wurde ursprünglich als Referenzmodell eines digitalen Archivs vom Consultative Committee for Space Data Systems (CCSDS) empfohlen („Recommended Standard“). Das wortgleiche Papier wurde vom ISO/TC 20/SC 13 „Space data and information transfer systems“ als ISO 14721-Standard (Lit. 22) übernommen, wodurch es über den unmittelbaren Bereich des CCSDS hinaus weltweite Bekanntheit in der Branche erlangt hat. Die neue Ausgabe
548
D 5: Hermann Huemer
(Lit. 23) wurde von einem „Recommended Standard“ in eine „Recommended Practice“ umgewandelt. Dadurch wird auch eine Überarbeitung der ISO 14721 erforderlich. D 5.9.3 Modular Requirements for Records Systems – MoReq2010 Die neue Spezifikation für Schriftgutverwaltung (elektronisches „Records Management“) wurde im DLM Forum (DLM steht für „Document Lifecyle Management“) im Auftrag der Europäischen Kommission entwickelt und im Juni 2011 veröffentlicht. Diese Spezifikation gilt zu Recht als europäischer Standard, obwohl sie völlig unabhängig von CEN und den nationalen Normungsorganisationen entstanden ist. Dessen ungeachtet wird sie zunehmend als Vorlage für nationale Standards im Bereich der elektronischen Schriftgutverwaltung des öffentlichen Sektors herangezogen. Damit erfüllt sie alle Voraussetzungen, um sich neben den öffentlichen Standards zu „Information and Documentation“ (wie z. B. ISO 15489-1+2 (Lit. 24), ISO 30301 (Lit. 25) zu etablieren. D 5.9.4 Fazit Private Standards repräsentieren den Normierungsbedarf aus der Sicht der Fachpraxis, eines Fachverbands oder gar nur eines Unternehmens. ISO-Standards hingegen resultieren aus der Abstimmung von nationalen Normungsorganisationen, deren Stimmverhalten in der Regel vom Interessensmix in den nationalen Normungsgremien oder deren Wortführern abhängt. Der wohl gravierendste Unterschied besteht darin, dass ISO-Normen (wie alle öffentlichen Normen und selbst Normentwürfe in Begutachtung) urheberrechtlich geschützt sind und nur gegen nicht unbeträchtliches Entgelt bei den Normungsorganisationen erworben werden müssen, während private Standards durchwegs frei (oftmals im WWW) verfügbar sind. Tendenzen zur Überreglementierung und Kosten- und Zeitaufwand für die Standardisierungsarbeit stehen Qualitätssicherung, Effizienzsteigerung durch Kostensenkung und dauerhafte Interoperabilität über System- und nationale Grenzen hinweg gegenüber.
D 5.10 Zertifizierung Zertifizierung ist ein Mittel, um mit Hilfe eines unabhängigen Dritten Normkonformität im Zuge einer Überprüfung (Audit) nachzuweisen. Normkonformität bedeutet die Erfüllung aller in einem Standard geforderten Anforderungen (nach z. B. Qualität, Kompatibilität oder Sicherheit). Damit wird ein Zertifikat zu einem Marketing-Instrument, mit dem sich der Träger von nicht zertifizierten Mitbewerbern abgrenzt. Zugleich erhält der Kunde eines zertifizierten Anbieters oder der Käufer eines zertifizierten Produkts komplexe Informationen über den Anbieter oder das Produkt in komprimierter Form, wie dies auf ähnliche Weise nur über Preise möglich ist. Der Mehrwert eines Zertifikats liegt meist darin, dass es Vertrauen schafft, wo der Verbraucher oder Konsument nicht in der Lage ist, alle Anforderungen, die von der Fachwelt als Standard betrachtet werden, selbst zu verifizieren. Folglich spielt auch die das Zertifikat verleihende Stelle eine nicht unwesentliche Rolle in diesem System aus Vertrauen und Kontrolle. Daher wundert es nicht, dass besondere Zertifikate (wie z. B. in der Aus- und Weiterbildung) nur von durch Behörden akkreditierte Stellen ausgestellt werden dürfen.
D 5: Normung und Standardisierung
549
Literatur 01 EN 45020:2006 Normung und damit zusammenhängende Tätigkeiten – Allgemeine Begriffe (ISO/IEC Guide 2:2004) 02 ISO 3166 Codes for the representation of names of countries and their subdivisions 03 ISO 639 Codes for the representation of names of languages 04 ISO 4217:2008 Codes for the representation of currencies and funds 05 ISO 2108:2005 Information and documentation – International standard book number (ISBN) 06 ISO 3297:2007 Information and documentation – International standard serial number (ISSN) 07 ISO 10957:2009 Information and documentation – International standard music number (ISMN) 08 ISO 3901:2001 Information and documentation – International Standard Recording Code (ISRC) 09 ISO 15706-1:2002 Information and documentation – International Standard Audiovisual Number (ISAN) – Part 1: Audiovisual work identifier 10 ISO 15707:2001 Information and documentation – International Standard Musical Work Code (ISWC) 11 ISO 15511:2011 Information and documentation – International standard identifier for libraries and related organizations (ISIL) 12 ISO 15836:2009 Information and documentation – The Dublin Core metadata element set 13 DIN 31631-1:1984 Kategorienkatalog für Dokumente – Begriffe und Gestaltung 14 ISO 8459:2009 Information and documentation – Bibliographic data element directory for use in data exchange and enquiry 15 ISO 9735:2002 Electronic data interchange for administration, commerce and transport (EDIFACT) – Application level syntax rules (Syntax version number: 4, Syntax release number: 1) (10 Teile) 16 EN 45020:2006 Normung und damit zusammenhängende Tätigkeiten – Allgemeine Begriffe 17 Pelkmans, Jacques: The new approach to technical harmonization and standardization. Journal of Common Markets Studies XXV, 1987, No. 3 (http://courses.washington.edu/eulaw09/supplemental_ readings/Pelkmans_New_Approach_Harmonization.pdf) 18 DIN-Taschenbuch 343: Bibliotheks- und Dokumentationswesen – Gestaltung und Erschließung von Dokumenten, Umschriften (Transliterationen), Codierungs- und Nummerungssysteme, Bestandserhaltung, 2. Auflage 2010 19 Friedrich Lang: Eugen Wüster – Erinnerungen eines Zeitzeugen. Erhard Oeser, Christian Galinski (Hrsg.): Eugen Wüster (1898-1977). Leben und Werk. Ein österreichischer Pionier der Informationsgesellschaft. Proceedings of the International Conference on Professional Communication and Knowledge Transfer, Vienna, 24-26 August 1998, Volume 1, 43f, ISBN 3-901010-20-3 20 ISO: International standards and ‚private standards‘, 2010, ISBN 978-92-67-10518-5 21 List of IFLA Standards, Status: June 20, 2012 22 ISO 14721:2003 Space data and information transfer systems – Open archival information system – Reference model (befindet sich derzeit in Überarbeitung) 23 Reference Model for an Open Archival Information System (OAIS). Recommended Practice, CCSDS 650.0-M-2, Magenta Book, Juni 2012 24 ISO 15489-1+2:2001 Information and documentation – Records management (Teil 1+2) 25 ISO 30301:2011 Information and documentation – Management systems for records – Requirements
Ulrike Spree
D 6 Wörterbücher und Enzyklopädien D 6.1 Wörterbücher und Enzyklopädien in der Informationspraxis In einem Wörterbuch schlägt man nach, wenn man etwas nicht weiß – in der Erwartung punktuelle geprüfte Information zu erhalten. Darüber hinaus werden lexikographische Darstellungsformen jedoch nicht nur als informative Gebrauchstexte, sondern auch in der Belletristik aufgegriffen (Lit. 01). In der bibliotheks- und informationswissenschaftlichen Literatur werden Wörterbücher und Enzyklopädien im Rahmen des Auskunftsdienstes und der in diesem Zusammenhang vorgestellten Informationsmittel und Nachschlagewerke behandelt (Lit. 02). Ein umfassender systematischer Überblick ist hier nicht angestrebt. Selbst die zahlreichen gedruckten und elektronischen Bibliographien vermögen nur noch Teilbereiche abzudecken (Lit. 03, Lit. 04, Lit. 05). In diesem Beitrag werden exemplarisch wesentliche Strukturmerkmale von Wörterbüchern und Enzyklopädien dargestellt und die wissensorganisatorische Leistung von Wörterbüchern und Enzyklopädien als eine seit Jahrhunderten praktizierte Form der strukturierten Informations- und Wissensaufbereitung herausgearbeitet sowie Trends der Entwicklung des lexikographischen Marktes aufgezeigt. D 6.1.1 Begriffsklärung Lexikon, Wörterbuch, Enzyklopädie Die terminologisch klare Differenzierung von Lexika und Wörterbüchern als Nachschlagewerke für sprachliche Information und Enzyklopädien als solche, die Begriffe (Gegenstände, Sachverhalte, Dinge, Ereignisse) erklären, verwischt sich in der Praxis, da Wörterbücher aufgrund des Verweischarakters der Sprache stets auch Sachinformationen enthalten, und Enzyklopädien auch Iinguistische Informationen beinhalten. Die besondere Bedeutung von Wörterbüchern und Enzyklopädien im Zusammenhang mit Informationserschließung und -vermittlung ergibt sich aufgrund dreier gemeinsamer Charakteristika: 1. Die strukturierte Anordnung der Einträge nach einem vorgegebenen für die Zielgruppen offensichtlichen Ordnungsprinzip, die vor allem darauf abzielt, den Gebrauch als Nachschlagewerk zu erleichtern (vgl. Lit. 02). 2. Hieraus ergibt sich die atomistische Betrachtungsweise der Inhalte, die jeden Eintrag einzeln betrachtet. Wörterbücher und Enzyklopädien sind in der Regel nicht zur linearen Lektüre vorgesehen. 3. Wörterbücher und Enzyklopädien orientieren sich vorrangig daran, Zweifel des Nutzers in Hinblick auf den Gebrauch einzelner Worte oder Begriffe aufzulösen. D 6.1.2 Historischer Rückblick: Lexika und Lexikonherstellung Wörterbücher und Enzyklopädien sind auch aus historischer Perspektive als pädagogisch-didaktische Instrumente der Wissensvermittlung und „Gedächtnisstützen“ für die Lernenden (vgl. Lit. 06) zu verstehen. Vorläufer einer systematischen Darstellung des Wissens finden sich in allen antiken Hochkulturen. Der Begriff Enzyklopädie lässt sich auf das griechische enkýklios paideia (ἐγκύκλιος παιδεία) zurückführen, was übersetzt in etwa „Kreis des Wissens“ bedeutet und mit unserem Begriff der „allgemeinen Bildung“ korrespondiert (vgl. Lit. 06, S. 39). Bereits aus dem Mittelalter kennen wir Enzyklopädien, Wörterbücher und glossarähnliche Wortlisten (vgl. Lit. 06). Als Spiegel des zeitgenössischen Wissensstandes erlebten Universallexika ab dem 18. Jahrhundert eine erneute Blüte. Re-
D 6: Wörterbücher und Enzyklopädien
551
präsentatives Beispiel für Deutschland ist Zedlers „Universallexikon“ (1732-1754). Die in den Jahren 1751 bis 1780 von Denis Diderot und Jean le Rond d'Alembert herausgegebene „Encyclopédie“ ist ein den Gedanken der Aufklärung verpflichtetes Nachschlagewerk neuen Typs, dem als eine auch politische Waffe eine wichtige Rolle in der gedanklichen Vorbereitung der französischen Revolution zugeschrieben wird (vgl. Lit. 07). Parallel zur Entwicklung der Nationalstaaten und der Vereinheitlichung der Nationalsprachen seit dem Ende des 18. Jahrhunderts wurden große Wörterbuchprojekte ins Leben gerufen (Lit. 08). Im Verlauf des 19. und 20. Jahrhunderts haben sich mehrere grundlegende Wandlungen im Selbstverständnis der Lexikonhersteller vollzogen. Lexika sollten Stichwortgeber für die gebildete Konversation (Konversationslexikon) sein. Auf die Verdoppelung des Fachwissens innerhalb eines Fachgebiets alle drei bis zehn Jahre reagierten die Lexikonverlage mit der Ausdifferenzierung der Gattung in unterschiedliche Typen. Auf der einen Seite standen die umfangreichen Enzyklopädien wie die britische „Encyclopaedia Britannica“. Solche Werke wiesen bis zu 2000 Mitarbeiter auf, darunter renommierte Fachwissenschaftler, und die Artikel sind meist signiert. Der Lexikoneintrag stellt seinen Gegenstand in größere Zusammenhänge, wodurch die Artikel auf einen beträchtlichen Umfang anwachsen können. In der Regel wird weiterführende Literatur angegeben. Auf der anderen Seite erfolgte ab 1860 eine Reorientierung an der Idee des Universallexikons mit allgemeinverständlicher Darstellung und einer hohen Stichwortzahl, die einen gezielten Zugriff auf Einzelinformationen erlaubt. Für die Inhalte der unsignierten, alphabetisch nach engem Schlagwort zusammengestellten Artikel zeichnete eine Lexikonredaktion verantwortlich.
D 6.2 Nachschlagewerke als spezielle Formen des organisierten, strukturierten Wissens Wesentliche Leistungen der Lexikographie, der wissenschaftlichen Beschäftigung mit Fragen der Wörterbuchentwicklung, liegen in der Entwicklung von Wörterbuchtypologien und der exakten Beschreibung lexikographischer Strukturen (vgl. Lit. 09). Die Überschneidungen und Berührungspunkte mit anderen Formen der Wissensorganisation wie Klassifikationen, Thesauri und Ontologien sind vielfältig. Anders als die genannten Ordnungssysteme und Dokumentationssprachen bieten konkrete lexikographische Nachschlagewerke jedoch stets auch den Durchgriff auf Fakteninformation, sei es linguistischer oder enzyklopädischer Art. D 6.2.1 Typologie lexikographischer Nachschlagewerke Wörterbuchtypologien werden nach inhaltlichen Kriterien, aus Produktionssicht, Anwendersicht, Datensicht sowie aus der Sicht des Lebenszyklus lexikographischer Nachschlagewerke erstellt (vgl. Lit. 10). Inhaltliche Unterscheidungskriterien sind z. B. Anzahl der Sprachen, thematische Spezialisierung, Beziehung der Lemmata zueinander (z. B. Synonyme) oder verschiedene Informationstypen (Redewendungen, Sprichwörter) oder Sprachvariationen. Bekannte formale Kriterien zur Wörterbuchtypologisierung sind z. B. Publikationsform (gedruckt: Buch, Loseblattsammlung; digital: offline, online), Verweismechanismen (Hypertextualisierung) oder Formen des Zugriffs. D 6.2.2 Strukturierung lexikographischer Nachschlagewerke Ungeachtet der Formenvielfalt, die sich im Zuge der (jahrhundertealten) lexikographischen Praxis ergeben hat, lässt sich eine Reihe immer wiederkehrender typischer Strukturelemente benennen. Wesentliche Strukturierungsleistungen liegen in der Lemmatisierung, der Zugriffsstruktur, Rahmenstruktur, Verteilungsstruktur, Makrostruktur, Mikrostruktur sowie der Verweisstruktur (vgl. Lit. 11).
552
D 6: Ulrike Spree
Zugriffsstruktur: Datenund/oder benutzerbestimmte Zugangsmöglichkeiten (Alphabet, Systematik, Suche,
Verweisstruktur: Verweise von lexikogra-
Rahmenstruktur: Bestimmung Verhältnis und Aufteilung Umtexte und Lemmata (Lemmaliste, Einleitung, Abkürzungsverzeichnis, Autorenverzeichnis, Grammatik, ...)
phischen Daten auf andere (innerhalb der
Makrostruktur:
Ebenen,
Abfolge der Artikel, Sortierstrategie,
ebenen-
Sortierschlüssel (alphabetisch,
übergreifend
systematisch)
und extern)
Visualisierung z.B. Karte oder Zeitstrahl, ...)
Mikrostruktur: Festlegung der Reihenfolge lexikalischer Datenkategorien innerhalb der Artikel (semantischer Kommentar, Definition, Kollokation, Formkommentar, Wortklasse, Valenz, ... )
Abb. 1: Strukturelemente
Der Hauptteil eines lexikographischen Nachschlagewerks besteht aus Artikeln. Jeder Artikel besteht aus mindestens einem Lemma (Stichwort; gr. Empfangenes) und lexikographischen Daten zu diesen Lemmata. Im Zuge der Lemmatisierung werden die verschiedenen Wortformen zu einem Lexem zusammengefasst und das Lexem als Lemma in die Lemmaliste aufgenommen Die Auswahl der Lemmata für ein lexikographisches Nachschlagewerk erfolgt i. d. R. nach folgenden Kriterien: –– Auswertung bestehender Wortlisten aus lexikographischen Nachschlagewerken. –– Persönliches (Fach-)Wissen des/der LexikographInnen und/oder hinzugezogener ExpertInnen. In der Online-Enzyklopädie Wikipedia werden Lücken in der Lemmaliste von den Mitgliedern kollaborativ in einer Liste Artikelwünsche gepflegt. –– Auswertung von Fachliteratur/-zeitschriften (einschl. ihrer Inhaltsangaben und Register). –– Korpusbasierte Lemmatisierung. Hier werden die Lexeme aus einem Textkorpus gefiltert und erlauben so den Rückgriff auf die Originaltexte (vgl. Digitales Wörterbuch der Deutschen Sprache – DWDS; Lit. 12). Die Rahmenstruktur (Wörterbuchtextstruktur, Megastruktur) beschreibt die übergeordneten Elemente eines lexikographischen Nachschlagewerks in ihrem Zusammenspiel: Umtexte und Lemmaliste(n). Umtexte ist eine Sammelbezeichnung für alle Teile eines lexikographischen Nachschlagewerks, die nicht Teil der Lemmaliste(n) sind: Vorwort, Benutzerführung, Einleitung, Fachliche Einführung, Grammatik, Register und Anhänge sowie ausgelagerte längere und in Bezug auf die lemmatisierten Lexeme übergreifende (Fach-)Artikel. In elektronischen lexikographischen Nachschlagewerken kann bei Rahmentexten die in gedruckter Form zwingende lineare Abfolge der Elemente aufgebrochen werden und Elemente der Benutzerführung wie Abkürzungen oder grammatikalische Informationen können kontextsensitiv angeboten bzw. aufgelöst werden. Durch die Verteilungsstruktur wird die Anordnung der verschiedenen Informationen (Definition, Grammatik, Literaturlisten etc.) in den einzelnen Artikel sowie in den Umtexten bestimmt. Auch in der Gestaltung der Verteilungsstruktur sind Online-Lexika flexibler. So können z. B. grammatikalische Informationen oder Literaturangaben sowohl kontextsensitiv als auch in einem separaten Teil platziert werden. Die Makrostruktur (Lit. 13) beschreibt die Abfolge, die Sortierstrategie sowie den primären Sortierschlüssel der Lemmata in einem lexikographischen Nachschlagewerk. Grundsätzlich unterscheidet man zwischen alphabetischen Makrostrukturen und systematischen Makrostrukturen.
D 6: Wörterbücher und Enzyklopädien
553
alphabetische Makrostruktur
systematische Makrostruktur
Auffindbarkeit für den Laien
Leichte Auffindbarkeit für den Laien, der kein System erlernen muss. Das Alphabet ist ein eindeutiges Ordnungssystem.
Der Benutzer muss die Struktur kennen. Klassifikationen sind mehrdeutige Ordnungssysteme. Ein falscher Einstieg kann dazu führen, dass die gesuchte Information nicht aufgefunden wird. Informationen sind auffindbar, auch wenn die genaue Benennung (Fachterminologie) unbekannt ist.
Eindeutigkeit der Zuordnung
Einzelne Aspekte eines Gegenstandes können auf verschiedene im Alphabet verteilte Lemmata zerstreut sein.
Ein Sachverhalt kann aus unterschiedlichen Perspektiven betrachtet werden. Um multiple Perspektiven abzubilden, muss es möglich sein, dieselben Sachverhalte polyhierarchisch zuzuordnen, was dann wieder zulasten der Eindeutigkeit der Zuordnung geschehen muss.
Erweiterbarkeit
Neues Wissen wird zu einem Einstiegslexem zusammengefasst und kann jederzeit ergänzt werden.
Systematische Ordnungen sind starr und können nicht mit dem Entwicklungstempo der Wissenschaften mithalten. Umstrukturierungen eines Ordnungssystems, sofern die logische Struktur betroffen ist, sind aufwändig.
Zusammenhang
Inhalte werden aus einem größeren Sachzusammenhang gerissen. Zusammengehöriges wird getrennt und Unzusammenhängendes wird in einen zufälligen Zusammenhang gestellt.
Artikel werden in einen inhaltlichen Zusammenhang gestellt. Die Einordnung in eine Systematik liefert zusätzliche Sachinformationen z. B. zum Grad der Spezifität eines Artikels.
Fachkenntnisse
Der Benutzer muss das Stichwort (Einstiegslemma) kennen. Mehrdeutige Lemmata können über Verweise disambiguiert werden.
Information kann auch gefunden werden, wenn die Terminologie nicht genau bekannt ist.
Systematische Einordnung
Entstehung von Redundanzen, da die Stellung innerhalb des Ordnungssystems für jeden Artikel individuell dargelegt werden muss.
Die Stellung in einem Ordnungssystem liefert Zusatzkenntnisse zur Sache.
Überblick und Hinweis auf Wissenslücken
Die alphabetische Makrostruktur liefert keinen Hinweis auf Lücken in der Lemmaliste.
Generisches Browsen ermöglicht den Überblick über die Domäne und die Identifikation von Wissenslücken.
Übersetzbarkeit in andere Sprachen
Schwierig zu übersetzen, da an Sprache gebunden, in der die Lemmatisierung erfolgt
Gute Übersetzbarkeit bei kulturunabhängigen Fachgebieten wie Technik, da gewisse Sprachunabhängigkeit gegeben. Bei kulturabhängigen wie z. B. Jura ist das auch mit einer Systematik sehr schwer, wenn auch leichter als mit einer alphabetischen Ordnung.
Tab. 1: Leistung alphabetischer und systematischer Makro- und Zugriffsstrukturen (in Anlehnung an Lit. 14)
554
D 6: Ulrike Spree
In der Praxis findet man seit jeher Mischformen der systematischen und alphabetischen Makrostruktur: Alphabetische Indices und Querverweise erleichtern den punktuellen Zugriff auf systematische Makrostrukturen und systematische Übersichtstafeln und Querverweise dienen der inhaltlichen Ergänzung der alphabetischen Makrostruktur. In datenbank- oder graphbasierten Online-Lexika lassen sich alphabetische und systematische Makrostruktur flexibler kombinieren als in gedruckten Lexika. In dem Projekt Dbpedia werden die Inhalte der Wikipedia zudem durch den Einsatz von Linked Data semantisch erschlossen. So bietet z. B. Faceted Wikipedia Search die Möglichkeit der facettierten Suche auch für einen menschlichen Nutzer. Sie erlaubt komplexe Suchanfragen wie nach deutschen Wissenschaftlern, die zwischen 1900 und 1970 in Lübeck geboren wurden. Zur Unterstützung der intuitiven Nutzbarkeit werden die Artikel in einem lexikographischen Nachschlagewerk nach demselben zuvor festgelegten Schema (Mikrostruktur) aufgebaut (vgl. Lit. 15). Man unterscheidet zwischen Formkommentar und semantischem Kommentar. Zum Formkommentar gehören Angaben zu Abkürzung, Aussprache, Rechtschreibung, Formvarianten, grammatikalische Angaben wie Genus und Beugungsformen, Wortart, Morphologie, Trennung usw. Auf den Formkommentar folgt i. d. R. der semantische Kommentar und darin bei mehrsprachigen Wörterbüchern auch die Übersetzungen der Lemmata. Im semantischen Kommentar finden sich darüber hinaus Angaben zu Antonymen, Synonymen, Bedeutungserklärung, Belegen, Fachgebieten, Wortverbindungen (Kollokationen u. a.) etc. Jeder Artikel eines lexikographischen Nachschlagewerks hat eine konkrete Mikrostruktur. Verschiedene Artikel innerhalb eines Nachschlagewerkes können unterschiedliche konkrete Mikrostrukturen haben. Auf der Grundlage der konkreten Mikrostrukturen lässt sich die abstrakte Mikrostruktur als Zusammenfassung aller im lexikographischen Nachschlagewerk vertretenen Mikrostrukturen ableiten. Die abstrakte hierarchische Mikrostruktur bildet die Voraussetzung für ein konsistentes Datenmodell, das die Umsetzung xml- oder rdf-basierter Lexika z. B. im Semantic Web ermöglicht. Die Verweisstruktur (Lit. 16) enthält die Elemente, die von lexikographischen Daten auf andere (lexikographische) Daten verweisen. Man unterscheidet zwischen Verweisen innerhalb eines Artikels, zwischen den Artikeln eines Nachschlagewerkes untereinander und externen Verweisen. Verweise können explizit („siehe“) oder implizit sein. Die Zugriffsstruktur (Lit. 11) beschreibt die Merkmale der Schritte, die ein Benutzer bis zum Auffinden der gewünschten Informationen beschreiten muss. Während bewährte Formen der Wissensorganisation auch weiterhin Bestand haben, hat sich das Spektrum von zusätzlichen Zugriffsmöglichkeiten durch die Digitalisierung und die damit möglich gewordenen graphischen Benutzeroberflächen erheblich erweitert. Durch die Nutzung von Hypertext ist eine vielfältige, auch kontextsensitive Einbindung der Umtexte möglich, Browsing- und Stöberfunktionen können ausgebaut werden. Der gezielte Einsatz von Multimedia und Visualisierungen wie Mindmaps kann die Anschaulichkeit der Beiträge erhöhen und ermöglicht die Schaffung zusätzlicher Access Points. Durch Nutzung interaktiver Funktionen kann z. B. dem Nutzer ermöglicht werden eigene Einträge zu ergänzen, oder Nachschlagewerke können durch Foren ergänzt werden. Letztendlich zielen die aufgeführten Ansätze auf ein Verständnis von lexikalischen Einträgen als Einheiten, die dynamisch vom Nutzer im Prozess des Nachschlagens generiert werden (vgl. Lit. 17). Eine besondere Herausforderung solcher Ansätze besteht in der Entwicklung gebrauchstauglicher interaktiver Nutzerschnittstellen. D 6.2.3 Lexikonbenutzer und -nutzung Um einem Benutzer über ein lexikographisches Nachschlagewerk genau die Informationen zu geben, die er zu einem gegebenen Zeitpunkt in einer gegebenen Situation benötigt, ist eine genaue Analyse der Nutzung und der Nutzer notwendig (vgl. Lit. 18, Lit. 19). Die Forschung differenziert
D 6: Wörterbücher und Enzyklopädien
555
zwischen Benutzervoraussetzung (z. B. Laie, Spezialist), Benutzersituation (z. B. Arbeitskontext, Hobby) und Benutzerintention (z. B. Textrezeption, Textproduktion). Das Digitale Wörterbuch der Deutschen Sprache des 20. Jahrhunderts (DWDS) erlaubt z. B. den Einstieg über verschiedene Sichten für den Laien (LEO-Sicht) und den Wissenschaftler (z. B. Statistiksicht). Theoretische Überlegungen zur Benutzerstruktur sind im Umfeld der Konzeption von Enzyklopädien eher ein Desiderat. Die Online-Enzyklopädie Wikipedia beispielsweise macht in den Allgemeinen Informationen über Wikipedia zwar Aussagen über die Autoren aber nicht über die intendierte Zielgruppe (vgl. Lit. 20). Kenntnisse über die tatsächliche Nutzung von gedruckten Wörterbüchern und Enzyklopädien basieren auf der Auswertung von Verlags- und Herausgeberdaten wie Auflagenhöhen oder Subskriptionslisten und Leserbriefe sowie anekdotischen Leseerfahrungen (vgl. Lit. 08). Bei Online-Enzyklopädien lässt sich über Webstatistiken und User-Tracking-Verfahren ein genaueres Bild der tatsächlichen Nutzung gewinnen. Die Nutzung der Wikipedia beispielsweise ist zudem über Nutzerbefragungen recht gut untersucht. Wikipedia ist zu einem Alltagsmedium geworden und wird weltweit schwerpunktmäßig von Personen mit höherem Bildungsstand von allen Altersgruppen relativ gleichmäßig genutzt, wobei die Nutzung seit 2007 stark gestiegen ist (vgl. Lit. 21, Lit. 22). Typische Nutzungssituation ist der schnelle Überblick zu einem Thema (vgl. Lit. 23). Viele Journalisten nutzen Wikipedia mittlerweile offen als Ressource (vgl. Lit. 24). Die explizit Wikipedia-kritische-Einstellung von Lehrern und Hochschullehrern macht zunehmend einem Plädoyer für die Förderung von Informationskompetenz, nicht zuletzt bei Schülern und Studierenden, und einem grundsätzlich kritischen Umgang mit Informationsressourcen Platz (vgl. Lit. 25).
D 6.3 Lexikonproduktion Die Bedingungen, unter denen lexikographische Nachschlagewerke produziert wurden und werden, sind äußerst vielfältig. Ungeachtet dieser Vielfalt sehen sich die Produzenten lexikographischer Nachschlagewerke mit einer Reihe von allgemeinen Problemstellungen konfrontiert. 1. Grundsätzlich gilt es Entscheidungen über die Auswahl und die Eingrenzung des Stoffes zu treffen. Prinzipiell universell angelegte Projekte wie Wikipedia stehen thematisch eingegrenzten Unternehmungen gegenüber. 2. Es gilt zu klären, wie und ob ein Zusammenhang des Wissens über Systematiken, Register oder Verweise hergestellt werden kann. 3. Lexika unterscheiden sich in der Darstellungstiefe, die von der Faktendarstellung über die Erklärung detaillierter Kausalzusammenhänge bis hin zu groben Überblicksdarstellungen schwanken kann. 4. Jedes Lexikon muss sich der Frage des Umgangs mit Parteilichkeit stellen. Lexika können bewusst Partei ergreifen, einen pluralistischen Ansatz verfolgen und verschiedene Stimmen zu Wort kommen lassen oder eine „neutrale“ Haltung anstreben. 5. Da der Anspruch auf gesicherte Informationen konstitutiv für das Selbstverständnis von Nachschlagewerken ist, gilt es die jeweils angewandten Verfahren der Verifikation zu prüfen, die ebenfalls historischen Wandlungen unterliegen. D 6.3.1 Kooperation und Kollaboration Hinter jeder Enzyklopädie steht ein langer Prozess der Aushandlung darüber, was zu einer bestimmten Zeit in einem bestimmten Kontext als wissenswert gelten soll (vgl. Lit. 26, Lit. 27). Oft genug, vor allem in der ersten Hälfte des 20. Jahrhunderts, wurden lexigraphische Nachschlagewerke und Enzyklopädien gezielt als Mittel zur Ausübung kultureller und ideologischer Macht funktionalisiert (vgl. Lit. 28). Bei der täglichen Arbeit in den komplexen Redaktionen mit teilweise hunderten
556
D 6: Ulrike Spree
von Mitarbeitern sind jedoch häufig weniger Konflikte über große weltanschauliche Fragen zu bewältigen als Details der redaktionellen Bearbeitung. Das interne Qualitätsmanagement basiert auf einer Kombination von Redaktionsstrukturen (z. B. Fachredaktionen), Bearbeitungsrichtlinien und automatischen Tools (z. B. Entdecken von Edit Wars oder Vandalismus). Dennoch stößt das Wikipedia-Modell der kollaborativen Zusammenarbeit auch an seine Grenzen: –– Beachtliche Qualitätsunterschiede werden in Kauf genommen. Artikel, insbesondere zu begrifflich komplexen Fragestellungen, laufen Gefahr, im Laufe des langwierigen Diskussionsprozesses zu zerfasern. –– Ungeachtet der großen Zahl angemeldeter Nutzer werden Entscheidungen von relativ wenigen Mitarbeitern gefällt. –– Technische Hilfsmittel können helfen, auffällige Datenströme zu identifizieren, Veränderungen (verstärkter Zugriff) und formale Fehler rasch zu entdecken. Eine akribische intellektuelle Faktenüberprüfung findet nur im Einzelfall statt, vor allem wenn eine Behauptung formal durch eine verlässliche Quellenangabe informationell abgesichert zu sein scheint (vgl. Lit. 29). D 6.3.2 Technische Umsetzung Alle Bearbeitungsschritte eines lexikographischen Nachschlagewerkes, ungeachtet seiner Publikation als Onlinelexikon oder als gedrucktes Lexikon, sind heute computergestützt (vgl. Lit. 30). Die wichtigsten Phasen des lexikographischen Erarbeitungsprozesses sind: 1. Vorbereitung: Konzeptentwicklung, Organisationsstruktur, Finanzplan 2. Datenakquise: Primär- und Sekundärquellen, Korpora, Illustrationen usw. 3. Computerisierung: Tagging und Annotation von Korpustexten, Suchtools, Schreibprogramme auswählen 4. Datenstrukturierung: Lemmatisierung: Datengrundlage in Bezug auf Benutzer/Fach definieren und erstellen; Lemmaauswahl in Bezug auf Benutzer und beteiligte Fachgebiete durchführen; Definition des Projekts anhand der Strukturbegriffe: Rahmenstruktur, Verteilungssystem, Makrostruktur, Mikrostruktur, Verweisstruktur, Zugriffsstruktur 5. Datenanalyse und Verfassen der Einträge: Automatische Gewinnung von Daten aus Korpora (Kollokationen, Häufigkeiten), Verfassen der Artikel, Verlinkung 6. Qualitätskontrolle: Korrektur lesen, Usability Evaluation, Definition des Lebenszyklus der Daten und ihrer Revalidierung/Löschung Aus datenstruktureller Sicht und im Hinblick auf die Modellierung der Daten sind Datenbanklösungen, der Einsatz von Auszeichnungssprachen (vor allem XML, TEI) und zunehmend auch graph-basierte Ansätze zu unterscheiden (vgl. Lit. 31). Onlinelexika haben gegenüber gedruckten Lexika den Vorteil, dass Interface und Datengrundlage deutlich getrennt werden können. Bei entsprechender Kennzeichnung mit einer Auszeichnungssprache wie XML oder der Darstellung als RDF-Triple können die Elemente der Mikro- und der Makrostruktur für ein gezieltes Retrieval genutzt werden. Auf den RDF-Tripeln lassen sich Abfragen und Sortierfunktionen durchführen. Die Anfrage nach Name, Geburtsdatum und englischer Kurzbeschreibung von Informationswissenschaftlern, die in Frankreich geboren sind, in SPARQL (Simple Protocol and RDF Query Language) lautet: PREFIX dbo: SELECT ?name ?birth ?description ?person WHERE { ?person dbo:birthPlace :France .
D 6: Wörterbücher und Enzyklopädien
557
?person . ?person dbo:birthDate ?birth . ?person foaf:name ?name . }
?person rdfs:comment ?description . FILTER (LANG(?description) = 'en') .
Tabelle 2 zeigt das Ergebnis der Anfrage: name
birth
description
person
"Renée-MarieHélène-Suzanne Briet"@en
"1894-02-01" "Renée-Marie-Hélène-Suzanne Briet, known as "Madame :Suzanne_Briet ^^xsd:date Documentation," was a librarian, author, historian, poet, and visionary best known for her treatise Qu'est-ce que la documentation? (What is Documentation?), a foundational text in the modern study of information science. She is also known for her writings on the history of Ardennes and the poet Arthur Rimbaud."@en
"Suzanne Briet" @en
"1894-02-01" "Renée-Marie-Hélène-Suzanne Briet, known as "Madame :Suzanne_Briet ^^xsd:date Documentation," was a librarian, author, historian, poet, and visionary best known for her treatise Qu'est-ce que la documentation? (What is Documentation?), a foundational text in the modern study of information science. She is also known for her writings on the history of Ardennes and the poet Arthur Rimbaud."@en
Tab. 2: Ergebnis SPARQL-Abfrage
D 6.3.3 Lexikonevaluation – Qualitätskriterien Ihrem Selbstverständnis nach sind Enzyklopädien gleichermaßen normativ und deskriptiv und verstehen sich nicht selten als „Brücke zwischen Wissenschaft und Gesellschaft“ (vgl. Lit. 08). Hieraus ergibt sich, dass ein kritischer und reflektierter Umgang mit Nachschlagewerken stets auch den Entstehungskontext eines Nachschlagewerkes berücksichtigen wird. Unterstützung für den quellenkritischen Umgang mit Informationsmitteln bieten auf einzelne Genres und den jeweiligen Informationsbedarf zugeschnittene Kriterienkataloge zur Qualitätsevaluation (vgl. Lit. 32). An ein Hilfsmittel bei der Faktenverifikation wird man andere Anforderungen stellen als an ein Lernwörterbuch. Die Tabelle 3 basiert auf einer (hier nicht vollständig wiedergegebenen) Synopse verschiedener Kriterienkataloge (vgl. Lit. 20). Die wissenschaftliche Auseinandersetzung mit verschiedenen Qualitätsaspekten der Wikipedia hat einen wichtigen Impuls zur Erforschung automatischer Verfahren der Qualitätsevaluation auf der Grundlage der Analyse messbarer Eigenschaften (Länge, Diskussion, Veränderungshäufigkeit etc.) geliefert (vgl. Lit. 32). Während viele der formalen Kriterien gut automatisch zu überprüfen sind, bleibt die vollständige Überprüfung der inhaltlichen Korrektheit angesichts einer Artikelanzahl von mehreren hunderttausend Artikeln bis zu mehreren Millionen Einträgen weiterhin ungelöst.
558
D 6: Ulrike Spree
Kriterium
Beispiel für Testfragen
Beispiele für Qualitäts-Hinweise
Lemmatisierung
Ist die Lemmatisierung eindeutig und für die Zielgruppe nachvollziehbar?
Einsatz von expliziter oder impliziter Disambiguierung
Glaubwürdigkeit und Autorität
Findet eine Überprüfung der inhaltlichen Korrektheit statt? Findet eine Qualitätskontrolle statt? Ist die Information gut recherchiert? Wenn ein parteiischer Standpunkt vertreten wird, ist dieser deutlich kenntlich gemacht?
Literaturangaben und Bibliographien sind vorhanden. Zusammensetzung der Redaktion, Autorenliste, Mitarbeit von Fachwissenschaftlern. Entscheidungsprozesse sind transparent. Im Vorwort werden die Ziele offengelegt.
Inhaltliche Tiefe
Ist die Auswahl der Lemmata und Artikel ausgewogen? Sind die Artikel aktuell? Haben die Informationen langfristig Gültigkeit?
Angaben zum Umfang Das Werk wird regelmäßig aktualisiert. Es werden aktuelle Zusatzinformationen angeboten (z. B. Jahreschroniken). Ähnliche Themen werden ähnlich behandelt.
Geltungsbereich
Ist die Zielgruppe genau angegeben?
Klarheit und Lesbarkeit/Schreibstil
Ist der Schreibstil der Nutzergruppe angemessen? Gibt es eine einheitliche klare Mikrostruktrur?
Verständliche Formulierungen, vereinfachte Darstellung von komplexen Sachverhalten Übersichtlichkeit, beschreibend statt wertend
Usability/Struktur und Zugang
Ist eine Orientierung an Benutzerstrukturvoraussetzungen erkennbar? Ist ein Index/Register vorhanden? Ist die Wahl des Zugangsalphabets angemessen? Ist ein systematischer Zugang auf die Information möglich? Wird Hypertext sinnvoll eingesetzt? Welche Suchoptionen? Welche Verweisungen/Links?
Unterschiedliche Zugänge zu den Inhalten speziell für elektronische Werke: Links (verweise innerhalb eines Artikels) Intertextuelle Links (Verweise zwischen Artikeln) extratextuelle Links (Verweise zu externen Quellen) Angebot Suche und Browsing
Zeitaufwand bei der Recherche
Wie hoch ist der Zeitaufwand bei der Recherche? Wie funktional werden Links und Animationen eingesetzt?
Einfache Suchmöglichkeiten Transparente Verweisstrukturen
Kosten
Ist das Preis-Leistungsverhältnis Differenzierte Abrechnungsverfahren (Abonangemessen? nement, pauschal, pay per view etc.). Bietet der Verlag zusätzliche Mehrwertleistungen an? Welche? Wird die Nutzung durch Werbeeinblendungen beeinträchtigt?
Tab. 3: Qualitätskriterien für lexikographische Nachschlagewerke
D 6: Wörterbücher und Enzyklopädien
559
D 6.3.4 Lexika als Produkte auf dem Informationsmarkt Die Produktion und Vermarktung von lexikographischen Nachschlagewerken ist gekennzeichnet durch eine Verquickung privatwirtschaftlicher Unternehmungen mit Institutionen, die teilweise oder ganz durch öffentliche Mittel finanziert werden (vgl. die Kooperation zwischen Dudenverlag und dem Institut für Deutsche Sprache Mannheim mit seinen verschiedenen Wörterbüchern, das Goethewörterbuch oder das Rechtswörterbuch). Lexikonproduzenten waren und sind aber auch im privatwirtschaftlichen Bereich Vorreiter für die Entwicklung neuer Geschäftsmodelle, etwa durch das Aufgreifen neuer Distributionsformen und Vertriebsstrategien wie Absatz in Einzellieferungen und Subskription sowie bis heute den Direktvertrieb durch Kolportage- und Reisebuchhandel (vgl. Lit. 08, S. 134ff, Lit. 33). Eine große Herausforderung für eine erfolgreiche Vermarktung sind die teilweise sehr langen Publikationszeiträume. Bearbeitungszeiträume zwischen 5 und 10 Jahren sind üblich (z. B. Wörterbuch der Lexikographie und Wörterbuchforschung oder Lexikon der Bibliotheks- und Informationswissenschaft). Über einen so langen Zeitraum gilt es durch geeignete Marketingmaßnahmen Kundeninteresse und Kaufbereitschaft aufrecht zu erhalten. Der Markt für gedruckte Wörterbücher und Enzyklopädien ist durch die Marktführerschaft weniger großer Verlage gekennzeichnet. Infolge des seit ihrer Gründung 2001 einmaligen Erfolgs der kollaborativen Online-Enzyklopädie Wikipedia veränderte sich der lexikographische Markt grundlegend. Bisher hat sich der kommerzielle Markt noch nicht erfolgsversprechend konsolidieren können, was sich daran zeigt, dass die Marktführer mit immer wieder veränderten Geschäftsmodellen wie Contentsyndication und Werbefinanzierung experimentieren. So gab Brockhaus 2008 die Einstellung der gedruckten Version bekannt, um 2011 eine neue Druckausgabe für 2014 anzukündigen (vgl. Lit. 33). Der Brockhaus wechselte verschiedentlich den Verlag, zuletzt von Langenscheidt zu Bertelsmann. Die Bertelsmann-Tochtergesellschaft wissenmedia vermarktet gedruckte und digitale Nachschlagewerke wie Brockhaus, Bertelsmann Lexikon oder Wahrig unter den jeweils eingeführten Markennamen. Im Bereich der mehrsprachigen Lexika engagieren sich vor allem die Schulbuchverlage, z. B. der Ernst Klett Verlag mit dem pons.eu-Portal. Neben der eigentlichen Werbefinanzierung findet man auch die Einbindung von Nachschlagewerken auf kommerziellen Webseiten, um den Traffic zu erhöhen und die Vertrauenswürdigkeit einer Seite zu steigern. Traditionelle Wörterbuchanbieter wie Duden (gehört seit 2009 zu Cornelsen) ergänzen ihr Portfolio durch Beratungsdienstleistungen und Sprachtechnologieangebote (vgl. Lit. 34).
D 6.4 Forschungsfeld Lexikographie und Enzyklopädistik Lexikographie ist ein Spezialgebiet der Linguistik. Neben der Erforschung historischer Wörterbücher, Spezialthemen der mehrsprachigen Lexikographie z. B. zu Wortgruppen oder zu Lernwörterbüchern, sind die Entwicklung von Nutzertypologien und elektronischen Wörterbüchern wichtige Forschungsfelder (vgl. Lit. 35). Die Fachlexikographie beschäftigt sich verstärkt mit Fragen der Fachsprachen und der Terminologie. In den Geschichtswissenschaften, der Philosophie und Bildungssoziologie werden Enzyklopädien aus unterschiedlichen Perspektiven als Indikatoren der sich kontinuierlich wandelnden gesellschaftlichen Bedeutung von Wissen, Bildung und Information wissenschaftlich untersucht (vgl. Lit. 03). Infolge des Erfolges der durch das Web 2.0 erst möglich gewordenen Onlineprojekte können Qualitätsfragen, die Grenzen und Möglichkeiten erfolgreicher Kollaboration und Kooperation und Fragen des Wissenszugangs- und der Zugänglichkeit erstmals auch in Form von groß angelegten quantitativen Studien untersucht werden (Lit. 32, Lit. 36). Wörterbücher und Enzyklopädien im Kontext von Information und Dokumentation haben Gemeinsamkeiten, da sie: –– einen wesentlichen Beitrag zur Wissensorganisation leisten und gleiche oder ähnliche Strukturmerkmale aufweisen;
560 –– ––
D 6: Ulrike Spree
die verstärkte Ausrichtung an den Nutzern durch die Erarbeitung von Nutzerstrukturbeschreibungen im Rahmen der linguistischen Lexikographieforschung ein gutes Beispiel für die Nutzerorientierung bei der Entwicklung von Informationsprodukten ist; und nicht zuletzt Bestrebungen die Zugänglichkeit lexikographischer Informationen durch Einsatz semantischer Technologien erhöhen und auf bereits geleistete Strukturierungsleistungen z. B. innerhalb der Textencoding Initiative (TEI) aufbauen können.
Danksagung An dieser Stelle möchte ich den Studierenden der Masterkurse „Online-Lexikographie“ 2011 und 2012 am Department Information der HAW Hamburg danken. Die Arbeit an diesem Überblicksartikel wurde sehr durch die Vorarbeiten in Form von Forschungsüberblicken der Studierenden unterstützt.
Literatur 01 Schmitz-Emans, Monika; Schulz, Christoph Benjamin ; Fischer, Kai Lars (Hrsg.): Enzyklopädien des Imaginären: Jorge Luis Borges im literarischen und künstlerischen Kontext. Hildesheim, Zürich, New York: Georg Olms, 2011. Online: Acta Litterarum. 2010. (http://www.actalitterarum.de/theorie/mse/enz/index. html; Abruf:2012-08-10) 02 Bates, Marcia J.: What Is a Reference Book: A Theoretical and Empirical Analysis. RQ 26 (1986), 37-57 03 „Allgemeinwissen und Gesellschaft" (www.enzyklopaedie.ch; Abruf: 2012-08-10) 04 Bibliothekszentrum Baden-Württemberg: FabiO: Wörterbücher, Übersetzungshilfen. (https://wiki.bsz-bw. de/doku.php?id=linksammlungen:fabio:woerterbuecher; Abruf: 2012-08-30) 05 Bibliothekszentrum Baden-Württemberg: FabiO: Lexika, Enzyklopädien. (https://wiki.bsz-bw.de/doku. php?id=linksammlungen:fabio:lexika; Abruf: 2012-08-10) 06 McArthur, Tom: Worlds of reference : Lexicography, learning and language from the clay tablet to the computer. Cambridge, New York, New Rochelle u. a.: Cambridge University Press, 1986 07 Selg, Anette; Wieland, Rainer: Die Welt der Encyklopédie. Frankfurt a. Main: Eichborn AG, 2001 08 Spree, Ulrike: Das Streben nach Wissen: Eine vergleichende Gattungsgeschichte der populären Enzyklopädie in Deutschland und Großbritannien im 19. Jahrhundert. Tübingen: Niemeyer, 2000 09 Herbst, Thomas; Klotz, Michael: Lexikographie. Paderborn [u. a.]: Ferdinand Schöningh, 2003 10 Geeb, Franziskus: Semantische und enyzyklopädische Informationen in Fachwörterbüchern. Aarhus: Wirtschaftsuniversität, 1998 11 Bergenholtz, Henning; Tarp, Sven; Wiegand, Herbert Ernst: Datendistributionsstrukturen, Makro- und Mikrostrukturen in neueren Fachwörterbüchern. Handbücher zur Sprach- und Kommunikationswissenschaft, hrsg. v. Hugo Steger und Herbert Ernst Weigand. Band 14. Fachsprache, hrsg. v. Lothar Hoffmann, Hartwig Kalverkämper und Ernst Wiegand. Berlin, New York: Walter de Gruyter, 1998, S. 1889-1909 12 DWDS: Referenzkorpora. Stand 2011-06-06. (http://www.dwds.de/resource/referenzkorpora/; Abruf: 2012-08-10) 13 Wiegand, Herbert Ernst: Aspekte der Makrostruktur im allgemeinen einsprachigen Wörterbuch: alphabetische Anordnungsformen und ihre Probleme. HSK 5.1, 371-409 [= Nr. 65] 14 Michel, Paul: Darbietungsweisen des Materials in Enzyklopädien. Tomkowiak, Ingrid (Hrsg.): Populäre Enzyklopädien. Gedenkschrift für Rudolf Schenda. Zürich: Chronos Verlag, 2002 15 Wiegand, Herbert Ernst: Der Begriff der Mikrostruktur: Geschichte, Probleme, Perspektiven. HSK 5, 409-462 16 Wiegand, Herbert Ernst: Über die Mediostrukturen bei gedruckten Wörterbüchern. K. Hyldegaard Jensen, V Hjornager Pedersen, A. Zettersen (Hrsg.): Symposium on Lexicography VI. Proceedings of the Sixth International Symposium on Lexicography. May 7-9 1992, University of Copenhagen. Tübingen 1994, 315-329
D 6: Wörterbücher und Enzyklopädien
561
17 Spohr, Dennis: Towards a multifunctional lexical resource: Design and implementation of a graph-based lexicon model. Berlin, Boston: de Gruyter, 2012 18 Fuertes-Olivera, Pedro A.; Bergenholtz, Henning (Hrsg.): e-Lexicography : The Internet, Digital Initiatives and Lexicography. London: Continuum International Publishing Group, 2011 19 Wiegand: Fachlexikographie. Lexicography for Special Purposes. Zur Einführung und bibliographischen Orientierung. Lexicographica 11/1995, 1-14 20 Lewandowski, Dirk; Spree, Ulrike: Ranking of Wikipedia articles revisited: Fair ranking for reasonable quality? Journal of the American Society for Information Science and Technology 61 (2010) 21 Busemann, Katrin; Gescheidle, Christoph: Web 2.0: Nutzung steigt – Interesse an aktiver Teilhabe sinkt. Media Perspektiven 7-8 (2010), 359-368. (http://www.media-perspektiven.de/uploads/tx_mppublications/07-08-2010_Busemann.pdf; Abruf: 2012-08-15) 22 Waller, Vivienne: The search queries that took Australian Internet users to Wikipedia. Information Research 16 (2011), 48-63 23 Shawkat, E.: Wikipedia use. British dental journal: BDJ; the journal of the British Dental Association 206 (2009), 117-118 24 Messner, Marcus; South, Jeff: Legitimizing Wikipedia: How US national newspapers frame and use the online encyclopedia in their coverage. Journalism practice 5 (2011), 145-160 25 Stöcklin, Nando; Hielscher, Michael; Hartmann, Werner: Thematisieren statt verbieten! Kompetenter Umgang mit der Wikipedia als Unterrichtsthema. Computer + Unterricht: Lernen und Lehren mit digitalen Medien 21 (2011), 56-58 26 Darnton, Robert: Glänzende Geschäfte: Die Verbreitung von Diderots Enzyklopädie oder wie verkauft man Wissen mit Gewinn? Berlin: Wagenbach,1993 27 Mugglestone, Lynda: Lost for words: The hidden history of the Oxford English Dictionary. New Haven/ London: Yale University Press, 2005 28 Prodöhl, Ines: Die Politik des Wissens: Allgemeine deutsche Enzyklopädien zwischen 1928 und 1956. Berlin: Akademie Verlag, 2011 29 Zotter, Christoph: Der Experte ist tot, es lebe der Experte: Der Einfluss des Internets auf die Wissenskultur am Beispiel Wikipedia. Wien: facultas.wuw 2009 30 Klosa, Annette (erscheint): The lexicographical process II: Online dictionaries. Rufus H. Gouws; Heid, Ulrich; Schweickhard, Wiegand, Herbert Ernst (Hrsg.): Dictionaries: An international encyclopedia of lexicography. Supplementary volume: Recent developments with special focus on computational lexicography. Berlin; New York: de Gruyter. (Vorabdruck online: http://multimedia.ids-mannheim.de/ mediawiki/web/images/6/6b/Klosa_LexicographicalProcess_Preprint.pdf; Abruf: 2012-08-20) 31 TEI (Text Encoding Initiative): P5: Guidelines for Electronic Text Encoding and Interchange. Chapter 9: Dictionaries. Version. 2.1.0. Stand: 2012-06-17. (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ DI.html#DIEN; Abruf: 2012-08-20) 32 Hammwöhner, Rainer: Qualitätsaspekte der Wikipedia. Stegbauer, Christian, Schmidt, Jan, Schönberger, Klaus (Hrsg.): Wikis: Diskurse, Theorien und Anwendungen. Sonderausgabe von kommunikation@ gesellschaft, Jg. 8. Online-Publikation (http://www.soz.uni-frankfurt.de/K.G/B3_2007_Hammwoehner. pdf; Abruf: 2012-08-13) 33 Hünermann, Christoph: Wir hauchen dem Brockhaus neues Leben ein: Interview mit Wissenmedia Geschäftsführer Christoph Hünermann. buchreport (2011-01-29). (http://www.buchreport.de/ nachrichten/verlage/verlage_nachricht/datum/2011/01/29/wir-hauchen-dem-brockhaus-neues-lebenein.htm; Abruf: 2012-08-29) 34 Contentmanager.de: Dudenverlag. (http://www.contentmanager.de/dienstleister/unternehmen/ dudenverlag.html; Abruf: 2012-08-22) 35 Wörterbuch zur Lexikographie und Wörterbuchforschung. Band 1: A - C. Wiegand, Herbert Ernst; Wolski, Werner; Storrer, Angelika; Kammerer, Matthias; Beißwenger, Michael (Hrsg.). Berlin u.a: de Gruyter, 2010 36 Reagle, Joseph Michael: Good Faith Collaboration: The Culture of Wikipedia. Cambridge, Massachusetts: MIT Press, 2010
Joachim Griesbaum
D 7 Social Web D 7.1 Einleitung Der Begriff Social Web steht für neue Formen computervermittelter Kommunikation, welche die Nutzung des Internets im Sinne eines theoretisch sozial unbegrenzten N:m-Informations- und Kommunikationsraums kennzeichnen. Das Social Web wird dabei oftmals als ein Innovationsprozess begriffen, durch den sich das Internet von einem Abrufmedium zu einem partizipativen MitmachMedium (Lit. 01, S. 2) entwickelt. Social Software-Technologien bzw. -Systeme (Lit. 02), die die N:mKommunikation und Erstellung von Inhalten unterstützen, stellen die technologischen Treiber des Social Web dar. Das Social Web wird vor allem in sogenannten sozialen Medien (Lit. 03) sichtbar. Soziale Medien sind Webdienste, die es den Nutzern mit Hilfe von Social Software-Technologien gestatten, miteinander zu kommunizieren, Informationen auszutauschen, sich selbst darzustellen, Kontakte zu pflegen und kollaborativ (mit dem Ziel der Erstellung eines gemeinsamen Produkts) zu arbeiten. Dieser Beitrag nimmt zunächst eine begriffliche Einordnung vor. Darauf aufsetzend werden Nutzungskontexte sozialer Medien skizziert und anhand populärer Beispiele veranschaulicht, um einen Einblick in die gegenwärtige Praxis des Social Web zu geben. Darauf aufsetzend werden grundlegende Erklärungsansätze, zentrale Konzepte und langfristige Potenziale des Social Web aus einer theoretischen Perspektive illustriert.
D 7.2 Begriffliche Einordnung Für das Verständnis der nachfolgenden Ausführungen ist eine Einordnung der zentralen Begrifflichkeiten hilfreich. Hierzu wird zunächst das Social Web von dem Schlagwort Web 2.0 abgegrenzt. Des Weiteren wird der Begriff Social Software in funktionaler Hinsicht differenziert und als technische Grundlage partizipativer Webdienste verortet. D 7.2.1 Web 2.0 – Social Web Seit Mitte der ersten Dekade des 21. Jahrhunderts wird unter dem Schlagwort Web 2.0 eine breite Diskussion zur Ausbildung eines neuartigen Internets geführt. Web 2.0 führt auf begrifflicher Ebene zentrale technologische und soziale Entwicklungstendenzen des Internets zusammen, grenzt diese von einem alten Web 1.0 ab und indiziert somit einen substanziellen qualitativen Wandel (Lit. 04). Der Begriff Web 2.0 ist dabei relativ unscharf und umfasst diverse Bereiche wie Designaspekte der Webseitengestaltung, Konzepte der Webprogrammierung als auch die Nutzung niedrigschwelliger Kommunikations- und Publikationswerkzeuge (Lit. 05). Der Begriff Social Web kann als Teilbereich des Web 2.0 verstanden werden, der zentral den Aspekt der Ausbildung neuartiger partizipativer sozialer Strukturen und Interaktionsformen fokussiert (Lit. 06, S. 23-32). Diese partizipativen Entwicklungstendenzen lassen sich auf das Zusammenwirken neuartiger Medienmerkmale und eines veränderten Kommunikationsverhaltens zurückführen. Die Ursachen für diese Entwicklung liegen dabei in der hohen gesellschaftlichen Durchdringung und zunehmenden Bedeutung des Internets und zum anderen einem sozio-technischen Wandel der Netznutzung (Lit. 07, S. 350). Einen entscheidenden Faktor dieses sozio-technischen Wandels stellen die geringen technischen Anforderungen hinsichtlich des Betriebs und der Nutzung von Social Software dar. Social Software-Systeme senken, im Vergleich zu funktional ähnlich ausgerichteten aber aus Nutzersicht komplexeren Systemen, die Transaktionskosten der Kommunikation sowie der Produktion und Ver-
D 7: Social Web
563
breitung von Inhalten und erleichtern entsprechend die Erstellung und Distribution von Wissen als auch soziale Austauschprozesse. Social Software-Systeme existieren bereits seit den 1990er Jahren. Das erste Wiki wurde beispielsweise bereits 1995 entwickelt (Lit. 06, S. 37). Der zeitlich verzögerte Adaptionsprozess lässt sich u. a. anhand der ab 1997 jährlich durchgeführten ARD-ZDF-Onlinestudien (Lit. 08) nachvollziehen. Demnach stellen E-Mail und Suchmaschinen seit der ersten Studie von 1997 stabil die populärsten Online-Anwendungen dar, während sich zugleich eine zunehmende Diffusion von Social Media abzeichnet. Vor allem jüngere Anwender nutzen in hohem Maße Foren, Chats und OnlineCommunities (Lit. 09). Die Mehrzahl der Anwender nutzt Social Media dabei zur Pflege privater Kontakte. Ansonsten überwiegt auch bei jüngeren Nutzern eine eher passiv-konsumierende Haltung. Eine Minderheit von ca. 8 % aller Online-Nutzer zeigt zudem Interesse, über das private Netzwerk hinaus eigene Beiträge öffentlich im Web zu publizieren (Lit. 10). Vorstellungen von einer in hohem Maße aktiv partizipierenden jungen Nutzergeneration, wie sie etwa Prensky (Lit. 11) mit dem Begriff Digital natives geprägt hat, sind damit mittlerweile relativiert. D. h., das Internet ist aus Nutzersicht nach wie vor in erster Linie als Abrufmedium zu begreifen. Dennoch beschränkt sich der Begriff des Social Web nicht darauf, dass sich durch soziale Medien private Kommunikationsweisen und -umwelten erweitern. Vielmehr ist das Social Web der Inbegriff einer globalen Architektur der Partizipation (Lit. 12). Führt man sich vor Augen, dass der Anteil von 8 % an Partizipation interessierter Online-Nutzer sich, absolut betrachtet, alleine für Deutschland in potenziell Millionen neuer Sender im öffentlichen Raum übersetzt, wird man sich der Dimension dieser Entwicklung und des Potenzials des Social Web bewusst. Der Umfang nutzergenerierter Inhalte überschreitet Schätzungen zufolge (Lit. 13) das Volumen der von professionellen Akteuren erstellten Inhalte um ein Mehrfaches. Der Begriff Social Web steht also nicht nur für eine aggregierte Sicht auf die Nutzung von sozialen Medien bzw. auf das Ausmaß der Verbreitung nutzergenerierter Inhalte. Vielmehr ist Social Web zugleich auch als ein gesellschaftlicher Innovationsprozess zu verstehen, in dem sich bislang gültige Zugangsbarrieren und Grenzen von Kommunikation auflösen. Das gilt zunehmend auch für den Bereich der Wissenschaft (Lit. 59). D 7.2.2 Social Software Aus funktional-technischer Perspektive lässt sich Social Web anhand des Begriffs Social Software verorten. Social Software-Systeme bzw. -Basistechnologien bilden die technischen Infrastrukturen, auf denen die partizipativen Prozesse in sozialen Medien aufsetzen. Der Begriff Social Software wird meist anhand verschiedener Typen von Social Software-Systemen veranschaulicht. So bezeichnet Bächle (Lit. 02) Foren, Wikis, Blogs, Social Bookmarking und Instant Messaging als Social Software-Systeme. Ebersbach et al. (Lit. 06, S. 33-34) nehmen mit Wikis, Blogs, Social Networks und Social Sharing eine ähnliche Einteilung vor. Sie ordnen die einzelnen Typen anhand ihrer funktionalen Ausrichtung in einem Dreiecksmodell. Diese umfassen –– Informationsaustausch: Publikation und Verteilung von Wissensobjekten, –– Beziehungsaufbau und Pflege: Aufbau und Aufrechterhaltung sozialer Kontakte, –– Kollaboration: Kooperation und kollaborative Zusammenarbeit, –– und Kommunikation als übergeordneten Aspekt, der für den Austausch von Mitteilungen steht, zugleich aber auch dem Informationsaustausch, der Beziehungspflege und der Kollaboration inhärent ist.
564
D 7: Joachim Griesbaum
Kollaboration
Wikis Blogs Social Networks Social Sharing
Information
Kommunikation
Beziehungspflege
Abb. 1: Dreiecksmodell nach Ebersbach et al. (Lit. 06, S. 35)
Die Abbildung verdeutlicht, dass Social Software-Systeme in ihrer Funktion nicht zwingend trennscharf zu sehen sind, sondern z. B. das Teilen von Inhalten über Social Sharing-Dienste zwar primär dem Informationsaustausch zuzuordnen ist, zugleich aber auch Komponenten der Selbstdarstellung aufweist. Die Stärke dieses Modells liegt in seiner Anschaulichkeit. Ergänzend zu diesen Sichtweisen ist eine stärker granular angelegte Perspektive anhand der Differenzierung von sozialen Basistechnologien hilfreich, welche die jeweiligen Partizipationsformen möglichst spezifisch fassen. Auf der Wissensobjektebene können diese z. B. nach zunehmendem Partizipationsgrad, funktional nach Bewertung, Weiterverbreitung, Annotation, Kommentar und Erstellung und auf der sozialen Ebene etwa nach Kontaktaufnahme, Vernetzung, Koordination und Zusammenarbeit von Teilnehmern gegliedert werden. Des Weiteren kann durch die Differenzierung des Zugangs und Adressaten- bzw. Teilnehmerkreises die jeweilige soziale Ebene beschrieben werden. Eine solche Sicht gestattet es, den funktional partizipativen Charakter jeder Art von Webdiensten darzustellen. Ein Beispiel stellt die Website des Dienstleisters Amazon dar. Diese weist umfangreiche soziale Funktionalitäten auf. Neben Annotationen (Tags) werden vor allem Kommentaroptionen zu Produkten (Kundenrezensionen) bereitgestellt, die auch rege genutzt werden.
D 7.3 Praxis des Social Web: Anwendungskontexte sozialer Medien Nach Angaben von Alexa (Lit. 14), einem Dienst, der Serverzugriffe im Internet erfasst, befanden sich am 27.08.2012 unter den zehn weltweit am häufigsten frequentierten Websites mit Facebook, YouTube, Wikipedia und Twitter vier Social Media-Dienste. Dies illustriert die hohe Bedeutung, die dem Social Web mittlerweile zukommt. Zugleich akzentuieren die einzelnen Dienste jeweils eines der einleitend angeführten Nutzungsszenarien des Social Web (Informationsaustausch, Selbstdarstellung und Beziehungsmanagement, Kollaboration sowie Kommunikation). Somit sind diese Dienste ideal geeignet, um die Praxis des Social Web zu veranschaulichen. D 7.3.1 Informationsaustausch Neue Formen des Informationsaustauschs, oft auch als Social Sharing (Lit. 06, S. 100) oder Social Publishing (Lit. 15) bezeichnet, ermöglichen es Nutzern, Verweise oder Objekte online zu speichern und diese mit der gesamten Netzöffentlichkeit zu teilen. Social Sharing kann u. a. Bookmarks (z. B.
D 7: Social Web
565
Del.icio.us), Textdokumente (z. B. Scribd.com), Präsentationen (z. B. Slideshare.net), Bilder (z. B. Flickr.com) und multimediale Inhalte (z. B. Youtube.com) beinhalten. Liegt eine wichtige Motivation zur Nutzung dieser Dienste zunächst in der rechnerunabhängigen Verwaltung von eigenen Ressourcen sowie in dem rechnerunabhängigen Zugriff darauf (Lit. 06, S. 103), so sind ergänzend auch soziale Motivationsfaktoren, wie z. B. Möglichkeiten der Selbstdarstellung anzuführen (Lit. 16). Durch Social Sharing finden auch benutzerzentrierte Erschließungsverfahren eine Renaissance (Lit. 17). Der Mehrwert von Social Sharing-Diensten liegt, oftmals auch für diejenigen Nutzer, die selbst aktiv Inhalte beisteuern, primär in ihrer Funktion als Wissensplattform (Lit. 18). Der Video Sharing-Dienst YouTube, das populärste Beispiel für eine Social Sharing-Anwendung, kann als eigenes Massenmedium begriffen werden, welches die Nutzer aufgrund niedriger Produktionskosten und eines quasi unbeschränkten Teilnehmerkreises auf Seiten der Empfänger und Produzenten weitgehend selbst gestalten. Dabei werden neben nutzergenerierten Inhalten auch substanziell Kopien professionell erstellter Materialien (Filmausschnitte, TV Shows) angefertigt und hochgeladen. Gemäß Ding et al. (Lit. 19) finden sich in YouTube ca. 450 Mio. Videoartefakte, die von rund 50 Mio. Nutzer hochgeladen und ungefähr 1,5 Billionen Mal aufgerufen wurden. YouTube veranschaulicht, wie das Social Web Prozesse des Informationsaustauschs und auch das mediale Konsumverhalten beeinflusst und somit die Grenzen zwischen Individual-, Gruppen-, unidirektionaler und kollektiver Massenkommunikation verwischen lässt. D 7.3.2 Selbstdarstellung und Beziehungsmanagement Neuartige Formen der Selbstdarstellung und Pflege sozialer Kontakte werden meist mit der Nutzung von Sozialen Online-Netzwerken (SON) verbunden. Boyd & Ellison (Lit. 20) definieren SON in ihrem Übersichtsartikel als Dienste, welche die Erstellung öffentlicher oder halböffentlicher Profile sowie die Kontaktaufnahme und die Verwaltung von Verbindungen mit anderen Netzwerknutzern gestatten. Auf Nutzerseite wird als Hauptmotiv zur Nutzung von SON dabei die Pflege vorhandener Kontakte (Anschlusskommunikation) und weniger das Kennenlernen neuer Personen konstatiert (Lit. 20). Eine Studie von Sas et al. (Lit. 21) deutet an, dass positive Emotionen wie Verbundenheit und Unterhaltung Anwender zur Nutzung von SON motivieren. Selbstdarstellung und Beziehungsmanagement finden dabei nicht nur mit Hilfe expliziter Profilangaben sowie der Nutzung direkt adressatenspezifischer synchroner und asynchroner Kommunikationsdienste (Chat und Mail) Ausdruck, sondern werden auch über Statusmeldungen und bereitgestellte Artefakte (primär Bilder, Videos, Links) sichtbar. Cain (Lit. 22) argumentiert die Problematik dieser privaten Information in öffentlichen Räumen, die oftmals auch eine nicht intendierte Leserschaft erreicht (Fremde aber auch Eltern, Erzieher, Vorgesetze). Facebook dominiert den Bereich der privaten SON und erreicht eine Durchdringung, die nicht zuletzt aufgrund von Netzwerkeffekten andere SON zunehmend kannibalisiert (Lit. 10). Neben den für SON üblichen Profil-, Vernetzungs- und Kommunikationsdiensten verfügt Facebook auch über eine Programmierschnittstelle, welche Drittanbietern die Entwicklung eigener Facebook-Applikationen gestattet, vornehmlich Spielen und Kommunikationsanwendungen (Lit. 23). Einerseits erweitern derartige Anwendungen die Nutzungsmöglichkeiten enorm, auf der anderen Seite stellen sie, neben zunehmend freizügiger werdenden Standards bzw. Vorbelegungen bei Privatsphäreeinstellungen (Lit. 24), mit ein Kernproblem des Datenschutzes in und durch Facebook dar. Durch die Nutzung dieser Applikationen gewährt der Nutzer den vollen Zugriff auf das eigene Profil. Über Social Plugins schlägt der Dienst eine Brücke zu externen Websites und stellt deren Betreibern u. a. ein an Facebook gekoppeltes User-Tracking, Single-Sign-On und sogenannte Engagement-Funktionen zur Verfügung (Bewertungsfunktionen, Aktivitätsfeeds). Damit werden die Funktionalitäten des eigenen SON mit denen externer Webseiten verknüpft und auf das Web expandiert.
566
D 7: Joachim Griesbaum
Es lässt sich festhalten, dass Facebook ein Netzwerk darstellt, welches seinen Nutzern vielfältige Mehrwerte bietet, aber aus datenschutzrechtlicher Perspektive als besonders problembehaftet eingestuft werden kann. In Bezug zur Gesamtverortung im Social Web ist zu konstatieren, dass Facebook nicht nur die dominierende All-in-one-SON-Anwendung darstellt, die zunehmend auch Funktionen anderer Internetanwendungen adaptiert (Lit. 10, S. 384). Weitergehend hat sich Facebook zu einem zentralen Drehkreuz des Internets entwickelt. Es kann als ein abgeschlossenes Netz im Netz angesehen werden, in dem ein einzelner Anbieter die Informationsinfrastruktur und Daten kontrolliert (Lit. 25). D 7.3.3 Kommunikation − Twitter Der Aspekt der Kommunikation lässt sich anhand des Themenfeldes Microblogging veranschaulichen. Microblogging kann als Senden kurzer Echtzeitnachrichten verstanden werden. Nutzer teilen hierbei Informationen, die sie nur mit geringer Wahrscheinlichkeit auch über andere Technologien (z. B. Mail, Telefon usw.) mitteilen würden (Lit. 26). Auf Empfängerseite wird ein Gefühl von Präsenz und Verbundensein mit Freunden und der Welt als Mehrwert zugeordnet (Lit. 27). Microblogging kann als eine leichtgewichtige Form der Kommunikation verstanden werden. Hierzu tragen neben der Kürze der Nachrichten, welche geringe kognitive Kosten auf Seiten der Verfasser und Empfänger und eine hohe Informationsdichte der Botschaften vermuten lässt, auch der Echtzeit- und Mobilitätsaspekt bei. Java et al. (Lit. 27) teilen Microbloggingbeiträge in die Typen „information sharing, information seeking and friendship-wise relationship“ ein. Nach Boyd (Lit. 28) sind dabei auch inhaltlich relativ belanglose Beiträge für die soziale Kontaktpflege nützlich. Twitter gilt als populärster Microblogging-Dienst. Ähnlich dem Beispiel von Facebook werden auch die Schnittstellen von Twitter in vielfältiger Weise von Drittanbietern genutzt, um twitter-basierte Anwendungen zu entwickeln. In Anlehnung an die obenstehend angeführte DatenschutzProblematik bei sozialen Netzwerken lässt sich bei Twitter ein ähnliches Verhaltensmuster betrachten. Obwohl Beiträge als privat gekennzeichnet werden können, wird die Mehrzahl der Tweets öffentlich versendet. Bei Twitter lässt sich jedoch argumentieren, dass Nutzern die erhöhte soziale Reichweite aufgrund der Offenheit des Dienstes aller Wahrscheinlichkeit nach in höherem Maße bewusst ist als z. B. bei Facebook. Gerade die Öffentlichkeit der Beiträge, d. h. das Erreichen nicht explizit adressierter Publika, kann als der zentrale Faktor betrachtet werden, warum Twitter mittlerweile oftmals bei politischen und/oder zivilgesellschaftlichen Prozessen eine hohe Bedeutung zuzuordnen ist. Als Beispiele hierfür lassen sich u. a. die politischen Unruhen in Thailand (Lit. 29) bzw. auch der sogenannte Arabische Frühling anführen (Lit. 30, S. 9-10). D 7.3.4 Kollaborative Zusammenarbeit Kooperation und kollaborative Zusammenarbeit im Social Web stellen ein sehr weit gefasstes Feld dar, insbesondere dann, wenn Wechselwirkungen mit realweltlichen Handlungen in die Betrachtung mit einbezogen werden. Im Unterschied zum Informationsaustausch und zur interpersonalen Kommunikation stellt ein derartiges Zusammenwirken erhöhte Anforderungen an die Beteiligten. Zunächst steht – obwohl nach wie vor als zentraler Motivationsfaktor geltend – nicht der unmittelbar realisierte individuelle Nutzen im Vordergrund, sondern ein kollektives oder auf Gruppenebene anvisiertes gemeinsames Ziel. Hinzu kommt die Notwendigkeit zur Koordination des Zusammenwirkens. Letzteres ist zwar auch zumindest teilweise nachlaufend möglich und z. B. ein zentrales Paradigma des kollaborativen Enzyklopädie-Projekts Wikipedia, erhöht aber in jedem Fall die Hürde zur aktiven Partizipation, da zumindest die Rahmenbedingungen des Zusammenwirkens i. d. R. a priori ausgehandelt bzw. festgemacht werden müssen (Lit. 12, S. 50-51).
D 7: Social Web
567
Mit dem Social Web und somit den vorhandenen und in vielfältiger Weise genutzten Werkzeugen zur niedrigschwelligen Textproduktion fallen die Schranken, die zuvor die Generierung von (öffentlich zugänglichem) Wissen weitgehend auf einen verhältnismäßig kleinen Teil professioneller Akteure eingeschränkt haben. Fragt man nach der Motivation zur Teilnahme an kollaborativer Wissensproduktion, so deutet eine Untersuchung von Kuznetsov (Lit. 31) hinsichtlich der Wikipedia darauf hin, dass Partizipanten primär altruistische Motive aufweisen und das Bedürfnis empfinden, aktiv etwas beizutragen und der Community somit etwas zurückgeben zu können. In Bezug auf den Partizipationsgrad lässt sich argumentieren, dass, in Anlehnung an die von Nielsen (Lit. 32) argumentierte 90:9:1-Regel, nur ein geringer Teil der Netznutzer als potenzielle Wissensproduzenten eingeschätzt werden können. Der Regel nach verhält sich der überwiegende Teil der Nutzer von Online-Gemeinschaften rein rezeptiv. Ein kleiner Teil der Nutzer trägt ab und an etwas bei, und nur 1 % der Teilnehmer verfasst letztlich die Mehrzahl der Inhalte. Dies geht weitgehend sowohl mit der eingangs angeführten Aussage zur Partizipationsbereitschaft als auch mit Angaben zur Partizipation in der Wikipedia (Lit. 33) konform. Des Weiteren wird die Qualität gemeinsamer Wissensproduktion hinterfragt. In Abgrenzung von Begriffen wie kollektiver Intelligenz oder der Weisheit der Vielen (Lit. 34) wird mit dem Begriff des digitalen Maoismus (Lit. 35) die Idee der schrittweisen Verbesserung von Inhalten durch Kooperation und Kollaboration problematisiert. Demnach führt kollektives Zusammenwirken oftmals zu negativen Effekten, wie dem Folgen einer (anonymen) Durchschnitts-/Mehrheitsmeinung, die mit dem Verdrängen von Expertise verbunden sein kann. Diese Argumente sind plausibel und nachvollziehbar, sprechen aber weniger gegen nutzergenerierte Inhalte an sich als gegen deren unkritische Rezeption und Übernahme. Hier wird die hohe Bedeutung des Konzepts der Informationskompetenz sichtbar. Die Wikipedia ist das prominenteste Beispiel kooperativ-kollaborativer Wissensproduktion im Social Web (vgl. D 6 Wörterbücher und Enzyklopädien). Ursprünglich war die Wikipedia nur ein Nebenprodukt einer angedachten redaktionell betreuten Expertenenzyklopädie namens Nupedia. Aufgrund ihrer Offenheit überholte sie die Nupedia hinsichtlich der Zahl der Einträge schon in den ersten Wochen und umfasste Ende des ersten Jahres (2001) bereits 15.000 Artikel (Lit. 12, S. 113). Laut den aktuellen Angaben (Lit. 33) existieren derzeit über 260 Sprachversionen, von denen die Englische rund 4 Mio. und die deutschsprachige Version knapp 1,5 Mio. Einträge aufweisen (Stand jeweils 29.08.2012). Gemäß Busemann & Gescheidle (Lit. 10) erreicht die Wikipedia in Deutschland im Jahre 2012 bereits 72 % der Internetpopulation. Insbesondere Studierende (Lit. 36) greifen auf die Wikipedia als Wissensquelle zurück, aber auch Nachwuchsforscher (Lit. 37) nutzen sie als Einstiegspunkt für Recherchen.
D 7.4 Theoretische Perspektiven und Konzepte des Social Web Der vorige Abschnitt illustriert die hohe Bedeutung und Rolle, die soziale Medien im Internet bzw. in der Alltagswelt vieler Nutzer inzwischen einnehmen. Es wird deutlich, dass das Social Web zunächst ein freizeitbezogenes Phänomen der Endnutzer ist. Die angeführten Nutzungsbeispiele veranschaulichen, dass diese Entwicklung mit substanziellen Umbrüchen im medialen Konsumverhalten, der Ausformung und Sichtbarkeit personaler Identitäten und Kommunikationsprozessen sowie einer quantitativen Erweiterung sozialer Kontakte verbunden ist. In Folge dessen eröffnen sich vielfältige Fragen zu den langfristigen Auswirkungen, die das Social Web nach sich zieht. D 7.4.1 Globale Architektur der Partizipation Clay Shirky (Lit. 12) liefert in seiner Monografie Here comes everybody: The Power of Organizing without Organizations ein anschauliches und plausibel abgeleitetes Erklärungsmodell für den im Social Web sichtbaren gesellschaftlichen Transformationsprozess. Er vergleicht diesen mit den gesell-
568
D 7: Joachim Griesbaum
schaftlichen Auswirkungen, welche die Erfindung des Buchdrucks im 15. Jahrhundert nach sich zog. Seine Aussagen stützen sich im Wesentlichen auf zwei Argumentationslinien: 1. Zunächst senkt die Niedrigschwelligkeit von Social Software auf individueller Ebene die Kosten, um Wissen zur Verfügung zu stellen, zu teilen und miteinander zu kommunizieren. Folglich wird potenziell jeder Nutzer zu einem weltweiten Sendemedium (Lit. 12, S. 55). Social Software ermöglicht es, kommunikative Bedürfnisse auszuleben, die zuvor aufgrund fehlender technischer Werkzeuge nicht befriedigt werden konnten. Diese Argumentationslinie lässt sich beispielsweise durch Technologieakzeptanzmodelle stützen (Lit. 38), welche unter anderem aussagen, dass die Nutzungswahrscheinlichkeit von Informationssystemen neben dem wahrgenommenen Nutzen auch von der antizipierten Einfachheit der Benutzung abhängt. Ergänzend lässt sich anführen, dass Diffusionsprozesse des Social Web sehr stark durch Netzwerkeffekte gefördert werden. Netzwerkeffekte liegen dann vor, wenn der Wert von Gütern nicht durch deren Knappheit, sondern durch ihre Nutzungsverbreitung steigt (Lit. 39, S. 13). Sozialen Medien sind Netzwerkeffekte immanent. Diese führen im Zeitablauf oft auch zur klaren Marktdominanz des größten Anbieters. Schließlich lässt sich auf motivationaler Ebene die Uses and Gratifications-Theorie (Lit. 40) als Erklärungsmodell heranziehen. Demnach bieten soziale Medien Raum für Gratifikationen, die über traditionelle Medien wie z. B. das Fernsehen nicht erzielt werden können. Beispielhaft hierfür sind die im vorhergehenden Kapitel angeführten Motivationsfaktoren wie Verbundenheit mit anderen bzw. das Bedürfnis aktiv beitragen zu können. In Folge der Diffusion sozialer Medien verschwimmen die Grenzen zwischen privater und öffentlicher Kommunikation zunehmend. Die professionellen Medien und Akteure verlieren ihr bisheriges Sendemonopol im Bereich der öffentlichen Kommunikation. Kommunikation auf hohen sozialen Ebenen, bislang tendenziell uni-direktional und vorgefiltert, d. h. auch qualitätsgeprüft, wird zunehmend reziprok und ungefiltert. In dem Maße wie die neuen kommunikativen Optionen von den Menschen aufgegriffen werden, wandelt sich die Medienlandschaft von einem professionellen Erstellen und anschließendem Veröffentlichen (Filter then Publish) zu einem Erstellen und Publizieren von Wissen durch jedermann (Publish then Filter). Das Resultat ist ein größer werdendes Universum von Wissen, das nur noch nachlaufend − und das ist die Herausforderung − auf Qualität geprüft und selektiert werden kann (Lit. 12, S. 81). Durch die neuen sozialen Informations- und Kommunikationsinfrastrukturen formen sich Medien, die nicht nur konsumiert, sondern auch aktiv genutzt werden. Damit ermöglicht das Social Web eine Massenamateurisierung von Tätigkeiten, die bislang professionellen Akteuren vorbehalten waren, beispielsweise im Journalismus und potenziell in allen Feldern der Wissensproduktion. 2. Aufsetzend auf der soeben dargestellten individuellen Ebene senken die neuen Medien ebenso die Kosten des kollektiven Handelns. Sie erleichtern das Zusammenkommen von Menschen mit ähnlichen Interessen, Bedürfnissen und Zielen, den Austausch, die Zusammenarbeit und das gemeinsame Handeln. Insbesondere werden neue Möglichkeiten für gruppenbasiertes Handeln eröffnet, die bisher nur von institutionalisierten Strukturen bewältigt werden konnten. Beispiele hierfür stellen die Wikipedia oder Open Source-Projekte wie Linux dar. Diese Prozesse finden im Internet ihren Ausgangspunkt, sind aber nicht darauf beschränkt. Genauso wie sich das Internet immer weniger als von der Realität abgekoppelter Cyperspace begreifen lässt (Lit. 41), beschränkt sich das Social Web nicht allein auf den virtuellen Raum. Vielmehr stellen soziale Medien ein Koordinationsinstrument für realweltliche, vielfach neuartige Gruppenprozesse dar, die oftmals mit einer erhöhten öffentlichen Partizipation verbunden werden können (Lit. 42, S. 37-38), beispielsweise der Arabische Frühling. Die Wahrscheinlichkeit, dass offene Kollaborationsinitiativen scheitern ist zwar hoch, die Kosten des Scheiterns tendieren jedoch quasi gegen Null. So sind offene kollaborative Initiativen in weitaus breiterem Umfang fähig, Möglichkeiten gemeinsamen Handelns zu erkunden als institutionalisierte Akteure (Organisationen), die effizient agieren müssen und dem (kommerziellen) Erfolg verpflichtet sind. Bezieht man die im Jahre 2009 erfolgte Schließung der Microsoft En-
D 7: Social Web
569
carta (Lit. 43) auf diesen Aspekt, so wird klar, dass das Social Web auch zu einer Neustrukturierung von Märkten führt. Diese fällt potenziell umso tiefgreifender aus, je stärker die betreffenden Märkte wiederum von Informationen geprägt sind. Zusammengefasst verändert das Social Web zunächst die Rolle und Möglichkeiten, die das Individuum in Bezug auf mediale Kommunikation innehat. Der Nutzer ist entsprechend nicht länger nur Publikum, sondern potenziell selbst ein Sendemedium. Zugleich fallen damit die Kosten, sich mit anderen in Verbindung zu setzen und abzustimmen. Dies eröffnet wiederum vielfältige Optionen der N:m-Koordination, gruppenbasierter Online-Partizipation bzw. ebenso realweltlichen Gruppenhandelns ohne Zwang zur strukturierten und kostenintensiven Organisation. In Anlehnung an die Darstellung in Bentwood (Lit. 44, S. 16) veranschaulicht Abb. 2 die neuen Dimensionen dieses Prozesses.
Offene Kommunikation Blogs Foren
Offene Kollaboration Open Source
Wikis
Social Communities
Podcasts
Kontrollierte Kommunikation TV PR
Printmedien
Kontrollierte Kollaboration Unternehmen Organisationen
Radio Marketing
Institutionen
Abb. 2: Globale Architektur der Partizipation in Anlehnung an Bentwood (Lit. 44, S. 16)
Mit welcher Geschwindigkeit sich diese Entwicklung ausbreitet und welche individuellen Lebensbereiche, ökonomischen Aspekte und gesellschaftlichen Themenfelder sie in welcher Stärke berührt, ist noch weitgehend offen. Folgt man Shirkys Erklärungsansatz (Lit. 42), so lässt sich argumentieren, dass das Social Web, verstanden als globale Architektur der Partizipation, als eine „revolutionäre“ Entwicklung bezeichnet werden kann, die das Potenzial besitzt, eine durch Massenmedien und Expertentum geprägte Gesellschaft grundlegend zu verändern. D 7.4.2 Konzepte des Social Web Eine detaillierte Erörterung der vielschichtigen Implikationen des Social Web kann hier zum einen aus Platzgründen, andererseits aber auch deshalb, weil vielfältige Folgen noch nicht hinreichend absehbar sind, nicht geleistet werden. Dennoch sollen einige zentrale Konzepte und Wirkungsaspekte des Social Web zumindest angerissen werden. D 7.4.2.1 Identitätsbildung und Datenschutz Das Internet schafft neue Optionen der Selbstdarstellung und erweitert die Identitätsbildung um das Abbild im virtuellen Raum. Die Nutzung von SON ist per Definition an eine Online-Selbstdarstellung gekoppelt. Partizipation erfordert oftmals die Preisgabe persönlicher Informationen und
570
D 7: Joachim Griesbaum
konfligiert daher mit Aspekten des Datenschutzes. Nach Back et al. (Lit. 45) sind Profile in Facebook authentisch und wenig idealisiert. Auf Nutzerseite zeigt sich mehrheitlich ein Bewusstsein bzw. eine Sensibilisierung für den Schutz der Privatsphäre (Lit. 10, S. 384). Zugleich ist den Nutzern oftmals nicht bewusst, welche Daten von ihnen frei verfügbar sind bzw. welche Einstellungen sie zum Schutz ihrer Daten vorgenommen haben (Lit. 46). Die Politik vieler Anbieter von sozialen Medien besteht im Gegensatz dazu darin, die Nutzerdaten in hohem Maße sichtbar zu machen. Der Gründer von Facebook, welches über Jahre hinweg die Standardeinstellungen zur Datensichtbarkeit immer freizügiger gestaltete, spricht von Privacy als einer überholten sozialen Norm (Lit. 47). Es stellt sich die Frage, ob und inwieweit das Social Web einen Umbruch im Umgang mit Fragen der Identitätsbildung und Privatheit markiert. Diesbezüglich zeichnen sich nicht nur in privaten Kontexten oder aus Konsumentenperspektive, sondern auch z. B. im Bereich der Stellensuche oder Personalakquise Auswirkungen ab. Dabei ist die Online-Identität nicht getrennt zu betrachten, sondern ein zunehmend wichtiger Bestandteil der Gesamtidentität einer Person. Diese übt z. B. auch Einfluss auf berufliche Perspektiven aus, etwa hinsichtlich der Ansprache und Vorauswahl potenzieller Stellenkandidaten (Lit. 48). D 7.4.2.2 Soziale Netzwerke und Communities Das Social Web erweitert die Anzahl sozialer Kontakte, die ein Individuum pflegen kann. Dabei lassen sich Potenziale und Mehrwerte insbesondere von SON in Anlehnung an Bordieu (Lit. 49) mit dem Begriff des sozialen Kapitals argumentieren. Soziales Kapital stellt dabei alle vorhandenen und potenziellen Ressourcen dar, die mit der Teilhabe von Netzwerken für den Aufbau sozialer Beziehungen verbunden werden können, z. B. Hilfeleistung oder Anerkennung. Da SON insbesondere die Pflege von schwachen sozialen Verbindungen (Lit. 50) unterstützen, die vordergründig auf den Informationsaustausch und ökonomisches Handeln ausgerichtet sind, besitzen sie hohes Potenzial zur Steigerung des sozialen Kapitals. Die Frage, ob und inwieweit computervermittelte Kommunikation im Social Web zu einer Bereicherung oder Verarmung des sozialen Lebens beiträgt, lässt sich nicht pauschal beurteilen. Dies ist auch davon abhängig, inwieweit die Nutzung von sozialen Medien tatsächlich zu einer Ausweitung sozialer Kontakte oder der Reduktion sozialer realweltlicher Aktivitäten führt und wie derartige Entwicklungen individuell interpretiert werden. Aus einer gruppenbezogenen bzw. auch gesellschaftlichen Perspektive werden z. B. von Shirky (Lit. 42, S. 173) die Ziele sozialen Teilens nach einer personalen, gemeinschaftlichen, öffentlichen und zivilgesellschaftlichen Ebene differenziert. Während z. B. gemeinschaftliches Teilen soziale Mehrwerte für die jeweiligen Mitglieder realisiert (etwa wechselseitige Unterstützung in Selbsthilfegruppen), wird auf der zivilgesellschaftlichen Ebene das Ideal einer deliberativen Gesellschaft anvisiert (Lit. 63). In der wissenschaftlichen Literatur zur Online-Community werden oftmals kognitive und kompetenzbezogene Mehrwerte postuliert und Fragen der Steuerung (Governance) diskutiert. So bilden virtuelle Communities, bzw. nach Wenger et al. (Lit. 51) Communities of Practice, einen Rahmen bzw. einen Raum, in dem sich die Mitglieder austauschen, gemeinsam Wissen entwickeln und so ihre individuellen Fähigkeiten erweitern und zugleich einen sozialen Wissensbestand aufbauen. Mehrwerte gemeinsamer Wissensgenerierung sind vielfach belegt und lassen sich insbesondere auch aus lerntheoretischen Perspektiven (Lit. 52) und aus Sicht des Wissensmanagements gut argumentieren (Lit. 53). Die postulierten Mehrwerte werden als derart bedeutsam eingeschätzt, dass sich eine Vielzahl von Autoren, z. B. Iriberri et al. (Lit. 54), mit Fragen der erfolgreichen Ausgestaltung von Communities befassen. Kernprobleme stellen dabei oftmals die Herstellung einer hinreichenden Partizipationsbereitschaft und die Vermeidung bzw. Abwehr dysfunktionaler Entwicklungen, z. B. Spambeiträge in der Wikipedia, dar. Schließlich befasst sich die Soziale Netzwerkanalyse mit der Entwicklung und Struktur auch von Online-Gemeinschaften (Lit. 55). Ziel ist es, Muster und Strukturen von Netzwerken zu erkennen. Die Soziale Netzwerkanalyse hilft über die Bestimmungen von Ähnlichkeiten, Beziehungszuständen, Interaktionen und Informationsflüssen dabei, Prozesse in sozialen Netzwerken nachzu-
D 7: Social Web
571
vollziehen und so z. B. die Intensität von Verbindungen und die Zentralität von Akteuren zu verstehen bzw. Untergruppen zu identifizieren. D 7.4.2.3 Nutzergenerierte Inhalte und die Frage der Transformation von Märkten Das Social Web manifestiert sich in den Inhalten, die von den Nutzern erzeugt werden. Hier werden einerseits mit Schlagworten wie Weisheit der Vielen (Lit. 34) bzw. „here comes everybody“ (Lit. 12) nahezu euphorische Sichtweisen zum Social Web formuliert. Das Themenfeld ist dabei aber eher differenziert zu betrachten. So zeigen die bereits angeführten Daten zur Partizipationsbereitschaft (Lit. 10), dass nutzergenerierte Inhalte nicht von jedermann, sondern zumindest derzeit von einer relativ kleinen Anzahl von Nutzern und damit einer Art neuen Elite erarbeitet werden. Auf qualitativer Ebene kommen Untersuchungen zur Qualität von nutzergenerierten Inhalten zur Wikipedia (Lit. 56, Lit. 57) und zu Ergebnissen bei Suchmaschinen (Lit. 58) zu eher positiven Befunden. Im Kern geht es aber weniger um eine Gegenüberstellung zu professionell erstellten Inhalten, sondern vielmehr um die Frage, welche Rolle nutzergenerierte Inhalten einnehmen werden. Nutzergenerierte Inhalte sind derzeit vor allem in Bereichen, welche die Lebenswelt von Verbrauchern unmittelbar betreffen, wie beispielsweise Gesundheit, Reisen, Produktsuche etc., sichtbar (Lit. 59). Inwieweit diese soziale Wissensproduktion bestehende Märkte verändert oder gar ablöst, ist derzeit ungewiss. Erste Auswirkungen bzw. Beispiele für Veränderungsprozesse lassen sich dennoch anführen. So hat das Social Web im Bereich des Marketings bereits weitreichende Umbrüche bewirkt (vgl. C 4 Online-Marketing). Die Einbeziehung von nutzergenerierten Inhalten in Marketingstrategien ist ein Kernbestandteil des Social Media Marketing. Weitergehend sind auch erste Ansätze eines Social Business (Lit. 60, S. 6-11), d. h. der Integration der Nutzer in den Wertschöpfungsprozess, sichtbar. So entwickelt sich der Leser z. B. im Buchmarkt zum Kritiker oder Mitautor, der sowohl auf die Erzeugung, die Selektion als auch auf die Distribution der Produkte Einfluss zu nehmen vermag (Lit. 61).
D 7.5 Zusammenfassung und Ausblick Zusammenfassend ist zu konstatieren, dass der Begriff Social Web kein relativ klar beschreibbares und abgrenzbares Feld bezeichnet. Das Social Web ist auch nicht nur die Gesamtheit aller sozialen Medien oder nutzergenerierten Inhalte. Vielmehr ist es auch als ein gesellschaftlicher Paradigmenwechsel und Diffusionsprozess einzuschätzen, der einen grundlegenden Wandel der Mediennutzung und Wissensumwelt impliziert. Social Software stellt die notwendigen Werkzeuge für diesen Wandel bereit. Auf dieser Grundlage beginnen Nutzer zu partizipieren, um soziale Bedürfnisse wie z. B. soziale Anerkennung zu befriedigen. Die Art und Weise, wie das geschieht und was dies bewirkt, wird dabei in hohem Grade von der Ausformung von Koordinations- und Kollaborationsprozessen sowie der zugrundeliegenden Partizipationskultur bestimmt. Beides sind Faktoren, die oft nicht a priori determiniert sind, sondern sich i. d. R. erst im Laufe der Partizipation ausformen. Die Wikipedia ist ein Beispiel hierfür. Partizipative Aktivitäten sind zunächst aus der Freizeit geboren und demzufolge auch zuvorderst in der Alltagswelt der Endnutzer verhaftet, jedoch nicht darauf beschränkt (Lit. 42). Die Implikationen sind vielfältig und konnten hier nur knapp angerissen werden. Dennoch wurden Auswirkungen auf die Bereiche der Identitätsbildung, das soziale Erleben, kollaborative Wissensarbeit (Lit. 59), Märkte und die Gesellschaft insgesamt sichtbar. Die Frage, wie sich diese Umbrüche fortsetzen und letztlich ausgestalten werden, ist derzeit noch offen und wird angesichts der Komplexität des Themas und weiterer disruptiver Entwicklungen, wie des mobilen Internets oder Cloud Computing, wohl zunächst auch offen bleiben. Ein spannendes und intensiv behandeltes Themenfeld stellt die Frage des Transfers der Potenziale von Social Software für die interne und externe Kommunikation von Organisationen dar. Die externe Kommunikation wird
572
D 7: Joachim Griesbaum
bspw. unter dem Schlagwort Social Media Marketing behandelt (vgl. C 6 Online-Marketing). Potenziale bzgl. der internen Kommunikation, z. B. dem Einsatz von Wikis zum Wissensmanagement, lassen sich darüber hinaus etwa mit Begriffen wie Enterprise 2.0 fassen. Einen Einstieg hierzu liefern u. a. Back et al. (Lit. 62).
Literatur 01 Panke, Stefanie: Unterwegs im Web 2.0. Charakteristiken und Potenziale. E-teaching.org 01.2007 (http:// www.e-teaching.org/didaktik/theorie/informelleslernen/Web2.pdf; letzter Zugriff 22.08.2012) 02 Bächle, Michael: Social Software. Informatiklexikon, Gesellschaft für Informatik, 2006 (http://www.gi.de/ service/informatiklexikon/detailansicht/article/social-software.html; letzter Zugriff 23.08.2012) 03 Wikipedia: Social Media. Version 21. August 2012 um 15:49 (http://de.wikipedia.org/w/index. php?title=Social_Media&oldid=107073017; letzter Zugriff 23.08.2012) 04 O‘Reilly, Tim: What Is Web 2.0. Design Patterns and Business Models for the Next Generation of Software (http://oreilly.com/web2/archive/what-is-web-20.html; letzter Zugriff 22.08.2012) 05 Friedman, Vitaly: Praxisbuch Web 2.0: Moderne Webseiten programmieren und gestalten. Bonn: Galileo Press 2007 06 Ebersbach, Anja; Glaser, Markus; Heigl, Richard: Social Web. Konstanz: UVK 2008 07 Griesbaum, Joachim: Social Web: Überblick, Einordnung, informationswissenschaftliche Perspektiven. Information: Wissenschaft und Praxis (IWP) 6-7/2010, 349-360 08 ARD/ZDF-Onlinestudie 1997-2012 (http://www.ard-zdf-onlinestudie.de; letzter Zugriff 24.08.2012) 09 van Eimeren, Birgit; Fress, Beate: 76 Prozent der Deutschen online – neue Nutzungssituationen durch mobile Endgeräte. Media Perspektiven 7-8 (http://www.ard-zdf-onlinestudie.de/fileadmin/ Online12/0708-2012_Eimeren_Frees.pdf; letzter Zugriff 22.08.2012) 10 Busemann, Katrin; Gscheidle, Christoph: Web 2.0: Habitualisierung der Social Communitys. Media Perspektiven 7-8, 380-390, 2012 11 Prensky, Marc: Digital Natives, Digital Immigrants. On the Horizon. NCB University Press, Vol. 9 No. 5, 2001 12 Shirky, Clay: Here comes everybody: The Power of Organizing Without Organizations, Penguin Books: London 2008 13 Ramakrishnan, Raghu; Tomkins, Andrew: Toward a PeopleWeb. Computer, 40 (8), 63-72, 2007 14 Alexa: Top Sites. The top 500 sites on the web (http://www.alexa.com/topsites; letzter Zugriff 27.08.2012) 15 Bernhardt, T.; Kirchner, M.: E-Learning 2.0 im Einsatz, Werner Hülsbusch: Boizenburg 2007 16 Kim, Grace; Chan, Wilson: Understanding camera phone imaging: motivations, behaviors and meanings. Proceedings of the 12th international conference on Human-computer interaction, Springer-Verlag: Berlin, Heidelberg, 2007, 374-383 17 Peters B13 Benutzerzentrierte Erschließungsverfahren 18 Halvey, Martin J.; Keane, Mark T.: Exploring social dynamics in online media sharing. Proceedings of the 16th international conference on World Wide Web, ACM, New York, 2007, 1273-1274 19 Ding, Yuan; Du, Yuan; Hu, Yinkai; Liu, Zhengye; Wang, Luqin; Ross, Keith; Ghose, Anindya: Broadcast yourself: understanding YouTube uploaders. Proceedings of the 2011 ACM SIGCOMM conference on Internet measurement conference, ACM, New York, 2011, 361-370 20 Boyd, Danah M.; Ellison, Nicole B.: Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, (13) 1, Article 11, 2007 (http://jcmc.indiana.edu/vol13/issue1/boyd. ellison.html; letzter Zugriff 28.08.2012) 21 Sas, Corina; Dix, Alan; Hart, Jennefer; Su, Ronghui: Emotional Experience on Facebook Site. CHI ‚09 Extended Abstracts on Human factors in Computing Systems, 4-9 April 2009, Boston, MA, 2009, 4345-4350 22 Cain, Jeff: Online Social Networking Issues Within Academia and Pharmacy Education. American Journal
23 24 25
26
27
28 29
30
31 32 33 34 35 36
37
38 39 40 41 42 43
D 7: Social Web
573
of Pharmaceutical Education 72 (1), Article 10, 2008 (https://www.ncbi.nlm.nih.gov/pmc/articles/ PMC2254235/; letzter Zugriff 28.08.2012) O. A.: Platform, Facebook 2012 (http://newsroom.fb.com/content/default.aspx?NewsAreaId=137; letzter Zugriff 28.08.2012) McKeon, Matt (2010): The Evolution of Privacy on Facebook (http://mattmckeon.com/facebook-privacy/ ; letzter Zugriff 28.08.2012) Berners-Lee, Tim: Long Live the Web: A Call for Continued Open Standards and Neutrality. Scientific American, 11.2010 (http://www.scientificamerican.com/article.cfm?id=long-live-the-web; letzter Zugriff 28.08.2012) Grace, Julia H.; Zhao, Dejin; Boyd, Danah: Microblogging: what and how can we learn from it? Proceedings of the 28th of the international conference extended abstracts on Human factors in computing systems, ACM, New York, 2010, 4517-4520 Java, Akshay; Song, Xiaodan; Finin, Tim.; Tseng, Belle: Why We Twitter: Understanding Microblogging Usage and Communities. Proceedings of the Joint 9th WEBKDD and 1st SNA-KDD Workshop 2007, University of Maryland, 2007 Boyd, Danah: Twitter: ‘pointless babble’ or peripheral awareness + social grooming? 08.2009 (http:// www.zephoria.org/thoughts/archives/2009/08/16/twitter_pointle.html; letzter Zugriff 28.08.2012) O. A.: Political Unrest, Most Thai Consumers Ready to Return to Normal. Nielsenwire, 06.2010 (http:// blog.nielsen.com/nielsenwire/consumer/following-political-unrest-most-thai-consumers-ready-toreturn-to-normal/; letzter Zugriff 28.08.2012) Howard, Philip N.; Duffy, Aiden; Freelon, Deen; Hussain, Muzammil; Mari, Will; Mazaid, Marwa: Opening Closed Regimes: What was the role of social media during the Arab Spring? Project on Information Technology and Political Islam, Research Memo 2011.1. Seattle, University of Washington (http:// dl.dropbox.com/u/12947477/publications/2011_Howard-Duffy-Freelon-Hussain-Mari-Mazaid_pITPI.pdf; letzter Zugriff 28.08.2012) Kuznetsov, Stacey: Motivations of contributors to Wikipedia. ACM SIGCAS Computers and Society archive, Vol. 36 No. 2., 2006 Nielsen, Jakob (2006) (http://www.useit.com/alertbox/participation_inequality.html; letzter Zugriff 28.08.2012) Wikipedia: Wikipedia. 29. August 2012 um 07:12 (http://de.wikipedia.org/w/index.php?title=Wikipedi a&oldid=107386234; letzter Zugriff 28.08.2012) Surowiecki, James: Die Weisheit der Vielen. Warum Gruppen klüger sind als Einzelne. Goldmann: München, 2007 Lanier, Jaron: Digital Maoism, 5.2006 (http://www.edge.org/3rd_culture/lanier06/lanier06_index.html; letzter Zugriff 28.08.2012) Head, Alison J; Eisenberg, Michael B.: How today’s college students use Wikipedia for course related research. First Monday, Vol. 15 No. 3, (15) 3-1 2010 (http://firstmonday.org/htbin/cgiwrap/bin/ojs/index. php/fm/article/viewArticle/2830/2476/; letzter Zugriff 28.08.2012) Koch, Daniel; Moskaliuk, Johannes: Onlinestudie: Wissenschaftliches Arbeiten im Web 2.0. e-learning and education. eleed Journals, Vol. 5, 2009 (http://eleed.campussource.de/archive/5/1842/; letzter Zugriff 28.08.2012) Davis, Fred D.; Bagozzi, Richard P.; Warshaw, Paul R.: User Acceptance of Computer Technology: a Comparison of Two Theoretical Models. Manage. Sci. 35, no. 8 (August 1989), 982-1003 Fritz, Wolfgang: Internet-Marketing und Electronic Commerce. Grundlagen – Rahmenbedigungen – Instrumente. Gabler: Wiesbaden 2000 Ruggiero, Thomas E.: Uses and Gratifications Theory in the 21st Century. Mass Communication and Society 3 (1), 3-37, 2000 O’Reilly, Tim; Battelle, John: Web Squared: Web 2.0 Five Years On. Web 2.0 Summit, San Francisco, 2009 Shirkey, Clay: Cognitive Surplus. Penguin Press: New York 2010 Wikipedia: Microsoft Encarta. 15. August 2012 um 07:24 Uhr (http://de.wikipedia.org/w/index. php?title=Microsoft_Encarta&oldid=106828733; letzter Zugriff 29.08.2012)
574
D 7: Joachim Griesbaum
44 Bentwood, Jonny: Distributed Influence: Quantifying the impact of Social Media, Edelman White Paper, 2007 (http://technobabble2dot0.files.wordpress.com/2008/01/edelman-white-paper-distributedinfluence-quantifying-the-impact-of-social-media.pdf; letzter Zugriff 29.08.2012) 45 Back, Andrea.; Gronau, Norbert; Tochtermann, Klaus: Web 2.0 in der Unternehmenspraxis: Grundlagen, Fallstudien und Trends zum Einsatz von Social Software. 2. Auflage. Oldenbourg: München 2009 46 Strater, Katherine; Lipford Richter, Heather: Strategies and struggles with privacy in an online social networking community. Proceedings of the 22nd British HCI Group Annual Conference on People and Computers: Culture, Creativity, Interaction – Volume 1. British Computer Society, Swinton, UK, 2008, 111-119 47 Johnson, Bobbie: Privacy no longer a social norm, says Facebook founder. The Guardian, 11.01.2010 (http://www.guardian.co.uk/technology/2010/jan/11/facebook-privacy; letzter Zugriff 03.09.2012) 48 Weitzel, Tim; Eckhardt, Andreas; von Stetten, Alexander; Laumer, Sven: Recruiting trends 2011, Goethe Universität, Frankfurt 2011 (http://media.monster.com/dege/b2b_pdf/Studien/recruiting_trends.pdf; letzter Zugriff 03.09.2012) 49 Bourdieu, Pierre: Ökonomisches Kapital, kulturelles Kapital, soziales Kapital. Kreckel, R. (Hg), Soziale Ungleichheiten. Soziale Welt, Sonderheft Nr. 2, Göttingen, 1983, 183-198 50 Granovetter, Mark S.: The strength of weak ties. American journal of sociology, Vol. 77, No. 6, 1973, 1360-1380 51 Wenger, Etienne; McDermott, Richard; Snyder, William M.: Cultivating Communities of Practice. Harvard Business School Press 2002 52 Scardamalia, M.; Bereiter, C.: Computer Support for Knowledge-Building Communities. Koschmann, T. (ed.). CSCL: Theory and Practice, Lawrence Erlbaum, New JerseyAssociates, 1996, 249-268 53 Kuhlen, R.: Moderation von elektronischen Foren bei netzbasierter Wissenskommunikation in einem virtuellen Wörterbuch. Universität Konstanz, Informationswissenschaft, Bericht 91-00, 2000 54 Iriberri, A.; Leroy, G.: A life-cycle perspective on online community success. ACM Comput. Surv. Bd. 41, Nr. 2, 2009, 1-29 55 Bonchi, F.; Castillo, C.; Gionis, A. & Jaimes, A.: Social Network Analysis and Mining for Business Applications. ACM Trans. Intell. Syst. Technol. 2 (3), 2011, 22:1-22:37 56 Hammwöhner, R.: Qualitätsaspekte der Wikipedia. Stegbauer, C.; Schmidt, J.; Schönberger, K. (Hg): Wikis: Diskurse, Theorien und Anwendungen. Sonderausgabe von kommunikation@gesellschaft, Vol. 8, 2007 (http://www.soz.uni-frankfurt.de/K.G/B3_2007_Hammwoehner.pdf; letzter Zugriff 28.08.2012) 57 Giles, G.: Internet encyclopaedias go head to head. Nature, Vol. 438 No. 7070, 2005, 900-901 58 Geist, Kathrin; Griesbaum, Joachim; Mahrholz, Nadine: User-generated content in web search: relevance and quality aspects of search results for education-related information needs. LWA 2012, IR-2012, September 12-14, Dortmund, 2012 59 Nentwich, Michael; König, René: Cyberscience 2.0. Research in the age of digital social networks. Frankfurt/New York: Campus Verlag 2012 60 Evans, Dave: Social Media Marketing. The Next Generation of Business Engagement. Indianapolis: Wiley 2010 61 Blömeke, Eva; Braun, Alexander; Clement, Michel: Kundenintegration in die Wertschöpfung am Beispiel des Buchmarkts. Walsh, Gianfranco; Kilian, Thomas; Hass, Berthold H. (Hg.): Web 2.0. Neue Perspektiven für Marketing und Medien. 2. Aufl. Berlin, Heidelberg: Springer, 2011, 253-266 62 Back, Andrea; Gronau, Norbert; Tochtermann, Klaus: Web 2.0 in der Unternehmenspraxis: Grundlagen, Fallstudien und Trends zum Einsatz von Social Software. München: Oldenbourg Wissenschaftsverlag 2008 63 Leggewie, Claus: Deliberative Demokratie – Von der Politik zur Gesellschaftsberatung (und zurück). Handbuch Politikberatung 2006, Teil I, 152-160
Jens Klump, Roland Bertelmann
D 8 Forschungsdaten In den vergangenen Jahren war immer wieder die Rede von einer Flut von Daten, deren Bewältigung die Wissenschaft vor immer neue Herausforderungen stellen werde (Lit. 01, Lit. 02). In der Tat hat die schnell wachsende Verfügbarkeit von Daten, Speicher- und Rechenkapazität dazu geführt, dass sich heute neben Empirie, Theorie und Simulation nun auch die Untersuchung großer Datenbestände zu einem eigenen Forschungsansatz entwickelt (Lit. 03). Big Data hat sich dabei schnell als treffendes Bild für umfangreiche Volumina etabliert. In vielen Fällen sind die Datenvolumen allerdings vergleichsweise gering, viele Datenbanken sind nur einige Gigabyte groß und wurden daher oft small data genannt (Lit. 04, Abbildung 1). Es ist jedoch nicht die schiere Masse der Daten, sondern die Tatsache, dass Daten die Grundlage für neue Erkenntnisse bieten, weshalb dieser neue Ansatz auch data intensive science (Lit. 05) oder data driven science genannt wird.
Volumen
Big Data
Small Data
Anzahl Abb. 1: Die Anzahl der Datensätze des „Big Data“ ist klein, die meisten Forschungsdaten sind „Small Data“.
In einer Reihe von Veröffentlichungen und Positionspapieren haben Forscher (Lit. 06, Lit. 07, Lit. 08), Fachgesellschaften (Lit. 09), Fachzeitschriften und Wissenschaftsorganisationen (Lit. 10, Lit. 11. Lit. 12) auf die Bedeutung von Forschungsdaten für das Erlangen neuer wissenschaftlicher Erkenntnisse hingewiesen. Zwar stellen sie die empirische Grundlage des wissenschaftlichen Prozesses dar, dennoch führten sie in den vergangenen zwei Jahrzehnten ein Schattendasein in der wissenschaftlichen Kommunikation und -überlieferung. War es bis in die achtziger Jahre des 20. Jahrhunderts noch üblich Daten als Tabellen in wissenschaftlichen Veröffentlichungen abzudrucken, so führte die enorme Zunahme der verwendeten Daten und der veröffentlichten Fachartikel sowie eine veränderte Publikationskultur dazu, dass kaum noch Daten zusammen mit dem sie interpretierenden Text veröffentlicht wurden (Lit. 13, Lit. 14). Zudem besteht im Zeitalter digitaler Medien nicht mehr die Notwendigkeit, papierbasierte Medien digital zu emulieren (Lit. 15). Ausgehend von der Prämisse, dass Forschungsdaten nachgenutzt werden sollen, wollen wir in diesem Kapitel den Lebenszyklus der Daten vom Zeitpunkt der erneuten Nutzung bis zu ihrer Entstehung zurückverfolgen. Unser Modell des Datenlebenszyklus orientiert sich am Modell, das von DataONE veröffentlicht wurde (Lit. 16). Abbildung 2 illustriert aus der Sicht des Forschers wie verschiedene Phasen des Lebenszyklus von Forschungsdaten aufeinander folgen. Die hier benannten Phasen sind die Kernbereiche des Umgangs mit Forschungsdaten und sind Grundlage der Gliederung dieses Kapitels. Nachfolgend werden wir den Umgang mit Forschungsdaten von der Suche nach Daten (discovery) aus entlang dieses Referenzmodells zurückverfolgen. Es sei an dieser Stelle auch angemerkt, dass der Umgang mit Forschungsdaten sich inzwischen zu einem eigenen Arbeits-
576
D 8: Jens Klump, Roland Bertelmann
feld entwickelt hat, so dass dieses Kapitel nur einen Überblick bieten kann. Wir verweisen daher auf die Literatur für weiterführende Information (z. B. Lit. 17, Lit. 18). Plan Analyze
Collect
Integrate
Assure
Discover
Describe Preserve
Abb. 2: Phasen des Lebenszyklus von Forschungsdaten aus der Perspektive des Forschers. Das hier abgebildete Schema wird im Projekt DataONE als Referenzmodell des Datenlebenszyklus verwendet (Lit. 16).
D 8.1 Daten entdecken Entscheidend für den Zugang zu Forschungsdaten mit dem Ziel der Nachnutzung ist die Definition des Nutzungsszenarios und der Nutzergruppe (Lit. 19). In Bezug auf die Nachnutzung von Forschungsdaten können vier grundsätzliche Nutzungsszenarien unterschieden werden. Sie orientieren sich am primären Ziel der Datenhaltung (Dokumentation ↔ Nachnutzung) und der Zielgruppe (intern ↔ extern) (Lit. 20). Insbesondere in einem Szenario, in dem Daten extern nachgenutzt werden sollen, muss ein hoher Aufwand betrieben werden, diese Daten zu beschreiben und sie über Literatur, Datenportale und Kataloge findbar zu machen (Metadaten). Unterschieden wird hier zwischen Metadaten, die der Findbarkeit in Katalogen dienen (discovery metadata), und Metadaten mit detaillierten fachlichen Attributen zur tieferen Erschließung und Nachnutzung (re-use metadata). Für die reine Verbreitung von Metadaten in Katalogen und Portalen hat, auf Grund seiner Robustheit und inhaltlichen Flexibilität, das OAI-PMH Protokoll inzwischen eine weite Verbreitung gefunden (Lit. 21, Lit. 22). Eine wichtige Komponente für die Nachnutzung von Daten ist der Einsatz von persistenten Identifikatoren, denn sie erlauben es, einen Datensatz eindeutig zu identifizieren und, wenn die Identifikatoren mit einem Auflösungsdienst verbunden sind, den Datensatz im Internet dauerhaft zu finden (Lit. 23). Diese eindeutige Referenzierung ermöglicht es auch, Datensätze analog und als Ergänzung zur wissenschaftlichen Literatur zu zitieren (Lit. 24, Lit. 25). Mit der Vergabe von Identifikatoren für Forschungsdaten und der Sicherstellung ihrer langfristigen Auflösbarkeit kann hier auch ein neues Aufgabenfeld für akademische Bibliotheken entstehen, die als Dienstleister und als Gedächtnisorganisation die Veröffentlichung und die dauerhafte Verfügbarkeit von Daten (deren Langzeitarchivierung) unterstützen können (Lit. 13, Lit. 26). Diese neuen Aufgaben werden auch eine Weiterentwicklung der Qualifikationen der Mitarbeiter in den Bibliotheken erfordern und möglicherweise neue Berufsfelder an der Schnittstelle zwischen Datenproduzenten und Bibliotheken hervorbringen (Lit. 27).
D 8: Forschungsdaten
577
Eng verbunden mit der Findbarkeit von Daten ist deren Verfügbarkeit. Forschungsdaten sind Teil der wissenschaftlichen Überlieferung, komplementär zur Literatur, in der sie interpretiert werden. Entsprechend forderte die „Berliner Erklärung über offenen Zugang zu wissenschaftlichem Wissen“, dass analog zur wissenschaftlichen Literatur auch die Daten, die Grundlage einer Veröffentlichung waren, zugänglich gemacht werden sollen (Lit. 28). Mit dem Ziel, Daten aus öffentlich geförderter Forschung zugänglich zu machen, veröffentlichte 2006 die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) eine entsprechende Empfehlung an ihre Mitglieder (Lit. 29). Diese schloss den Auftrag an ihre Mitglieder ein, diese Empfehlung in nationale Gesetzgebung zu überführen. Dieser von oben verordnete Ansatz steht im Gegensatz zu anderen Open Data Initiativen (siehe C 2 Open Access/Open Content, C 7 Web Science), da die Motive der Akteure in Open Data Initiativen und bei Open Access zu Forschungsdaten sehr verschieden liegen (Lit. 30, Lit. 31).
D 8.2 Daten erhalten Digitale Forschungsdaten unterscheiden sich nicht grundsätzlich von anderen digitalen Objekten. Kennzeichnend für den Umgang mit Forschungsdaten ist die große Vielfalt der Formate und Strukturen, in denen Forschungsdaten entstehen (Lit. 32). Die beiden wichtigsten Hürden, die einer Nachnutzung der Daten im Weg stehen, sind hier der Verlust des Kontexts und das Veralten eines Dateiformats. Beide Probleme sind miteinander verbunden, denn mit dem Verlust des Kontexts geht auch oft das Wissen über die Entstehung, die Verwendung eines Datensatzes und seines Formats verloren. Auch hier helfen persistente Identifikatoren und Techniken des Semantic Web (siehe B 7 Semantic Web und Linked Open Data), diesen Kontext zu erhalten (Lit. 33). Das Bewahren der Kontext- und Nutzungsinformationen wiederum basiert auf einem Bitstrom, dem eigentlichen digitalen Objekt. Diesen Komplex aus digitalem Objekt und seinen zugehörigen Kontext- und Nutzungsinformationen zu erhalten, ist die Aufgabe von Archivsystemen, deren Systematik z. B. im Open Archival Information Systems Referenzmodell (OAIS) beschrieben ist (Lit. 34). Ausgehend von diesem Referenzmodell sind in den vergangenen Jahren viele weitergehende Arbeiten entstanden. Für die Integrität der wissenschaftlichen Überlieferung ist dabei entscheidend, dass die Daten, wie ja auch in der „Berliner Erklärung“ gefordert, in einem vertrauenswürdigen Archiv vorgehalten werden (Lit. 35; vgl. D 4 Langzeitarchivierung).
D 8.3 Daten beschreiben Daten ohne Beschreibung sind für eine Nachnutzung weitgehend unbrauchbar. Dieser Mangel wird umso deutlicher, je weiter (räumlich, zeitlich, fachlich) der Datenkonsument vom Kontext der Entstehung der Daten entfernt ist. Metadaten, die formale Beschreibung eines Datensatzes, sind ein Thema das immer wieder hitzige Debatten heraufbeschwören kann, denn es gibt viele Wege, einen Datensatz mit Attributen zu versehen (vgl. B 2 Metadaten). Wie bereits erwähnt, muss hier grundsätzlich unterschieden werden zwischen Metadaten, die der Findbarkeit in Katalogen und Portalen dienen, und Metadaten mit detaillierten fachlichen Attributen, mit denen die Nachnutzbarkeit der Daten unterstützt wird. Bei Metadaten, die der Findbarkeit von Daten in Katalogen und Portalen dienen, reicht in vielen Fällen bereits ein einfaches bibliographisches Schema, wie zum Beispiel Dublin Core oder DataCite (Lit. 36). Teilweise haben sich bereits Standards etabliert, wie zum Beispiel ISO 19115 für georeferenzierte Daten (Lit. 37). Möglich ist dabei auch, einen Datensatz mit verschiedenen Metadatenprofilen zu beschreiben, denn je nach vorgesehener Anwendung können sehr unterschiedliche Metadaten-Elemente zur Beschreibung relevant sein (Lit. 38). Dabei fällt auf, dass neben einer syntaktischen auch eine semantische Interoperabilität notwendig ist (z. B. Lit. 39, Lit.
578
D 8: Jens Klump, Roland Bertelmann
40). Für deren Möglichkeiten und Grenzen verweisen wir auf B 7 Semantic Web und Linked Open Data. Nachnutzung von Forschungsdaten setzt Vertrauen in die Quellen voraus. Während es seit langem Teil der Ausbildung ist, die Glaubwürdigkeit von Literatur einschätzen zu lernen, herrscht in Bezug auf die Qualität von Forschungsdaten noch Unsicherheit (Lit. 41). Vertrauenswürdigkeit bedeutet hier nicht Rechtssicherheit, sondern ist vielmehr eine subjektive Einschätzung der Nutzbarkeit im Sinne der Definition von Qualität im Standard ISO 9000 (Lit. 42, Lit. 43). Dies beinhaltet aber auch Vertrauen in den Entstehungsprozess der Daten (Lit. 43). Zusammen mit der Vielfalt, mit der Daten strukturiert und beschrieben werden können, gibt es eine ebenso große Zahl an Möglichkeiten, die Qualität dieser Daten und ihrer Metadaten zu beschreiben. Vereinzelt gibt es bereits Beschreibungsmetriken für die Qualität von Forschungsdaten. Es besteht jedoch noch Forschungsbedarf.
D 8.4 Forschungsdaten verwalten Der aufwendigste und teuerste Schritt ist, Forschungsdaten in eine Forschungsdateninfrastruktur zu überführen. In Fällen, in denen Daten automatisiert entstehen, zum Beispiel in Messnetzen oder in Simulationen, ist es relativ leicht, die Metadaten im Entstehungsprozess der Daten gleich mit zu erzeugen. Sehr viel schwieriger ist es, die große Anzahl der Datensätze des small data zu erfassen (Lit. 04). Zwar stellt das Datenvolumen keine Herausforderung dar, jedoch sind die Datenstrukturen heterogen, die Metadaten können nicht ohne weiteres automatisch erzeugt werden. Gerade an der Schnittstelle zwischen dem Arbeitsbereich eines einzelnen Wissenschaftlers oder einer Forschergruppe und einer Forschungsdateninfrastruktur wird deutlich sichtbar, dass die Anforderungen vielseitiger kaum sein können. Treloar u. a. (Lit. 44) nennen dies das data curation continuum. Ein Kontinuum lässt sich jedoch organisatorisch nicht handhaben, deswegen schlagen Treloar u. a. vor, dieses Kontinuum in Domänen zu gliedern, in denen jeweils andere Akteure die Verantwortung für die Daten übernehmen. Die Anzahl der Domänen richtet sich nach den örtlichen Gegebenheiten, eine Aufteilung in vier Domänen (siehe Abbildung 3) erwies sich bisher als ein Konzept, dass den Gegebenheiten in vielen Forschungseinrichtungen gerecht wird.
Private Domäne
Transfer
Einfache Metadaten
GruppenDomäne
Transfer
Dauerhafte Domäne
ZugangsDomäne
Veröffentlichung
Angereicherte Metadaten
Abb. 3: Vorschlag zur Gliederung des Data Curation Continuum nach Treloar et al. (Lit. 44) in Zuständigkeitsdomänen (Lit. 45)
D 8: Forschungsdaten
579
Zu diesem Zeitpunkt ist es auch bereits angebracht, eine Richtungsentscheidung zur Lizenzierung von Forschungsdaten zu fällen (vgl. C 8 Lizenzierungsformen), denn eine spätere Änderung der Nutzungsbedingungen kann sehr aufwendig sein. Die Wahl einer ungeeigneten – meist zu restriktiven – Lizenz kann die Nachnutzbarkeit von Forschungsdaten erheblich erschweren (Lit. 46, Lit. 47, Lit. 48, Lit. 49). Leider ist der urheberrechtliche Status von Forschungsdaten noch unklar (Lit. 50). Zudem ist der Prestigegewinn, den ein Wissenschaftler durch sorgfältige Verwaltung seiner Daten erzielen kann, nur gering im Vergleich zu Veröffentlichungen. Folglich ist, ungeachtet aller bestehenden Vorgaben, seine Motivation zur systematischen Verwaltung seiner Daten gering (Lit. 31, Lit. 51).
D 8.5 Umgang mit Forschungsdaten planen Als Konsequenz aus einer Reihe von Wissenschaftsskandalen in den 1990er Jahren veröffentlichte die DFG „Regeln für eine gute wissenschaftliche Praxis“ (Lit. 52), die in weitgehend ähnlichen Formen von den anderen deutschen Wissenschaftsorganisationen und den Hochschulen übernommen wurden. In Abschnitt 7 „Primärdaten“ verlangt die DFG die Sicherung von Forschungsdaten: „Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.“ (Lit. 52)
Das Ziel dieser Empfehlung war jedoch nur die Beweissicherung, die Nachnutzbarkeit dieser Daten wurde nicht thematisiert. Wie bereits erwähnt, veröffentlichte die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) 2006 eine Empfehlung an ihre Mitglieder über den Umgang mit Daten aus öffentlich geförderter Forschung (Lit. 29). In der Folge modifizierte die DFG ihre Vergaberichtlinien und ihren Leitfaden für Antragsteller (Lit. 53). Seit 2011 werden Antragsteller aufgefordert, einen Plan vorzulegen, welche Daten im Projekt erhoben werden und wie diese Daten für eine Nachnutzung bereitgestellt werden sollen. Da es sich noch um eine neue Entwicklung handelt, liegen noch keine gesicherten Erfahrungen aus der Praxis vor. Es kann jedoch davon ausgegangen werden, dass es hier noch lange deutliche Unterschiede in der jeweiligen Praxis der Wissenschaftsdisziplinen geben wird (Lit. 54, Lit. 55).
D 8.6 Datenintegration und Analyse – Daten-getriebene Forschung Bei der Datenintegration und Analyse überschneiden sich die oben geschilderten Aspekte des Umgangs mit Forschungsdaten, denn Integration und Analyse größerer Datenbestände ist nur möglich, wenn die Daten auffindbar sind und auch zur Verfügung stehen. Anhand der Metadaten, die im Verlauf des Datenlebenszyklus immer weiter angereichert werden, kann der Forscher eine Entscheidung treffen, ob die gefundenen Daten für ihn brauchbar sind. Metadaten können auch Auskunft über die Qualität und Vertrauenswürdigkeit der Daten geben. Der wissenschaftliche Mehrwert ergibt sich jedoch nicht aus Datenobjekten und dazugehörigen Metadaten, sondern aus deren Interpretation. Die Entwicklung der Informationstechnologie erlaubt es heute, auch große Datenmengen explorativ zu erforschen und aus den erkannten Mustern immer neue Hypothesen an den Daten zu formulieren und zu überprüfen (Lit. 03). Solche Datengetriebenen Ansätze werden zunehmend angewandt, um komplexe Systeme und Prozesse besser zu verstehen. Grundidee der Daten-getriebenen Forschung ist, aus vorhandenen Daten möglichst umfassend all die Information zu extrahieren, die für die Lösung einer bestimmten Fragestellung hilfreich ist. Mit Hilfe eines umfangreichen Methodenrepertoires sollen Muster und Zusammenhänge in den Daten erkannt und extrahiert werden, um daraus Hypothesen zu generieren oder zu
580
D 8: Jens Klump, Roland Bertelmann
verifizieren. „Let the data speak“ ist der Grundgedanke des Daten-getriebenen Ansatzes. Ob es sich hier um ein neues Paradigma in der Forschung handelt (Lit. 02, Lit. 03) oder ob die Informationstechnologie nur neue und sehr leistungsfähige Werkzeuge bereitstellt, die den bisherigen Methodensatz erweitern, wird derzeit noch debattiert. Absehbar ist allerdings, dass Wissenschaft ohne Anwendung solcher Werkzeuge sowohl auf Texte als auch auf Forschungsdaten mittelfristig allein aufgrund der Menge der zu verarbeitenden Quellen vor großen Herausforderungen steht (vgl. B 4 Text Mining und Data Mining).
D 8.7 Zusammenfassung und Ausblick Auffallend beim Umgang mit Forschungsdaten ist deren große Vielfalt (Lit. 32). Die Entwicklung des Internets und der Informationstechnologie in den vergangenen zwanzig Jahren haben dazu geführt, dass in ungeahntem Maß Forschungsdaten erhoben, produziert und ausgetauscht werden (Lit. 01, Lit. 02). Ein Buchkapitel über den Umgang mit Forschungsdaten kann das Thema daher nur kurz beleuchten und auf die weiterführende Literatur verweisen (z. B. Lit. 09, Lit. 17, Lit. 18). Bisher war der Umgang mit Forschungsdaten dort am weitesten entwickelt, wo in kollaborativen Strukturen gearbeitet wurde (Lit. 32). Die hier stattfindende Entwicklung von Virtuellen Forschungsumgebungen (VRE) wird sich mit der Zeit auch in andere Forschungsgebiete ausbreiten. Die Datenmanagement-Werkzeuge der Zukunft werden allerdings nicht mehr die monolithischen Anwendungen von heute sein, sondern modular auf Dateninfrastrukturen aufbauen (Lit. 38, Lit. 51). Eine Modularisierung der Datenmanagement-Werkzeuge – oder auch „Appification“ aus der Sicht der Forscher – wird zu einer engeren Verzahnung des Datenmanagements mit der wissenschaftlichen Arbeit führen und damit den Umgang mit Forschungsdaten merklich erleichtern und verbessern. Gleichzeitig mit der zunehmenden Verbreitung und Nachnutzung von Forschungsdaten nimmt auch das Bewusstsein für den Wert von Forschungsdaten als Grundlage der Wissenschaft zu. Forschungsförderer verlangen von ihren Zuwendungsempfängern Datenmanagementpläne, auch Fachzeitschriften haben den Wert von Daten erkannt und sehen zugängliche Forschungsdaten als Mehrwert zu den veröffentlichten Artikeln. Schon jetzt zeigt sich, dass Artikel, deren Daten frei zugänglich sind, häufiger und über einen längeren Zeitraum zitiert werden als Artikel bei denen die Daten nicht zugänglich sind (Lit. 56, Lit. 57, Lit. 58, Lit. 59). Erst die Integration des Forschungsdatenmanagements in das Wertesystem der Wissenschaft, verbunden mit attraktiven technischen und organisatorischen Angeboten, wird dazu führen, dass der Umgang mit Forschungsdaten verbessert wird, so dass diese auch langfristig zur Nachnutzung zur Verfügung stehen. Schon heute wird sichtbar, welches Potenzial in der Synthese und Neuanalyse von bereits vorhandenen Daten steckt. Zusätzlich wird es einfacher werden, veröffentlichte Forschungsergebnisse nachzuvollziehen, wodurch sowohl der Erkenntnisgewinn als auch die Integrität der Forschung an Qualität gewinnen werden. Diese Entwicklung vollzieht sich heute noch langsam, wird sich aber mit der Zeit durch eine Verbesserung der Rahmenbedingungen weiter beschleunigen.
Literatur 01 Hey, T.; Trefethen, A.: e-Science and its implications. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 361, 1809-1825 (doi:10.1098/rsta.2003.1224) 02 Szalay, A; Gray, J: 2020 Computing: Science in an exponential world. Nature 440, 413-414, 2006 (doi:10.1038/440413a) 03 Hey, T; Tansley, S; Tolle, K (editors): The Fourth Paradigm: Data-Intensive Scientific Discovery. 1.1 Ausgabe. Redmond, WA: Microsoft Research. 287 S., 2009 (http://research.microsoft.com/en-us/ collaboration/fourthparadigm/)
D 8: Forschungsdaten
581
04 Onsrud, HJ; Campbell, J: Big opportunities in access to ‘small science’ data. DSJ 6: OD58-OD66, 2007 (doi:10.2481/dsj.6.OD58) 05 McNally, R; Mackenzie, A; Hui, A; Tomomitsu, J: Understanding the ‘Intensive’ in ‘Data Intensive Research’: Data Flows in Next Generation Sequencing and Environmental Networked Sensors. IJDC 7: 81-94, 2012 (doi:10.2218/ijdc.v7i1.216) 06 Baggerly, K: Disclose all data in publications. Nature 467: 401, 2010 (doi:10.1038/467401b) 07 Hanson, B; Sugden, A; Alberts, B: Making Data Maximally Available. Science 331: 649, 2011 (doi:10.1126/ science.1203354) 08 Sommer, J: The delay in sharing research data is costing lives. Nature Medicine 16: 744, 2010 (doi:10.1038/nm0710-744) 09 Royal Society: Science as an open enterprise. London, Großbritannien: The Royal Society, 2012 (http:// royalsociety.org/policy/projects/science-public-enterprise/report/) 10 Allianzinitiative Digitale Information: Grundsätze zum Umgang mit Forschungsdaten. Bonn: Allianz der deutschen Wissenschaftsorganisationen, 2010 (http://www.allianzinitiative.de/de/handlungsfelder/ forschungsdaten/grundsaetze/) 11 DFG: Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten. Bonn: Deutsche Forschungsgemeinschaft 2009 (http://www.dfg.de/forschungsfoerderung/ wissenschaftliche_infrastruktur/lis/veroeffentlichungen/dokumentationen/download/ua_inf_ empfehlungen_200901.pdf) 12 Mervis, J: NSF to Ask Every Grant Applicant for Data Management Plan – ScienceInsider. Science Insider. 2010 (http://news.sciencemag.org/scienceinsider/2010/05/nsf-to-ask-every-grant-applicant.html) 13 Klump, J; Bertelmann, R; Brase, J; Diepenbroek, M; Grobe. H et al.: Data publication in the Open Access Initiative. Data Science Journal 5: 79-83, 2006 (doi:10.2481/dsj.5.79) 14 Staudigel, H; Helly, J; Koppers, A; Shaw. H; McDonough, WF et al.: Electronic data publication in geochemistry. Geochemistry, Geophysics, Geosystems – G (super 3) 4: 17, 2003 (doi:10.1029/2002GC000314) 15 Klump, J; Bertelmann, R: Mehr als nur die Emulation von Papier. eScience & Forschungsdatenmanagement. Potsdam: Fachhochschule Potsdam, 2010 (http://informationswissenschaften.fh-potsdam. de/abstracts.html#c13827) 16 Strasser, C; Cook, R; Michener, W; Budden, A: DataONE Primer on Data Management. Albuquerque, NM: University of New Mexico, 2012 (http://www.dataone.org/sites/all/documents/DataONE_BP_ Primer_020212.pdf) 17 Neuroth, H; Strathmann, S; Oßwald, A; Scheffel, R; Klump, J et al. (Hrsg.): Langzeitarchivierung von Forschungsdaten – Eine Bestandsaufnahme. Boizenburg: Verlag Werner Hülsbusch. 378 S., 2012 (http:// nestor.sub.uni-goettingen.de/bestandsaufnahme) 18 Büttner; S, Hobohm; H-C, Müller; L (editors): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herrchen, 2011 (http://opus.kobv.de/fhpotsdam/volltexte/2011/241/pdf/HandbuchForschungsdatenmanagement.pdf) 19 Parsons, MA; Duerr, R: Designating user communities for scientific data: challenges and solutions. Data Science Journal 4: 31-38, 2005 (doi:10.2481/dsj.4.31) 20 Ludwig, J: Infrastruktureinrichtungen und Forschungsdaten: Sichtweise und Service, 2012 (http://www. tmf-ev.de/DesktopModules/Bring2mind/DMX/Download.aspx?EntryId=17025&PortalId=0) 21 Devarakonda, R; Palanisamy, G; Green, J; Wilson, B: Data sharing and retrieval using OAI-PMH. Earth Science Informatics: 1-5, 2010 (doi:10.1007/s12145-010-0073-0) 22 Van de Sompel, H; Nelson, ML; Lagoze, C; Warner, S: Resource Harvesting within the OAI-PMH Framework. D-Lib Magazine 10: 18, 2004 (doi:10.1045/december2004-vandesompel) 23 Simons, N: Implementing DOIs for Research Data. D-Lib 18. 2012 (doi:10.1045/may2012-simons) 24 Ball, A; Duke, M: How to Cite Datasets and Link to Publications. Edinburgh, Großbritannien: Digital Curation Centre, 2012 (http://www.dcc.ac.uk/resources/how-guides/cite-datasets) 25 Repository evaluation, selection, and coverage policies for the Data Citation Index within Thomson Reuters Web of Knowledge (2012). Philadelphia, PA: Thomson Reuters (http://wokinfo.com/media/pdf/
582
D 8: Jens Klump, Roland Bertelmann
DCI_selection_essay.pdf) 26 Smith, M: Communicating with data: new roles for scientists, publishers and librarians. Learned Publishing 24: 203-205, 2011 (doi:10.1087/20110308) 27 Auckland, M: Re-skilling for Research. London, Großbritannien: Research Libraries UK, 2012 (http://www. rluk.ac.uk/files/RLUK%20Re-skilling.pdf) 28 Berlin Declaration: Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, 2003 (http://oa.mpg.de/lang/en-uk/berlin-prozess/berliner-erklarung/) 29 OECD: Recommendation of the Council concerning Access to Research Data from Public Funding. Paris, Frankreich: Organisation for Economic Co-operation and Development, 2006 30 Klump, J: Offener Zugang zu Forschungsdaten: Open Data und Open Access to Data – Die ungleichen Geschwister. Herb, U (Hrsg.), Open Initiatives: Offenheit in der digitalen Welt und Wissenschaft. Saarbrücken: universaar, 45-53, 2012 (http://nbn-resolving.de/urn:nbn:de:bsz:291-universaar-873) 31 Borgman, CL: The Conundrum of Sharing Research Data. Journal of the American Society for Information Science and Technology 63: 1059-1078, 2012 (http://papers.ssrn.com/sol3/papers.cfm?abstract_ id=1869155) 32 Ludwig, J: Zusammenfassung. Neuroth, H; Strathmann, S; Oßwald, A; Scheffel, R; Klump, J et al. (Hrsg.), Langzeitarchivierung von Forschungsdaten – Eine Bestandsaufnahme. Boizenburg: Verlag Werner Hülsbusch. 295-310, 2012 (http://www.nestor.sub.uni-goettingen.de/bestandsaufnahme/kapitel/ nestor_bestandsaufnahme_015.pdf) 33 Pepe, A; Mayernik. M; Borgman, CL; Van de Sompel, H: From Artifacts to Aggregations: Modeling Scientific Life Cycles on the Semantic Web. JASIST: 28, 2009 (http://arxiv.org/abs/0906.2549v3) 34 CCSDS: Reference Model for an Open Archival Information System (OAIS). Magenta Book. Recommended Practice. Greenbelt, MD: Consultative Committee for Space Data Systems, 2012 (http://public.ccsds.org/ publications/archive/650x0m2.pdf) 35 Klump, J: Criteria for the Trustworthiness of Data Centres. D-Lib Magazine 17, 2011 (doi:10.1045/ january2011-klump) 36 Starr, J; Gastl, A: isCitedBy: A Metadata Scheme for DataCite. D-Lib Magazine 17, 2011 (doi:10.1045/ january2011-starr) 37 Shaon, A; Woolf, A: Long-term Preservation for Spatial Data Infrastructures: a Metadata Framework and Geo-portal Implementation. D-Lib Magazine 17, 2011 (doi:10.1045/september2011-shaon) 38 Razum, M; Schwichtenberg, F; Wagner, S; Hoppe, M: eSciDoc Infrastructure: A Fedora-Based e-Research Framework. Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science. Heidelberg: Springer Verlag, Bd. 5714, 227-238. 2009 (doi:10.1007/978-3-642-04346-8_23) 39 Hughes, S; Crichton, D; Kelly, S; Mattmann, CA; Crichton, J et al.: Intelligent resource discovery using ontology-based resource profiles. Data Science Journal 4: 171-188, 2005 (doi:10.2481/dsj.4.171) 40 Hall, W; De Roure, D; Shadbolt, N: The evolution of the Web and implications for eResearch. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 367: 991-1001, 2009 (doi:10.1098/rsta.2008.0252) 41 Kaiser, J: Data Integrity Report Sends Journals Back to the Drawing Board. Science 325: 381, 2009 (doi:10.1126/science.325_381) 42 ISO 9000:2000: Quality management systems – Fundamentals and vocabulary. Standard. Genf, Schweiz: International Organization for Standardization (ISO). (http://www.iso.org/iso/iso_catalogue/catalogue_ ics/catalogue_detail_ics.htm?csnumber=29280) 43 Lee, YW; Strong, DM; Kahn, BK; Wang, RY: AIMQ: a methodology for information quality assessment. Information & Management 40: 133-146, 2002 (doi:10.1016/S0378-7206(02)00043-5) 44 Treloar, A; Groenewegen, D; Harboe-Ree, C: The Data Curation Continuum – Managing Data Objects in Institutional Repositories. D-Lib Magazine 13: 13 (doi:10.1045/september2007-treloar) 45 Klump, J: Langzeiterhaltung digitaler Forschungsdaten. Büttner, S; Hobohm, H-C; Müller, L (Hrsg.), Handbuch Forschungsdatenmanagement. Bad Honnef, Germany: Bock + Herrchen, 115-122, 2011 (http:// nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:kobv:525-opus-2339) 46 Klimpel, P: Folgen, Risiken und Nebenwirkungen der Bedingung „nicht-kommerziell – NC“. Berlin:
D 8: Forschungsdaten
583
Wikimedia Deutschland, 2012 (http://irights.info/userfiles/CC-NC_Leitfaden_web.pdf) 47 Ball, A: How to License Research Data. Edinburgh, Großbritannien: Digital Curation Centre, 2011 (http:// www.dcc.ac.uk/resources/how-guides/license-research-data) 48 Rees, J: Recommendations for independent scholarly publication of data sets. San Francisco, CA: Creative Commons, 2010 (http://neurocommons.org/report/data-publication.pdf) 49 Hrynaszkiewicz, I; Cockerill, MJ: Open by default: a proposed copyright license and waiver agreement for open access research and data in peer-reviewed journals. BMC Research Notes 5: 494, 2012 (doi:10.1186/1756-0500-5-494) 50 de Cock Buning, M; van Dinther, B; Jeppersen de Boer, C, Ringnalda, A: The legal status of research data in the Knowledge Exchange partner countries. Kopenhagen, Dänemark: Knowledge Exchange, 2011 (http://www.knowledge-exchange.info/Default.aspx?ID=461) 51 Feijen, M: What researchers want. Utrecht, The Netherlands: SURFfoundation, 2011 (http://www. surffoundation.nl/en/publicaties/Pages/Whatresearcherswant.aspx) 52 DFG: Sicherung guter wissenschaftlicher Praxis. Bonn: Deutsche Forschungsgemeinschaft, 1998 (http:// www.dfg.de/aktuelles_presse/reden_stellungnahmen/download/empfehlung_wiss_praxis_0198.pdf) 53 DFG: Merkblatt für Anträge auf Sachbeihilfen mit Leitfaden für die Antragstellung und ergänzenden Leitfäden für die Antragstellung für Projekte mit Verwertungspotenzial, für die Antragstellung für Projekte im Rahmen einer Kooperation mit Entwicklungsländern. Bonn: Deutsche Forschungsgemeinschaft (DFG). 2010 (http://www.dfg.de/download/formulare/1_02/1_02.pdf) 54 Tenopir, C; Allard, S; Douglass, K; Aydinoglu, AU; Wu, L et al.: Data Sharing by Scientists: Practices and Perceptions. PLoS ONE 6: e21101 (doi:10.1371/journal.pone.0021101) 55 Piwowar, HA: Who Shares? Who Doesn’t? Factors Associated with Openly Archiving Raw Research Data. PLoS ONE 6: e18657. 2011 (doi:10.1371/journal.pone.0018657) 56 Sears, JR: Data Sharing Effect on Article Citation Rate in Paleoceanography. EOS, Transactions, American Geophysical Union 92: IN53B-1628, 2011 (http://adsabs.harvard.edu/abs/2011AGUFMIN53B1628S) 57 Henneken, EA; Accomazzi, A: Linking to Data – Effect on Citation Rates in Astronomy. arXiv:11113618, 2011 (http://arxiv.org/abs/1111.3618) 58 Botstein, D: It’s the Data! Molecular Biology of the Cell 21: 4-6, 2010 (doi:10.1091/mbc.E09-07-0575) 59 Piwowar, HA; Day, RS; Fridsma, DB: Sharing Detailed Research Data Is Associated with Increased Citation Rate. PLoS ONE 2: e308, 2007 (doi:10.1371/journal.pone.0000308)
Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
D 9 Lernen mit Medien D 9.1 Die Rolle von Medien für Lernen und Bildung Einen großen Teil unseres Wissens erwerben wir durch Medien: Bereits in der frühen Kindheit wachsen Kinder in einer arrangierten Umwelt auf, in der sie durch Objekte und Medien Informationen aufnehmen, sich Wissen erschließen und in eine Kultur hineinwachsen. Die Spieluhr bringt Melodien ins Ohr, Tiere und Puppen eignen sich für das Rollenspiel, Bücher transportieren Geschichten und Märchen. In jeder neuen Situation, mit denen Menschen konfrontiert werden, nehmen sie Informationen auf, die in vorhandene kognitive Schemata integriert werden oder diese erweitern. Die schulische Lernsituation, in der eine Lehrperson das Lernen organisiert und betreut, stellt im Vergleich dazu ein recht spezielles Lernarrangement dar, das freilich für viele komplexe Lernprozesse eine wichtige Unterstützung darstellt. Lernen mit Medien findet jedoch vom ersten Tag des Lebens immer und überall statt und dies vielfach ohne Anleitung. Der Begriff der Medien ist dabei vergleichsweise vage und basiert zunächst auf der Übermittlung von Informationen, die auf der Grundlage eines Zeichensystems (Sprache, Zahlen, Bild, Musik etc.) kodiert sind, von einem Sender zu einem Empfänger. Medien informieren und unterhalten. Medien haben darüber hinaus für das Lernen der Menschen, den Wissenserwerb und die Persönlichkeitsbildung eine wesentliche Bedeutung. In Anlehnung an die Dimensionen von Medienbildung von Schelhowe et al. (Lit. 13) können vier Lernprozesse im Umgang mit medial vermittelter Information beschrieben werden. Der erste Lernprozess behandelt das Lernen durch den einfachen Zugriff auf einzelne Nachrichten oder Faktenwissen. Beim zweiten Prozess geht es darum, dass didaktisch aufbereitete Information das Erlernen komplexer Sachverhalte ermöglicht und dadurch die Lernenden bereits in eine bestimmte Kultur hinein wachsen. Im dritten Lernprozess folgt die Sozialisation und Enkulturation der Nutzer und beim vierten Prozess tragen die Medien schließlich auch zur Identitäts- und Persönlichkeitsbildung von Menschen bei. Damit wird deutlich, dass der Umgang mit medial vermittelter Information als vielschichtiger Lern- und Entwicklungsprozess aufgefasst werden kann. Indem wir einem Medium aktiv Aufmerksamkeit schenken, entsteht die Bedeutung des Mediums. Nur durch die kognitive Re-Konstruktionsleistung des Nutzenden entsteht in der (medial übermittelten) Kommunikation Wissen. Durch interaktive und soziale Medien löst sich die starre Unterscheidung von Sender und Empfänger, wie wir sie bei den Massenmedien wie Zeitung und Fernsehen kennen, auf. Durch Bewertungen, Kommentare und eigene Beiträge entsteht eine bidirektionale Kommunikationsstruktur, die die Grenzen zwischen Medien der Massen- und Individualkommunikation auflöst. Dabei findet das Lernen mit Medien sowohl im Rahmen eines organisierten bzw. betreuten Lernangebotes oder – als informelles Lernen – selbstgesteuert und unbetreut, z. B. in der Freizeit oder am Arbeitsplatz statt. Eine Möglichkeit, formale Lernsettings mit digitalen Medien zu unterstützen, liegt im Einsatz von Lernplattformen, während informelle Lernprozesse vor allem im Kontext von Web 2.0-Plattformen im Internet relevant werden. Im Folgenden werden die Voraussetzungen und Möglichkeiten für formelles und informelles Lernen näher diskutiert. Zunächst soll jedoch die Frage gestellt werden, welcher (realistische) Mehrwert letztlich mit dem Einsatz dieser Medien für das Lernen und Bildung verbunden werden kann.
D 9.2 Mehrwert der digitalen Medien für das Lernen Welche Gründe sprechen für den Einsatz von digitalen Medien beim Lernen? Welche Vor- und Nachteile ergeben sich? Ist das Lernen mit digitalen Medien den traditionellen Verfahren überlegen? Diese Fragen haben in der Vergangenheit viele Forschungsprojekte motiviert. Mit jedem neuen Me-
D 9: Lernen mit Medien
585
dium steht die Wissenschaft vor der Herausforderung, diese (berechtigten) gesellschaftlichen Fragen beantworten zu können. Hierauf die richtigen Antworten zu geben ist nicht ganz einfach, nicht zuletzt weil die Fragen forschungsmethodisch schwierig zu untersuchen sind. Gleichwohl hat sich in der Mediendidaktik im Laufe der Jahrzehnte ein Konsens herausgebildet, wie der Stellenwert der Medien beim Lernen einzuschätzen ist. Grundlage dazu sind u. a. Metaanalysen, mit denen die vielen hundert Einzelstudien statistisch zusammengeführt werden, um die Effekte des mediengestützten Lernens abschätzen zu können (zusammenfassend in Lit. 07). In diesen Metaanalysen lässt sich ein schwacher Vorteil des Computereinsatzes für Lernzwecke belegen. Es hat sich gezeigt, dass der Erfolg oder Misserfolg des Angebotes von der didaktischen Konzeption abhängt. Es kommt nicht darauf an, Computer oder digitale Medien als solche einzuführen. Es kommt vielmehr darauf an, die Potenziale der digitalen Medien für bestimmte Formen des Lernens zu nutzen. Nicht die Medien selbst sind gut oder schlecht (geeignet) für das Lernen, sondern ihre Aufbereitung und ihre didaktisch adäquate oder angemessene Nutzung kann einen Mehrwert erzielen. Als Potenziale bzw. Mehrwerte digitaler Medien (vgl. Lit. 07) gelten: –– Flexiblere Lernorganisation: Digitale Medien ermöglichen eine höhere zeitlich-örtliche und soziale Flexibilität des Lernens. Es können neue Zielgruppen angesprochen und alternative Lernorte einbezogen werden. –– Kürzere Lernzeiten: Durch die individuelle Anpassung des Lerntempos und der Mediennutzung können sich im Durchschnitt einer Lerngruppe geringere Lernzeiten ergeben. Es kann allerdings auch zu erhöhten Abbruchquoten (Drop-Outs) beim Lernen mit Medien kommen, die diesen Vorteil relativieren. –– Situierte Lehr-Lernmethoden: Medien unterstützen –– die Anschaulichkeit und fördern damit die Anwendung, z. B. durch Bilder, Audio, Video, Simulationen, –– die kognitive und emotionale Aktivierung durch anspruchsvoll gestaltete Lernaufgaben wie Fälle, Probleme oder Projekte sowie die soziale Interaktion und den Austausch der Lernenden über das Internet. –– Geringere Kosten: Der Einsatz von Medien führt nicht als solcher zu einer Reduktion der Kosten, allerdings kann mit dem richtigen mediendidaktischen Konzept die Effizienz der Bildungsarbeit gesteigert werden.
D 9.3 Lernplattformen für didaktisch aufbereitete Lernarrangements In formalen Lehr-Lernsettings werden Materialien aller Art für das Lernen zumeist auf Lernplattformen (Learning Management Systemen: LMS) im Internet zur Verfügung gestellt. Die Lernumgebung soll zu bestimmten Lernaktivitäten anregen, die allein oder gemeinsam umzusetzen sind. Genau betrachtet sind traditionelle LMS eher Lehrplattformen, auf denen Lehrende die Aktivitäten von Lernenden organisieren. D 9.3.1 Zentrale Funktionen einer Lehr-Lernplattform Im Folgenden werden fünf zentrale Funktionen einer Lehr- bzw. Lernplattform beschrieben, bevor im Nachgang auf die Frage eingegangen wird, wie Inhalte (Content) in solchen Plattformen wiederverwertet werden können. Rollen einer sozialen Inszenierung zuweisen: Eine Lehrveranstaltung kann als soziale Inszenierung verstanden werden. Im LMS können einer (sozialen) Rolle, z. B. einer Person, bestimmte Rechte im System zugewiesen werden, die sich auf Aktionen beziehen, die mit Dokumenten verbunden sind: Lehrende dürfen etwa Dateien für Kurse einstellen, bearbeiten und löschen. Die Lernenden dürfen
586
D 9: Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
diese nur lesen. Sie dürfen Dokumente für ihre Arbeitsgruppe hochladen, aber nicht öffentlich machen usw. Aktivitäten von Akteuren organisieren: Bildungseinrichtungen strukturieren ihr Lernangebot zumeist als eine zeitliche Abfolge von Aktivitäten, die den Lernenden vorgeschlagen bzw. vorgeschrieben werden. Die pädagogische Expertise einer Einrichtung zeigt sich letztlich darin, dass sie über das (Erfahrungs-) Wissen verfügt, welche Lernaktivitäten in welcher Reihenfolge erforderlich sind, um ein bestimmtes Lernziel zu erreichen. Das LMS bietet ein Werkzeug, um (die Folge von) Lernaktivitäten mit unterschiedlichen Graden der Verbindlichkeit zu benennen und diese zu dokumentieren. Bei traditionellen didaktischen Ansätzen liefert das LMS ein eher einfaches zeitliches Korsett, in dem Termine vorgegeben sind, zu denen Lernaktivitäten ausgeführt sein sollen und Lernaufgaben (assignments) einzureichen sind. Bei anderen didaktischen Ansätzen wie dem problemorientierten oder kooperativen Lernen, organisieren die Lernenden ihre Lernaktivitäten in stärkerem Ausmaß selbst und müssen sich untereinander über den Fortgang der Arbeitsschritte verständigen. Eine Lehrperson kann hierbei als betreuende Person zur Seite stehen und hat etwa die Aufgabe, den Planungsprozess zu begleiten bzw. bestimmte Meilensteine abzunehmen. Lernmaterialien managen: Eine zentrale Funktion von LMS besteht darin, Lern- und Arbeitsmaterialien (Contents) ins Internet einzustellen und zugänglich zu machen. Bei Veranstaltungen, die wiederholt stattfinden, stehen Lehrende vor der Entscheidung, ob sie einen Kursraum einrichten, den sie in der Folge mehrfach nutzen, oder ob sie für jede Veranstaltung jeweils einen neuen Kursraum einrichten. Beide Varianten haben Vor- und Nachteile: Bei Nutzung des LMS für diskursive Lernaufgaben in Foren etc. wird die Lehrperson letztere Variante wählen, nicht zuletzt, um den Lernenden auch nach Ablauf der Veranstaltung ihren Kursraum zu überlassen. Wird mit jedem Durchgang ein neuer Kursraum eingerichtet, besteht beispielsweise das Problem, dass Erweiterungen und Veränderungen der Dokumente bzw. des Dokumentenpools nicht in den alten Kursräumen verfügbar sind. Die softwaretechnisch naheliegende Lösung, um auf solche Dokumente zuzugreifen, ist die Nutzung einer Datenbank, in der die Dokumente – unabhängig von der Lernplattform – eingestellt werden (Repository). Auf diese Weise lassen sich insbesondere Inhalte, die mehrfach eingesetzt werden, leichter verwalten und es lässt sich auch u. a. die Anzahl der Aufrufe von fremden Dokumenten, die den Verwertungsgesellschaften zu melden sind, leichter erfassen. Die Frage der Mehrfachnutzung von Lerninhalten in weiteren Kursen betrifft nicht nur einzelne Dokumente, sondern auch die Zusammenstellung und Sequenzierung von Lerninhalten. Wenn ich eine neue konkrete Lehrveranstaltung zu einem Thema aufsetze, zu dem ich bereits einen Onlinekurs erstellt habe, möchte ich auf die bereits erstellte Struktur zurückgreifen. Ein solcher Metakurs beinhaltet die Zusammenstellung von Materialien, die für die Erzeugung konkreter Kurse übernommen werden kann. Das Arbeiten mit solchen Metakursen innerhalb eines LMS, die die Wiederverwertung von Kursteilen unterstützen, ist in verfügbaren LMS vergleichsweise wenig ausgearbeitet. Sollen die Materialien bzw. die Zusammenstellung von Materialien auf anderen Plattformen wiederverwertet werden, kann auf entsprechende Standards für den Austausch von Lernobjekten zurückgegriffen werden. Durch die Möglichkeiten, die unter dem Label Web 2.0 diskutiert werden, ergeben sich neue Möglichkeiten und neue Fragen: Lern- und Arbeitsmaterialien liegen zunehmend nicht mehr auf einem zentralen Server sondern auf verschiedenen (teilweise öffentlichen) Servern im Internet und können in einer Webseite eingebunden werden. Für Lehrende stellt sich zunehmend die Frage, wo sie bestimmte Materialien einstellen sollen. Sie sind es in ihrem Alltag möglicherweise gewohnt, im Internet private Bilder einzustellen und ggf. Freunden und Familienmitgliedern zur Verfügung zu stellen. Das Gleiche gilt für Videos, Präsentationen, größere Dokumente, Kalender oder Ähnliches. Diese Server eigenen sich auch dafür, um Lernmaterialien bereitzustellen, die dann nicht mehr auf
D 9: Lernen mit Medien
587
Servern der Bildungseinrichtung vorgehalten werden (müssen). Damit stellt sich Frage, wie und wo Inhalte und Lernmaterialien künftig primär eingestellt werden: auf dem LMS selbst oder auf den Plattformen anderer Server, auf die dann das LMS ggfs. verweist? Metainformationen bereitstellen: Die Lehrplattform muss Metainformationen zu einem Lernangebot bzw. einer bestimmten Lehrveranstaltung oder einem Kurs bereitstellen, um diese auffindbar zu machen und ggf. miteinander kombinieren zu können. Dies betrifft –– organisatorische Angaben zu der spezifischen Veranstaltung (Zeit, Raum, beteiligte Personen, Bezug zu einem Verzeichnis „konkreter“ Veranstaltungen) –– didaktische Angaben zu Lehrzielen, Zielgruppen und Voraussetzungen, einschließlich der Zuordnung zu Curricula, d. h. in welchen Studiengängen Lernleistungen in welchem Umfang zugeordnet werden können. In traditionellen LMS werden derartige Angaben in der Lernplattform selbst gespeichert mit der Folge, dass sie oftmals nicht konsistent und identisch sind mit den Daten, wie sie in anderen Verzeichnissen, etwa dem Vorlesungsverzeichnis einer Hochschule, vorgehalten werden. Die Metainformationen sollten aus anderen Informationssystemen einer Einrichtung bezogen werden, wenn sie dort bereits gespeichert wird. Nur so lassen sich entsprechende Datenbestände konsistent halten. In der Praxis ist zwischen den Daten eines abstrakten Kurses (z. B. die Lehrziele und Lehrinhalte) und denen einer konkreten Instanz dieses Kurses (aktueller Raum, Termin, Dozent) zu unterscheiden. Aus datentechnischer Sicht wäre es naheliegend, diese Angaben getrennt vorzuhalten und bei Anlage (Instanziierung) einer konkreten Veranstaltung für ein bestimmtes Semester einen Verweis auf die getrennt abgelegten, überdauernden Informationen vorzunehmen. In der Praxis werden allerdings oftmals mit jeder Durchführung bestimmte überdauernde Informationen zu Kursen in eine neue Instanz kopiert und es werden regelmäßig Anpassungen vorgenommen. Die Sache wird unübersichtlich, wenn Informationen, die für einen spezifischen Durchgang vorliegen, auch zu einem späteren Zeitpunkt abrufbar bleiben sollen oder ggf. – aus rechtlichen Gründen – sogar rekonstruiert werden müssen, z. B. um nachträglich festzustellen, welche Inhalte denn eine konkrete Veranstaltung in einem bestimmten Durchgang hatte. Darum wäre sinnvollerweise eine Ankoppelung mit anderen, zentral gehaltenen Informationssystemen der Einrichtung zu realisieren und die Frage zu klären, ob und wie die Persistenz von Informationen sichergestellt werden kann. Lernprozesse und -ergebnisse dokumentieren: Lernaktivitäten führen zu bestimmten Ergebnissen, die auf einer Lernplattform in der Regel in Form von Artefakten sichtbar werden. Dies können Dokumente sein, die Einzelne oder Gruppen angefertigt haben, wie z. B. ein Textdokument oder eine Präsentation. Dies können auch Weblog- oder Foreneinträge sein oder es handelt sich um Leistungen im Rahmen der Teilnahme an Prüfungen, wie z. B. PC-gestützte Klausuren. Das Lernen hinterlässt eine Spur, die in einer geeigneten Form registriert, dokumentiert und angerechnet werden sollte. Als Antwort auf Forderungen des Datenschutzes findet vielfach eine softwaretechnische Trennung zwischen E-Learning-Plattform und Systemen für die Prüfungsverwaltung statt, in denen Prüfungsleistungen gespeichert werden. Ergebnisse von Prüfungen werden in einem von dem LMS unabhängigen Softwaresystem gespeichert. Um die Datenbestände sinnvoll verbinden zu können, werden LMS und Prüfungsverwaltung dann über ein weiteres System gekoppelt, das Identity Management, in dem alle Daten zu einer Person, einschließlich ihrer Funktionen, Rollen und Rechte, gespeichert sind. Auf der Lernplattform kann der Lernprozess selbst sichtbar gemacht werden. Er kann damit auch als Leistung dokumentiert und honoriert werden. Darüber hinaus können die Artefakte, die im Zuge des Lernprozesses entstehen (Projektberichte, Referate etc.), auch in ein digitales Portfolio
588
D 9: Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
der Lernenden eingehen, das diese – auch unabhängig von der Institution – etwa für Bewerbungen nutzen können (s.a. Lit. 03, Lit. 14). Eine weitere Möglichkeit besteht darin, über Metadaten der Lernplattform auch Lernwege und -zeiten sichtbar zu machen und auszuwerten, eine Möglichkeit, die unter dem Stichwort Learning analytics diskutiert wird. Dies „bezeichnet die Interpretation verschiedenster Daten, die von Studierenden produziert oder für sie erhoben werden, um Lernfortschritte zu messen, zukünftige Leistungen vorauszuberechnen und potenzielle Problembereiche aufzudecken“ (Lit. 05, S. 26). Ziel ist es, „bei korrekter Nutzung und Interpretation der Daten, Lehrende die Lernbedürfnisse der Studierenden genauer verstehen und den Unterricht sehr viel präziser und schneller daran anpassen können, als heutzutage möglich ist“ (ebd. S. 27). Hierfür werden verfügbare (Meta-)Informationen über den Lernprozess ausgewertet. Sie können genutzt werden, um Lernende zu beraten, etwa um Problemfälle frühzeitig zu identifizieren und Förderangebote zu planen, oder zur aggregierten Auswertung auf Kurs- oder Lehrgangsebene, um Stärken und Schwächen von Kursen zu identifizieren und Angebote zu optimieren. Bei der Auswertung individueller Profile sind zugleich Anforderungen des Datenschutzes zu beachten (vgl. Lit. 11, S. 6ff). D 9.3.2 Wiederverwertbarkeit von Lerninhalten Die Entwicklung von Lerneinheiten für das computergestützte Lernen und Onlinekurse ist oft mit erheblichen Aufwänden verbunden. Die einmal entwickelten Medien finden in Folgekursen des Dozenten zumeist erneut Verwendung. Oft findet aber keine weitere Nutzung in anderen Kursen mit gleichen oder ähnlichen Inhalten, sei es innerhalb oder außerhalb der Institution, statt. Für diese mangelnde Wiederverwertung von Lerninhalten können zwei Gründe ausgemacht werden: Zum einen besteht eine psychologische Barriere: Manche Lehrkräfte übernehmen ungern Materialien, die von anderen entwickelt wurden. Zum anderen sind viele Inhalte eng an bestimmte Anwendungskontexte gebunden. Sie lassen sich nicht ohne weiteres auf andere Rahmenbedingungen übertragen. So wird ein Kurs zum Thema Kundenfreundliches Verhalten bei einem Telekommunikationsunternehmen andere Beispiele beinhalten als ein gleichlautender Kurs für eine Bank oder Versicherung. Darüber hinaus existieren auch technische Hürden, um Lerninhalte wiederzuverwerten: Die Lerneinheiten sind in der Regel eng in eine Lernplattform eingebunden, und sie können nur mit zusätzlichem Aufwand in eine andere technische Umgebung übernommen werden. Dennoch werden gerade aus ökonomischer Sicht technische Lösungen gefordert, mit denen Lernmaterialien oder -einheiten wiederverwertet werden können. Nur die mehrfache Nutzung rechtfertigt die oftmals aufwendige Entwicklung von E-Learning Contents. Zum anderen besteht der Bedarf, fertige E-Learning Produkte einzukaufen bzw. zu lizensieren und sie für die Bildungsarbeit in der eigenen Organisation einzusetzen. Die Mehrfachnutzung und Wiederverwertbarkeit erscheint damit als zentrale Herausforderung, aber auch als eine wesentliche Chance, um digitale Medien in der Bildungsarbeit zu verbreitern. D 9.3.2.1 Standards für Re-Usability Die ersten Bemühungen zur technischen Lösung liegen bereits über 40 Jahre zurück. Mittlerweile liegen praktikable Ansätze vor, die es ermöglichen, Lerneinheiten zwischen Lernplattformen (auch unterschiedlicher Hersteller) austauschbar zu machen. Das Problem ist, dass eine Lerneinheit beliebig komplex und aus beliebig vielen einzelnen Elementen und Datentypen bestehen kann. Die Lösung besteht darin, die Lerneinheit als ein Lernobjekt zu realisieren. Es kapselt alle Inhalte und Prozesse und beinhaltet Metadaten, z. B. welches Thema das Modul behandelt, in welchem Schwierigkeitsgrad, für welche Zielgruppe, mit welcher Lernzeit. Dadurch wird es möglich, dass die Lernplattform z. B. die Reihenfolge der Lernobjekte, auch abhängig von Parametern des Nutzerverhaltens, festlegt: Lernobjekte kapseln Lerninhalte aller Art, um sie effizient zu speichern, wieder-
D 9: Lernen mit Medien
589
zuverwenden und um sie zwischen verschiedenen Lernplattformen leichter austauschen zu können (Lit. 10). Herausgebildet haben sich Standards, die von internationalen Standardisierungsgremien entwickelt und unter der Beteiligung von Unternehmen gemeinsam verabschiedet wurden. Nur wenn ein solcher Standard von möglichst vielen Unternehmen akzeptiert wird, kann er Erfolg haben. Der SCORM-Standard basiert dabei auf verschiedenen anderen zuvor verabschiedeten Standards und hat eine große Akzeptanz gefunden. Er wurde erstmals 2000 veröffentlicht und 2004 in einer neueren, erweiterten Version vorgelegt. Ein wichtiges Element sind die Learning Objects Metadata (LOM), mit denen die Inhalte eines Lernobjekts in neun Hauptkategorien beschrieben werden: Learning Object Metadata (LOM) 1. General – allgemeine Informationen (Titel, Sprache, Schlagworte, Themen, Struktur, Niveau) 2. Lifecycle – enthält die Versionsgeschichte und die aktuelle Fassung (Version, Status, Mitarbeitende) 3. Meta-Metadata – Informationen über die Metadaten selbst (Schema, Sprache) 4. Technical – technische Merkmale (Format, Größe, Ort, Voraussetzungen, Installationshinweise, andere Voraussetzungen) 5. Educational – didaktische Merkmale (Typ der Interaktivität, Typ der Lernressource, Level der Interaktivität, semantische Dichte, vorgesehene User-Rolle, Kontext, vorgesehenes Alter der Zielgruppe, Schwierigkeitsgrad, Lernzeit, Beschreibung, Sprache) 6. Rights – Copyright und Nutzungsbedingungen (Lizenzbedingungen und -kosten, andere rechtliche Hinweise) 7. Relation – Beziehung zwischen Lernobjekt und anderen Lernobjekten (Verweise auf Elemente und Dateien, die zum Lernobjekt gehören) 8. Annotation – Anmerkungen zur Nutzung 9. Classification – Einordnung in andere Klassifikationssysteme Wiederverwertbare Lernobjekte bestehen damit aus einer Kollektion von Medien (Text, Grafik, Animation usw.) plus Metadaten, die diese Medien beschreiben. Kontrovers werden die Metadaten diskutiert, die die didaktischen Parameter im engeren Sinne betreffen, wie z. B. „Schwierigkeitsgrad“, „Alter der Zielgruppe“, „Typ der Zielgruppe“, „Lerndauer“, „semantische Dichte“ oder „Interaktivitätsniveau“ (vgl. Lit. 02). Gerade solche Informationen, die für die Wiederverwertung wichtig sein können, sind allerdings ohne Benennung eines spezifischen Kontextes kaum allgemein zu spezifizieren. Für eine genaue Beschreibung solcher Parameter gibt es keine etablierten Standards (oder wie auch gesagt wird: kann es keine Standardisierung geben). Denn wir müssten uns einig werden, was ganz allgemein als niedriges oder hohes Interaktionsniveau aufzufassen wäre. Wir müssten uns alle gleichermaßen darauf verständigen, was ein Lernziel oder eine Lernaktivität wirklich ist etc. D 9.3.2.2 Datenbanken für Lernobjekte Lernobjekte unterstützen die Wiederverwertbarkeit zunächst dadurch, dass Materialien von einem Kurs in einen anderen Kurs und in eine andere Lernplattform übernommen werden können. Nicht gelöst ist damit das Problem, wie man an die Information gelangt, wie und wo diese Lernobjekte zur Verfügung gestellt werden Der technisch einfache Weg besteht darin, Linklisten zur Verfügung zu stellen, in denen E-Learning-Materialien, die im Netz verfügbar sind, aufgeführt werden. Eine Lehrperson kann dort Materialien suchen und folgt ggf. den dort angegeben Verweisen auf die Internetseiten eines Autors bzw. Urhebers. Sie kann die Materialien möglicherweise auch bewerten und kommentieren. Welche Materialien sie auf der Zielseite, so sie noch existiert, in welchen Formaten und zu welchen Konditionen findet, und wie sie diese Materialien in ihre Lernplattform integriert, bleibt offen.
590
D 9: Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
Anders sieht es aus, wenn die Lerneinheiten in gekapselten Objekten vorliegen, die einem bestimmten Standard folgen, der von unterschiedlichen Lernplattformen verstanden wird. Auf diese Weise können Materialien, die an einem Ort entwickelt wurden, zur Verfügung gestellt und in anderen Zusammenhängen unmittelbar integriert werden. SCORM (Sharable Content Object Reference Model) ist ein solcher Standard für den Austausch von Lernobjekten zwischen verschiedenen Lernplattformen. Lernobjekte bieten drei Optionen, die im Folgenden diskutiert werden: –– Lerninhalte zwischen Plattformen austauschen, –– den Lernfortschritt während der Laufzeit erfassen und –– die Abfolge von Lernobjekten während der Laufzeit erzeugen. Austausch: Um Lerninhalte bzw. -einheiten für mehrere Plattformen nutzbar zu machen, werden alle Informationen und Dokumente, die zu einer Lerneinheit gehören, in genau definierter Weise in eine Datei zusammengeführt. Der SCORM-Standard nutzt dabei die Beschreibungssprache XML. In der XML-Datei sind nur die Inhalte der Lerneinheit und die dazu gehörenden Metadaten enthalten. Wie die Lerneinheit dem Lernenden präsentiert wird, hängt von der Laufzeitumgebung der Plattform ab, die das Objekt wiedergibt. Das Lernobjekt kann damit auf jedem Gerät bzw. Betriebssystem präsentiert werden, für das ein Player für die Wiedergabe zur Verfügung steht. Verschiedene Anwendungen, mit denen sich Lerneinheiten oder z. B. Videosequenzen entwickeln lassen, erlauben das Abspeichern der Elemente einer Einheit in ein solches SCORM-Lernobjekt. Diese Datei kann dann von anderen Anwendungen oder Plattformen ausgeführt werden, die diesen Standard interpretieren können. Eine SCORM-fähige Anwendung bzw. Plattform sollte jedes Lernobjekt, das dem SCORM- Standard folgt, präsentieren können. In der Praxis funktioniert dies nicht immer vollständig, d. h. je nach Entwicklungs- und Zielplattform werden nicht immer alle Elemente richtig wiedergegeben. Einige Dateiformate können auf manchen Rechnern systembedingt nicht dargestellt werden; manche Befehle werden nicht wie gewünscht ausgeführt. Deswegen kann die vollständige Lauffähigkeit eines Lernobjektes auf einer bestimmten Zielplattform nie garantiert werden, da dies auch von der Konfiguration des jeweiligen Rechners abhängt. In jedem Fall sollten ausführliche Tests durchgeführt werden, um zu prüfen, ob der Output der avisierten Entwicklungsumgebung auf den vorgesehenen Zielplattformen tatsächlich (hinreichend) lauffähig ist. Auch liegen innerhalb des SCORM-Standards unterschiedliche Spezifikationen vor, die die Komplexität nochmals erhöhen. Eine SCORM-Kompatibilität von Lernobjekten kann nur sagen, dass der Austausch zwischen Plattformen wahrscheinlich ist, garantiert kann die Austausch- und Übertragbarkeit nicht werden. Tracking: Der erste Schritt für die Wiederverwertbarkeit von Lernmaterialien besteht darin, dass Lernobjekte ausgetauscht und auf verschiedenen Lernplattformen wiedergegeben werden können. Als Nächstes stellt sich nun die Frage, wie die Wiedergabeplattform über die Interaktion des Lerners mit dem Lernobjekt informiert wird. Die Person interagiert mit dem Lernobjekt, das innerhalb einer Lernplattform ausgeführt wird, nicht aber mit der Lernplattform selbst. Durch diese Kapselung entsteht das Problem, dass die Lernplattform die Aktionen der Lernenden nicht unmittelbar auswerten kann: Die Lernplattform weiß nicht, wie weit die Person das Lernobjekt bearbeitet hat und ob eine Lernaufgabe z. B. erfolgreich abgeschlossen wurde. Das grenzt Möglichkeiten einer Wiederverwertbarkeit von Lernplattformen (zu sehr) ein. Deswegen definiert der SCORM-Standard eine Logik, wie Daten zur Interaktion des Lernenden mit dem Lernobjekt an die Lernplattform weitergegeben werden können. Wenn die Lernplattform diese Logik beherrscht, kann sie die Daten erhalten, die das Lernobjekt über die Interaktion erfasst. Wichtig ist dies insbesondere, wenn das Lernobjekt Test-Items beinhaltet. Die Lernplattform kann dann z. B. die Resultate des Tests übernehmen und die Ergebnisse in dem Datensatz des Lerners auf der Lernplattform abspeichern. Aber auch der Bearbeitungsstand des Lernobjekts kann auf der Lern-
D 9: Lernen mit Medien
591
plattform zwischengespeichert werden. Beim nächsten Mal, wenn die Person das Lernobjekt aufruft, kann dann an dieser Stelle weitergearbeitet werden. Sequenzierung: Im nächsten Schritt stellt sich nun ein nochmals deutlich komplexeres Problem: Wie kann eine (richtige) Sequenz von Lernobjekten erzeugt werden? Dazu muss die Plattform auf Metadaten zugreifen, die im Lernobjekt gespeichert sind, und sie muss über einen Algorithmus verfügen, der definiert, wie man didaktisch sinnvolle Sequenzen von Lernobjekten erzeugt. Nehmen wir an, die Plattform verfügt über eine Datenbank mit vielen Lernobjekten zu verschiedenen Themen in unterschiedlichen Schwierigkeitsgraden. Sie muss aus dieser Datenbank die thematisch zugehörigen Objekte finden und diese den Lernenden in einer sinnvollen Abfolge präsentieren. Dies ist insofern nicht einfach, weil die Lernobjekte voneinander nichts wissen und die Abfolge nicht unmittelbar aus den Lernobjekten ausgelesen werden kann. Die pädagogisch relevanten Parameter der SCORM-Spezifikation erweisen sich für diese Anforderungen als nicht zureichend. Deswegen wurde die Educational Modeling Language (EML) in die Standardisierung aufgenommen. Sie wurde an der Open University of the Netherlands, Herlen, von Rob Koper (Lit. 08, Lit. 09) entwickelt. Die Aktivitäten, die in der Lerneinheit stattfinden sollen, werden dabei in Analogie zu einem Theaterstück beschrieben: Die Lerneinheit enthält danach mehrere Kapitel und in jedem Kapitel gibt es Rollen, die durch Personen zu besetzen sind. Jede Rolle ist wiederum mit bestimmten Aktivitäten verbunden, denen Requisiten zugeordnet sind.
D 9.4 Lernen im Web 2.0 Die Forschung zum Lernen mit digitalen Medien hat lange Zeit das formelle Lernen mit Medien untersucht, also wie das Lernen mit aufbereiteten Lerninhalten und auf Lernplattformen organisiert und z. B. mit Tutor/innen unterstützt werden kann. Zunehmend wird das Internet jedoch als Ort für das informelle Lernen genutzt, um Informationsbedarfe und Lerninteressen zu befriedigen oder sich z. B. zu Gemeinschaften zusammenzuschließen, um sich über Themen und gemeinsame Interessen auszutauschen. Die Anwendungen, die in diesem Zusammenhang unter dem Label Web 2.0 subsummiert werden, beinhalten weniger technologische Innovationen, sondern sie setzen bestehende Internettechnologien konsequent bei neuartigen Anwendungen ein. Letztlich entsteht dabei eine andersartige Wahrnehmung und Nutzung des Internets, die im Folgenden skizziert wird. Ein Merkmal von Web-2.0-Anwendungen ist, dass sie bisher auf PCs laufende Anwendungen in das Netz verlagern und dabei die spezifischen Potenziale der netzbasierten Kommunikation ausschöpfen. D 9.4.1 Grenzverschiebungen durch Web 2.0 Die Veränderung der Wahrnehmung und Nutzung des Internets, die mit Web 2.0 assoziiert sind, wurde bei Kerres (Lit. 06) als Verschiebung von drei Grenzen beschrieben: –– User versus Autor: Im Web 1.0 war eindeutig, ob ich Nutzer oder Autor einer Seite im Internet bin. Diese klare Grenze verschwimmt in Web 2.0: Nutzer werden Autoren und bringen aktuelle Inhalte ein, korrigieren Fehler und sorgen für eine lebendige Website. User generated content etabliert sich damit als ein wichtiger Kanal für öffentliche Kommunikation, dessen gesellschaftliche Relevanz an verschiedenen Stellen erkennbar wird. –– Lokal versus entfernt: Die persönliche Datenverarbeitung ist in den 1980er Jahre vom entfernten (Groß-) Rechner auf den Desktop gewandert. Heutzutage benutzt man mehrere Endgeräte gleichzeitig. Da-
592
––
D 9: Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
mit ich von den verschiedenen Geräten auf alle meine Daten zugreifen kann, ist es einfacher, wenn die Daten nicht mehr lokal gespeichert sind. Meine Daten wandern auf entfernte Datenspeicher (Cloud), auf die ich mit breitbandigen Internetzugängen problemlos zugreifen und Datenbestände abgleichen kann. Privat versus öffentlich: Vorstellungen von Privatheit verändern sich über die Zeit. Die Grenzen des Privaten von immer mehr Menschen verschieben sich immer weiter ins Öffentliche. Durch Veröffentlichungen der Presse waren öffentliche Personen betroffen, die von Reportern ausgespäht wurden. Im zweiten Schritt (z. B. beim Privatfernsehen) betraf es zunehmend auch andere Menschen, die sich allerdings in der Regel selbst für oder gegen einen solchen Auftritt im Fernsehen entschieden. Ein Filter bestand darin, dass eine Redaktion bzw. ein Sender ein bestimmtes Thema aufgreifen und als attraktiv genug für ein Massenpublikum bewerten musste. Im Internet kann sich jede Person nun selbst darstellen, wie und in welchem Umfang sie mag. Es entfällt einerseits der Filter des Senders bzw. einer Redaktion: Alles kann allen gesagt werden. Auf den ersten Blick beinhaltet diese Entwicklung eine interessante Chance für eine offene gesellschaftliche Meinungsbildung und die weltweite Öffnung von Wissenskommunikation. Anderseits hat diese spezifische Form der Artikulation im Internet einige Implikationen für den Einzelnen, deren gesellschaftliche Konsequenzen noch nicht vollständig erkennbar sind. Gemeint ist zum einen das Phänomen, dass Aussagen bzw. Dokumente im Internet nicht gelöscht werden können. Zum anderen können Aussagen, die von oder über eine Person in den unterschiedlichsten Kontexten erzeugt wurden, zusammengeführt werden und erlauben damit Einblick in persönliche Profile von einer bislang unbekannten Tiefe und Breite.
D 9.4.2 Auswirkungen auf Bildungsinstitutionen Damit sind drei Grenzen beschrieben, die sich im Kontext von Web 2.0 verändern bzw. auflösen. Diese Grenzziehungen und ihre Veränderungen können auch für Bildungsinstitutionen thematisiert werden. Die Unterscheidung von User vs. Autor entspricht im Bildungskontext der Grenze zwischen Lernenden und Lehrenden. Diese Trennlinie relativiert sich, wenn sie im Zusammenhang mit der Diskussion über konstruktivistische Ansätze der Didaktik betrachtet wird, hat zugleich Bedeutung für die Unterstützung durch digitale Medien: Im Kontext formeller Lehr-Lernsettings stellt sich die Frage, wer welche Dokumente im Learning Management System (LMS) einstellen darf – oder, ob LMS noch adäquate Umgebungen für peer-basierte Lernprozesse des Wissensaustauschs und der Verständigung sind. Auch die Differenz zwischen lokal und entfernt war für Lehrende und Lernende im Rahmen von institutionellen Bildungsangeboten ganz klar: Entfernt ist aus Sicht der Lernenden oder Lehrenden etwa die Schule oder Hochschule, lokal heißt z. B. zu Hause sein und mit diesen Orten werden ganz spezifische Bereiche des Lebens verbunden. Mit Ubiquitous computing verwischt sich diese Grenze: Ich kann überall lernen oder lehren oder mit anderen privat und beruflich kommunizieren. Die konsequente Nutzung von Instant messengers und Awareness tools relativiert die Bedeutung des physikalischen Orts beim Lehren und Lernen. Mit mobilen Endgeräten werden zudem andere Nutzungsorte relevant. Die starren Grenzen, die durch physikalische Räume definiert waren, relativieren sich. Neue Lernräume (wie die Mensa oder die Bibliothek) werden weiter erschlossen und bestehende Lernräume werden (in der Nutzung) vernetzt. Kommen wir schließlich zur dritten Grenzziehung zwischen Privatheit und Öffentlichkeit: Lernen ist zunächst immer eine private Aktivität, die zu Hause, am Arbeitsplatz oder im Unterricht stattfindet. Für andere erkennbar wird diese, wenn sie sich einer Prüfung unterziehen. Mit der Diskussion über konstruktivistische Ansätze und E-Portfolios wird Lernen stärker als Performanz wahrgenommen: Ich lerne, indem ich bestimmte (beobachtbare) Lernaktivitäten zeige. Ich
D 9: Lernen mit Medien
593
entwickle ein Projekt, tausche mich mit anderen in einem Forum aus und reflektiere meine Aktivitäten in einem Weblog. Der Unterschied zwischen scheinbar privatem Lernen und dem öffentlichen Darstellen von Gelerntem in Prüfungen entfällt. D 9.4.3 Web 2.0 und E-Learning Ein traditionelles LMS versucht, Dokumente und Werkzeuge an einem Ort – wie auf einer Insel im Internet – zusammenzutragen, um sie dort Lernenden zur Verfügung zu stellen. Zunehmend werden sich Lernplattformen zu Lernportalen entwickeln mit einer höheren Durchlässigkeit zum Internet, zu anderen Informationssystemen einer Institution und zu der persönlichen Lernumgebung. Das LMS aggregiert (multimediale) Dokumente aus externen Quellen und führt diese so zusammen, dass Lernende mit diesen Materialien in ihrer persönlichen Lernumgebung arbeiten können. Werkzeuge werden so vorgehalten, dass diese in der persönlichen Lernumgebung – auch für gemeinsames Arbeiten der Lernenden – genutzt werden können. So wie E-Learning bislang vielfach betrieben wird, bleibt die Lernplattform eine Insel im Internet: Die die Autor/innen beliefern diese mühsam mit Inhalten, um sie attraktiv zu machen und mit Leben zu füllen. Warum, so stellt sich hier die Frage, wird so viel Aufwand investiert, Contents und Werkzeuge auf Lernplattformen einzustellen? Denn das Internet stellt diese Inhalte bereit und stellt Werkzeuge zur Verfügung, die die Lernenden vielfach bereits kennen und oft gegenüber den Werkzeugen bevorzugen, die in einer Lernplattform vorgehalten werden. E-Learning 1.0
E-Learning 2.0
Lernumgebung = eine Insel im Internet mit Inhalten Lernumgebung = ein Portal ins Internet mit Inhalten und Werkzeugen und Werkzeugen Lehrer überführt alle Ressourcen auf die Insel
Lehrer stellt Wegweiser auf, aggregiert Ressourcen
Lerner nutzt die vorgegebenen Inhalte und Werkzeuge
Lerner konfiguriert seine persönliche Lern- und Arbeitsumgebung
Tab. 1: Implikationen von E-Learning 1.0 und E-Learning 2.0 (aus Lit. 06)
Ein Lernportal ist ein Tor, das Wege in das Internet weist und daneben auch (eigene) Inhalte und Werkzeuge für die Lernenden bereithält. Ein solches Portal ist primär ein Start- und Orientierungspunkt für im Netz verfügbare Informationen und Werkzeuge und beinhaltet Mechanismen, um diese gezielt zu integrieren. In diesem Zusammenhang werden auch Microcontents interessant (Lit. 04): Kleinere Wissensressourcen unterhalb von Unterrichtseinheiten, die flexibel in Webanwendungen und mobile Applikationen integriert werden. Es gilt dann nicht mehr, die Autor/innen zu bemühen, alle für den Lernprozess notwendigen Wissensressourcen in die Lernumgebung einzustellen. Es wären vielmehr die Lernenden selbst, die sich ihre Umgebung konfigurieren und nicht die Lehrenden, die dies für die Lernenden erledigen. Die persönliche Lernumgebung schließlich, in der die Lernenden aktiv werden, ist nicht deckungsgleich mit der Lehrplattform des Bildungsanbieters (s.a. Lit. 01, Lit. 12). Diese Sicht drückt sich in dem Begriff Personal Learning Enviornment (PLE) aus, das als Alternative zu Lernplattformen diskutiert wird. Das PLE ist eine Umgebung des Lernenden, die u. a. ein Weblog für individuelle Reflexionen, Wikis für kollaboratives Arbeiten und ein Portfolio als Ausweis eigener Arbeiten beinhalten. Die Lern- bzw. Lehrplattformen werden durch Feed-Mechanismen zunehmend durchlässiger: Inhalte werden nicht mehr zwingend auf der Plattform eingestellt, sondern von anderen Servern aus Repositorien und Feeds ausgelesen. Sie werden im LMS zusammengeführt und in der persönli-
594
D 9: Michael Kerres, Annabell Preussler, Mandy Schiefner-Rohs
chen Arbeitsumgebung der Studierenden eingestellt. Die Oberfläche, mit der Lernende auf die Materialien zugreifen, kann z. B. ein RSS-Reader sein, der die verschiedenen Feeds aggregiert, oder ein Portal, das solche Inhalte und Werkzeuge zusammenführt. Werkzeuge zur Bearbeitung von Materialien können im LMS implementiert sein; sie können jedoch auch in der Arbeitsumgebung des Lernenden integriert sein. Bei Aufgaben, die gemeinsam mit anderen (auch etwa einem Tutor oder einer Tutorin) bearbeitet werden, sollte jedoch ein gemeinsam genutztes Werkzeug vorliegen, das universell und in unterschiedlichen Umgebungen (gut) verwendbar ist. Das LMS entwickelt in einem solchen Szenario eine andere – allerdings nicht minder wichtige – Funktion für den Lehr-Lernprozess: Von einem Server, der vor allem dazu dient, Dokumente zur Verfügung zu stellen, zu einer zentralen Stelle, die die Lehr- und Lernaktivitäten organisiert. Damit rücken andere Funktionen in den Vordergrund: Das LMS greift auf Dokumente unterschiedlicher Art von verschiedenen Quellen zu und stellt diese aggregiert zur Verfügung. Es koordiniert die Aktivitäten und die Kommunikation der Akteure. Es stellt Werkzeuge für die gemeinsame Bearbeitung von Artefakten zur Verfügung, die in die persönliche Lernumgebung übernommen werden können. Zugleich dokumentiert es Lernprozesse und -fortschritte und arbeitet dazu mit zentralen Prüfungssystemen wie auch dem individuellen E-Portfolio der Lernenden zusammen.
D 9.5 Fazit E-Learning wird zunächst im Kontext des formellen Lernens diskutiert: Im Mittelpunkt steht die Frage, wie Lerninhalte mit Medien aufbereitet werden können, um das Erreichen von Lehrzielen mithilfe bestimmter didaktischer Methoden zu fördern. Dabei steht ein mittlerweile umfangreicher Pool an Wissen und Erfahrungen zur Verfügung, was die spezifischen Vorteile des mediengestützten Lernens ausmacht und wie diese einzulösen sind (vgl. Lit. 07). Langsam aber stetig haben sich digitale Medien in allen Bildungssektoren als selbstverständlicher Bestandteil der Bildungsarbeit etabliert – zumeist in einer Kombination mit traditionellen Lernangeboten und anderen personalen Dienstleistungen wie Beratung und Zertifizierung. Durch die aktuelle Entwicklung im Zusammenhang von Web 2.0-Anwendungen und sozialen Netzwerken rückt das informelle Lernen mit Medien in den Mittelpunkt des Interesses: Außerhalb von Lehrgängen und Institutionen nutzen Menschen Wissensressourcen durch Zugang zu öffentlich zugänglichen Informations- und Lernangeboten, sie tauschen sich über digitale Medien und Plattformen aus und bilden Communities, in denen sie ihre Interessen artikulieren und im Austausch mit anderen en passant Lernen. Zugleich kommen sich formelles und informelles Lernen näher: Formelle E-Learning Angebote fördern zunehmend den sozialen Austausch und die Kooperation über das Netz, weil sie die Potenziale erkennen, die sich für die Motivation der Lernenden und die Persistenz des Lernverhalten einerseits ergibt und die inhaltliche Bereicherung, die in der Wissenskommunikation angelegt ist. Im Kontext sozialer Plattformen, auf denen sozialer Austausch und informelles Lernen stattfindet, wird gleichzeitig diskutiert, wie die Lernerfahrungen durch didaktisierende Elemente wertvoller gemacht werden können, wie z. B. durch Einbringung von bestimmten Materialien oder von interessanten Expert/innen, von denen die jeweilige Community profitieren kann. Bei diesen Versuchen zeigt sich zugleich, dass Grenzen bestehen, die (erfolgreichen) Web 2.0-Elemente bruchlos in formelle Lehr-Lernsettings zu übernehmen. Genauso zeigen sich ebenso Grenzen, den spontanen Austausch von Peer to peer auf sozialen Plattformen durch gezielte Maßnahmen zu kanalisieren bzw. zu optimieren.
D 9: Lernen mit Medien
595
Literatur 01 Attwell G: Personal Learning Environments – the future of eLearning? eLearning papers Vol. 2., 2007 02 Baumgartner; Kalz: Wiederverwendung von Lernobjekten aus didaktischer Sicht. Tavangarian & Nölting (Hrsg.). Auf zu neuen Ufern! E-Learning heute und morgen. Medien in der Wissenschaft, Bd. 34, 97-106. Münster: Waxmann, 2005 03 Brahm; Seufert: E-Assessment und E-Portfolio zur Kompetenzentwicklung: neue Potenziale für Ne(x)t Generation Learning?. SCIL report. St. Gallen : SCIL, Universität St. Gallen, 2007 04 Hug, Theo: Micro Learning and Narration. Exploring possibilities of utilization of narrations and storytelling for the designing of ‘micro units’ and didactical micro-learning arrangements. Online proceedings of the International Conference ‘Media in Transition 4: The Work of Stories’ at the M.I.T. in Cambridge (MA), USA, May 6-8, 2005 05 Johnson, Adams; Cummins: NMC Horizon Report: 2012 Higher Education Edition: Deutsche Ausgabe (Übersetzung: Helga Bechmann). Austin, Texas: The New Media Consortium, 2012 06 Kerres: Potenziale von Web 2.0 nutzen, Handbuch E-Learning, München, DWD-Verlag, 2006 07 Kerres: Mediendidaktik. Konzeption und Entwicklung mediengestützter Lernangebote, 3. München, Oldenbourg Wissenschaftsverlag, 2012 08 Koper, R.: Technology and lifelong learning. British Journal of Educational Technology: the Journal of the National Council for Educational Technology, 35, 6, 675-746, 2004 09 Koper, R.; Tattersall, C.: Learning design: A handbook on modelling and delivering networked education and training. Berlin: Springer, 2005 10 Pankratius; Oberweis; Stucky: Lernobjekte im E-Learning – Eine kritische Beurteilung zugrunde liegender Konzepte anhand eines Vergleichs mit komponentenbasierter Software-Entwicklung. 9. Workshop Multimedia in Bildung und Wirtschaft. Technische Universität Ilmenau, 2005 11 Perry: Degrees, Designed by the Numbers. The Chronicle of Higher Education. Volume LVIII 2012, Number 42, 2012 12 Schaffert, Sandra; Hilzensauer, Wolf: On the way towards Personal Learning Environments: Seven crucial aspects. elearning Papers, 9, 2008 13 Schelhowe, Heidi et. al.: Kompetenzen in einer digital geprägten Kultur: Medienbildung für die Persönlichkeitsentwicklung, für die gesellschaftliche Teilhabe und für die Entwicklung von Ausbildungs- und Erwerbsfähigkeit. Bonn, 2009 14 Stratmann, Joerg; Preussler, Annabell; Kerres, Michael: Lernerfolg und Kompetenz bewerten: Didaktische Potenziale von Portfolios in Lehr-/Lernkontext. MedienPädagogik 18, 2009 15 Young: ‚Badges‘ Earned Online Pose Challenge to Traditional College Diplomas. The Chronicle of Higher Education, 2012 (http://chronicle.com/article/Badges-Earned-Online-Pose/130241/)
Angelika Menne-Haritz
D 10 Archive D 10.1 Die Funktionen von Archiven Archive sind eine Art Zeitmaschine. Das Stöbern in den alten Aufzeichnungen zieht den Betrachter in das damalige Geschehen hinein. Es ist kaum vermeidbar, emotional betroffen zu sein von dem, was dort zu sehen ist. Man erfährt Neues, von dem man bis dahin noch nichts wusste, weil die frühere Wirklichkeit in zahlreichen Details vor den inneren Augen erscheint. Alles sieht interessant aus und kann immer wieder von der ursprünglichen Fragestellung ablenken. Eine zentrale Herausforderung bei Recherchen im Archiv ist es deshalb, gemessen an der eigenen Fragestellung Wichtiges von Unwichtigem zu trennen. Mit neuen Fragestellungen ändert sich die Relevanz, wobei Archivgut, gesehen aus unterschiedlichen Perspektiven, vielfältige Antworten geben kann. Wenn man mit offenen Fragen ins Archiv kommt, kann man immer wieder überraschende neue Antworten finden. Man muss sie sich allerdings selbst erarbeiten, kennt sie dann aber auch als erster. Archive ermöglichen es, sich in andere Zeiten zu versetzen, also die Zeit selbst als Dimension zur Entdeckung neuer Erkenntnisse zu nutzen. Archive öffnen die Tür zur Vergangenheit für einen neuen Zugriff auf früher Geschehenes. Das ist die wichtigste Funktion der Archive. Sie hängt nicht von den Aufzeichnungsformaten des Archivguts ab. Im Folgenden wird deshalb nur dort ausdrücklich auf digitale Formen eingegangen, wo sie Möglichkeiten zu neuen Arbeitsweisen bieten. Die Bestände von Archiven wachsen stetig an. Sie erhalten Zuwachs durch Abgaben von den Behörden und Dienststellen des definierten Zuständigkeitsbereichs, der in der Regel dem administrativen Wirkungsbereich des Trägers des Archivs entspricht. Der Bereich, aus dem das Material stammt, und damit auch das Bestandsprofil des Archivs, sind dadurch klar abgegrenzt. Es hat sich in der Regel im Laufe der Zeit mit dem Anwachsen der Bestände weiterentwickelt, denn es bildet den in seinem Zuständigkeitsbereich bearbeiteten Aufgabenbestand sowie dessen Kontinuitäten und Veränderungen ab. Im Gegensatz dazu sind die Herkunft potentieller Nutzer ebenso wie ihre Themen und Forschungskontexte nicht festgelegt oder eingrenzbar. Im Archiv werden Bestände aus einer genau abgrenzbaren und klar definierten Herkunft für vielfältige, thematisch und räumlich unbegrenzte Interessen angeboten. Aus den beiden Aspekten, der eindeutig eingrenzbaren Herkunft der Unterlagen zusammen mit den nicht vorher identifizierbaren Fragestellungen bei deren Auswertung definiert sich die Aufgabenstellung von Archiven, einen möglichst vollständigen Überblick über ihre Bestände zu geben, die Wege zu ebnen, die direkt zu den für eine Untersuchung relevanten Unterlagen führen und die erforderliche Orientierung auf dem Weg wie zur Identifikation des Ziels zu gewährleisten. Das bedeutet, die Unterlagen aus Verwaltungsarbeit oder sonstiger Geschäftstätigkeit für eine Nutzung durch Dritte, an der Entstehung der Unterlagen unbeteiligte und auch von den damals Beteiligten nicht erwartete Leser aufzubereiten und für sie bereit zu stellen. Entsprechend der Definition ihrer Zuständigkeitsbereiche sind Archive, die Unterlagen aus der staatlichen Verwaltung zur Nutzung bereithalten, Staats- oder Landesarchive. Kommunale Verwaltungen unterhalten Stadt-, Gemeinde- oder Kreisarchive. Betriebe haben Werksarchive. Diese Archive sind eigene Organisationseinheiten in der gleichen Trägerschaft wie die Organisationseinheiten, deren Unterlagen sie nach Erledigung ihrer Entstehungszwecke übernehmen. Innerhalb der Verwaltung haben sie ebenso wie die anderen Organisationseinheiten Behördenstatus, wobei in den Bundesländern die Ressortzuständigkeit mal dem Innenministerium und mal dem Kulturoder Wissenschaftsbereich zugeordnet ist. Die Zuordnung ist verschieden, weil die Aufgaben der Archive in den Bereich der Querschnittsaufgaben fallen und deshalb schwer einem Ressort zuzuordnen sind. Betont die Zuordnung zum Innenressort mehr die Aufgabenstellung der Übernahme erledigter Akten aus anderen Dienststellen, so ist die Zuordnung zum Kulturbereich eher an der Bereitstellung des Archivguts für die Nutzung durch Dritte orientiert. Archive haben beide Seiten und
D 10: Archive
597
werden deshalb oft mit einem stilisierten Januskopf symbolisiert, so etwa im Logo des Internationalen Archivrates ICA. Unabhängig von der verwaltungsmäßigen Zuordnung sind Archive Instrumente, mit denen Landes- und Stadtverwaltungen ebenso wie Betriebe oder andere Organisationen ihre eigene Arbeit offenlegen und gegenüber der Öffentlichkeit Rechenschaft abgeben können. Eine Verwaltung oder eine Organisation, die für die in ihrem Verantwortungsbereich entstandenen Unterlagen ein selbstständig organisiertes Archivwesen unterhält, demonstriert damit ihre Offenheit und Bereitschaft zur Transparenz. In der Entwicklung zum modernen Archivwesen seit dem 19. Jahrhundert wurden die Archivinstitutionen auf einer stärker zentralisierten Ebene als die Ursprungsbehörden angesiedelt. Behördenarchive wurden zugunsten der Zentralarchive aufgehoben. Dadurch kann die Trennlinie zwischen dem noch nicht abgeschlossenen Schriftgut und den bereits archivierten Beständen deutlicher gezogen und der Einfluss der Dienststellen auf die Archivierung und Bereitstellung ihres Schriftguts reduziert werden. Bei der Benutzung werden dadurch zudem die Beziehungen zwischen den Beständen aus den verschiedenen Behörden deutlicher. D 10.1.1 Die Bestände Jedes Archiv definiert sich über seine Bestände und seinen Zuständigkeitsbereich, aus dem die Bestände stetig weiteren Zuwachs erhalten. Zusammen bilden die Archive mit ihren klaren Abgrenzungen voneinander eine Art Archivlandschaft, in der sie sich gegenseitig zu einem gemeinsamen Bild ergänzen. Ebenso folgt die Abgrenzung von Beständen innerhalb eines einzelnen Archivs den Zuständigkeiten der Ursprungsstellen. Nach Möglichkeit wird das Archivgut, das aus einer Behörde oder einer anderen Organisationseinheit stammt, als Bestand zusammengelassen, auch wenn Teile davon zu verschiedenen Zeitpunkten abgegeben und übernommen werden. Die Grenzen zwischen den Beständen bilden die organisatorischen Grenzen zwischen den Herkunftsstellen ab und damit auch die äußeren Grenzen der internen Kommunikationsprozesse, die die Unterlagen hervorgebracht haben. Sie zeigen die Entstehungszusammenhänge der Unterlagen und damit ihre Provenienz. Wenn im Laufe der Zeit in Behörden zahlreiche Organisationsänderungen stattgefunden haben, können auch die wahrgenommenen Aufgaben, die als Kommunikationsund Kooperationsprozesse in den Akten präsent sind, eine Möglichkeit der Zuordnung zu dem passenden Bestand geben. Für die Erschließung und Bereitstellung der Unterlagen ist genauso wie für die Recherche die Berücksichtigung des besonderen Charakters des in der Verwaltungsarbeit gewachsenen Schriftguts wichtig. Erst die Archivierung öffnet es für Dritte und legt dazu die bei der Entstehung der Unterlagen nicht ausdrücklich artikulierten Zusammenhänge offen. D 10.1.2 Primär- und Sekundärwert In der deutschen Archivtradition ist die Unterscheidung der beiden Phasen, der Erstellung und Verwaltung von Schriftgut für interne Zwecke einerseits und seiner Archivierung und Bereitstellung für externe Zwecke andererseits, als Primär- und als Sekundärwert des Verwaltungsschriftguts stark verwurzelt, auch wenn sie zuerst in einer amerikanischen Publikation der 50er Jahre, allerdings mit Bezug zu deutschen archivwissenschaftlichen Publikationen, so genannt wurde (Lit. 05). Der Primärwert besteht demnach in der Unterstützung für die gemeinschaftliche Lösung von anstehenden Aufgaben mit den Ressourcen, die einer Verwaltung dafür zur Verfügung stehen, während der Sekundärwert den Nutzen für die Einsichtnahme in die dabei entstandenen Unterlagen und das Nachvollziehen der damit erfolgten Entscheidungsfindung, also den Blick von außen bezeichnet. Dieser Blick von außen kann die unbeteiligte, neutrale Position eines Beobachters zu den Verhandlungen und ihren Gegenständen einnehmen, da er nach der Umwidmung der Funktion des Schriftguts
598
D 10: Angelika Menne-Haritz
nicht mehr in die Erledigung dieser Aufgaben eingreifen kann. Aus dieser Perspektive können Zusammenhänge und Gründe deutlich werden, die von den Beteiligten nicht artikuliert wurden. Akten geben damit Hinweise für die Fragen nach dem „Warum?“, nicht nur nach dem „Was?“. Diese Sicht auf das Archivieren zeigt die Funktion des Archivwesens als Sicherung einer Möglichkeit zur retrospektiven Verwaltungskontrolle. Archivierung der Verwaltungsunterlagen ist also ein Mechanismus zur Rechenschaftslegung der Verwaltung und damit zur Demokratiesicherung. Die archivische Bearbeitung widmet Schriftgut zu Archivgut um. Dabei wird analysiert, zu welchem Zweck und unter welchen Bedingungen es entstanden ist. Die Ergebnisse dieser Analysen fließen in die Erschließungsergebnisse ein. Die Analyse der Akten und ihrer Entstehung sowie ihrer Verwaltung sind die Basis für die weitestgehende Öffnung der Akten bei der Präsentation in gedruckten oder online bereitgestellten Findbüchern. Schriftgut wie Archivgut besteht aus denselben physischen oder virtuellen Gegenständen, den Akten. Der Unterschied beschreibt keine ihnen innen wohnende Eigenschaft. Er besteht allein in der unterschiedlichen Funktion im jeweiligen ursprünglichen oder neuen Zusammenhang. Diese Funktion, entweder Hilfsmittel für die Koordinierung gemeinsamer Aktionen zu sein, oder den Einblick in eben diese Aktionen zu ermöglichen, charakterisiert Akten als Schriftgut oder Archivgut. Die neue Funktion löst die ursprüngliche Funktion ab, wenn das Schriftgut archivisch bearbeitet wird. Mit der Differenz von Primär- und Sekundärwert als unterschiedlichen funktionalen Zusammenhängen hat die Archivwissenschaft ein Werkzeug entwickelt und der praktischen Arbeit an die Hand gegeben, mit dem sie die Schriftgutentstehung analysiert. Die archivische Bearbeitung der Gegenstände, die zuvor Werkzeuge waren, ermöglicht einen Wechsel zu ihrer Nutzung als Quellen durch zuvor nicht Beteiligte. Die Differenz zwischen der Entstehung in geschlossenen Kommunikationsprozessen und der Bereitstellung für eine offene Einsichtnahme ist eine der wichtigsten Grundlagen für die Archivwissenschaft. Sie behandelt zum großen Teil Fragen der Analyse der Entstehung von Unterlagen als Grundlage für eine möglichst präzise Darstellung ihrer Aussagemöglichkeiten. Die Untersuchung der Verwendung von Akten für den Primärwert bedient sich spezieller, von der Archivwissenschaft entwickelter Instrumente. Dazu gehört etwa eine Taxonomie der Strukturtypen von Aktenformen und das Verständnis für deren Einsatz und Wirkung auf die ursprünglichen Arbeitsprozesse, bei denen die Aufzeichnungen entstehen und zur gemeinsamen Entscheidungsfindung verwendet werden. Die Archivierung bedeutet die Aufbereitung der Akten zur Realisierung ihres Sekundärwerts und öffnet dabei die Einsicht in den Primärwert als unveränderbare und gerade deshalb direkt und unverstellt zu beobachtende Vergangenheit. D 10.1.3 Archive und Gedächtnis Archivgut ermöglicht die Rekonstruktion von Vergangenem, schildert es aber nicht. Es ist der Rohstoff für das Gedächtnis, nicht das Gedächtnis selbst, das in der Gegenwart immer wieder neu geformt wird. Die Nutzung von Archivgut zur Gewinnung von Kenntnissen über die Vergangenheit geschieht durch Rekonstruktion an Hand der von ihren Erzeugern unbeabsichtigt hinterlassenen Spuren. Die Rekonstruktion vergangener Ereignisse und Verhältnisse geht schlussfolgernd vor und nutzt investigative Techniken. Sie ist nicht an dem interessiert, was man schon weiß und was als Wissen schon gespeichert ist, sondern an Neuem, das erst noch zu entdecken ist. Bei der Recherche nach neuen Erkenntnissen im Archivgut kommt man am besten weiter, wenn man sich seine Fragestellungen zuvor genau klar macht und möglichst präzise formuliert. Nachrichten im Archivgut wollen entdeckt werden. Dazu sind Nachdenken, Fragenstellen, Vergleichen, Interpretieren, Überprüfen von eigenen Hypothesen, also Arbeit und Fantasie erforderlich. Archivbenutzung ist davon gekennzeichnet, dass man nicht immer vorher schon benennen kann, was man sucht, aber die eigenen Fragen fortschreitend präzisieren kann. Doch auch, wenn man benennen kann, was
D 10: Archive
599
man sucht, etwa einen Gehaltsnachweis für eine bestimmte Person und für einen bestimmten Zeitraum, ist oft ein schlussfolgerndes Vorgehen mit Hilfe von Kontexten das einfachste und zügigste Verfahren. Beim Einstieg in die Recherche zeigen die Strukturen, was es gibt und liefern einen Überblick über das Ganze. Sie sind in den Findmitteln abgebildet. Deren Gliederungen dienen als Wegweiser für Rechercheprozesse und helfen beim Verstehen des Bedeutungsumfangs der Teile. Mit ihrer Hilfe kann die Recherche fokussiert werden und es können relevante Bereiche ausgewählt werden, wobei andere Bereiche als definitiv nicht relevant ausgeschlossen werden. Mit Hilfe der Strukturen wird der größere Detailreichtum auf den tieferen Ebenen ergänzt durch Hintergrundinformationen auf den jeweils höheren Ebenen, deren Überschriften ihre Bedeutungen nach unten weitergeben, ohne dass sie dort wiederholt werden müssen. Überschriften der Gliederungsgruppen und Titelformulierungen ergänzen einander und vermeiden so Redundanz bei den Titeln, die die Präzision der Angaben verringern würde. Die Rekonstruktion vergangener Ereignisse an Hand ihrer Spuren geht von einem neu entstandenen Interesse aus, das durch neu aufgetauchte Fragestellungen verursacht wird. Sie wird erforderlich, weil ein neuer, aktueller Bedarf an Gedächtnis entstanden ist, der nicht mit bereits bekanntem und gespeichertem Wissen erfüllt werden kann. Dieses Verfahren sucht sich die erforderlichen Informationen über die Vergangenheit selbst, entscheidet selbst, was als Quelle genutzt und interpretiert werden kann. Die Neugewinnung von Informationen an Hand der Quellen nutzt die Plausibilität von Schlussfolgerungen. Sie stützt sich dabei auf die Authentizität der Spuren im Archivgut, die umso glaubwürdiger und aussagekräftiger sind, je weniger sie ein von außen kommendes oder späteres Interesse antizipieren konnten, je deutlicher sie also durch die Nutzung der Unterlagen für den Primärwert gezeichnet sind. Die Methode der Rekonstruktion von Vergangenheit benötigt Archivgut, das einfach abbildet, was geschah, als es entstanden ist, als es also seinem Primärwert entsprechend genutzt wurde, und das dann in unveränderter Form im Zusammenhang seiner Entstehung und Nutzung offen nutzbar gemacht wurde. Das Archiv speichert auch Informationen, etwa über Personen. Die aufgezeichneten Informationen sind jedoch auf den Zweck orientiert, Anträge zu bearbeiten, Entscheidungen vorzubereiten und Bescheide zu erstellen. Die dabei erhobenen Informationen sind immer bewusst ausschnitthaft. In den Akten vorhandene Informationen über die Umwelt einer Dienststelle nur deshalb hier vorhanden, weil sie in die Entscheidungsprozesse eingebunden waren. Sie waren Mittel zum Zweck. Ohne Kenntnis des Zwecks kann ihre Weiternutzung in die Irre führen. Die Kenntnis des Zwecks dagegen relativiert und historisiert sie und macht damit ihre Verlässlichkeit einschätzbar. Die Eigenschaft der Akten als Werkzeuge vergangener Handlungen macht diese Aufzeichnungen zu authentischen Spuren, die wie Spuren im Schnee weder absichtlich erzeugt oder vermieden noch von den Akteuren selbst geändert werden können. Die Aussagekraft von Spuren kann von den handelnden Personen, die sie hinterlassen, nicht beeinflusst werden. Und selbst eine Vernichtung oder Verwischung von Spuren kann oft nachträglich, zumindest als Handlung, rekonstruiert werden. Spuren enthalten viele Informationen über denjenigen, der sie verursacht hat. Sie geben sie aber nur bei einer genauen Untersuchung preis. Ebenso enthalten Akten unbewusst hinterlassene und nicht spurenlos beeinflussbare Informationen über die mit ihnen organisierten Aktionen. Als Archivgut aufbereitete Akten benötigen deshalb die fragende Interpretation, um Hinweise für die Rekonstruktion der Anlässe ihrer Entstehung zu geben. Sie liefern keine gespeicherten Berichte über diese Ereignisse und die beteiligten Personen. D 10.1.4 Zugang zum Archivgut Der Zweck der Archive ist ihre Nutzung. Sie sind die Agenturen für die Realisierung des Sekundärwerts von Schriftgut. Vergangenheit, auch wenn sie gerade erst vergangen ist, kann mit Hilfe von Archiven rekonstruiert und vergegenwärtigt werden, um daraus Erfahrungen zu sammeln. Die
600
D 10: Angelika Menne-Haritz
Kenntnis der Vergangenheit ist nützlich, um in der Gegenwart Planungen und Entscheidungen mit Auswirkungen für die Zukunft vorzubereiten, um frühere Fehler und Sackgassen zu vermeiden und um auf Erfahrungen aufzubauen. Die allgemeine Zugänglichkeit zu den Archiven vergrößert die Chancen, dass Erfahrung genutzt und damit bessere Entscheidungen gefunden werden. Mit dieser Aufgabe übernehmen Archivare die Funktion von Spezialisten, deren Kompetenz darin besteht, anderen dabei zu helfen, verschiedene Zeiträume im Zugriff zu haben und für die eigenen Ziele nutzen zu können. Der konkrete Bedarf an Erfahrungen bestimmt sich von den anstehenden Entscheidungen und Planungen her und kann deshalb immer wieder anders sein. Die Möglichkeit zur Rekonstruktion früherer Ereignisse im Licht ihrer Konsequenzen anhand des Archivguts erlaubt es, die Erfahrungen zu erarbeiten, die gerade erforderlich sind. Mit der Bereitstellung unveränderter, authentischer Spuren zu jedem beliebigen Zeitpunkt, heute wie in Zukunft, helfen die Archive dabei, das jeweils erforderliche Reservoir an Erfahrungen aufzubauen. Zugänglichkeit als Leistung von Archiven bedeutet die Bereitstellung einer Reihe von Werkzeugen und Instrumenten, die den Benutzern helfen, die von Ihnen benötigten Quellen zu identifizieren und die Relevanz bereitstehenden Archivguts für ihre Arbeiten einzuschätzen. Benutzer brauchen die Möglichkeit, selbst die Verantwortung für die Antworten, die sie in den Akten finden, zu übernehmen. Historische Forschung, die Archivgut nutzt, macht sich überprüfbar und stellt sich der Diskussion über mögliche andere Interpretationen derselben Quellen. Mit der Bereitstellung einer gut funktionierenden Infrastruktur für die Nutzung des Archivguts akzeptieren die Archive die Kompetenz der Nutzer für ihre eigenen Forschungen. Sie geben nicht vor, wie die Akten richtig zu interpretieren wären, sondern überlassen das den Nutzern und ihrer Diskussion untereinander. Zur Infrastruktur gehören intuitiv nutzbare Findmittel zu den Beständen. Erschließung und Präsentation von Findmitteln haben seit einiger Zeit einen neuen Stellenwert in der Archivarbeit bekommen, denn sie sind zentrale Werkzeuge für die Realisierung des Zugangsrechts. Neue Findmittel unter Nutzung der Internet-Technologien werden angeboten, die eine gute Orientierung liefern und dabei helfen, auch ohne Vorkenntnisse über die Nutzung von Archiven den Weg zum Material, das die entscheidenden Informationen liefert, zu finden. Die Zugänglichkeit der Archive mit der bestmöglichen Orientierung in ihren Beständen auch für ungeübte Nutzer ist Qualitätsmaßstab für die archivische Dienstleistung und die wichtigste Existenzbegründung von Archiven.
D 10.2 Archivierung und Bereitstellung als Fachaufgabe Die Nutzung von Archivgut der staatlichen Archive wird durch Gesetze und die auf ihnen beruhenden Benutzungsordnungen geregelt. Die Archivgesetze in Deutschland konstituieren das allgemeine Zugangsrecht zum Archivgut für jede Fragestellung als einklagbares Bürgerrecht. Diese Bestimmung ist erforderlich, da das Material in den Beständen ursprünglich für interne Kommunikationszwecke entstanden ist. Das Zugangsrecht wird in den Archivgesetzen nur durch potentiell kollidierende gesetzliche Schutzrechte eingeschränkt. Es werden Schutzfristen festgelegt, die davon ausgehen, dass mit dem Ablauf festgelegter Zeiträume für verschiedene Kategorien von Fällen der Bedarf an Schutz geringer wird. Nach diesen Regelungen wägen die Archive die Zugangsrechte bei der Genehmigung einzelner Anträge auf Einsichtnahme von sensiblen Unterlagen ab. Eine generelle 30-Jahres-Frist soll die Verwaltung in ihrer Arbeit vor einem möglichen öffentlichen Druck schützen und den Abstand sichern, der eine äußere Beeinflussung der aktuellen Entscheidungsfindung weitestgehend reduziert. Für wissenschaftliche Forschungen kann diese Frist aufgehoben werden, wenn keine anderweitig zugänglichen Materialien den gleichen Zweck erfüllen. Längere Schutzfristen dienen der Wahrung gesetzlich festgelegter Rechte, die einer Offenlegung widersprechen. Wenn etwa Informationen über Personen zweckgebunden für die Prüfung eines Anspruchs erhoben wurden, muss für eine Einsichtnahme abgewartet werden, bis das Interesse an der Person verblasst ist, was im Allgemeinen nach einer Frist von 30 Jahren nach dem Tod der Person an-
D 10: Archive
601
genommen wird. Außerdem können für dem Archiv überlassene persönliche Unterlagen, etwa in Nachlässen, andere Einschränkungen gelten. Das allgemeine Zugangsrecht gilt für alle archivierten Unterlagen, die Archive in Ausübung ihrer Zuständigkeit übernommen haben. Zur Realisierung des Rechtes bereiten sie das übernommene Schriftgut für die Bereitstellung auf. Die Arbeitsverfahren der Bewertung, der Bestandserhaltung und der Erschließung mit der Erstellung der Findbücher als Ergebnis dienen der Herstellung des Zugangs. D 10.2.1 Bewertung Die Bewertung von Schriftgut im Zuge der Archivierung entfernt Ballast und Redundanzen, die bei der funktionalen Umwidmung und Nutzungsänderung dort vorhanden sind, wo zuvor die praktische Aufgabenerledigung etwa zur Entstehung massenhaften, strukturell gleichförmigen Materials geführt hatte. Oder an mehreren Stellen aus reinen Informationszwecken aufbewahrte Kopien von Unterlagen ohne Bearbeitungsspuren sind generell verzichtbar, während Unterlagen zu federführend bearbeiteten Sachen für die Einsicht in die Arbeit der Stelle relevant sind. Die Bewertung bedeutet die Einschätzung der Unterlagen nach Erforderlichkeit oder Verzichtbarkeit für die Rekonstruktion von Vergangenheit und hat die Auswahl der dauerhaft zu archivierenden Unterlagen zur Folge. Die Bewertung geht primär von einer gegenüber möglichen inhaltlichen Aussagen des Archivguts neutralen Fragestellung aus, durch die eine Auswertung für jeden, auch einen heute noch nicht vorhersehbaren Auskunftsbedarf, möglich wird. Eine Abwägung nach wichtig oder unwichtig, die, auch wenn es unbewusst geschieht, einen spezifischen Auskunftsbedarf antizipiert, wird ihn privilegieren und gleichzeitig damit die Öffnung der Unterlagen für andere Fragestellungen versäumen. Die archivische Bewertung orientiert sich vorrangig an dem Stellenwert der in den Akten repräsentierten Prozesse für die Rekonstruierbarkeit der Arbeit der Herkunftsstelle, bei der die Aufzeichnungen entstanden sind. Für das Ziel der Rekonstruierbarkeit der ursprünglichen Aktionen, Motive und Wirkungen sind andere und vor allem sehr viel weniger Unterlagen erforderlich, als sie für die Sicherung der Handlungsfähigkeit der Herkunftsstelle nötig waren. Auch so kann ein vollständiges Bild der Arbeit einer Behörde entstehen. Ziel der Bewertung ist es, genau die dafür erforderlichen Akten zu identifizieren und für die Archivierung auszuwählen. Alles Übrige ist Ballast und verstellt den Zugang zu den relevanten Unterlagen. Bei massenhaft gleichförmigen Akten, etwa aus der Leistungsverwaltung auf kommunaler Ebene, die aus stark vorstrukturierten Vorgängen stammen und detaillierte Informationen in gleich gelagerten Einzelfällen enthalten, kann eine Auswahl etwa nach statistischen Methoden ausreichend sein. Gerade hier ist es jedoch durchaus nützlich, die Kontexte deutlich nachvollziehbar zu erhalten, damit bei der Auswertung die Entstehungszwecke für die Quellenkritik genutzt werden können. D 10.2.2 Bestandserhaltung zur Stabilisierung für den Zugang Die Bestandserhaltung dient dem Ziel, bei der Bereitstellung jedem, der Einsicht in die Unterlagen nimmt, eine vollständige und unveränderte Anschauung zu garantieren. Die Stabilisierung der Materialien ab dem Zeitpunkt der Beendigung ihrer Entstehung über unbegrenzte Zeiträume hinweg ist Voraussetzung für die wissenschaftliche Auseinandersetzung über ihre Interpretation. Unter dem Gesichtspunkt der Zugänglichkeit als Bürgerrecht und damit als zentraler Aufgabe für die Archive müssen sie das Archivgut jedem, der es einsehen will, mit der gleichen Aussagekraft vorlegen, unabhängig vom Zeitpunkt der Einsichtnahme. Seine äußere Ansicht darf sich deshalb auch nach Ablauf längerer Zeiträume nicht mehr verändern. Archivierung beendet den Wachstumsund Veränderungsprozess der Akten. Bestandserhaltung stabilisiert den Aussagegehalt und sichert
602
D 10: Angelika Menne-Haritz
die Voraussetzungen für eine unveränderte Erscheinung ab dem Zeitpunkt der Archivierung, unabhängig davon, ob das Archivgut in analoger oder digitaler Form entstanden ist. Im Zuge der Archivierung und danach garantiert eine unter fachlichen Gesichtspunkten betriebene Bestandserhaltung die Sicherung der Unterlagen vor Verschleiß und Beschädigung. Während Bibliotheken ihre Bücher meist druckfrisch bekommen, können bei Akten zwischen dem Entstehen eines Schriftstücks und seiner Archivierung bereits Jahrzehnte vergangen sein, die ihre Spuren im äußeren Erscheinungsbild der Akten hinterlassen haben. Akten entstehen als Gebrauchsmaterialien, bei denen oft der aktuelle Nutzen für die Verwaltungsarbeit das Interesse an einer schonenden Aufbewahrung überwiegt. Sie sind so haltbar und stabil wie ihre Trägermaterialien. Bestandserhaltung ist eine konzeptionelle, fachliche Aufgabe für Archivarinnen und Archivare, die der Erreichung ihrer professionellen Ziele dient (Lit. 06). Strategien zur Vermeidung von Instandsetzungsbedarf sind dabei wichtiger als die technische Instandsetzung im Rahmen der Restaurierung. Bestandserhaltung ist integraler Bestandteil der Archivierung und deshalb Teil der Qualifikation für archivische Fach- und Führungsaufgaben. Ihr geht es um die Erarbeitung von Konzepten zum Schutz des Archivguts, sei es beim Transport zwischen Magazin und Lesesaal, sei es im Fall größer Ereignisse wie Unwetter und anderen Katastrophen, um das Initiieren von Maßnahmen der Prävention wie der Restaurierung, um das Organisieren, das Delegieren und das Überwachen der erforderlichen Tätigkeiten. Ein wichtiger Zielkonflikt besteht zwischen der Bereitstellung für die Nutzung und dem Ziel der unveränderten Aufbewahrung. Visuelle Reproduktionen sind ein hervorragendes Instrument für die Vereinbarkeit von Bereitstellung für die Auswertung und gleichzeitigem Schutz der Unterlagen vor Verschleiß und Unachtsamkeit. Kombinierte Strategien mit der Originalerhaltung zur Sicherung des Authentikums, der Mikroverfilmung zur Sicherung der Aussagegehalte und der Digitalisierung für die Nutzung werden dafür entwickelt und eingesetzt. Eine Digitalisierung vom Mikrofilm stellt ein Verfahren dar, mit dem relativ zügig große Mengen an Digitalisaten erzeugt und, mit einer Auflösung, die der Internetübertragung und Darstellung am Bildschirm angepasst ist, wirtschaftlich für den Online-Zugang aufbereitet und verwaltet werden können. Die digitale Reproduktion aller Aufnahmen auf dem Film, auch leerer Seiten oder von vorgeschalteten Steuerungsaufnahmen, überträgt zudem bei der Nutzung die höhere Plausibilität für die Vollständigkeit vom Mikrofilm auf die digitalen Reproduktionen. Entgegen früheren Erwartungen ist es inzwischen deutlich, dass die Digitalisierung von ursprünglich analogen Aufzeichnungen nicht sinnvoll für die langfristige Erhaltung und gar als Ersatz für Originalformen eingesetzt werden kann. Sie ist ein hervorragendes Werkzeug zur Verbesserung des Nutzungskomforts. Doch bereitet allein schon die Erhaltung ursprünglich digitaler Aufzeichnungen und die Sicherung ihrer Zugänglichkeit heute noch so viele Probleme, dass zumindest auf absehbare Zeit ein digitales Abbild weder eine technische und schon gar keine wirtschaftliche Alternative zur Erhaltung analoger Aufzeichnungen in ihrer ursprünglichen Form sein kann. Bestandserhaltung dient der Sicherung des Zugangs zum unveränderten Archivgut zu jedem Zeitpunkt. Indem sie ihre Aufgabe für die Zugänglichkeit wahrnimmt, sichert sie damit auch die Erhaltung der Unterlagen für die Zukunft. D 10.2.3 Erschließung und Erstellung von Findmitteln Die Findmittel der Archive geben Auskunft über ihre Bestände. Sie bieten Zugänge auf zwei Ebenen an, der Ebene des zusammenfassenden Überblicks über alle Bestände in der Beständeübersicht für jeweils eine Einrichtung und der Ebene der Findbücher, die zu den bestellbaren Einheiten führen. Beständeübersichten und Findbücher werden zunehmend als miteinander verlinkte Online-Versionen mit hohem Nutzungskomfort auf den Webseiten der Archive präsentiert und zu einem geringeren Teil daneben weiterhin als gedruckte Bände herausgegeben. Die Online-Versionen von Beständeübersichten und Findbüchern geben die Möglichkeit der Navigation in der Struktur, des Blät-
D 10: Archive
603
terns wie in einem gedruckten Buch ebenso wie der Volltextrecherche in den Erschließungsangaben nach bekannten Begriffen oder Namen (Lit. 01). D 10.2.3.1 Beständeübersichten Mit Hilfe der Tektonik seiner Bestände bildet ein Archiv die Behörden übergreifenden Zusammenhänge in seinem Zuständigkeitsbereich ab. Wenn neue Bestände angelegt werden, werden sie am entsprechenden Platz in der Tektonik eingefügt. Damit entsteht für die Benutzung ein Überblick über das vorhandene Material und die möglicherweise darin zu findenden Anhaltspunkte für eine Fragestellung. Die Tektonik wird oft als Inhaltsverzeichnis zu der gedruckten und in größeren Bibliotheken im Lesesaal bereitgehaltenen oder im Internet angebotenen Beständeübersicht eines Archivs genutzt. Die Beständeübersichten liefern kurze Erläuterungen zu jedem einzelnen dort erwähnten Bestand. Wenn sie in eine Online-Rechercheplattform integriert sind, werden ihre Bestandsbeschreibungen in eine übergreifende Suche einbezogen werden und liefern so Informationen auch zu den Beständen, für die noch keine Online-Findbücher vorhanden sind und die noch nicht im Detail recherchierbar sind. Jeder einzelne Bestand, der in der Regel die archivierten Unterlagen einer Organisation oder Behörde umfasst, wird hier mit einer Bestandsnummer, einer Bestandsbezeichnung und der Laufzeit der dort zusammengefassten Unterlagen identifiziert. Ausführliche Beschreibungen der einzelnen Bestände geben Informationen zur Behördengeschichte und zur Entwicklung sowie zum Schicksal des Bestandes bis zu seiner Übernahme in das Archiv. Außerdem wird der Erschließungszustand erläutert und auf Findmittel zum Bestand verwiesen. Soweit Online-Findbücher bereitstehen, sind sie oft von dieser Stelle aus mit einem Link erreichbar. Die Beständeübersichten erlauben so bereits aus der Ferne einen ersten Überblick über die Bestände sowie bereitstehende detaillierte Findmittel und geben einen Eindruck davon, was in dem jeweiligen Archiv vorhanden ist, wie es strukturiert ist und wie es am besten genutzt werden kann. D 10.2.3.2 Findbücher Findbücher inventarisieren und präsentieren die bestellbaren Einheiten innerhalb der Bestände in ihren Zusammenhängen. Sie werden für einzelne Bestände, manchmal auch für selbständige Teile von Beständen oder zusammengehörige Beständegruppen angelegt. Auf der Titelseite werden die Bestandsbezeichnung und die Bestandssignatur angegeben, die bei einer Bestellung von Einheiten zusammen mit der Signatur der gewünschten Titel aus dem Findbuch benötigt wird. Die Liste der bestellbaren Einheiten in einem Bestand wird nach den Zusammenhängen der ursprünglichen Verwaltungsarbeit gegliedert. Die Gliederung bildet im Online-Findbuch die Grundlage des Navigationsbaumes und im gedruckten Findbuch das Inhaltsverzeichnis. Ein typisches Findbuch, analog oder digital, offline oder online umfasst folgende Bestandteile: –– Das Titelblatt nennt die bibliographischen Angaben zur Identifikation des Findbuchs und damit in vielen Fällen auch die Bezeichnung des Bestandes. –– Das Inhaltsverzeichnis gibt einen Überblick über die innere Struktur des Bestandes. Im Online-Findbuch als Navigationsbaum angezeigt ist es auch zur Navigation durch den Bestand nutzbar. –– Die Einleitung informiert über die Entstehung des Bestandes und die Entwicklung der Behörde oder Organisation, aus deren Arbeit er stammt. Außerdem gibt es hier oft eine Gebrauchsanweisung mit Hinweisen für die Benutzung. Die Zitierweise wird hier erläutert und bereits vorliegende Publikationen mit Auswertungen des Bestandes werden genannt. –– Der Hauptteil enthält die gegliederte Liste der bestellbaren Einheiten. Die Überschriften der Gliederungsgruppen werden im Inhaltsverzeichnis wie Kapitelüberschriften zur Darstellung der Struktur angezeigt. Die Aktentitel in den Gliederungsgruppen zeigen, welche einzelnen bestellbaren Einheiten im Archiv vorhanden sind und nennen die Signatur, die als Bestell-
604
––
––
D 10: Angelika Menne-Haritz
nummer verwendet werden kann. Jede einzelne Verzeichnungseinheit besteht neben der Signatur zu ihrer Identifikation zumindest aus dem Titel und einem eventuellen Enthältvermerk sowie der Laufzeit des Materials. Wenn sinnvoll, werden weitere Angaben, wie zu alten Signaturen, zu Konversionsformen oder zum Umfang gemacht. In Online-Findbüchern können außerdem Zusatzinformationen über die Erschließung oder die Bewertungsentscheidungen angeboten werden. Die einzelnen Einheiten werden zudem, soweit vorhanden, mit der digitalen Abbildung der jeweiligen Akte verknüpft, die von hier aus geöffnet werden kann, und die mit Hilfe von Metadaten (oft im Format Metadata Encoding and Transmission Standard – METS) aus den digitalisierten Seiten gebildet und intern strukturiert wurde. In den Fällen, in denen ein Index erfasst wurde, listet er Begriffe auf, die bei der Erschließung als relevant für die einzelne Verzeichnungseinheit ausgewählt wurden. Der Index verweist in der Online-Präsentation mit Angabe der anklickbaren Signatur auf den jeweiligen Titel und öffnet ihn an der jeweiligen Fundstelle. In gedruckten Findbüchern verweist er auf die Seitenzahl, da die Signaturen nur selten in numerischer Reihenfolge angezeigt werden. In Anhängen werden auch in einigen Online-Findbüchern Abbildungen aus den Beständen, Konkordanzen von alten und neuen Signaturen oder Organigramme aufgenommen.
D 10.3 Die Recherche in den Findmitteln Die Recherche nach relevanten Unterlagen setzt genauso wie die Recherche im Archivgut selbst Verfahren der Ermittlungen und des Entdeckens ein. Dafür bieten archivische Findmittel spezielle Unterstützung an. Einen wichtigen Stellenwert hat dabei die Buchform, denn sie bietet implizite, mit der äußeren Form transportierte Bedeutungen, die nicht verbalisiert werden müssen und trotzdem verstanden werden, und die für die Recherche wie für die Orientierung nützlich sind. D 10.3.1 Der Nutzen der Buchform für archivische Findmittel Seit dem Beginn der Professionalisierung des Archivarsberufs im 19. Jh. nutzen die Findmittel, ob Beständeübersichten oder Findbücher, die Vorteile der Buchform. Noch bis zur Einführung der Computerarbeitsplätze wurden in den Archiven die einzelnen Aktentitel auf Karteikarten erfasst. Anschließend wurden die Gliederung erstellt, die Überschriften auf besonderen Karten aufgeschrieben, die Titelkarten zu den Gliederungsgruppen sortiert und in die gewünschte Reihenfolge gebracht. Mit einer Schreibmaschinenabschrift wurde alles so fixiert, dass die Reihenfolge nicht mehr gefährdet war. Titel, Inhaltsverzeichnis und Einleitung, oft auch ein Index des Findbuchs wurden erstellt und dem Manuskript hinzugefügt und das Findbuch im eigenen Lesesaal und zusätzlich mit Hilfe von Kopien oder als Verlagsprodukt an Bibliotheken und andere Archive verteilt. Trotz Einsatz von Karteikarten bei der Erfassung und der Erstellung der Gliederung war das Ergebnis ein Findbuch. Die Karteikarten wurden nicht zur Recherche verwendet. Auch ihre Nutzung als kumulierter Generalindex hat sich nicht bewährt. Die Buchform garantiert die Stabilisierung der Reihenfolge der Titel wie der Gliederungsgruppen. Dazu gibt sie eine schnelle Orientierung über den gesamten Bestand mit Hilfe des Inhaltsverzeichnisses und beim Blättern durch die Gliederungsgruppen, die wie Kapitel das Buch strukturieren. Schließlich grenzt das Buch auch einzelne, jeweils in einem Band beschriebene Bestände deutlich voneinander ab, ohne dass diese Tatsache erwähnt werden muss. Die Funktionen der Buchform unterstützen die Recherche und das Verständnis der Erschließungsangaben und werden in dieser Form unaufdringlich bereitgestellt. Die elektronische Form des Online-Findbuchs wie auch der Online-Beständeübersicht behält die Buchform bei und ergänzt ihre Nutzung durch neue Funktionalitäten wie zahlreiche interne und externe Verlinkungen sowie die Durchsuchbarkeit nach Begriffen. Diese Begriffe können schon
D 10: Archive
605
vorher bekannt sein, sie können aber auch etwa bei dem Durchblättern des Findbuchs in einem interessierenden Zusammenhang aufgetaucht sein als eine im damaligen Verwaltungskontext gebräuchliche Bezeichnung und dann zur Suche genutzt werden. Je nach Präsentationsmodell können die Treffer nach einer solchen Volltextsuche in einer Liste mit den zugehörigen Gliederungsüberschriften angezeigt werden und zu der Nennung des Titels an der Fundstelle im Findbuchtext führen. Verweise können als Links genutzt werden, etwa vom Inhaltsverzeichnis in das Findbuch selbst hinein oder von einem Index- oder Suchbegriff zur Fundstelle. Die Anzeige der Begriffe an der Fundstelle im Findbuch, sei es nach der Volltextsuche oder bei Nutzung des Index und anderer Verweise, ist eine besonders nützliche Funktion der OnlineFindbücher. Denn dort werden auch die umgebenden, nicht als Suchergebnis gewerteten Titel samt der übergeordneten Gliederungsüberschriften und des an dieser Stelle aufgeklappten Inhaltsverzeichnis anzeigt, so dass weiter assoziativ navigierend recherchiert werden kann. Mit den digitalen Funktionen ergänzt erweist sich die Buchform für die Bereitstellung archivischer Erschließungsangaben als eine ideale Form, die auch ungeübten Archivbenutzern einen schnellen und intuitiven Einstieg in die Archivrecherche ermöglicht. D 10.3.2 Online-Findmittel und Rechercheplattformen Online-Findmittel ermöglichen zusätzlich den Aufbau von Rechercheplattformen, die Navigation und Suche für eine nahtlose Recherche integrieren und gleichzeitig die Orientierung sichern, indem zu jedem Zeitpunkt während der Recherche der Kontext der aktuellen Position sichtbar ist und bei allen Änderungen an einer Stelle, etwa beim Blättern durch die Listen oder beim Anklicken des Navigationsbaumes, alle übrigen Anzeigen aktualisiert werden. Solche Recherchplattfomen können für einzelne Archive eine übergreifende Recherche in allen online erschlossenen Beständen anbieten. Sie können genauso gut Institutionen, Regionen und Ländergrenzen übergreifen. Beispiel dafür sind etwa die Installation ARGUS des Bundesarchivs, das Netzwerk SED- und FDGB-Archivgut und das Archivportal Europa. Weitere Portale und gemeinsame Zugriffspunkte sind zur Zeit im Aufbau, die die Recherche in Archiven weiter vereinfachen und noch besser unterstützen werden. Diese Rechercheplattformen bieten neben der horizontal übergreifenden Suche die vertikale Integration der Findmittel an, indem sie die Beständeübersichten zur Strukturierung der Liste der angezeigten Online-Findbücher nutzen und auf der Ebene darüber die jeweils repräsentierte Archivlandschaft einbeziehen, in der Informationen zu den Institutionen und ihrer Erreichbarkeit mit Links zu den zugehören Beständeübersichten verbunden werden. So kann von der Archivlandschaft aus über die Beständeübersichten bis zu den einzelnen bestellbaren Einheiten navigiert werden, wo, soweit vorhanden, die zugehörigen Digitalisate in den eigenen Internetangeboten der Archive direkt geöffnet und gelesen werden können. Die vertikale Integration legt zudem den Umfang des online verfügbaren Angebots im Verhältnis zum Gesamtbestand mit den noch nicht online recherchierbaren Teilen offen und erlaubt damit eine genauere Einschätzung des Stellenwerts der angebotenen Informationen. Die strukturierte Navigation kann genutzt werden, um eine selbstgesteuerte Relevanzentscheidung zu ermöglichen. So können Bereiche für eine nachfolgende Suche in den Strukturen ausgewählt und zusammengestellt werden, womit gleichzeitig der Rest als nicht relevant ausgeklammert bleibt. Durch die Auswahl vor der Suche müssen nicht nachträglich Treffer mit Filtern aussortiert werden. Es bietet sich deshalb auch an, die automatische, meist nicht durchschaubare Relevanzentscheidung der Suchmaschine auszuschalten und die Suchergebnisse in der Reihenfolge ihres Auftretens in der Gesamtstruktur, zusammen mit den zugehörigen Gliederungsüberschriften anzuzeigen. Das Datenmodell von EAD unterstützt solche Funktionen und wird deshalb als Eingangsformat für die Portale genutzt. Archive, die dort ihre Erschließungsangaben publizieren möchten, können von den Betreibern unterstützt werden, indem Ihnen Konvertierungswerkzeuge und Testumgebun-
606
D 10: Angelika Menne-Haritz
gen bereitgestellt werden und ihnen eine volle Verfügungsgewalt über ihre Daten auch nach Bereitstellung für die Plattform gewährleistet wird. D 10.3.3 Internationale Standardisierung: Encoded Archival Description (EAD) und ISAD(G) Anfang der 90er Jahre hatte der Internationale Archivrat den International Standard of Archival Description (General) (ISAD (G)) angenommen. Er wurde 1994 in deutscher Übersetzung von der Archivschule Marburg publiziert. 2000 wurde er überarbeitet und 2002 erschien die Übersetzung wiederum in der Reihe der Archivschule. Kennzeichen für ISAD (G) ist das Konzept der mehrstufigen Erschließung (Multilevel Description), bei der Redundanz vermieden wird, indem beschreibende Informationen, die für mehrere Einheiten einer Stufe gelten, auf der nächst höheren Stufe zusammengefasst werden. Für jede Ebene wurde ein Elementebestand standardmäßig definiert. Damit sollte die Austauschbarkeit der Erschließungsangaben archivübergreifend realisierbar werden. ISAD(G) wurde vor allem für Softwaresysteme auf der Grundlage von relationalen Datenbanken verwendet. Hier sollten die Strukturen über die Relationen zwischen Tabellen abgebildet werden. Viele dieser Datenbanken beherrschen inzwischen den Export nach EAD zur Erleichterung des Datenaustauschs. EAD bildet Findbücher als integrale Einheiten ab und übersetzt die Funktionen der Buchform in die digitale Umgebung. Es hat seine Wurzeln in den Digital Humanities der USA und entwickelte sich seit Mitte der 90er Jahre, beeinflusst von der Text Encoding Initiative (TEI) in der Society of American Archivists, zunächst als SGML-Kodierung, seit 2000 im XML-Format. Es markierte bei seiner Entstehung einen Durchbruch bei der Anwendung modernster IT-Technologien für lange bewährte, an Provenienzen orientierte archivische Fachverfahren und förderte damit einen Professionalisierungsschub im archivarischen Beruf. Der Elementebestand von EAD ist sehr umfangreich. Für konkrete Anwendungen werden deshalb gern Untermengen als eigene Profile definiert. EAD ist ein Strukturstandard und behandelt Findbücher als intern strukturierte Einheiten mit den typischen Bestandteilen von Büchern wie dem Titel, der Einleitung, der Gliederung und einer festen Reihenfolge der Titel in den Gliederungsgruppen als Gesamtheit. Alle Angaben vom Titel der Akten über die hierarchische Gliederung der Gruppen mit ihren Überschriften bis zur äußeren Beschreibung des Findbuchs einschließlich der bibliographischen Angaben sind in einer EAD-Datei integriert. In dieser Form werden sie als komplette Einheit verwaltet, an andere Computersysteme weitergegeben und für unterschiedliche Präsentationsmodelle genutzt. EAD erlaubt nach der Erfassung der Angaben zu den einzelnen Titeln die Fokussierung zahlreicher Arbeitsvorgänge im Archiv auf den Bestand als größere Einheit, womit sich nicht zuletzt neue Wirtschaftlichkeitspotenziale entfalten können. In den heutigen Rechercheplattformen mit Findmitteln, die auf mehreren Ebenen mit einander verknüpft sind, können verschiedene Recherchemethoden in jederzeitigem Wechsel verwendet werden. Damit können in der digitalen Form die Ubiquität und Zeitlosigkeit des Internets mit den stabilisierenden Funktionen der analogen Formen zu neuen, umfassenderen Recherchemethoden kombiniert werden.
D 10.4 Berufsverbände und Publikationsorgane ––
Verband deutscher Archivarinnen und Archivare e.V. (VdA) Der VdA ist ein eingetragener Verein, zu dem sich Archivarinnen und Archivare in der Bundesrepublik Deutschland zusammengeschlossen haben. Er wurde 1946 gegründet und vertritt als Berufs- und Fachverband die Interessen des deutschen Archivwesens. Er veranstaltet jährlich den Deutschen Archivtag. Die Vereinsmitteilungen erscheinen in der Fachzeitschrift „Archivar“. Der VdA gliedert sich nach den verschiedenen Archivsparten in acht Fachgruppen.
––
––
––
––
D 10: Archive
607
Regional ist er in Landesverbänden organisiert. Zu aktuellen Themen werden Ausschüsse im Vorstand und Arbeitskreise eingerichtet. URL: www.vda.archiv.net Verein Schweizerischer Archivarinnen und Archivare (VSA) Der 1922 gegründete VSA repräsentiert und vernetzt als nationaler Fach- und Berufsverband Archivare, Records Manager und Informationsspezialisten sowie die professionellen Archive der Schweiz. Der VSA unterstützt die Kooperation unter den Institutionen und deren Ziel, den Zugang zum Archivgut benutzungsfreundlich zu gestalten. Der VSA publiziert in Zusammenarbeit mit dem Verband Bibliothek Information Schweiz (BIS) die Fachzeitschrift „arbido“. URL: www.vsa-aas.org/de Verband Österreichischer Archivarinnen und Archivare (VÖA) Der VÖA ist seit 1967 die Berufsorganisation der Archivarinnen und Archivare aus allen Archivzweigen und für das österreichische Archivwesen. Er sieht sich als Interessenvertretung für seine Mitglieder und gibt die Fachzeitschrift „Scrinium“ heraus. URL: http://www.voea.at/ International Council on Archives (ICA) Der nach dem zweiten Weltkrieg auf Initiative des Amerikanischen Nationalarchivs gegründete ICA veranstaltet alle 4 Jahre den Internationalen Archivkongress mit rund 2000 Teilnehmern und dazwischen jährlich eine internationale Archivkonferenz. Mitglieder dieser NGO sind vor allem die Archivverwaltungen der Länder und regionaler Einheiten sowie die Berufsverbände. Der ICA gab fast 60 Jahre lang die Zeitschrift „Archivum“ heraus, die nun durch „Comma“ und das Mitteilungsblatt „Flash“ abgelöst ist. In regionalen Zweigen, Komitees und Sektionen werden Standards und Handreichungen für die Praxis erarbeitet. Der ICA versteht sich als internationale Lobby für das Archivwesen und den ungehinderten Zugang zum Archivgut in allen Ländern. URL: www.ica.org Society of American Archivists (SAA) Die SAA ist der größte nationale Archivarsverband. An ihren Jahrestagungen nehmen rund 2000 Archivarinnen und Archivare aus den USA und Kanada teil. Die SAA unterhält die Standardisierungsgremien für EAD und EAC(CPF). Sie gibt die Zeitschrift „American Archivist“ mit wissenschaftlichen Artikeln und fachbezogenen Informationen heraus. Ihr Sitz ist in Chicago. URL: www.archivists.org
Fachzeitschriften Angaben zu über 100 weiteren Fachzeitschriften finden sich in der internationalen Fachbibliographie auf der Webseite der Archivschule Marburg. Das Angebot umfasst auch Termine von Fachveranstaltungen sowie eine Linkliste zu Archiven in Deutschland und Informationen über Aus- und Fortbildungen. URL: www.archivschule.de
Literatur 01 Beate Dorfey: Erschließungsinformationen im Internet, Empfehlungen zur Weiterentwicklung der Präsentation im Netz. Vorstellung der Ergebnisse einer AG des IT-Ausschusses der ARK. Archivar 63, H.1, 2010, 56-59 02 Angelika Menne-Haritz: Die Rechercheplattform ARGUS – Findmittel und digitalisierte Akten im Internet. arbido 1, 2012, 15-19 03 Angelika Menne-Haritz: Archivgut in Digitalen Bibliotheken. Archivar 65, H.03, 2012, 248-257 04 Stiftung Archiv der Parteien und Massenorganisationen der DDR im Bundesarchiv, Digitalisierung in der SAPMO, Auswertung der bisherigen Erfahrungen, Berlin 2011, www.bundesarchiv.de/fachinformationen/01338/index.html.de. 05 Theodore R. Schellenberg: Modern Archives. Principles and Techniques, Chicago 1957, reprint 1975,
608
D 10: Angelika Menne-Haritz
reissued in 2003, als PDF verfügbar unter: www.archivists.org 06 Hartmut Weber: Bestandserhaltung als Fach- und Führungsaufgabe. Hartmut Weber (Hrsg.), Bestandserhaltung in Archiven und Bibliotheken, Stuttgart 1992, 135-157 07 Rainer Brüning; Werner Hegewald; Nils Brübach: ISAD(G), Internationale Grundsätze für die archivische Verzeichnung, 2. Aufl. Marburg 2002 08 Informationen und Links zu EAD über: www.archivgut-online.de 09 Links zum europäischen Archivportal: www.archivesportaleurope.eu und www.apex-project.eu
Axel Ermert, Karin Ludewig
D 11 Museen D 11.1 Einleitung Legt man den Begriff Museum weit aus, wie es die deutsche Museumsbesuchs-Statistik (Lit. 01) tut – also ohne Mindestöffnungszeiten, Anwesenheit akademischer Kräfte, hauptamtliche Leitung vorzugeben –, kommt man in Deutschland derzeit auf ca. 6.500 Museen. Für das Jahr 2008 gaben knapp 4.000 Museen an, im Internet vertreten zu sein, für 2011 gaben 866 Museen an, auf ihrer Internetpräsenz auch Texte und Bilder zu ihren Objekten zu zeigen. Die Übergänge zu verwandten Einrichtungen wie Ausstellungshäusern, Archiven, Gedenkstätten usw. sind oft fließend. Museen – zumindest die deutschen – haben für sich im Laufe der Zeit die griffige Formel einer Selbstbeschreibung entwickelt: Sammeln, Bewahren, Erforschen – Präsentieren und Vermitteln, womit ihr Aufgabenbereich schlagwortartig umrissen ist (zur aktuellen Situation vgl. Lit. 02, Lit. 03, Lit. 04). Hauptkennzeichen und unterscheidendes Merkmal von Museen, neben dem Vorhandensein einer eigenen permanenten Sammlung, ist das Erstellen und die öffentliche Bereitstellung systematisch erarbeiteter Ausstellungen. Die Möglichkeit im digitalen Zeitalter, Ausstellungen auch digital und damit sehr weit reichend zur Verfügung stellen zu können, hat die Arbeit der Museen grundlegend erweitert. Museen stehen heute sozusagen vor einem doppelten Nachhol- und Aufholprozess: endgültig den Anschluss an anderswo bereits erreichten Dokumentationstechniken zu gewinnen und sich gleichzeitig auf die stark veränderten Umstände der digitalen Informationsverarbeitung und -bereitstellung umzustellen. Ihre entscheidende Informationsleistung ist die Übertragung und Bereitstellung von Information nicht durch konventionalisierte Zeichensysteme der Kommunikation, sondern durch die Ausstellung körperlicher, physisch wahrgenommener Objekte und in körperlicher Anwesenheit der Rezipierenden. Das Vermittlungsmedium der Museen ist die Bildlichkeit; und diese bildliche Präsentation verdoppelt sich heute in die körperliche Anwesenheit der Objekte und die virtuelle, rein digitale Verbreitung von Information (Lit. 05). Dabei ist bisher Konsens, dass die körperliche, physisch reale Objektpräsentation auf keinen Fall zugunsten der virtuellen aufgegeben werden darf. Museen sind zugleich wissenschaftliche Einrichtungen, die durch Verzeichnung und Erschließung auch eine umfangreiche Dokumentation – im traditionellen Sinn von Katalogen, Corpuswerken, Forschungsveröffentlichungen, Gesamtverzeichnissen usw. – zu den Museumsobjekten erstellen. Die Museumsbibliotheken als die Zuständigen für museumsbezogene Literatur organisieren sich in der Arbeitsgemeinschaft Kunst- und Museumsbibliotheken (AKMB) (Lit. 06). An die dokumentarische Verzeichnung und Erschließung von Museumsobjekten und deren digitale Verbreitung stellen sich insofern höhere Anforderungen als etwa bei der Formalerschließung von Bibliotheksbeständen. Bei Museumsobjekten ist meist mehr erforderlich als eine Transkription bereits deutlich auf dem Objekt angebrachter formaler Merkmale wie etwa Titeln bei Büchern. Neben der Objektbestimmung und der Vergabe der Objektbezeichnung muss eine Vielzahl von physischen, gerade auch visuellen Merkmalen des Objekts erfasst werden. Eine dennoch enge Nachbarschaft der verschiedenen Gedächtnisinstitutionen zeigt sich jedoch z. B. in typischen Überschneidungsbereichen, etwa Nachlässen, Alten Drucken, Filmen, Plakaten, Fotos etc. (vgl. Lit. 07). Trotz der Fortentwicklung von Bild- bzw. Muster-Erkennungssystemen für das Retrieval in Datenbanken spielt bei der dokumentarisch erfassenden Tätigkeit die sprachliche Darstellung noch immer die überwiegende Rolle. Hinzu kommt die auch in Museen relevante klassische dokumentarische Aufgabe der Anordnung und Gliederung der Objekte bzw. der sie repräsentierenden Datensätze durch Klassifikationen und Thesauri.
610
D 11: Axel Ermert, Karin Ludewig
D 11.2 Wichtige Institutionen, Infrastruktur Nach einem ersten Anlauf in 1905 ergab sich 1917 die Bildung des Deutschen Museumsbundes (DMB) (Lit. 08) als Organisation für Museen und in ihnen Tätigen. Neben diesem deutschlandweiten Verband bestehen regionale Museumsverbände in jedem deutschen Bundesland. Hinzu kommt ICOMDeutschland (Lit. 09) als deutsche Sektion des 1946 gegründeten Weltmuseumsverbandes International Council of Museums (ICOM). ICOM unterhält auch ein International Committee for Documentation (CIDOC) und ein International Committee for Conservation (ICOM-CC). Um im Zuge der Bildungsreformen der 1960er Jahre auch neue Perspektiven und Leistungen für Museen zu entwickeln, wurde 1979 das bundesweit tätige Institut für Museumsforschung als Teil der Staatlichen Museen zu Berlin – Preußischer Kulturbesitz eingerichtet (Lit. 10). Es arbeitet eng mit den Fachgruppen des DMB zusammen und hier insbesondere mit der Fachgruppe Dokumentation (Lit. 11) und ihren AGs. Zudem gibt es in einigen Bundesländern staatlich getragene Museumsberatungsstellen (siehe Konferenz der Museumsberatung in den Ländern, KMBL). Die zwei Mal pro Jahr stattfindenden Tagungen der DMB Fachgruppe Dokumentation sind das Forum, auf dem regelmäßig und kontinuierlich die Entwicklung der Museumsdokumentation und mögliche Standardisierungen deutschlandweit diskutiert werden. Die AG Regelwerke engagiert sich hierfür seit 1995 (Lit. 12, Lit. 13). Eine Webseite für die Museumsdokumentation ist in Vorbereitung. Die Ausbildungsvorbereitung für eine Tätigkeit im Museum war lange Zeit ausschließlich das universitäre Studium einer Fachwissenschaft (Ägyptologie, Kunstgeschichte, Geschichte etc.). Seit 20 Jahren besteht auch an zwei bisherigen Fachhochschulen (Berlin und Leipzig) die Möglichkeit eines grundständigen Studiums, das später die Einstellung im gehobenen Dienst erlaubt. Entsprechendes gilt für die Ausbildung zum Restaurator (Lit. 14). Darüber hinaus haben sich an zahlreichen Universitäten Aufbau- und Fortbildungsstudien für Museumswesen und für Restaurierung etabliert sowie zahlreiche andere Fortbildungen. Besondere Ausbildungswege sind die zum Ausstellungstechniker oder zum Präparator (vgl. Lit. 15).
D 11.3 Mehrwerterzeugende Produkte und Dienstleistungen In den letzten 10 bis 15 Jahren hat sich die Museumsdokumentation durch die Digitalisierung stark gewandelt: von der handschriftlichen Führung eines Eingangsbuches für neu ins Haus gekommene Objekte, wobei oft kaum mehr als eine Eingangsnummer vergeben wurde, erweiterte sie sich zur digitalen Erfassung von Angaben aller Art über das Museumsobjekt in internen Datenbanken, die zunehmend Daten mit anderen, auch externen Datenbanken austauschen oder im Internet veröffentlichen. Auch Museen sind nunmehr Teil einer Entwicklung, die vom Dokumentations-Pionier Otlet seit 1895 vorhergesehen und eingefordert wurde (Lit. 16), nämlich dass alle Arten von Informationen, nicht nur gedruckte Texte, in weitester Verbreitung und leichter Zugänglichkeit zur Verfügung stehen sollen. Dies hat Auswirkungen auf die Zusammenarbeit von Museen untereinander sowie in Bezug auf ihre Außendarstellung und Öffentlichkeitsarbeit. Digitale Dienstleistungen und Produkte, die der Öffentlichkeit im Internet oder beim Besuch einer Ausstellung zur Verfügung stehen, wurden und werden entwickelt, von denen Museumsbesucher bis vor kurzem nicht einmal träumen konnten. Dokumentation und Bereitstellung von Objektangaben erfolgte in Museen, genau wie in Bibliotheken und Archiven, früher rein intern, für Zwecke des Dienstgebrauchs, und stets individuell gestaltet gemäß den Bedürfnissen der einzelnen Museen. Zwar ist die ordnungsgemäße Inventarisierung der Museumsobjekte (ebenso wie für Bibliotheken) zumindest in öffentlich getragenen Museen durch verschiedene Verwaltungsvorschriften von jeher vorgeschrieben. Erst der heutige umfassende Austausch von Daten jedoch – z. B. zwischen Museen und Experten, Kunsthandel, fotografischen Rechteverwaltern, der Leihverkehr mit anderen Museen, Verlagsanfragen nach Abbildungen, jüngst auch der Austausch mit den Nutzern, d. h. der allgemeinen Öffentlichkeit – legt
D 11: Museen
611
eine einheitliche, d. h. vielfach verwendbare Erfassung von Objektdaten nahe (Lit. 17, Lit. 18). Ein erstes deutsches, für die systematische überregionale EDV-Erfassung von Kunstbeständen im Rahmen des DISKUS-Verbundes beim Bildarchiv Foto Marburg entwickeltes Regelwerk war MDAS (Lit. 19, Lit. 20). Gleichzeitig zeigten sich die Möglichkeiten einer Kooperation von Museen bezüglich gemeinsamer Erfassung. In der Museumsdokumentation ist es zwar nicht, wie im Bibliothekswesen, von vorneherein mit offensichtlichen Synergieeffekten verbunden, die gesammelten Objekte nach gemeinsamen Regeln und in gemeinsamen Datenbanken zu erfassen, da es sich in der Mehrzahl der Fälle nicht um eine Vielzahl von Exemplaren eines selben Dokuments handelt. Sieht man von seriellen Museumsobjekten wie Kupferstichen, Plakaten, bestimmten keramischen Erzeugnissen oder Gegenständen der modernen Massenfertigung ab, so sind Museumsobjekte Unikate, und auch von den seriellen Erzeugnissen besitzt keineswegs die Mehrzahl der Museen je ein Exemplar. Dennoch profitieren auch Museen von einheitlicheren, gemeinsamen Regeln der Objekterfassung und entsprechenden Datenbanken, und sei es zumindest durch den gemeinsamen Serverbetrieb. Rechenleistung und IT-Kompetenz sowie museologische Kenntnisse in Bezug auf die Objekterschließung können geteilt und somit kostengünstiger eingekauft werden. Thesauri und Klassifikationen können allen Verbund-Datenbanken hinterlegt und kollaborativ erstellt, gepflegt und genutzt werden.
D 11.4 Museumsdokumentationsverbünde Die umfangreiche Verwendung von IT-Technologien für die Erfassung, Beschreibung und Inventarisierung von Objekten hat im Museumswesen zur Entstehung von Museumsnetzwerken oder Dokumentationsverbünden geführt (Lit. 21). An dieser Stelle sind als Beispiele zu nennen: –– In Baden-Württemberg der Museumsdokumentationsverbund MusIS, der vom BibliotheksserviceZentrum Baden-Württemberg (BSZ) in Konstanz koordiniert und technisch betrieben wird (Lit. 22); –– Der mittlerweile zur Genossenschaft schleswig-holsteinischer, hamburgischer, thüringischer und saarländischer Museen verstetigte digiCULT Verbund e.G. mit Sitz der Zentrale in Kiel (Lit. 23), der in Bezug auf bestimmte technische Dienstleistungen mit dem Gemeinsamen Bibliotheksverbund (GBV) zusammenarbeitet; –– Staatliche Museen zu Berlin – Stiftung Preußischer Kulturbesitz mit Objektdokumentationsund Ausstellungsorganisationsdatenbank und gemeinsamer Software, aus der auch der Internetauftritt SMB-digital hervorgeht (Lit. 24, Lit. 25); –– Museen und Kulturinstitute (also auch einige Bibliotheken und Archive) der Stadt Düsseldorf im d:kult-Verbund (Lit. 26); –– Das sowohl bundesweit als auch in regionalen Varianten operierende Portal museum-digital (Lit. 27). Dabei handelt es sich um ein Pilotprojekt der AG Digitalisierung des Museumsverbandes Sachsen-Anhalt in Zusammenarbeit mit dem Institut für Museumsforschung in Berlin. Es wurde entwickelt, um Museumsobjekte aus Museen, die nicht selbst die Mittel haben, um eine Internet-Präsentation ihrer Daten auf die Beine zu stellen, online darstell- und recherchierbar zu machen. Zurzeit gibt es regionale Portalansichten für Museen z. B. aus SachsenAnhalt, Rheinland-Pfalz u.v.a. Die Dokumentationsverbünde bieten – mit je individuellen Unterschieden der Konstruktion im Detail – verschiedene Dienstleistungen an. (Weiter-)Entwicklung der Software wird in Auftrag gegeben; auch Eigenentwicklungen wurden vorgenommen. Schulungen für MuseumsmitarbeiterInnen in der Benutzung der eingesetzten Software ergänzen das Portfolio der Dienstleistungen von Museumsverbünden für Museen. Solche und andere Ansätze zur Vernetzung von Museumsdokumentation werden sich voraussichtlich in nächster Zukunft erweitern. Gerade kleinere und mittlere Museen schaffen den Sprung ihrer Dokumentation ins digitale Zeitalter oft nur mithilfe von Supporteinrichtungen oder im Verbund mit anderen.
612
D 11: Axel Ermert, Karin Ludewig
D 11.5 Standardisierung Nach vereinzelten Anläufen in den 1930er Jahren etwa zur Nutzung gleicher Objekt-Karteikarten in Museen entstand ein starker Schub zu Vereinheitlichung erst aus der modernen technologischen Basis der Museumsdokumentation, der Nutzung der IT (Lit. 28). In Museen – und keineswegs in allen – wurden zunächst einfache PCs, stand-alone-Systeme, isoliert voneinander benutzt. Aber die durch die Struktur der Maschine vorgegebene Notwendigkeit, Datenfelder und bestimmte gewünschte Abläufe zu definieren, legte nach und nach eine größere Einheitlichkeit in der Definition der Anforderungen nahe. Der Effekt steigerte sich erheblich durch die Nutzung von Client-ServerSystemen, durch die viele Arbeitsplätze in einem System integriert waren. Aus den an vielen Stellen jeweils für sich vorangetriebenen Ausschreibungsverfahren und Definitionen der Anforderungen für Softwareentwicklung ergaben sich dann in den 1990er Jahren erstmals deutliche Normalisierungs- und Standardisierungsvorgaben für den Bereich der Museumsdokumentation. Anbieter und Entwickler – in Deutschland ist von ca. 25 Anbietern speziell von Museumssoftware auszugehen – reagierten darauf. Datenfeldkataloge und Standards für die Datenerfassung entstanden bei den unterschiedlichsten Museen. Ein erster umfassender Software-Vergleich, der verfügbare Museumssoftware anhand gleicher Aufgaben, Datensätze und Kriterien prüfte, fand 1998 statt (Lit. 29). Eine umfangreiche Checkliste lieferte das Canadian Heritage Information Network (CHIN) (Lit. 30). In Deutschland veröffentlichte die DMB-Arbeitsgruppe einen gemeinsamen Minimal-Datenfeldkatalog (Lit. 31, Lit. 32). D 11.5.1 Spectrum Spectrum wurde erstmals 1994 publiziert und ist ein britischer Standard zur Museumsdokumentation (Lit. 33), der sich weniger auf die statische Beschreibung einzelner Objekte konzentriert als an den Arbeitsabläufen (workflows) im Museum orientiert. Anhand der Definition 21 einzelner Arbeitsschritte sowie der dabei zu formulierenden Informationen standardisiert Spectrum museumstypische Vorgänge wie z. B. Leihgabenannahme, Rückgabe, Restaurierung, Deakzession usw. Der Vorgang Inventarisierung definiert die zu dokumentierenden Informationen zum einzelnen Objekt. Somit kann Spectrum als Grundlage für einen Standard-Datenfeldkatalog verwendet werden und hilft aufgrund seiner modularen Struktur den unterschiedlichsten Museen, gegenüber dem Softwarehersteller ihre jeweils eigenen Anforderungen an die Dokumentationsdatenbank normgerecht zu formulieren. Collections Trust – früher als Museum Documentation Association (MDA) bekannt – verwaltet Spectrum heute treuhänderisch. Spectrum ist mittlerweile von der AG Sammlungsmanagement der Fachgruppe Dokumentation im DMB ins Deutsche übersetzt und zugänglich gemacht worden (Lit. 34). D 11.5.2 Kontrolliertes Vokabular Für die inhaltliche Beschreibung von Objekten des kulturellen Erbes ist die Verwendung bestimmter kontrollierter Vokabulare – Listen, Klassifikationen und Thesauri mit normierten Begriffen – im Museumswesen nützlich und erstrebenswert (Lit. 35). Während im Museum die möglichst präzise Objektbenennung, auch bei sehr ähnlichen Objekten, immer noch leicht voneinander abweichen kann (falls nicht ein originärer Titel bereits vorliegt), sollte die Sach- (Gattungs-, Art-) Bezeichnung eng benachbarte Objekte zusammenfassen, so dass eine sinnvoll strukturierte sachliche Suche möglich wird. Listen, Klassifikationen, Thesauri unterstützen dies (siehe aber Lit. 36). Dies gilt für Objektbezeichnungen, geografische und Personen-Namen, Material- und Technikbegriffe usw. Als umfassende kontrollierte Vokabulare zu nennen sind hier in internationaler Hinsicht vor allem der Art and Architecture Thesaurus (AAT) – der-
D 11: Museen
613
zeit erhältlich in Englisch, Spanisch, Holländisch, teilweise in Französisch und Italienisch, bald in Chinesisch (Taiwan) und geplant in Deutsch –, die Union List of Artist Names (ULAN) und der Thesaurus of Geographical Names (TGN), die alle drei vom Getty Research Institute gepflegt und der Öffentlichkeit angeboten werden (Lit. 37), sowie ICONCLASS, eine Klassifikation zur Beschreibung von Bildinhalten in der Kunst (Lit. 38). Deutschsprachige kontrollierte Vokabulare sind das Allgemeine Künstler-Lexikon mit dem AKL-IKD online (Lit. 39) und die Oberbegriffsdatei (OBG) (Lit. 40), die für die dokumentarischen Bedürfnisse mittlerer und kleinerer Museen angemessen ist. Mancherorts wird angestrebt, bereits erstellte bibliothekarische Sacherschließungsinstrumente, z. B. die von der Deutschen Nationalbibliothek (DNB) in der Gemeinsamen Normdatei (GND) (Lit. 41) vorgehaltene Schlagwortnormdatei (SWD) und die Personennamendatei (PND) auch für das Museumswesen nutzbar zu machen. Seit 2005 gibt es das Portal Museumsvokabular.de, das im September 2005 ins Leben gerufen wurde (Lit. 42, Lit. 43). Hier werden für die nicht-kommerzielle, museumsbezogene Verwendung kontrollierte Vokabulare, die entweder kollaborativ oder auch von einem Museum oder einer Fachinstitution erarbeitet wurden und die für die Museumsdokumentation nützlich sein können, zur freien Nutzung zur Verfügung gestellt. Die Vokabulare sollen kollaborativ über das Portal gepflegt und ausgebaut werden. Dennoch ist bisher das Desiderat eines deutschsprachigen Objektbezeichnungsthesaurus für Museen nicht erfüllt (Lit. 44). D 11.5.3 Persistent Identifier für Museen und ihre Sammlungen Der International Standard Identifier for Libraries and related Organizations (ISIL) wird in dem von der International Organization for Standardization (ISO) definierten Standard ISO 15511 (Lit. 45, Lit. 46) festgelegt. Es ist ein international eindeutiges Kennzeichen für Bibliotheken, Archive, verwandte Institutionen und also auch Museen. Bibliothekssigel und ISIL-Kennzeichen werden insbesondere für den elektronischen Verkehr zwischen den Einrichtungen benötigt, z. B. in Verbundkatalogen, beim Online-Leihverkehr und, was Museen besonders betrifft, beim internationalen Austausch von Daten. Im Datenaustauschformat LIDO, das für die Lieferung von Museumsdaten an Portale verwendet wird (s. u.), wird zur eindeutigen und konstanten Identifikation der Datenquelle die Angabe des ISIL-Kennzeichens gefordert. Die nationale ISIL-Agentur für Deutschland ist die Staatsbibliothek zu Berlin. Sie vergibt auch die Sigel im Bibliotheksbereich. An deutsche Museen vergibt das Institut für Museumsforschung die ISIL-Nummern im Auftrag der Staatsbibliothek zu Berlin und hält sie aktuell. Eine deutsche Museums-ISIL hat stets die Struktur DE-MUS-123456 (Lit. 47). Hieraus ergibt sich eine interessante und viel versprechende Anwendung: Wenn ein Museum eine ISIL hat und zudem eindeutige Objektnummern (Object Identifiers) in seiner Dokumentation vergibt, dann kann es die Objektnummer an die ISIL anhängen. Ein jedes seiner Objekte ist somit weltweit eindeutig mit einer nur diesem Objekt zugeordneten Nummer gekennzeichnet, die als eine Art Digital Object Identifier (DOI) für Museumsobjekte im Netz fungieren kann. Überlegungen und Aktivitäten, Museumsobjekte derart im Semantic Web verorten und als Linked Data mit anderen digitalen Objekten des Kulturerbes verknüpfen zu können, werden für ganze Sammlungen bereits angestellt (Lit. 48).
D 11.6 Standards für den Datenaustausch Für den zunehmend internationalen Datenverkehr unter Museen, aber auch zwischen Bibliotheken, Museen und Archiven, ist es unabdingbar, dass nicht nur Datei- bzw. Objektnamen maschinenlesbar, eindeutig und normiert sind, sondern auch bei den Informationen über das Objekt selbst gleiche Sachverhalte stets durch gleiche Begriffe (Daten) bezeichnet werden. Diese Metadaten aus der
614
D 11: Axel Ermert, Karin Ludewig
Objektdokumentation sollten untereinander austauschbar, miteinander kompatibel sein, und es braucht ein (internationales) maschinenlesbares Datenaustauschformat, das von allen Beteiligten als Standard akzeptiert, verwendet und verstanden wird. Einige solcher Formate und Standards erlangten Bedeutung für die Museumsdokumentation. D 11.6.1 Dublin Core und CIDOC Conceptual Reference Model (CRM) Zu Beginn der Entwicklung von bereichsübergreifenden Portalen wie BAM (s. u.) wurde insbesondere Dublin Core als Metadatenschema verwendet, durch welches beliebige Dokumente und andere kulturelle Objekte (oder noch allgemeiner: Werke, Ressourcen) im Internet in standardisierter Weise beschrieben werden können (ISO 15836:2009) (Lit. 49). Mit Dublin Core konnte der sehr komplexe Kontext der Museumsobjekte, z. B. der Herstellungsort, ein mehrphasiger Herstellungsprozess oder der archäologische Fundzusammenhang, aber nicht beschrieben und einheitlich um einen zusammenfassenden Gesichtspunkt gruppiert werden. Daher wurde seit 1996 ein anderes, komplexeres Modell zur Beschreibung von kulturellen Gegenständen von der Documentation Standards Group des International Committee for Documentation (CIDOC) entwickelt. 1999 wurde die erste komplette Ausgabe des CIDOC Conceptual Reference Models (CRM) veröffentlicht; seit 2006 ist es ein offizieller ISO Standard (ISO 21127:2006) (Lit. 50). Das CIDOC CRM (Lit. 51) ist ein Modell zur Erfassung von Zusammenhängen von kulturellen Objekten und ihrer Umwelt, ihrem zeitlichen und räumlichen Hintergrund und historischen Kontext. Es ist eine formale Ontologie mit der Fähigkeit, heterogene, wissenschaftlich relevante Informationen über Teile des Kulturerbes miteinander zu vermitteln, zu integrieren und auszutauschen. Ursprünglich spezialisiert auf die Dokumentation musealer Sammlungen und ihres kulturellen und historischen Kontextes, ermöglicht CRM auch die Integration mit Daten aus Bibliotheken und vielleicht künftig Archiven. CIDOC CRM ist ereigniszentriert aufgebaut, und die Beschreibungselemente der Objekte sind so verknüpft und gerichtet, dass sie die Objekte in ihren Beziehungen untereinander, mit Personen und mit historischen Ereignissen beschreiben können (Lit. 52). Die Modellierung von Ereignissen als Zusammentreffen von Dingen, Personen und Ideen in Raum und Zeit ist die zentrale Idee hinter CIDOC CRM, das immerhin 86 Klassen und 137 Beziehungen (Properties) kennt (Lit. 53). CRM Core hingegen, ein Sub-Set von CIDOC CRM, ist ein Metadatenschema, durch das Instanzen aus dem semantischen Netzwerk CIDOC CRM beschrieben werden können. CRM Core ist mit Dublin Core kompatibel, allerdings ist es allgemeiner als Dublin Core und auch präziser, denn es kann unterschiedliche Arten von Ereignissen beschreiben (Lit. 54). Die verwendete Strukturierung ist kompatibel mit dem Resource Description Framework (RDF), einer Spezifikation des W3C-Konsortiums. Mit CIDOC CRM modellierte Daten können demzufolge im Semantic Web veröffentlicht werden. D 11.6.2 Museumdat und LIDO Museumdat ist ein XML-Schema und war das erste nicht-proprietäre Format zur Bereitstellung von Museumsobjektdaten in Deutschland (Lit. 55, Lit. 56). Das Format definiert 23 Datenfelder, von denen lediglich drei Pflichtfelder sind. Die Museen entscheiden selbst, welche Daten sie publizieren können oder wollen. Das Harvesting-Format wird u. a. bei Datenlieferungen an das BAM-Portal (s. u.) eingesetzt.
Objektklassifikation I.1. Objekttyp I.2. Klassifikation
Identifikation II.1. Titel oder Bezeichnung II.2. Inschriften und bildliche Zeichen II.3. Aufbewahrung/Standort
Beschreibungen III.1. Hersteller [Anzeige] III.2. Herstellungsdatum [Anzeige] III.3. Herstellungsort [Anzeige] III.4. Maße [Anzeige] III.5. Material/Technik [Anzeige] III.6. Druckzustand/Auflage [Anzeige] III.7. Ereignis [Anzeige] III.8. Beschreibungstext [Anzeige]
D 11: Museen
615
Ereignisse IV.1. Ereignis [Index] Ereignistyp
e.g. Herstellung, Fund, Gebrauch ...
Akteur Datum Ort IV.2. Maße [Index] IV.3. Material/Technik [Index] IV.4. Stil IV.5. Kultureller Kontext
Beziehungen V.1. Thema [Index] V.2. Bezugsobjekte [Index]
Administration VI.1. Rechte am Objekt VI.2. Datensatz VI.3. Reproduktionen
Abb. 1: Museumdat (Lit. 57)
Eine Initiative, ein künftiges Museumsdaten-Austauschformat möglichst von vornherein auf internationaler Ebene festzulegen, resultierte in dem Nachfolge-Format von museumdat, dem XMLSchema Lightweight Information Describing Objects (LIDO). LIDO wurde mit dem Sammlungsmanagement-Standard Spectrum harmonisiert und ist wie CIDOC CRM ereigniszentriert aufgebaut. LIDO wird verwendet, um Museumsdaten im Internet zu aggregieren und ist gegenwärtig das Format für Datenlieferungen an Europeana (s. u.). Gegenüber museumdat hat es den Vorteil, dass Inhalte in vielen Sprachen geliefert werden können (Lit. 58, Lit. 59). LIDO strukturiert die Informationen zu einem Objekt grob in fünf Blöcke: Objektklassifikation, Objektidentifikation, Ereignisse, Beziehungen, administrative Metadaten. Von allen Feldern, die LIDO definiert, müssen nur drei obligatorisch mit Inhalt besetzt werden, nämlich Objektart, Objektname bzw. -titel und Datensatz-ID, mit Datensatzart und -quelle. Unter Datenquelle erwartet das Schema den nach ISIL codierten Eintrag der Gedächtnisinstitution, die den Datensatz bereitstellt (s.o.). LIDO ermöglicht auch die eindeutige Referenz zu kontrolliertem Vokabular. Es unterscheidet zwischen Anzeige- und Index-Elementen, so dass beispielsweise eine gemeinsame Suche über in unterschiedlichen Institutionen unterschiedlich formulierte Zeitangaben erfolgreich ausgeführt werden kann (Lit. 60).
616
D 11: Axel Ermert, Karin Ludewig
Abb. 2: Descriptive and administrative information groups in LIDO (Lit. 61)
D 11.7 Lokale digitale Dienstleistungen für Besucher Derart von den genannten und weiteren deutschland- und weltweiten Standardisierungsbemühungen unterstützt, können Museen im digitalen Zeitalter vielfältige Informationen über ihre Sammlungen und Objekte erheben und ihren Besuchern neben den schon immer im Museumswesen besonders wichtigen Ausstellungen eine Reihe zusätzlicher Dienstleistungen anbieten. So gibt es inzwischen virtuelle Museen und virtuelle 3D-Rundgänge durch Sammlungen, die durch die Dokumentationsdaten mit realen Inhalten gefüllt werden können. Es gibt Audio-Systeme und interaktive Bildschirm-Informationssysteme, die die Besucher durch die Ausstellung führen und dafür auf Daten aus der Dokumentationsdatenbank zurückgreifen; ebenso CD-ROM-Produktionen über Sammlungen, Sammlungsteile und -gegenstände, die Daten der Dokumentationsdatenbank verwenden oder Teile derselben als Katalog ausspielen. Der Erwerb von CD-ROMs im Museumsshop ermöglicht Museumsbesuchern, die elektronischen Medien im Anschluss an oder als Vorbereitung auf ihren Museumsbesuch zu Hause zu nutzen. Nicht zuletzt deutet sich auch der Einsatz von sich bewegenden und Emotionen zeigenden Museumsrobotern an, die Benutzer begrüßen und ihnen gewünschte Informationen geben können (Lit. 62). Die weitaus interessanteste Nachnutzung der Dokumentationsdatenbank für Museen besteht jedoch darin, Teile derselben im Internet auszuspielen und so das Wissen über ihre Objekte der Öffentlichkeit an Orten und zu Zeiten ihrer Wahl zugänglich zu machen. Beispiele für die noch relativ wenigen deutschen Museen, die einen erheblichen Teil ihres Objektbestandes im Internet zeigen und recherchierbar machen, sind das Deutsche Hygiene-Museum Dresden (DHMD) (Lit. 63), das Stadtgeschichtliche Museum Leipzig (Lit. 64) oder das Spielzeugmuseum Nürnberg (Lit. 65). Seit April 1996 ist die Objektdatenbank des Deutschen Historischen Museums mit einem großen Teil seines Objektbestandes (ca. 350.000 von ca. 700.000 Einheiten) online zugänglich und durchsuchbar (Lit. 66). Andere Museen spielen nur bestimmte Sammlungen oder
D 11: Museen
617
Teile davon oder einzelne interessante Objekte auf der eigenen Webseite aus; ein Beispiel ist der Digitale Katalog der Staatsgalerie Stuttgart (Lit. 67).
D 11.8 Institutions- und bereichsübergreifende Portale Für die Präsentation der Daten im Internet bietet es sich an, dies in institutionsübergreifenden Portalen zu tun und dafür die Dienstleistungen von Dokumentationsverbünden in Anspruch zu nehmen. Ein gelungenes Beispiel hierfür ist die Objektdatenbank der digiCULT Verbund e.G. (Lit. 68), in der Bestände der sich am Verbund beteiligenden Museen im Web präsentiert werden. Wichtig für die heutige Arbeit von Museen ist auch die bereichsübergreifende gemeinsame Darstellung von Beständen des kulturellen Erbes in Bibliotheken, Museen und Archiven, da aus Sicht der Benutzer und auch der Forschung die Trennung der Bereiche wenig Sinn ergibt. Will man historische Zusammenhänge und kulturelle Bedeutungen verstehen, so können Archivalien, Bücher, AV-Medien, Denkmäler und kulturell bedeutsame Gegenstände, wie Museen sie sammeln, allesamt als Träger von Informationen für die Generierung von Wissen dienen und Zeugnis ablegen über Ereignisse und Epochen (Lit. 69). Auch die Überschreitung nationaler Grenzen wird durch die gemeinsame Präsentation des kulturellen Erbes im Internet möglich und attraktiv. Museumsübergreifende Portale wie digiCULT agieren daher als Aggregatoren für größere bereichsübergreifende Portale, d. h. sie geben die von den einzelnen Museen an sie gelieferten oder schon bei ihnen gehosteten Daten – sofern vom Datenlieferanten gewünscht – in dem hierfür erforderlichen Datenformat an das bereichsübergreifende Portal, z. B. die Deutsche Digitale Bibliothek, weiter. Im Folgenden werden drei solcher bereichsübergreifender und internationaler Portale zur Präsentation des kulturellen Erbes im Internet vorgestellt. D 11.8.1 BAM-Portal für Bibliotheken, Archive, Museen Ziel des BAM-Portals (Lit. 70) ist es, Kulturgut aus Bibliotheken, Archiven und Museen auf nationaler (hier: deutscher) Ebene zentral zugänglich zu machen. Das BAM-Portal, dessen Aufbau durch die DFG von 2002 bis 2007 gefördert wurde, ermöglicht Benutzern die gleichzeitige Suche nach Texten, Archivalien und Objekten über Kataloge von Bibliotheksverbünden, Online-Findmittel von Archiven und Objektdatenbanken von Museen und Museumsverbünden sowie über die Angebote einiger anderer kulturgutbewahrender Einrichtungen im Netz. Die Darstellung der Suchergebnisse aus den Online-Katalogen erfolgt zunächst innerhalb des BAM-Portals in einer Kurzansicht, von wo aus zu den originalen Daten im Ursprungssystem verlinkt ist. Hierdurch bringt BAM Benutzerverkehr (traffic) auf die Seiten der einzelnen teilnehmenden Institutionen. Zunächst arbeitete das BAM-Projekt mit Datenlieferung in XML und baute eine zentrale Metadatenbank auf. Später ging man zu einer verteilten Suche auf originalen Datenbeständen über. Die semantische Erschließung der Metadaten warf Fragen auf, da die Sacherschließung bei Bibliotheken, Archiven und Museen kaum miteinander kommensurabel war. Verfahren zur automatisierten semantischen Vereinheitlichung der Metadaten wurden getestet. Nach einer Erweiterung des Kreises der Projektpartner ging es ab 2005 vorwiegend um die Integration weiterer größerer Datenmengen; technisch wurde die verteilte Suche durch eine andere Lösung ersetzt: die Metadaten der teilnehmenden Institutionen werden jetzt auf einem BAM-Server gesammelt, indexiert und durchsuchbar gemacht, die medialen Inhalte (Bilder, Texte etc.) bleiben jedoch in den Online-Datenbanken der teilnehmenden Partner gespeichert, so dass diese die Kontrolle über die Inhalte behalten. Im Juni 2012 umfassten die Bestände des BAM-Portals mehr als 45 Millionen Datensätze, so dass es gegenwärtig als das größte zentrale Kulturportal Deutschlands anzusehen ist. Mit Wikipedia besteht seit 2007 eine Kooperation, wonach in beliebige Wikipedia-Artikel vorformulierte BAM-Portal-Abfragen eingebaut werden können; hierdurch erhöhen sich die Zugriffe auf BAM und dessen
618
D 11: Axel Ermert, Karin Ludewig
Zuliefererportale und -datenbanken. Für kleinere Institutionen, die sich eine eigene Präsentation von Objekten auf ihrer Webseite nicht leisten können, bietet BAM einen Hosting-Service (Lit. 71). D 11.8.2 Deutsche Digitale Bibliothek Die Deutsche Digitale Bibliothek (DDB) (Lit. 72), die Ende 2012 mit der Beta-Version online ging, wird vom Bund, von den Bundesländern und den Kommunen finanziert. Sie soll das Kultur-Portal für den Nachweis des deutschen Kulturerbes im Netz sowie der zentrale Datenlieferant und nationale Beitrag Deutschlands für Europeana werden. Ca. 30.000 öffentlich finanzierte deutsche Bildungs-, Forschungs- und Kulturinstitutionen werden mit vollständig digitalen oder digitalisierten Inhalten zur DDB beitragen, aber auch kommerzielle und private Träger können teilnehmen. Eine zentrale Servicestelle hilft teilnehmenden Institutionen beim Mappen und Einpflegen der Daten. Sowohl für die wissenschaftliche Nutzung als auch für ungeübte Benutzer wird somit ein Zugriff auf digitale Ressourcen möglich. Besondere Präsentationsformen und Navigations- und Beteiligungsmöglichkeiten sowie ansprechend gestaltete Benutzungsoberflächen sollen dem neuen Informationsverhalten von Nutzern in digitalen Umgebungen entsprechen und Alternativen zu Google etc. schaffen. D 11.8.3 Europeana Das europäische Vorbild der DDB, die Europeana (Lit. 73), ist bereits seit Ende 2008 online. Europeana ist Europas Online-Museum, Online-Archiv, Online-Bibliothek und Online-Sammlung von audiovisuellen Materialien in einem. Sie soll nur volle Digitalisate enthalten, keine bloßen Kataloge oder Kataloghinweise auf Objekte. In Europeana sind derzeit (Stand Mai 2012) ca. 23 Millionen kulturelle Objekte nachgewiesen (Lit. 74). Europeana gestaltet auch virtuelle Ausstellungen mit diesen (Lit. 75). Europeana ist konsequent multilingual – die dokumentierten Objekte sind in 29 Sprachen darstellbar – und kommuniziert mit der Öffentlichkeit über sämtliche Kanäle des Social Web. Seit September 2012 stellt Europeana alle Metadaten unter einer CC0-Lizenz (Lit. 76) im Semantic Web zur allgemeinen Wiederverwendung zur Verfügung.
D 11.9 Ausblick Die Perspektiven der Museumsdokumentation für die kommende Zeit liegen im weiteren Ausbau der digital verfügbaren Dokumentation in den einzelnen Museen und der zugehörigen technischen Ausstattung; in der Universalisierung ihrer Dokumentation und Datennutzung durch konsequente Nutzung und Anbindung an Normdaten; im Erreichen der flächendeckenden Kooperation der Museen untereinander, auf Portalen und mit den benachbarten Gedächtnisinstitutionen; und im Ausbau der digital fundierten lokalen und netzweiten elektronischen Angebote für ihre Benutzer. Die datenaggregierende Leistung der DDB kann entscheidend dazu beitragen, der Unübersichtlichkeit kulturinformationeller Ressourcen im Netz entgegenzuwirken und den Benutzern einen zentralen Sucheinstieg so zu ermöglichen, dass sie verlässlich Zugriff auf den gesamten digitalen Bestand des Kulturerbes im Netz haben. Auch die während vieler befristet finanzierter Projekte eingegebenen Objekte, die nach Ende der Förderungsdauer wie digitale Ruinen im Netz stehen, sollten hier mit integriert werden. Aufgrund der fortschreitenden Digitalisierung von Daten über Kulturgut, das in Museen und ähnlichen Gedächtnisinstitutionen gesammelt wird, sieht sich das Museumswesen vermehrt ähnlichen Fragen und Problemen gegenüber wie andere Anbieter: Fragen zu Lizensierungen stellen sich immer häufiger, und hiermit ist eine grundsätzliche Diskussion über Urheberrechtsfragen eröffnet (Lit. 77, Lit. 78, Lit. 79). Die Politik der Europeana, alle ihr gelieferten Metadaten unter einer
D 11: Museen
619
CC0-Lizenz zu veröffentlichen, hat im Jahr 2011 eine Debatte unter mit Digitalisierungs- und Präsentationsprojekten beschäftigten Initiativen aus dem Museumswesen und ihren Teilnehmermuseen provoziert (Lit. 80). Die Open Access Bewegung, die im nächsten Forschungs- und Innovationsförderprogramm der EU namens horizon 2020 gestärkt werden wird (Lit. 81), wird ihren Einfluss auf die Veröffentlichung von Kulturgut im Museumswesen geltend machen, da auch dieses und nicht nur wissenschaftliche Texte Grundlage weiterer wissenschaftlicher Forschung sind. Zudem können Fragen der Langzeitarchivierung von Daten nicht mehr ignoriert werden (Lit. 82). Schließlich wird der immer größere Marktanteil von Smartphones neue Darstellungsweisen der dokumentierten Objekte im Netz provozieren. Apps, die Daten aus Kultur-Portalen weiter verwenden und z. B. mit Daten anderer Gedächtnisinstitutionen, Daten von Tourismus-Anbietern und geografischen Daten verbinden, sind nicht mehr weit. Auch die interaktiven Möglichkeiten des Web 2.0, die Museen eine direkte Kommunikation mit ihren Online-Besuchern eröffnen, sind bisher kaum ausgelotet. Ein wesentlicher, stets vibrierender Gesichtspunkt bleibt auch in nächster Zukunft daher die Entwicklung des Verhältnisses von virtuellen und realen Präsentationen des Kulturerbes. Noch ist nicht gänzlich ausgemacht, ob die Aura des kulturell bedeutsamen Gegenstandes durch seine virtuelle Repräsentation beeinträchtigt oder ob er durch diese in seiner Bedeutung gerade erhalten und in ein neues Zeitalter mitgenommen wird.
Literatur 01 Staatliche Museen zu Berlin – Preußischer Kulturbesitz, Institut für Museumsforschung (Hrsg.): Statistische Gesamterhebung an den Museen der Bundesrepublik Deutschland für das Jahr 2008. Heft 63, Berlin 1982ff 02 Graf, Bernhard; Rodekamp, Volker (Hrsg.): Museen zwischen Qualität und Relevanz: Denkschrift zur Lage der Museen. Berlin 2012 03 Deutscher Museumsbund (Hrsg.): Standards für Museen. O. O. 2006. (http://www.museumsbund.de) 04 Museum Association (Hrsg.): Manual of curatorship. Oxford 1992 05 Schweibenz, Werner: Vom traditionellen zum virtuellen Museum. Frankfurt a.M. 2008 06 URL: http://www.akmb.de 07 URL: http://www.fotoerbe.de 08 URL: http://www.museumsbund.de 09 URL: http://www.icom-deutschland.de 10 URL: http://www.smb.museum/ifm 11 URL: http://www.museumsbund.de/cms/index.php?id=45 12 URL: http://www.museumsbund.de/de/fachgruppen_arbeitskreise/dokumentation_fg/arbeitsgruppen/ regelwerke 13 Deutscher Museumsbund e.V. (Hrsg.): Leitfaden für die Dokumentation von Museumsobjekten – von der Eingangsdokumentation bis zur wissenschaftlichen Erschließung. Berlin, 2011 (http://www.museumsbund. de/fileadmin/geschaefts/dokumente/Leitfaeden_und_anderes/LeitfadenDokumentation.pdf) 14 DIN EN 15898, Dezember 2011. Erhaltung des kulturellen Erbes – Allgemeine Begriffe; Deutsche Fassung EN 15898:2011. DIN Deutsches Institut für Normung e. V.. Berlin 2011 15 Deutscher Museumsbund e.V. et al. (Hrsg.): Museumsberufe – Eine europäische Empfehlung. Berlin 2008 (http://www.icom-deutschland.de/client/media/339/europaeische_museumsberufe_2008.pdf) 16 Otlet, Paul: Traité de documentation. Brüssel 1934 17 Hartmann, Manfred et al.: Inventarisierung, Dokumentation, Bestandsbewahrung. 4., erw. u. überarb. u. korrigierte Auflage. Schriftenreihe: Materialien aus dem Westfälischen Museumsamt; Münster 2004 18 Ermert, Axel; Hagedorn-Saupe, Monika: Dokumentation als Grundlage der Museumsarbeit. Museumskunde, 70 (2005) 1 19 URL: http://www.fotomarburg.de/ 20 Laupichler, Fritz: MIDAS, HIDA, DISKUS – was ist das? Heidelberg 1998
620
D 11: Axel Ermert, Karin Ludewig
21 Biedermann, Gabriele: Die Entstehung von Museumsverbünden in Deutschland am Beispiel des MuseumsInformationsSystems (MusIS) in Baden-Württemberg. Berlin: Inst. für Bibl.-Wiss. der HumboldtUniv., 2009 (http://edoc.hu-berlin.de/docviews/abstract.php?id=29770) 22 URL: http://www.bsz-bw.de/mare/museen/musis.html 23 URL: http://www.digicult-verbund.de 24 URL: http://www.smb.museum/smb/home/index.php 25 URL: http://www.smb-digital.de 26 URL: http://www.duesseldorf.de/kulturamt/dkult/index.shtml 27 URL: http://www.museum-digital.de 28 Ermert, Axel: Standards: Is there a role for them in museums? Qualität und Dokumentation: CIDOC Jahrestagung 1997. Losebl.-Ausg.; Nürnberg: Germanisches Nationalmuseum, 1998 29 Westfälisches Museumsamt, Münster et al. (Hrsg.): Software-Vergleich Museumsdokumentation 1998. Ein Bericht der Arbeitsgruppe Software-Vergleich in der Fachgruppe Dokumentation beim Deutschen Museumsbund. Münster 1998 (http://www.museumsbund.de/fileadmin/fg_doku/publikationen/ softwarevergleich_Teil_1.pdf) 30 URL: http://www.pro.rcip-chin.gc.ca/gestion_collections-collections_management/liste_criterescriteria_checklist/index-eng.jsp 31 Deutscher Museumsbund (Hrsg.): Datenfeldkatalog zur Grundinventarisation. Bearb. von Viktor Pröstler, Karlsruhe 1993 (http://www.museumsbund.de/fileadmin/fg_doku/publikationen/Datenfeldkatalog.pdf) 32 Object ID: Internationaler Standard zur Dokumentierung von Museumsobjekten/Kunstgegenständen: (http://archives.icom.museum/object-id/; http://www.axa-art.de/artprotect/ratgeber/object-id.html) 33 Collections Trust (Hrsg.): SPECTRUM: The UK Museum Documentation Standard. 4. Edition (http://www. collectionslink.org.uk/programmes/spectrum) 34 Institut für Museumsforschung der Staatlichen Museen zu Berlin (Hrsg.): SPECTRUM 3.1. The UK Museum Documentation Standard. Deutsche erweiterte Fassung, überarbeitet unter Mitwirkung von Kolleginnen und Kollegen der Museums Community. Version 3.1, 2011 (http://www.ag-sammlungsmanagement.de) 35 Ermert, Axel; Saro, Carlos: Museumsvokabular. Die Situation in Deutschland und die Initiative www. museumsvokabular.de – Einige Thesen. Deutscher Terminologietag e.V. (Hrsg.): edition: Terminologiemagazin. Köln ; Heidelberg; 4. Jg. (2008) 2, 10-14 (http://www.iim.fh-koeln.de/dtt/Dokumente/ edition_2008_2_webartikels/03-edition-2008-2-ermert-saro-web.pdf) 36 Simon, Holger: Normierung und Standardisierung der Sacherschließung? Ein Plädoyer für die Heterogenität von Sammlungsbeschreibungen. Sieglerschmidt, Jörn: Museums-Informations-System (MusIS), Konstanz 2006, 100-105 (http://kunstsi.uni-koeln.de/publikation01.php) 37 URL: http://www.getty.edu/research/tools/vocabularies/index.html 38 URL: http://www.iconclass.nl/home 39 URL: http://www.digibib.net/static_html/datenbanken/AKLOnline.htm 40 Proestler, Viktor: Normvokabular für die geregelte Eingabe zum Feld Objektbezeichnung – die in Bayern benutzte Oberbegriffsdatei. URN: urn:nbn:de:bsz:576-opus-1833 41 URL: http://www.dnb.de/DE/Standardisierung/Normdaten/GND/gnd_node.html 42 URL: http://www.museumsvokabular.de 43 http://museum.zib.de/museumsvokabular/index.php?main=home&ls=9&co=we&ln=de 44 Scheffel, Regine: Nachruf auf Dr. Christof Wolters (http://www.museumsbund.de/fileadmin/fg_doku/ dokumente/12/Nachruf_auf_Dr_Christof_Wolters.pdf) 45 Rohde-Enslin; Stefan: Vom Werden der Museums-ISIL nebst Klärung von Herkunft und Aufbau und einführend den Zweck und Gebrauch derselben (http://www.museumsbund.de/fileadmin/fg_doku/ termine/2011_Oktober_Herbsttagung/Beitraege/Rohde-enslin_-_isil.pdf) 46 ISO 15511:2011. Information and documentation – international standard identifier for libraries and related organizations (ISIL). International Organization for Standardization. Berlin 2011 (http://www.iso. org/iso/catalogue_detail.htm?csnumber=57332) 47 URL: www.museen-in-deutschland.de 48 De Francesco, Giuliana: Dokumentation digitaler Sammlungen. Sammlungsidentifizierung (http://www.
49 50
51 52
53 54
55 56 57 58
59 60 61 62
63 64 65 66 67 68 69 70 71
72 73 74
D 11: Museen
621
museumsbund.de/fileadmin/fg_doku/termine/2011_Oktober_Herbsttagung/Beitraege/defrancesco_ FD2011_Berlin_trad1.pdf) ISO 15836:2009. Information and documentation – The Dublin Core metadata element set. International Organization for Standardization (http://www.iso.org/iso/catalogue_detail.htm?csnumber=52142) ISO 21127:2006. Information and documentation – a reference ontology for the interchange of cultural heritage information. International Organization for Standardization. Genf 2006 (http://www.iso.org/iso/ catalogue_detail.htm?csnumber=34424) URL: http://www.cidoc-crm.org/ Crofts, Nick et al. (Hrsg.): Definition of the CIDOC Conceptual Reference Model. Produced by the ICOM/ CIDOC Documentation Standards Group, Continued by the CIDOC CRM Special Interest Group. Version 5.0.4, November 2011, 10 (http://www.cidoc-crm.org/docs/cidoc_crm_version_5.0.4.pdf) Doerr, M.; Kritsotaki, A.: Documenting Events in Metadata. Ioannides, M. et. al. (Hrsg.), The 7. International Symposium on Virtual Reality, Archaeology and Cultural Heritage. VAST (2006) Sinclair, Patrick et al.: The Use of CRM Core in Multimedia Annotation. First International Workshop on Semantic Web Annotations for Multimedia (SWAMM), Edinburg 2006 (http://eprints.soton. ac.uk/262828/) Stein, Regine et al.: museumdat – XML Schema zur Bereitstellung von Kerndaten in museumsübergreifenden Beständen; 1.0 (http://www.museumdat.org/) Stein, Regine; Ermert, Axel: museumdat 1.0 – Von der Planung zum Einsatz; Vortrag auf der Tagung der FG Dokumentation am 10.10.2007 in Berlin (http://www.museumdat.org/) Hagedorn-Saupe, Monika; Stein, Regine: Zulieferung von Museums-Objektdaten an Internet-Portale leicht[er] gemacht: Das Harvestingformat museumdat (http://www.museumdat.org/) Coburn, Erin et. al.: LIDO – Lightweight Information Describing Objects. Version 1.0; November 2010 (http://network.icom.museum/cidoc/working-groups/data-harvesting-and-interchange/lido-technical/ specification/) Ohne Autor: LIDO (Lightweight Information Describing Objects): Making it easier to deliver information to portals; November 2010 (http://www.lido-schema.org/documents/LIDO-Handout.pdf) ATHENA WP3 Working Group (Hrsg.): Lightweight Information Describing Objects (LIDO): the International Harvesting Standard for Museums (http://www.lido-schema.org/documents/LIDO-Booklet.pdf) Ohne Autor: Contributing Content to Cultural Heritage Repositories; LIDO Introduction Slides, November 2010 (http://www.lido-schema.org/documents/LIDO-Introduction.pdf) Kopp, Stefan; Gesellensetter, Lars; Krämer, Nicole C.; Wachsmuth, Ipke: A conversational agent as museum guide. Design and evaluation of a real-world application. Lecture Notes in Computer Science, 2005, Vol. 3661, Intelligent Virtual Agents, 329-343 URL: http://www.museenfuergeschichte.de/de/7/Deutsches-Hygiene-Museum-Dresden.html?mid=21 URL: http://www.stadtgeschichtliches-museum-leipzig.de/ URL: http://www.museen.nuernberg.de/spielzeugmuseum/index.html URL: http://www.dhm.de/datenbank/ URL: http://www.staatsgalerie.de/digitalerkatalog/ URL: http://www.museen-sh.de/ml/digicult.php Latham, Kiersten F.: Museum object as document: Using Buckland’s information concepts to understand museum experiences. Journal of Documentation 2012, Volume 68, issue 1, 45-71 URL: http://www.bam-portal.de/ Schweibenz, Werner; Sieglerschmidt, Jörn: Aktuelle Entwicklungen bei Kultur-Portalen: BAM-Portal, Deutsche Digitale Bibliothek und Europeana. 7. Mai 2010 (http://swop.bsz-bw.de/volltexte/2010/834/ pdf/Schweibenz_Aktuelle_Entwicklungen_bei_Kultur_Portalen.pdf) URL: http://www.deutsche-digitale-bibliothek.de/ URL: http://www.europeana.eu/portal/; Hagedorn-Saupe, Monika: Athena und europeana (http://www. lvr.de/app/resources/hagedornsaupeathena.pdf) Niggemann, Elisabeth: The importance of open data to national libraries. Vortrag bei der IFLA Konferenz 2012 in Helsinki, 26. Juni 2012 (http://conference.ifla.org/sites/default/files/files/papers/
622
D 11: Axel Ermert, Karin Ludewig
wlic2012/181-niggemann-en.pdf) 75 URL: http://exhibitions.europeana.eu/ 76 URL: http://creativecommons.org/publicdomain/zero/1.0/ 77 Dreier, Thomas et al.: Museen, Bibliotheken und Archive in der Europäischen Union. Plädoyer für die Schaffung des notwendigen urheberrechtlichen Freiraums. ZUM 2012, 273-281 78 Preißler, Dietmar: Kulturelles Erbe im Internet sichtbar machen – Museumsobjekte und Urheberrecht. Ein Positionspapier des Vorstandes des Deutschen Museumsbundes und der Fachgruppe Dokumentation. Berlin 2012 (http://www.museumsbund.de/fileadmin/geschaefts/presse_u_kurzmitteilungen/2012/ Positionspapier-Kulturelles_Erbe_im_Internet_sichtbar_machen_Januar_2012.pdf) 79 Ludewig, Karin: Wohin mit den verwaisten Werken? Eine Untersuchung aus den Bereichen Museum und Archiv. Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft 321 (Berliner Handreichungen) (urn:nbn:de:kobv:11-100200602) 80 Ludewig, Karin: Urheberrechtliche Aspekte des neuen Europeana Agreements (http://www.digicultverbund.de/vortraege/2011/Vortrag_Hamburg_Ludewig.pdf) 81 Europäische Kommission: Wissenschaftliche Daten: freier Zugang zu Forschungsergebnissen wird Innovationskapazität der EU stärken. Pressemitteilung IP/12/790 vom 17. Juli 2012, Brüssel 2012 (http:// www.europa.eu/rapid/press-release_IP-12-790_de.htm) 82 Projekt NESTOR (www.langzeitarchivierung.de); Rohde-Enslin, Stefan; Allen, Keith: Nicht von Dauer. Kleiner Ratgeber für die Bewahrung digitaler Daten in Museen. Materialien aus dem Institut für Museumskunde – Sonderheft 2; 2. aktual. Auflage; Frankfurt a.M., Berlin 2009 (urn:nbn:de:00082010030200). NESTOR Handbuch – Kleine Enzyklopädie der digitalen Langzeitarchivierung. – Version 2.3., 2010. URL: http://www.nestor.sub.uni-goettingen.de/handbuch/index.php
Hans-Christoph Hobohm
D 12 Bibliothek im Wandel D 12.1 Bibliothek als Informationseinrichtung? D 12.1.1 Status fördernde Anbiederung „Die Bibliothek ist eine spezielle Informationseinrichtung“, so war das Credo des langjährigen Doyens der Bibliothekswissenschaft Paul Kaegbein in der 1970er Jahren. Er begründete damit gleichzeitig die Bibliothekswissenschaft als spezielle Informationswissenschaft (Lit. 01). Diese Einschätzung hat sich sehr lange gehalten und ist immer noch dominierend. Sie ist der Kulminationspunkt der immer schon intensiven Beziehung zwischen den Bereichen Bibliothek und Dokumentation, die sich ja als aus dem Spezialbibliothekswesen hervorgehend versteht und in einzelnen Ländern immer noch stark damit verbunden ist (Lit. 02). Die damalige Annährung an den Informationsbereich war aber auch gleichzeitig schon ein Beleg für den Niedergang im Selbstverständnis der Bibliothekswelt (Lit. 03) und kann auch verstanden werden als Übernahme des Konzeptes „Information/stechnik“ unter Status fördernden Gesichtspunkten, wie dies für viele Domänen im ausgehenden 20. Jahrhundert zu beobachten war. Verständlich ist diese Entwicklung auch vor dem Hintergrund des Aufbaus der Fachinformationssysteme seit den 1960er Jahren, bei denen die Bibliothekswelt meist wenig beteiligt war (Lit. 04), weil sie ihr Arbeitsgebiet zum größten Teil eben nicht in der Erschließung „unselbstständiger“ Literatur oder der Vermittlung von Information sah, sondern in der Sammlung und Aufbewahrung von Büchern. Dazu musste sich letztlich am Ende der Gutenberg-Galaxis (Lit. 05) erst das Konzept des Buchs ändern, damit Bibliotheken sich nach neuen statusfördernden Attributen umschauten. Diese werden in letzter Zeit eher wieder bei Bildung und Kultur gesehen und folgen gleichzeitig dem in vielen Wissenschaften beobachteten spatial turn, der Hinwendung zum Raum (Lit. 06). Die Bibliothek wird (wieder?) zum Ort der Bildung, der Begegnung oder der Vermittlung und Partizipation in der Gesellschaft bzw. der Trägerorganisation (Stadt, Hochschule, Institut). Gleichzeitig erfahren Bibliotheken wie viele andere Institutionen auch eine Einbindung zunächst in betriebswirtschaftliche (Lit. 07, Lit. 08) und schließlich auch zunehmend in volkswirtschaftliche Überlegungen (vgl. Lit. 09, Lit. 10). D 12.1.2 Dokumente in Bibliotheken Der aktuelle eschatologische Diskurs über Bibliotheken (Bibliothekssterben, Ende der Bibliothek) bei einer gleichzeitig zu beobachtenden Renaissance der gesellschaftlichen Investition in diese (Boom im Bibliotheksbau), lässt eher vermuten, dass sie nie wirklich ausschließlich Informationseinrichtung waren und innerhalb der DIKW-Hierarchie nur einer der Stufen zuzuordnen gewesen wären. Ihre aktuelle Hinwendung auf die Datenwelt (Lit. 11) und die Tendenzen der Öffnung auf andere gesellschaftliche Diskurse zeigt vielmehr, dass sie eher als eine Funktion entlang der Kette Daten-Information-Wissen-Wertschöpfung zu sehen sind (Lit. 02; vgl. Lit. 12). Quer zu dem Prozesskontinuum des Lernens, das die DIKW-Kette eigentlich darstellt, wird in letzter Zeit der Dokumentbegriff unter digitalen und vernetzten Bedingungen wieder aufgegriffen und neu definiert (Lit. 13, Lit. 14, Lit. 15). Auch der klassische Dokumentbegriff nach Briet z. B. hatte schon Daten Dokumentcharakter zusprechen können (vgl. Lit. 16). Die Renaissance des Dokumentbegriffs im Digitalen bietet wichtige Hinweise auf die eigentliche Funktion von Bibliotheken entsprechend ihrem ursprünglichen, etymologisch korrekten Begriff als Aufbewahrungsort für Dokumente (Lit. 17). Vielleicht entspricht es eher dem Charakter und der Praxis von Bibliotheken in den Jahrtausenden ihrer Existenz, sie weiterhin als Einrichtungen für Dokumente im Lern- und Wissensverar-
624
D 12: Hans-Christoph Hobohm
beitungsprozess ihrer Träger zu sehen und als Garant für die nachhaltige aber auch die bedarfsgerechte Vermittelbarkeit von bedeutungsvollen Trägern (Medien) von Wissen. D 12.1.3 Das Ende der Bibliothek Der Rede vom Ende der Bibliothek muss sehr differenziert begegnet werden. Einerseits bleibt der Mythos der Bibliothek als Wissensgarant und Bildungsförderer zusammen mit der Buchmetapher gesellschaftlich immer noch weit verbreitet (Lit. 17). Andererseits sind immer wieder auch Schließungen von Bibliotheken (z. B. in Stadtteilen) oder Änderungen in ihrer physischen Ausdehnung (Verkleinerung durch Verzicht auf analoge Medien vor allem im Bereich von Unternehmensbibliotheken) zu beobachten. Auch die Nutzerzahlen sind offensichtlich angesichts zunehmender Medienkonkurrenz im Rückgang begriffen: Konnte in einer der ersten repräsentativen Studien zur Bibliotheksnutzung in Deutschland (Bertelsmann Betriebsvergleich/infas 1996, vgl. Lit. 07) noch eine Bibliotheksnutzung bei ca. 50 % der Bevölkerung konstatiert werden, so liegen die aktuellen Zahlen bei knapp unter 10 % (Lit. 18, S. 237). Zu relativieren ist dies insofern, als dass informationelle Städte wie Singapur oder besonders bildungsorientierte Volkswirtschaften wie Finnland, Großbritannien oder die Niederlande immer noch eine weitaus höhere Marktdurchdringung in der Bibliotheksbenutzung aufweisen (teilweise weit über 50 %). Dem steht gegenüber, dass vor allem im Wissenschaftsbereich, wo Fernnutzung mittlerweile die Regel geworden ist, viele Nutzer bibliothekarischer Dienstleistungen gar nicht mehr gewahr werden, dass sie den Zugriff auf Dokumente im Netz nur dem Electronic Resource Management von Bibliothekarinnen verdanken, welche zusätzlich vielleicht auch tatsächlich nicht mehr in einer Einrichtung arbeiten, die den Namen „Bibliothek“ trägt. Die Funktion der Bibliothek hat sich in vielen Fällen verlagert ins Ressourcen- oder Recordsmanagement oder wird als Wissensmanagement oder „Webintelligence-Service“ wahrgenommen. Ganz im Sinne von Thomas Davenport und Larry Prusak (Lit. 19), die schon früh den Unternehmen rieten: „Blow up your corporate library“ – spreng sie in die Luft oder blase sie auf. Dabei ist Bibliothek eben nicht nur als Metapher gemeint (Lit. 17, Lit. 53), sondern als unternehmenswichtige Funktion. Wenn David Weinberger (Lit. 20) sich wundert, dass seit der Erfindung des Dateiverlinkungsmechanismus des WWW klassische Bildungs- und Wissensinstitutionen wie Enzyklopädien, Verlage, Schulen, Bibliotheken besonders starken Veränderungen unterworfen (wenn nicht sogar, wie er meint, vom Verschwinden bedroht) sind, so liegt das in der Tat daran, dass der Dokumentbegriff immer schon eine starke relationale Komponente hatte: Ein Dokument ist nur dann wirklich ein Dokument, wenn es eine soziale Funktion besitzt, z. B. etwas jemandem zu sagen hat. Die neuen, die Objekt- und Institutionengrenzen überschreitenden Möglichkeiten des weltweiten Hypertextes tragen diesem Aspekt nur sehr viel mehr Rechnung als die gedruckte Fußnote oder der Vortrag des Lehrers.
D 12.2 Funktion von Bibliotheken D 12.2.1 Bibliotheken in der Gesellschaft Schon in der Welt der Unternehmensbibliotheken in den 1990er Jahren wurden eine Reihe von Studien unternommen, die belegten, dass der Return on Investment (ROI) in eine Informationseinrichtung weit höher ist als nach dem Image der Bibliothek erwartet wurde. In letzter Zeit sind viele ähnliche Analysen für unterschiedliche Bibliotheksformen – von der Stadtbibliothek bis zur Nationalbibliothek – durchgeführt worden (Lit. 21, Lit. 09). Das Ergebnis war immer, dass der Wert des ROI stets bei über 1:3 und teilweise weit höher lag: Jede Investition in die Bibliothek des jeweiligen Trägers (Unternehmen, Stadt, Nation, Fachcommunity etc.) ergab einen mindestens dreifachen wirt-
D 12: Bibliothek im Wandel
625
schaftlichen Nutzen für diesen. Hier wird stark monetär argumentiert und versucht, einen finanziellen Wert bibliothekarischer Dienstleistungen indirekt zu ermitteln. Dabei können trotz der schon überaus positiven Werte lediglich die konsumtiven Dienstleistungen gemessen werden, da lediglich Kunden nach der Einschätzung ihres tatsächlichen Nutzungswertes befragt werden. Der nicht zu unterschätzende investive Anteil bibliothekarischer Dienstleistungen (Lit. 22) – dazu gehört z. B. die qualitätsgeleitete Auswahl, die Erschließung, die organisierte Bereitstellung von Medien, aber auch übergreifende Aspekte wie die Garantie der Informationsfreiheit und der nachhaltigen Verfügbarkeit von Medien – wird meist noch gar nicht erfasst bzw. ist auch sehr schwer messbar. Auch der Anteil an Beratung und Schulung zu Informationskompetenz gehört bekanntlich wie Bildung zu der wirtschaftswissenschaftlichen Kategorie der unterschätzten Güter und entzieht sich quasi per definitionem der Bewertung durch den Kunden. Nicht selten werden deshalb bibliothekarische und informatorische Dienstleistungen für Wissen und Bildung mit einer Allmende verglichen. Dennoch ist es bezeichnend, dass es keine genuine Theorie der Bibliothek gibt, die die Funktion und schon Jahrtausende währende Kontinuität dieser Institution erklären oder zumindest beschreiben könnte (vgl. jedoch Lit. 23). Der einzige theoretische Ansatz der Bibliothekswissenschaft, der dies unlängst versucht, bleibt eine Theorie der bibliothekarischen Güter vorwiegend bezogen auf den Vorgang des Ausleihens von Medien (Lit. 10). Dass Bibliotheken auf einem Markt agieren, ist unbestritten und besonders gut dadurch belegt, dass die Bibliotheken, die sich professionell an Marketingprinzipien orientieren, auch ökonomisch und gesellschaftlich überaus erfolgreich sind, wie z. B. die holländischen Stadtbibliotheken, die dem „Winkelkonzept“ der Kaufhausbibliothek folgen (Lit. 24) oder die Londoner Idea stores, die sich nicht nur vom Namen Bibliothek trennten. Das Problem ist, dass es meist in dem durch ein stereotypes Image geprägten Berufsstand (Lit. 25) nicht zu einer ausgeprägten Marktorientierung kommt, die entsprechend der schnellen technologischen und gesellschaftlichen Entwicklung auch sehr schnell auf Marktentwicklungen reagieren müsste (Lit. 26). D 12.2.2 Basisfunktionen Es lässt sich abstrakt sagen, dass es sich bei Bibliotheken um „beträchtliche“ Sammlungen von „Medien“ handelt, die professionell verwaltet werden in der Art, dass diese mit dem geringst nötigen Zeitverzug potenziellen Nutzern zur Verfügung gestellt werden können (so im Grunde die ursprüngliche Definition von Martin Schrettinger, dem ersten deutschen Bibliothekswissenschafter (Lit. 50). Oder wie es der indische Mathematiker und Bibliothekswissenschaftler S.R. Ranganathan 1931 in seinen berühmten „Five Laws of Library Science“ (Lit. 52) formulierte (vgl. Lit. 22, S. 108): 1. Books are for use 2. Every person his or her book 3. Every book its reader 4. Save the time of the reader 5. Library is a growing organism. Trägt man in der Begrifflichkeit der technologischen Entwicklung Rechnung, würde man heute in dieser Gesetzmäßigkeit nicht mehr nur von Büchern, Lesern oder auch von Libraries sprechen, sondern von Medien, Wissen, Nutzern oder Informations- oder Bildungseinrichtungen. Die Kopenhagener Royal School of Librarianship and Information Science hat unlängst (Lit. 27) für eine nationale Studie zur Rolle der öffentlichen Bibliothek in der Wissensgesellschaft vorgeschlagen, Bibliotheken in drei Dimensionen zu verstehen, als –– Place –– Space –– Relation.
626
D 12: Hans-Christoph Hobohm
Abb. 1: IKMZ Brandenburgische Technische Universität Cottbus
In ihrer historischen Dimension (Lit. 51) waren sie tatsächlich stets ein besonderer Ort (place), mit hegemonialer Bedeutung, dem man auch in der modernen, demokratischen und urbanen Gesellschaft sozial prägende Funktionen zumisst – etwa als identitätsstiftendes Icon einer Organisation (deutlich zu beobachten bei Hochschulen wie z. B. der BTU Cottbus (vgl. Abb. 1) oder auch bei Städten wie Seattle oder Åarhus). Die Bibliothek dient oft als Garant für die Herrschaftsform, in der Frühzeit durch Aufbewahrung der staatslegitimierenden Dokumente, in der Demokratie als Garant für Informationsfreiheit. Bibliotheken bieten aber auch Raum (space) für Entwicklung, Entfaltung, Innovation und Kreativität allein durch das intertextuelle Aufeinandertreffen unterschiedlichster Medien, Personen, Zielgruppen und Aktivitäten. Die Bedeutung der Bibliothek als (sozialer) Raum ist besonders in letzter Zeit neu entdeckt und wieder hervorgehoben worden (Lit. 29, Lit. 30). Nicht zuletzt ist aber hierunter auch der Raum als Speicher des kulturellen oder organisationalen Wissens zu verstehen (Lit. 28). Die Bibliothek als Beziehung (relation) verweist auf die vielfältigen möglichen Vernetzungen, die sie fördert, weil in ihr unterschiedlichste Akteure und Wissensmedien zunächst ohne explizites Handlungsziel aufeinandertreffen können. Sie war schon immer Werkstatt menschlicher Erkenntnis und sei es nur in Form des alexandrinischen Museions oder des mittelalterlichen Skriptoriums (vgl. Lit. 34). Durch ihre Beziehungsarbeit wird die Bibliothek selber zum Medium, zum Mittler und nicht nur zum Bewahrer und Bereitsteller. Ihre durch Auswahl und Erschließung ‚erhöhte’ Position in der Wissenslandschaft dient als Katalysator für weitere Medien unterschiedlichster Form und Inhalte, sie ist „Meta-Medium“ (Lit. 35). D 12.2.3 Bibliothek als Raum Einer der wenigen Grundbausteine für eine theoretische Betrachtung der Bibliothek findet sich bei Michel Foucault, der Bibliotheken in einem Radiovortrag 1966 zu den Heterotopien, den anderen Orten, zählte (Lit. 36, S. 46). Sie sind nicht utopische Orte, so wie sich der argentinische Bibliothekar und Essayist Jorge Luis Borges (Lit. 41) sich die unendliche Bibliothek vorstellte, sondern ganz reale, aber aus dem Alltag herausgenommene Orte, an denen sich andere Welten erschaffen lassen. Auch unter Bezug auf Ray Oldenburgs „Third Place“ (Lit. 37) wurde oft darauf verwiesen, dass es sich bei Bibliotheken um einen öffentlichen, niederschwelligen Raum handelt, der der Bildung der sozialen Gemeinschaft dienen kann. Eine Bibliothek ist kein privater Ort, aber auch kein genuin beruflicher oder gar ein ganz öffentlicher. Sie kann als Rückzugsort und Freiraum dienen,
D 12: Bibliothek im Wandel
627
aber auch als neutraler Begegnungsort in der Gemeinschaft. Das hat sich in der Tat in den letzten Jahren auch im Bibliotheksbau eindrucksvoll manifestiert (Lit. 38). Nach der Euphorie des Digitalen lässt sich eindeutig die Wiederentdeckung des analogen, materiellen Ortes der physischen Begegnung, der (einladenden) Atmosphäre, der Aufenthaltsqualität und der Personen in der Bibliothek beobachten. Zunehmend wird die Zahl der Arbeitsplätze vor Ort, die Möglichkeit von Gruppen- und Projektarbeit, die Kommunikationstechnik und die leibliche Versorgung in Bibliotheken (etwa durch ganze Restaurants wie in der Stadtbibliothek Amsterdam) bei gleichzeitig erweiterten Öffnungszeiten erhöht. Das trifft sich mit einem der Grundkonzepte des Wissensmanagements, das davon ausgeht, das Wissen nur in der Begegnung zwischen Menschen fließen kann, die dazu einen passenden Ort und eine zeitliche Gelegenheit finden (oder geboten bekommen) müssen. Die Begründer des neueren Wissensmanagements, die Japaner Ikujiro Nonaka und Hirotaka Takeuchi, nannten diesen Ort der Ermöglichung auf japanisch ba: Ort, Gelegenheit (Lit. 39). Damit ist auch für Informationseinrichtungen von Forschungsinstituten oder Unternehmen die Idee der Verräumlichung der Funktion der ggf. nicht mehr sichtbaren Bibliothek gegeben. Sie beschränkt sich in einem abstrakteren Sinn nicht nur auf Bibliotheken der ersten Stufen des Lernens wie in Stadt- oder (Hoch-)Schulbibliotheken.
D 12.3 Neue Erscheinung(sform)en (in) der Bibliothek D 12.3.1 Medien Der Soziologe Manuel Castells unterteilt die Gesellschaft im Informationszeitalter (Lit. 40) in „Räume der Ströme“ und „Räume der Orte“. Vorherrschend sind die Netzwerke der internationalen Kapital- und Informationsströme, die jedoch Knoten („Hubs“) bilden, an denen sich die digitalen oder virtuellen Ströme an der materiellen Oberfläche manifestieren, wie z. B. in Städten, Börsen, Technologiezentren etc. Analog zu dem Modell von Castells kann man Bibliotheken als Hubs in der Welt der Wissensströme bezeichnen. Damit kann auch gleichzeitig erklärt werden, dass die Kristallisationspunkte, die Bibliotheken bei allem Medienwandel weiterhin bilden, zwar in einem erweiterten Sinn stets Sammlungen sein werden, aber nicht mehr nur Büchersammlungen sein können. Der Abschied von der körperlichen Form des Mediums Buch deutete sich schon mit der Entwicklung der Dokumentation Anfang des 20. Jahrhunderts an und wird zunehmend deutlicher. Selbst die körperliche Form des Mediums Buch hat in den letzten Jahren wesentliche Veränderungen erfahren, angefangen beim Hörbuch oder den sog. Audiovisuellen Medien bis hin zu verschiedenen Formen des E-Books auf entsprechenden Lesegeräten, die Bibliotheken jeweils vor besondere Herausforderungen bei der Katalogisierung und Vermittlung stellen. Insbesondere urheberrechtliche Probleme in diesem Zusammenhang sind bei weitem noch nicht gelöst. Die Formen des in den Bibliotheken „anzutreffenden“ Bestands an „Medien“ als Wissensträger sind genauso heterogen geworden wie die Technologien und Methoden der Informations- und Wissensvermittlung selber. E-Learningmodule, Webinare, Videos, Podcasts, Computerspiele oder Social Media ergänzen (bzw. ersetzen) immer mehr die gedruckten Medien im Lern-, Bildungs- und Wissenschaftsprozess. Bibliotheken schreiben sich zu, den qualitativ gesicherten Zugang dazu zu gewährleisten, bzw. die Kompetenz zu eigenen Sammlungsaktivitäten jedes einzelnen im Netz zu fördern durch Schulung oder durch investive Services der Vernetzung und des Nachweises von Medien (vgl. Kap. A 9 Informationsverhalten). In der Neufassung des Gesetzes über die Deutsche Nationalbibliothek (Lit. 31) wird der technologischen Entwicklung Rechnung getragen durch die Einführung des Begriffs „Medienwerke in unkörperlicher Form“ als von der Nationalbibliothek ebenfalls zu sammelnde Objekte. Bibliotheken sammeln demnach auch unkörperliche (d. h. vorwiegend Netz-)Publikationen. (Unklar ist bis heute aber, wie diese Art der Sammlung zu bewerkstelligen ist.)
628
D 12: Hans-Christoph Hobohm
D 12.3.2 Beschreibungsformate
Endeavour Work realization
realizationOf Expression
embodiment
embodimentOf Manifestation
examplar
examplarOf Item
part/partOf
relatedEndeavour
Abb. 2: Functional Requirements of Bibliographic Records, Gruppe 1
Die Ablösung vom traditionellen bibliothekarischen Sammelobjekt Buch manifestiert sich auch in der radikalen Neufassung des Katalogisierungskonzeptes der Bibliothekswelt, bei der die klassischen Katalogisierungsregeln der eins-zu-eins Zuordnung vom Buch und Katalogisat durch ein funktionales Entity-Relationship-(ER-)Modell ersetzt wurden. Statt in der einfachen Beziehung „Buch (=Exemplar) → Katalogisat“ (DBE → DE) zu katalogisieren, wird in den von einer internationalen Expertengruppe entwickelten Functional Requirements of Bibliographic Records (Lit. 32) nun vorgeschlagen, die Sammelobjekte in Bibliotheken (oder Bibliographien) eher entlang der konzeptuellen Hierarchie „Werk → Expression → Manifestation → Item“ zu verzeichnen. Damit endet eine 175-jährige Tradition des Katalogisierens (Lit. 33), und viele internationale Kataloge werden nunmehr langsam umgestellt auf eine abstraktere Form der Erfassung von Werken kreativer menschlicher Unternehmungen. Das ermöglicht nicht nur, flexibel Ausdrucksweisen des gleichen Stoffes – z. B. die Odyssee (work) als Theaterstück oder als Lesung (expression), in unterschiedlichen Inszenierungen/Auflagen (manifestation) und konkreten Realisierungen/Aufführungen (item) – aufeinander zu beziehen, sondern auch gänzlich neue Erscheinungsformen möglicher, auch unkörperlicher, digitaler Medien wie etwa Computerspiele oder virtuelle Realitäten damit neu zu beschreiben. In Abb. 2 wird lediglich die erste Ebene der formalisierten Beschreibung dargestellt. Auch die mit dem Werk verbundenen Personen und Institutionen sowie die in ihm enthaltenen Inhalte werden in Form von ER-Modellen neu formalisiert und somit in der digitalen Welt vernetzbar gemacht. Die ER-Modell-Beschreibung, die aktueller Informationstechnologie wie dem Semantic Web besser entspricht, wird schließlich sogar auf ganze Bibliotheken bzw. Sammlungen angewandt. Im Dublin Core Collections Application Profile (DCCAP) wird höchst explizit geregelt, wie eine Sammlung von Informationsobjekten verstanden werden kann (Lit. 42, Lit. 43; vgl. Abb. 3). Der Einstieg der Bibliotheken in das Digitale Zeitalter ist damit technologisch vorbereitet. Jede neue, auch unkörperliche Form von Wissensinhalten lässt sich nunmehr sammeln, erfassen und als Wissensknotenpunkt im Netz – im übertragenen wie im realen Sinn – darstellen.
Creator
Producer
Collector
D 12: Bibliothek im Wandel
creates
Content
produces
Item is gathered into
collects
Collection Owner
Administrator
owns
administers
629
External relationships, e.g. has part
has location
Location
Abb. 3: Dublin Core Collections Application Profile (DCCAP)
D 12.3.3 Digitale Bibliothek Seit den 1990er Jahren werden in diesem Sinn im Netz sog. Digitale Bibliotheken zu unterschiedlichsten Themen aufgebaut. Es begann mit einfachen Sammlungen speziell digitalisierter Objekte etwa zur amerikanischen Geschichte (American Memory der Library of Congress) und endet (nicht) mit großen staatlichen und überstaatlichen Programmen für umfangreiche digitale Sammlungen um Bildung, Wissenschaft und kulturelles Erbe einer breiten Nutzerschaft im Netz zur Verfügung zu stellen. Wichtige Beispiele für Digitale Bibliotheken sind: Perseus Digital Library (zur Antike, eine der ersten), die National Science Digital Library (NSDL) (zur Wissenschaftsvermittlung), die Europeana (zum europäischen kulturellen Erbe), die Deutsche Digitale Bibliothek (DDB) oder die Digital Public Library of America (DPLA) (eine Bibliothek für das breite Publikum). Man kann sie verstehen als organisierte Zwischenform zwischen dem chaotischen Angebot im Netz und einer stringenten und strukturierten Datenbank im engeren Sinn (Lit. 44, S. 6). Sie verhalten sich oft tatsächlich wie Bibliotheken mit Bestandsaufbau und -beschreibungskonzepten, haben eine eigene Administration, ein Nutzungskonzept und sind oft auf nachhaltige Sicherung der Bestände angelegt. Der einzige Unterschied zur analogen Bibliothek ist, dass sie nicht als physischer Raum zu besuchen sind. Vor allem in den sogenannten Virtuellen Fachbibliotheken in Deutschland (unterstützt von der DFG als Teil des Sondersammelgebietsprogramms) entstehen jedoch verschiedene hybride Nutzungs- und Angebotsformen bis hin zu Elementen kollaborativer Art (Social Media; vgl. D 7 Social Web) oder in Form eigener Publikationstätigkeit, so dass fast von einem Besuch solcher Websites und Portale gesprochen werden kann, wenn man diese anklickt. Die am weitesten formalisierte Beschreibung der digitalen Bibliothek als Konzept ist das auf FRBR aufbauende 5-S-Modell von Edward Fox und seinem Team (Lit. 44, S. 7). Es definiert Digitale Bibliotheken in fünf Dimensionen. „Digital libraries are complex systems that help satisfy info needs of users (societies), provide info services (scenarios), organize info in usable ways (structures), present info in usable ways (spaces) and communicate info with users (streams).“
630
D 12: Hans-Christoph Hobohm
Wie bei der Beschreibung der Objekte und Sammlungen wird hier der Versuch unternommen, die ganze Infrastruktur einer Digitalen Bibliothek in RDF-Strukturen abzubilden und auf diese Weise weiter zu automatisieren. Die fünf S (structures, streams, spaces, scenarios, societies) lassen sich nicht auf die fünf Bibliotheksgesetze Ranganathans abbilden, obwohl sie daran erinnern. Im Hinblick auf das eingangs dargestellte Paradigma des spatial turns muss darauf hingewiesen werden, dass der in diesem Modell genannte space eher als mathematischer Vektorraum gedacht ist, ebenso wie die Komponente societies (noch) nicht ausreichend im Sinne realer Nutzer modelliert ist. Während bei Ranganathan (wie auch schon bei Schrettinger) Nutzer und Nutzung ganz im Vordergrund stand, kann man sich zumindest im formalen Modell nicht des Eindrucks erwehren, dass mit use* nur eine Art technische Usability gemeint ist. Bezeichnend ist bei solchen und ähnlichen Modellen vor allem, dass, aus welchen Gründen auch immer, keine expliziten Rollen für Bibliothekare und andere intermediäre Instanzen vorgesehen sind. Die Modelle funktionieren praktisch ohne menschliches Zutun (vgl. Lit. 16). D 12.3.4 Neue Rollen für Bibliothekarinnen Genauso wie sich Medienwerke in gänzlich ungewohnten Formen präsentieren, haben sich auch die Prozesse der Wissensverarbeitung und -vermittlung in der digital vernetzten Informationslandschaft stark verändert (Lit. 45). Die Lern- und Arbeitsformen in Bildung und Wissenschaft entwickeln sich weg von dem linearen Modell Lehrer → Schüler bzw. Leser/Autor/Publikation → Lektüre/Leser/Autor. Die Grenzen verschwimmen und die Rollen vervielfältigen sich durch den Einsatz „neuer“ Medien, die Aktivierung anderer sozialer Strukturen und die Berücksichtigung komplexerer menschlicher Kompetenzen (vgl. A 9 Informationsverhalten). Im sog. vierten Paradigma der datenbasierten Wissenschaft werden Datensätze zu Publikationen, die von Bibliotheken verzeichnet und schon zum Zeitpunkt ihrer Entstehung vom Data librarian kuratiert werden (Lit. 46). In virtuellen Forschungsumgebungen, tranzdisziplinären Forschergruppen oder in Communities der Social Media fallen ihnen auch Rollen der Moderation und Policy-Umsetzung zu (Lit. 47, Lit. 48). In der zunehmend in Projekten organisierten Gesellschaft wird von der Bibliothekarin verlangt, dass sie in den Arbeitsteams mitwirkt als sog. Embedded librarian, die im Augenblick der Entstehung des Informationsbedürfnisses die geeigneten Verknüpfungen im persönlichen Kontakt herstellen kann (Lit. 49). Sogar in der öffentlichen Bibliothek ist sie sozusagen als Spinne im Netz der kommunalen Gemeinschaft ein Moderator, wenn nicht sogar Initiator für neue Partizipationsformen und lokale Kreativität. Gemäß der dritten Dimension der allgemeinen Bibliotheksfunktionen: Beziehungen zu schaffen (relation) fallen ihr in der digitalen Netzwerkgesellschaft zunehmend aktivere Rollen zu. Die eigentliche Bestandsarbeit als Gestaltung des Ortes, des Kristallisationspunktes von Wissensmedien, bleibt zwar erhalten, tritt aber aufgrund vielfältiger Automatisierungsmöglichkeiten in den Hintergrund. Dadurch, dass der Ort der eigentlichen Mediennutzung häufig nicht mehr im physischen Raum der Bibliothek lokalisiert ist und dadurch, dass die Informationsinfrastruktur – trotz oder wegen ihrer technologischen Entwicklung – immer komplexer geworden ist, wird zum wesentlichen Bestandteil bibliothekarischer Tätigkeit die Anleitung der Nutzer, die Begleitung des Lernprozesses und die Unterstützung des wissenschaftlichen Arbeitens in Form der Teaching Library. Das betrifft sowohl konkrete Informationskompetenzschulung als auch die aktive Beteiligung in den elektronischen oder persönlichen Arbeitsplattformen (persönliche Informationsmanagementsysteme (PIM), E-Learning-Systeme, CSCW-Systeme, Wissensmanagementstrukturen, Publikationsserver etc.) der zu betreuenden Kunden (Schüler, Studenten, Bürger, Wissenschaftler, Experten, Laien). Ihre Position als Metainstanz des Bildungs- und Wissenschaftsprozesses ermöglicht ihr, diesen in seiner Gesamtheit mit steuern zu helfen. Durch reine qualitätssichernde Bestandsarbeit hat sie dies immer schon getan. Jetzt hat sie genügend Instrumente, aber auch die Herausforderung, die Informations- und Kommunikationsprozesse auf einer höheren Ebene zu begleiten, etwa durch
D 12: Bibliothek im Wandel
631
Beratung der Trägerorganisation in strategischen Fragen des Informationsmanagements bis hin zu bibliometrischen Analysen der beteiligten Wissenschaftsfelder. Zunehmend sind nicht nur informationstechnische, sondern soziale und kommunikative Kompetenzen gefragt, weil das Sammeln, Erschließen ja sogar das Bereitstellen von Information (vgl. z. B. die Ausleihe mit RFID-Technik) immer weiter an technische Systeme abgegeben oder kooperativ vernetzt von wenigen für viele gemacht werden kann. Automatisierung bedeutet jedoch nicht Wegfall der Funktion, sondern Potenzial, den komplexer werdenden Strukturen an anderer Stelle besser zu begegnen.
Literatur 01 Kaegbein, Paul: Bibliotheken als spezielle Informationssysteme. Zeitschrift für Bibliothekswesen und Bibliographie 20, 425-442, 1973 02 Hobohm, Hans-Christoph: Information und Wissen. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 73-80, 2012 03 Jochum, Uwe: Die Selbstabschaffung der Bibliothek. Uwe Jochum und Armin Schlechter (Hg.): Das Ende der Bibliothek? Vom Wert des Analogen. Frankfurt am Main: Klostermann, 11-25, 2011 04 Hobohm, Hans-Christoph: Das Verhältnis zur Dokumentation – Fachinformation in den 70er und 80er Jahren in der Bundesrepublik Deutschland. Peter Vodosek und Werner Arnold (Hg.): Auf dem Wege in die Informationsgesellschaft. Bibliotheken in den 70er und 80er Jahren des 20. Jahrhunderts. Wiesbaden: Harrassowitz (Wolfenbütteler Schriften zur Geschichte des Buchwesens, 43), 115-134, 2008 05 Bolz, Norbert: Am Ende der Gutenberg-Galaxis. Die neuen Kommunikationsverhältnisse. München 1993 06 Döring, Jörg; Thielmann, Tristan (Hg.): Spatial turn. Das Raumparadigma in den Kultur- und Sozialwissenschaften. Bielefeld: transcript, 2008 07 Hobohm, Hans-Christoph: Vom Leser zum Kunden. Randbedingungen der Nutzerorientierung im Bibliotheksbereich. Zeitschrift für Bibliothekswesen und Bibliographie 44, 265-280, 1997 08 Vonhof, Cornelia: Die Bibliothek als Betrieb. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 266-286, 2012 09 Hobohm, Hans-Christoph: Rechnen sich Bibliotheken? Vom Nutzen und Wert ihrer Leistungen. BuB Forum Bibliothek und Information 59 (9), 633-639, 2007 10 Umlauf, Konrad: Theorie der Bibliothek. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 25-32, 2012 11 Pampel, Heinz; Bertelmann, Roland; Hobohm, Hans-Christoph: „Data Librarianship“ – Rollen, Aufgaben, Kompetenzen. Berlin: Rat für Sozial- und Wirtschaftsdaten/BMBF (Working paper series des RatSWD, 144), 2010 12 Georgy, Ursula; Mumenthaler, Rudolf: Praxis des Innovationsmanagements. Ursula Georgy und Frauke Schade (Hg.): Praxishandbuch Bibliotheks- und Informationsmarketing. Berlin: de Gruyter Saur, 319-340, 2012 13 Frohmann, Bernd: Deflating information. From science studies to documentation. Toronto: Univ. of Toronto Press, 2004 14 Pédauque, Roger T.: La redocumentarisation du monde. Toulouse: Cépaduès-éditions, 2007 15 Lund, Niels Windfeld: Document Theory. Blaise Cronin (Hg.): Annual Review of Information Science and Technology. Medford, N.J: Information Today (43), 399-432, 2009 16 Hobohm, Hans-Christoph: Can Digital Libraries Generate Knowledge? Historical Social Research 37 (3), 218-229, 2012 17 Gradmann, Stefan: Bibliothek als Begriff und Metapher. Von der Büchersammlung zur Programmbibliothek. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 3-10, 2012 18 Fühles-Ubach, Simone: Die Bibliothek und ihre Nutzer. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 228-245, 2012 19 Davenport, Thomas H.; Prusak, Lawrence: „Blow Up the Corporate Library“. Hans-Christoph Hobohm
632
20 21 22 23 24
25 26 27 28 29
30 31 32
33 34
35 36 37 38 39 40 41 42
D 12: Hans-Christoph Hobohm
(Hg.): Knowledge Management. Libraries and Librarians Taking up the Challenge. München: Saur (IFLA Publications; 108), 11-19, 2004 Weinberger, David: Too big to know. Rethinking knowledge now that the facts aren't the facts experts are everywhere and the smartest person in the room is the room. New York: Basic Books, 2011 Umlauf, Konrad: Bibliothek und Gesellschaft. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 11-25, 2012 Rösch, Hermann: Die Bibliothek und ihre Dienstleistungen. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 89-110, 2012 Gloria J.; Given, Lisa M.; Buschman, John (Hg.): Critical theory for library and information science. Exploring the social from across the disciplines. Santa Barbara, Calif: Libraries Unlimited, 2010 Kunst, Hanneke; van Woerkom, Isabelle: Einzelhandelsmarketing in niederländischen Bibliotheken. Unter Mitarbeit von Nina Schoof. Ursula Georgy und Frauke Schade (Hg.): Praxishandbuch Bibliotheksund Informationsmarketing. Berlin: de Gruyter Saur, 627-647, 2012 Mourlan-Mazarguil, Sonja: Les bibliothécaires – ennemis de la bibliothèque? Mémoire d'étude pour le Diplôme de conservateur de bibliothèque. Université de Lyon/ENSSIB, 2012 Schade, Frauke: Markenentwicklung für Bibliotheken. Ursula Georgy und Frauke Schade (Hg.): Praxishandbuch Bibliotheks- und Informationsmarketing. Berlin: de Gruyter Saur, 341-368, 2012 Skot-Hansen, Dorte; Hvenegaard Rasmussen, Casper; Jochumsen, Henrik: The role of public libraries in culture-led urban regeneration. New Library World 114 (1), 7-19, 2013 Mittler, Elmar: Die Bibliothek als Gedächtnisinstitution. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 33-39, 2012 Eigenbrodt, Olaf: Gesellschaftliche Räume: Die Konstituierung des Bibliotheksraums durch Aktivität. International Federation of Library Associations and Institutions und Section Library Theory and Research (Hg.): World Library and Information Congress. Québec, 10.-14. August 2008 Fansa, Jonas: Die Bibliothek als physischer Raum. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 40-72, 2012 Deutsche Nationalbibliothek (DNBG) 22. Juni 2006 BGBl. I S. 1338 International Federation of Library Associations and Institutions – Study Group on the Functional Requirements for Bibliographic Records (2009): Functional Requirements for Bibliographic Records. (FRBR). amendet edition (http://www.ifla.org/files/assets/cataloguing/frbr/frbr_2008.pdf) Denton, William: FRBR and the History of Cataloging. Arlene Taylor (Hg.): Understanding FRBR: What It Is and How It Will Affect Our Retrieval. Westport, Connecticut: Libraries Unlimited, 35-57, 2007 Hobohm, Hans-Christoph: Bibliotheken. Rainer Kuhlen, Thomas Seeger und Dietmar Strauch (Hg.): Grundlagen der praktischen Information und Dokumentation. Band 1: Handbuch zur Einführung in die Informationswissenschaft und -praxis. 5. Aufl. München: Saur, 505–514, 2004 Krajewski, Markus: Die Bibliothek als Metamedium. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 81-89, 2012 Foucault, Michel: Die Heterotopien. Zwei Radiovorträge (7. und 21. Dezember 1966). Frankfurt am Main: Suhrkamp, zweisprachige Ausg., 1. Aufl., 2005 Oldenburg, Ray: Celebrating the third place. Inspiring stories about the „great good places“ at the heart of our communities. New York: Marlowe & Co., 2001 Leiß, Caroline; Leiß, Johann: Von P(rint) zu E(lectronic). Winfried Nerdinger (Hg.): Die Weisheit baut sich ein Haus. Architektur und Geschichte von Bibliotheken. München: Prestel, 215-236, 2011 Nonaka, Ikujiro; Konno, Noboru: The Concept of „ba“: Building a Foundation of Knowledge Creation. California Management Review 40 (3), 40-54, 1998 Castells, Manuel: Das Informationszeitalter. Wirtschaft, Gesellschaft, Kultur. 3 Bde., Opladen: Leske + Budrich/Campus, 2001 Borges, Jorge Luis: La biblioteca de Babel, 1941. Ficciones. Buenos Aires: Emecé Editores, 1956 Dublin Core Collection Description Task Group: Dublin Core Collections Application Profile. The Dublin Core Metadata Initiative. Singapur, 2007 (http://dublincore.org/groups/collections/collectionapplication-profile/, zuletzt aktualisiert am 1.11.12)
D 12: Bibliothek im Wandel
633
43 Powell, Andy; Heaney, Michael; Dempsey, Lorcan: RSLP Collection Level Description. D-Lib Magazine 6 (9), 2000 (http://www.dlib.org/dlib/september00/powell/09powell.html, zuletzt geprüft am 1.11.12) 44 Fox, Edward A.; Gonçalves, Marcos André; Shen, Rao: Theoretical Foundations for Digital Libraries: The 5S (Societies, Scenarios, Spaces, Structures, Streams) Approach. Synthesis Lectures on Information Concepts, Retrieval, and Services 4 (2), 1-180, 2012 45 Thomas, Douglas; Brown, John Seely: A new culture of learning. Cultivating the imagination for a world of constant change. Charleston, SC: Createspace, 2011 46 Büttner, Stephan; Rümpel, Stefanie; Hobohm, Hans-Christoph: Informationswissenschaftler im Forschungsdatenmanagement. Stephan Büttner, Hans-Christoph Hobohm und Lars Müller (Hg.): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herchen, 203-218, 2011 47 Knapp, Jeffrey A.: Plugging the „whole“. Librarians as interdisciplinary facilitators. Library Review 61 (3), 199-214, 2012 48 Kindling, Maxi: e-Research und Bibliotheken. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 146-152, 2012 49 Shumaker, David; Tyler, Laura Ann: Embedded Library Services: An Initial Inquiry into Practices for Their Development, Management, and Delivery. A Contributed Paper for the Special Libraries Association Annual Conference. SLA. Denver, 2007 50 Schrettinger, Martin: Handbuch der Bibliothek-Wissenschaft: [besonders zum Gebrauche der NichtBibliothekare, welche ihre Privat-Büchersammlungen selbst einrichten wollen: auch als Leitfaden zu Vorlesungen über die Bibliothek-Wissenschaft zu gebrauchen]. 1834, Neudruck, Hildesheim: Weidmann 2003 51 Mittler, Elmar: Anthropologische Bibliotheksgeschichte. Umriss eines Forschungsfeldes. Konrad Umlauf und Stefan Gradmann (Hg.): Handbuch Bibliothek. Geschichte, Aufgaben, Perspektiven. Stuttgart: Metzler, 287-292, 2012 52 Ranganathan, Shiyali Ramamrita: The five laws of library science, 1931. Neudruck der 2. Aufl.: New Delhi [India]: Ess Ess Publications, 2006 53 Hobohm, Hans-Christoph: Bibliothek – Mythos, Metapher, Maschine. Oder: Der Ort der Bibliothek in der Lebenswelt der Stadt. Helene Kleine (Hg.): Civitas. Geometrie und Lebenswelt. Eine Ringvorlesung zur Stadt. Potsdam: Fachhochschule Potsdam, 58-65, 2001
Thomas Breyer-Mayländer
D 13 Medien, Medienwirtschaft D 13.1 Produkte, Akteure und Strukturen der Medienwirtschaft D 13.1.1 Begriffsbestimmung und Typologisierung von Medienunternehmen Medien als Begriff beschreibt zunächst eine Mittlerfunktion bei der Übermittlung bzw. Nutzung von Information. Der Informationsbegriff bezieht sich dabei auch auf Objekte der Unterhaltung oder Werbebotschaften als werbliche Information (Lit. 01, S. 8). Das Besondere an Medienunternehmen als zentrale Akteure der Medienwirtschaft ist deren Funktion als Organisation im Wirtschaftskreislauf. Medienunternehmen produzieren die Güter „Informationsprodukte und -dienstleistungen, Unterhaltung und die Verbreitung von Werbebotschaften“ (Lit. 02, S. 18). Dies führt zu einer engen Kopplung unterschiedlicher Erlösmodelle und Marktbereiche. Entsprechend sind die Stufen dieses Wertschöpfungsprozesses mit dem Wandel der Produkte im Rahmen der Digitalisierung einem radikalen Wandel unterworfen. Medienunternehmen lassen sich nach ihrer Marktposition und ihren Wirtschaftsprinzipien in der Medienbranche nach den im Unternehmen hergestellten und vermarkteten (Haupt-)Produkten und der Komplexität der Unternehmung unterscheiden. Die gängigen Typologisierungen von Medienunternehmen beruhen auf den unterschiedlichen Unternehmensgegenständen, d. h. den unterschiedlichen Produkten (Lit. 03, S. 4ff). Diese Gliederungen sind im Sinne der betriebswirtschaftlichen Systematisierung durchaus sinnvoll, da sich die Unternehmen in Aufbau- und Ablauforganisation, Kosten- und Erlösstruktur sowie in den Marktbedingungen, d. h. im Unternehmensumfeld, je nach Mediengattung z. T. sehr deutlich voneinander unterscheiden (vgl. Lit. 04, S. 57-166). Auch wird die Medien- und Kommunikationsbranche neben den klassischen Medienunternehmen durch eine Reihe von Unternehmen geprägt, die im vorbzw. nachgelagerten Bereich als Dienstleister die klassischen Medien in ihrer Funktion erst ermöglichen. Schuhmann und Hess haben diesem Sachverhalt in ihrer Systematik Rechnung getragen, die zwischen drei Hauptfunktionen (Inhalte erzeugen, Inhalte bündeln und Inhalte distribuieren) unterscheidet. Die klassischen Medienunternehmen besitzen in dieser Systematik die Hauptaufgabe, Inhalte zu bündeln (vgl. auch Lit. 01, S. 9). Da in dieser Systematik jedoch die Unternehmensgrenzen zwischen den drei Schritten nicht klar zuordenbar sind, bietet sich als Ergänzung eine Dreiteilung in Dienstleister, Medienunternehmen und Distribution an (vgl. Lit. 03, S. 4), die man jedoch auch entlang der Wertschöpfungskette auf sieben Stufen (Initiierung, Beschaffung, Herstellung, Packaging, Vervielfältigung, Distribution, Verwendung) erweitern kann (Lit. 05, S. 84). D 13.1.2 Besonderheiten in Medienmärkten Bei der Analyse der Marktgegebenheiten im Mediensektor werden vor allem typische Eigenschaften von Medienprodukten analysiert, die sich auf deren Produkt- und Gütereigenschaften auswirken und deren Veränderungen seit einigen Jahren sehr stark die Entwicklung der Medienlandschaft im Rahmen der Digitalisierung prägen. Einige Fehlentwicklungen im Markt, wie etwa die zunehmende Marktkonzentration, lassen sich anhand dieser Analysen nachvollziehen. Beispielhaft sollen hier einige zentrale Eigenschaften aufgeführt werden (vgl. Lit. 06, S. 10ff; Lit. 04, S. 22ff): –– Kopplung von Nutzer- und Werbemarkt: Medienprodukte sind häufig Koppelprodukte, die in den beiden Märkten (Nutzermarkt und Werbemarkt) angeboten werden. Die Abhängigkeit des Werbemarkts vom Erfolg im Nutzermarkt zeigt deutlich, dass hier eine enge Wechselwirkung gegeben ist, wie sie beispielsweise die Auflagen-Anzeigenspirale von Pürer/Raabe (Lit. 7, S. 216) beschreibt (vgl. auch Lit. 03, S. 19). Medien mit großem Erfolg im Nutzermarkt können
––
––
––
––
D 13: Medien, Medienwirtschaft
635
demzufolge mehr Erfolge im Werbemarkt verbuchen. Dies führt zu einer starken Ab- bzw. Aufwärts-Bewegung von Medien bei ihrem finanziellen Markterfolg, da beide Märkte in einer engen Kopplung ablaufen. Medienprodukte als immaterielle Produkte: Der Wert von Medienprodukten hängt eng mit den immateriellen Produktbestandteilen zusammen. Informationsprodukte verbrauchen sich nicht mit ihrem Konsum, sie können jedoch durch Variablen wie Verständlichkeit, Zeit, Exklusivität und Relevanz höchst unterschiedliche Werte beim Kunden erzielen. Fixkostendegression und Long-tail: Die First Copy-Costs bei einem redaktionellen Produkt, in denen die Kosten für ein einzelnes Pilotprodukt gebündelt werden, begrenzen die Möglichkeiten für eine marktfähige Kalkulation von Nischenprodukten. Eine neue Publikumszeitschrift kostet in der ersten Testausgabe nicht nur die anteiligen Papier- und Fortdruckkosten, sondern muss zunächst für dieses einzige Auflagenstück auch alle Redaktions- und Entwicklungskosten tragen. Erst die Etablierung einer bestimmten Nachfragemasse im Endnutzermarkt macht daher große Projekte rentabel, da die anteilig umgerechneten Redaktionskosten pro Exemplar (Sendung, Website) bei einer großen Reichweite geringer sind. Daher ist es im Rahmen der Etablierung digitaler Geschäftsmodelle wichtig zu entscheiden, wo Long tailEffekte (geringe Nachfrage für viele spezifische Produktvarianten, die nur geringe fixe Kosten verursachen) genutzt werden können, um dann zumindest über einen längeren Zeitraum hinweg Nischenprodukte aufgrund der geringen Transaktionskosten marktfähig zu machen. Während dies bei der Vermarktung von Belletristik oder Musik sehr gut funktionieren kann, stellt es beispielsweise für News-Produkte keine sinnvolle Alternative dar. Strukturelle Marktzutrittsschranken im Mediengeschäft: Strukturelle Marktzutrittsschranken waren lange Zeit das typische Kennzeichen für die meisten Segmente des Medienmarkts. In Verbindung mit dem Phänomen der First Copy-Costs wurden daher Wettbewerbssituationen erschwert und die etablierten Anbieter begünstigt. Die Economies of scale, d. h. der beispielsweise durch die Lernkurve begünstigte Betriebsgrößenvorteil der etablierten größeren Anbietern gegenüber jungen kleinen Konkurrenten stellt eine der typischen Marktzutrittsschranken im Mediensektor dar. Die Economies of Scope, d. h. die Verbundvorteile zwischen unterschiedlichen Produkten und Geschäftsfeldern (z. B. durch die Möglichkeit, Inhalte crossmedial zu vermarkten) sind ebenfalls eine strukturbedingte Hürde im Markt. Die aus Sicht der Medienvielfalt verschärfte Konzentrationskontrolle, die beispielsweise von der KEK (Kommission zur Ermittlung der Konzentration im Medienbereich) Entflechtung von Medienunternehmen, die von sich heraus überdurchschnittlich wachsen, ist jedoch hier nicht vorgesehen. Marktstrukturen: Der Bereich des Handels und der Vertriebsdienstleister erfüllt die zentrale Funktion des Angebots von Medienprodukten und Dienstleistungen. Er hat damit im Sinne des Schutzes von Medienunternehmen durch Art. 5 GG den gleichen Schutzstatus wie die Medienunternehmen selbst, da er sicherstellt, dass die Mediengüter dem Konsumenten zugänglich sind. Daher ist für eine strukturelle Betrachtung der Medienbranche wichtig, dass man die recht weitgehenden Sonderregelungen ins Kalkül zieht, die bei der Verbreitung von Massenmedien gelten. So liegt im Pressehandel das Dispositionsrecht (welche Titel sollen wo angeboten werden) grundsätzlich bei den Herstellern (Verlagen), wohingegen der zur Neutralität verpflichtete Groß- und Einzelhandel ein Remissionsrecht besitzt, um nicht das volle Marktrisiko zu tragen. Vergleicht man eine solche Struktur, die einen Marktzugang zum Erhalt der Meinungsfreiheit und des Pluralismus beinhaltet, mit den aktuellen Regelungen, die Apple im App-Store vorsieht, dann wird hier schon ein grundsätzlicher Wandel deutlich. Dabei kommt den Vertriebskanälen eine zentrale Bedeutung für funktionierende Gesellschaften und Medienmärkte zu. Der Vertrieb entscheidet mit über die Präsenz der Güter im Markt. Dabei sind in den vergangenen Jahren die Vertriebs- und Handelssparten der Medienprodukte in unterschiedlich starkem Maße durch die Substitutionstendenzen des Internet-Handels betroffen. Während sich der Internet-Handel im Buchbereich zu einer eigenen Sparte entwickelt hat, führten mangelnde Sicherheitsmechanismen zum Schutz der Urheberrechte in anderen
636
D 13: Thomas Breyer-Mayländer
Bereichen, wie dem Musikmarkt, zunächst in erster Linie zu Behinderungen der Marktentwicklung der etablierten Vertriebslinien. Der formale Schutz der Urheberrechte muss in diesen Bereichen durch praktikable, marktgängige Vertriebsmechanismen ergänzt werden. Die Schwäche der legalen Vertriebskanäle hat in einigen Segmenten zu großen Problemen bei der Etablierung neuer angepasster Geschäftsmodelle für die digitalisierte Mediendistribution geführt. Die Digitalisierung als Prozess- und Produktinnovation der Medienbranche hat zur sogenannten Medienkonvergenz geführt, da sich die Produkte und Märkte immer stärker angleichen, wie dies beispielhaft am Zusammenwachsen von PC und TV-Gerät und damit den Märkten Film, TV, Online-Medien zu sehen ist.
D 13.2 Zielgruppen, Produktformen, Märkte D 13.2.1 Die Bedeutung von Zielgruppen Um den Übergang des traditionellen Mediensystems der (oftmals meinungsbildenden) Massenmedien in die Struktur der heterogenen digitalen Medien- und Kommunikationsangebote nachvollziehen zu können, muss zunächst die Bedeutung der Zielgruppen für die Etablierung von Medien geklärt werden. Die Zielgruppe, die von einem Informations-/Unterhaltungs-Angebot erreicht wird, ist gleichzeitig die Zielgruppe, die dann bei der „Verbreitung von Werbebotschaften“ zur Verfügung steht (vgl. Lit. 02). Im Rahmen der Auswahl unterschiedlicher Medien als Werbeträger, der „Mediaplanung“ (vgl. Lit. 08, S. 158ff, Lit. 09, S. 25), kommt nun dieser Zielgruppenorientierung eine entscheidende Bedeutung zu. Der kommerzielle Wert eines Mediums steigt mit der Abgrenzbarkeit, Rarität und Wertigkeit der über das Medium ansprechbaren (adressierbaren) Zielgruppe. In dieser Situation spielt auch die Steuerbarkeit eines Mediums wie z. B. die Frage, ob Teile der Reichweite nach Zielgruppen aufgegliedert werden können, eine entscheidende Rolle für die Wirksamkeit als Werbeträger und damit für das Geschäfts- und Erlösmodell Werbevermarktung. Dies ist beispielsweise beim Regionalsplit großer Publikumszeitschriften oder beim Targeting von Online-Medien der Fall. Glaubwürdigkeit und Markeneigenschaften: Medienunternehmen erzeugen mit ihren Produkten häufig eine Öffentlichkeit, die nicht nur im Rahmen der Wirtschaftskommunikation von besonderer Bedeutung ist, sondern auch im Rahmen der politischen Willensbildung eine zentrale gesellschaftliche Funktion erfüllt. Aus diesem Grund besitzen bei der Imagebildung einer Medienmarke die Faktoren Glaubwürdigkeit, Zuverlässigkeit und Wahrhaftigkeit eine besondere Bedeutung. Im Unterschied zu anderen Produkten müssen Medien in ihrem Marketingansatz daher sehr viel intensiver mit den Erwartungen unterschiedlicher Interessens- und Einflussgruppen abgestimmt werden und in die bewusste Ausgestaltung der Markeneigenschaften einfließen. Publizistische Kreativität, Sendungsbewusstsein und Zielgruppenerwartungen: Die Ausrichtung der Medienunternehmen am Markt und an Zielgruppen besitzt jedoch eine weitere Besonderheit. Medienunternehmen streben zwar häufig eine Orientierung am Markt an, dennoch besitzen das Unternehmen, die Redaktion oder der einzelne Mitarbeiter auch eigene Vorstellungen über die anzustrebende Ausgestaltung der Produkte. So haben beispielsweise Kirchenzeitungen von Seiten ihrer Gesellschafter die Aufgabe, Themen, die aus Sicht der Kirche gesellschaftlich unterrepräsentiert sind, in die öffentliche Diskussion einzubringen. Gerade bei der Schaffung von neuen Formaten im Mediensektor, wie etwa neuen Zeitschriftentiteln oder neuen TV-Serien, spielt neben der Marktund Kundenorientierung, die häufig durch Pretests im Rahmen der Marktforschung abgesichert wird, das journalistische und publizistische Gespür eine Rolle. Rein marktforschungsbasierte Innovationen haben den Nachteil, dass sie häufig nur Me-too-Produkte liefern und damit einen Verdrängungswettbewerb gleichartiger Mainstream-Produkte zur Folge haben.
D 13: Medien, Medienwirtschaft
637
D 13.2.2 Produktformen (Märkte, Zielgruppen, Substitution der Geschäftsmodelle) Für die Beurteilung von Medien als Zielgruppenmedien ist eine Analyse der Funktion des Mediums als Werbeträger sowie als Angebot im Publikumsmarkt notwendig. Hierbei müssen folgende Fragen geklärt werden: –– Wie ist die Nutzung/Akzeptanz der Mediengattungen durch unterschiedliche Zielgruppen? –– Welche formalen Anforderungen besitzt das Medium (regional bzw. lokal steuerbar, kurzfristig verfügbar, klare Selektion der Zielgruppe)? –– Welche publizistische Rolle nimmt das Medium ein? Dabei werden in der Praxis des Werbeeinsatzes von Medien unterschiedliche Mediengattungen als Werbeträger kombiniert (z. B. Anzeigenblatt, Tageszeitung und Prospektwerbung) und somit crossmediale Kampagnen bzw. Mediamix-Kampagnen geplant. D 13.2.2.1 Tageszeitung Zentrale Kompetenz der Zeitung ist die Vermittlung von Information, wenngleich auch Service und Unterhaltung seit den neunziger Jahren ausgebaut wurden. Glaubwürdigkeit und Vertrauen sind Kernkompetenzen, die der Werbebotschaft helfen. Die Werbemittel unterscheiden sich nach Größe, Format, Platzierung und Farbigkeit. Hier gibt es seit der Jahrtausendwende auch mehr Sonderformate, die aufmerksamkeitsstarke Werbung gestatten. Die Auflagen und damit Reichweiten der Tageszeitungen sind in den vergangenen Jahren mehr und mehr unter Druck geraten, so dass die Leistungsfähigkeit im Werbemarkt leiden kann. Deshalb liegt die seit 2012 übliche Ausweisung kombinierter Print- und Online-Reichweiten im Interesse der Verlage. Das Geschäftsmodell aus Vertriebs- und Anzeigenerlösen bewegt sich ausgehend von einer jahrzehntelangen Werbedominanz in Richtung Vertrieb (Lit. 10). D 13.2.2.2 Anzeigenblatt Als gratis verteilte, meist wöchentliche Produkte haben Anzeigenblätter den Vorteil, die lokale Reichweite voll auszuschöpfen. Die redaktionelle Qualität und damit die Wahrnehmung als inhaltliches Umfeld sind sehr unterschiedlich. Der Ratgeber- und Servicebereich ist meist gut ausgebaut, und Werbung wird vom Leser auch erwartet. Ob der Anzeigenblattmarkt auch künftig stabil bleiben wird, hängt direkt von der Akzeptanz als Werbeträger ab, da es keine weiteren Erlösmodelle gibt. In den kritischen Jahren von 2008-2011 konnten die Anzeigenblattverlage ihren Umsatz weiter entwickeln (Lit. 11, S. 275). D 13.2.2.3 Publikumszeitschrift Publikumszeitschriften sind Zielgruppenmedien, d. h. sie sprechen aufgrund ihrer thematischen Orientierung (Umfeldplanung) nur eine begrenzte Zielgruppe an. In dieser Beziehung unterscheiden sich Publikumszeitschriften von Tageszeitungen, die definitionsgemäß einen Universalitätsanspruch haben, d. h. in ihrem Themenspektrum alle Bereiche des täglichen Lebens abdecken. Diese zielgruppengerechte Themenspezialisierung gilt insbesondere für die Special Interest-Titel, die sich an Leser richten, die sich aus einem persönlichen und privaten Interesse heraus für ein bestimmtes Themengebiet (Ausdauersport, Antiquitäten etc.) interessieren, das in diesen Medien dargestellt wird. Der Markt der Publikumszeitschriften ist in den letzten Jahren sehr stark unter Druck geraten. Nachdem zwanzig Jahre zuvor die Steigerungen der Auflagen und Anzeigenumsätze nur dadurch möglich wurden, dass die Zahl der Titel überproportional stieg und damit die durchschnittliche Auflage und damit die durchschnittliche Rentabilität gesunken ist, sind die Gesamtauflage und die Netto-Werbeumsätze trotz der Innovationsbemühungen rückläufig (Lit. 11, S. 295, S. 299). Für die
638
D 13: Thomas Breyer-Mayländer
Branche ist daher der früher nur bei Boulevard-Zeitschriften dominierende Vertriebssektor von steigender Bedeutung für alle Untergattungen der Publikumszeitschriften. Auch der Verbreitung der digitalen Ergänzungsprodukte kommt eine steigende Bedeutung zu, weshalb die Publikumszeitschriften nun auch verstärkt die Nutzungsintensität von Apps analysieren (Lit. 12). D 13.2.2.4 Fachzeitschrift Fachzeitschriften lassen sich in zwei grundsätzliche Formen gliedern: die wissenschaftlichen und die nicht-wissenschaftlichen Zeitschriften. Dabei sind die nicht-wissenschaftlichen Zeitschriften im Unterschied zu Special Interest-Magazinen an den beruflichen Belangen der Zielgruppe orientiert (Lit. 13, S. 29f). Es sind jedoch praxisorientierte redaktionelle Beiträge, die von einer beim Verlag angestellten Redaktion zusammengestellt werden, während bei den wissenschaftlichen Zeitschriften der Verlag mit seinen Redaktionsteams eher eine koordinierende und weniger eine gestaltende Rolle einnimmt. Die wissenschaftlichen Fachzeitschriften sind für den Werbemarkt weniger relevant, da die Zielgruppe nicht als Investoren angesprochen werden können. Bei den nicht-wissenschaftlichen Fachzeitschriften sind die Märkte sehr stark durch die Entwicklungen in den dazugehörigen Branchen und Wirtschaftssektoren geprägt. In allen betroffenen Segmenten haben die Fachinformationen in Papierform eine zumindest sehr starke Ergänzung durch digitale Angebote erfahren. In einzelnen Bereichen, wo neben der Fachzeitschrift und geeigneten Fachbüchern vor allem auch sogenannte Loseblatt-Werke angeboten wurden, sind digitale Angebote und Softwarelösungen, die beispielsweise während des Verfassens eines anwaltlichen Schriftsatzes Entscheidungen und Gesetzesstellen vorschlagen, eine Ergänzung des bisherigen Produktspektrums, das sich auf Zeitschriften, Fachbücher und Fachveranstaltungen/Kongresse konzentrierte. D 13.2.2.5 TV Das Fernsehen ist nach wie vor ein weit verbreitetes und populäres Massenmedium. War es früher so, dass wenige TV-Sender sich das Publikum aufteilten, haben wir heute eine Vielfalt von zeitgebundenen und nicht-zeitgebundenen TV- und Filmangeboten, so dass die erreichbaren Zielgruppen – von Großereignissen wie Länderspielen abgesehen – kleiner werden. Die in Deutschland erfolgreichste Form des Fernsehens ist dabei nach wie vor das Free TV, das sich über Werbeeinnahmen sehr erfolgreich finanzieren lässt und auch im Jahr 2011 als stärkster Werbeträger im Markt platziert war (Lit. 11, S. 313). Aufgrund des breiten Free TV-Angebots waren die Rahmenbedingungen für Pay TV lange Zeit problematisch. Videoplattformen im Internet, allgemeine Internetnutzung und Film- und TV-Übertragungen im Internet können zunehmend vom Zustrom junger Zuschauergruppen profitieren, so dass die etablierten TV-Formate unter Druck geraten. TV-Sender suchen daher zunehmend Formate, die auch das internetaffine Publikum ansprechen. Das Fernsehen wird als Begleit- und Komplementärmedium genutzt (Lit. 11, S. 312). D 13.2.2.6 Radio/Hörfunk Hörfunk ist ein typisches Begleitmedium und ist vor allem ein Tagesmedium. Die meist privaten lokalen Anbieter kombinieren dabei in der Regel ein unterhaltungsorientiertes Musikprogramm mit einigen regionalen und lokalen Informationen. Die Musikformate konzentrieren sich dabei auf die Hits der letzten dreißig Jahre und aktuelle Hits, um eine breite Zielgruppe von 20-49 Jahren anzusprechen. Bei abweichenden Musikformaten kann über das Format eine weitere Selektion der Zielgruppe erfolgen. So bieten öffentlich-rechtliche Sender beispielsweise Formate für ältere Zielgruppen (z. B. SWR4), die zumindest regional eingegrenzt werden können. Sonst ergibt sich die Selektion über das (lokale) Sendegebiet. Podcasts und individuelle Musikzusammenschnitte auf digitaler Basis erschweren jüngeren Zielgruppen oftmals den unbefangenen Zugang zum „alten“ Medium Hörfunk. Die seit einigen Jahren rückläufigen Werbeumsätze konnten 2011 stabilisiert werden (vgl.
D 13: Medien, Medienwirtschaft
639
Lit. 11, S. 324). Dennoch ist das Geschäftsmodell des werbefinanzierten Rundfunks wie alle werbeabhängigen Medien gefordert, durch Zusatzangebote bei digitalen Medien weitere Geschäftsmodelle und Verwertungsformen zu erproben. D 13.2.2.7 Publizistische Online-Angebote Bei Online-Angeboten lohnt sich bei einer Betrachtung der Medienlandschaft zunächst die Konzentration auf Websites, die vorwiegend redaktionell geprägt sind. Diese Angebote sind oftmals Kombinationen mit anderen Medienformen (Zeitschriften, Zeitungen etc.) und werden nach dem Newsdesk-Prinzip crossmedial produziert. Dies hat den Vorteil, dass redaktioneller Inhalt unterschiedlich aufbereitet werden kann. Dadurch wird eine mediengerechte Darstellung bei gleichzeitiger Nutzung der knappen redaktionellen Ressourcen möglich. Unterschiedlich bewertet werden die Perspektiven, welchen Wert der eigenständige redaktionelle Inhalt im Online-Markt besitzt und ob Aggregatoren, Suchmaschinen oder Endnutzer für diese Leistungen bezahlen sollten. Die Kommerzialisierung ist aktuell auf eher wenige gut im Markt platzierte Formen von Paid Content und ein nach wie vor wachsendes Volumen an Online-Werbung (vgl. Lit. 11, S. 335) ausgerichtet. Da jedoch einige wenige Akteure wie Facebook überdimensional in diesem Markt wachsen, bedeutet ein wachsender Gesamtmarkt für viele einzelne Anbieter dennoch sinkende Anteile und auch oftmals sinkende Gesamtwerbeerlöse. D 13.2.2.8 Spiele (Games) Der Spielemarkt hat in den vergangenen Jahren einen starken Wandel erfahren, da er vom Nischenmarkt, bevorzugt für männliche Jugendliche, zum Massengeschäft für unterschiedliche Zielgruppen ausgebaut werden konnte. Die dabei früher entscheidende Frage der Verbindung zwischen Hard- und Software ist heute bei einigen Spielanwendungen noch zentral (z. B. MS-Xbox Kinect). Für viele Spiele stehen mit SmartPhones und Tablets inzwischen eine ganze Reihe an Plattformen zur Verfügung, die einen niedrigschwelligen Zugang zum Bereich Spiele ermöglichen. Bei den Erlösquellen hat sich neben dem Verkauf der Spiele (trotz der zahlreichen Raubkopien und illegaler Downloads) die Werbung in Form von intelligentem In Game-Advertising etabliert, z. B. Plakatwerbung entlang der virtuellen Rennstrecke bei einem Spiel über Autorennen. Bei den bei der Informationsgemeinschaft zur Nutzung der Verbreitung von Werbeträgern (IVW) gemeldeten Online-Werbeträgern hat allein bereits der Bereich Spiele mit einem Plus von über 25 % vom Jahr 2010 auf das Jahr 2011 überdurchschnittliche Wachstumsraten bei den Nutzerzahlen entwickeln können (Lit. 11, S. 353). D 13.2.2.9 Entertainment/Events/Musik Die Unterhaltungswirtschaft (entertainment economy) wird häufig als Oberbegriff für die Medienbranche eingesetzt oder im Sinne der TIME-Branchen (Telekommunikation, IT, Medien, Entertainment) diskutiert (Lit. 14, S. 81). Für eine medienökonomische Betrachtung hat in den vergangenen Jahren der Wert der Live-Veranstaltungen stark zugenommen. Gerade in einer Zeit, in der die traditionellen Erlösströme, z. B. in der Musikindustrie, mehr und mehr in Frage gestellt werden, kommt den Erlösen aus Live-Konzerten und Tourneen eine zentrale Bedeutung bei der Entwicklung und Refinanzierung von Künstlern zu. Das Wachstum professioneller Freizeitparks, die u. a. Confertainment (Konferenzen und Entertainment) oder handfeste Medienproduktionen (TV-Formate) anbieten und somit über ihr ursprüngliches Geschäftsfeld hinauswachsen, spiegelt ebenfalls diesen Trend wider. Schwieriger wird es in Deutschland seit 2006 im Bereich Sponsoring. Zahlreiche Diskussionen und Ermittlungsverfahren wegen Bestechlichkeit angesichts der Fußball-WM 2006 in Deutschland haben das Sponsoring nicht nur im Bereich Spitzensport in ein kritisches Fahrwasser gebracht. Die Compliance-Richtlinien vieler Firmen setzen hier inzwischen enge Grenzen. Die Probleme der
640
D 13: Thomas Breyer-Mayländer
Musikindustrie, im Rahmen der klassischen Wertschöpfungskette verlässliche Erlöse zu erzielen, haben mit dem Niedergang der Ära der Tonträger eine existenzielle Dimension erreicht. Der Download von bezahlten Files kann dabei nicht das ursprünglich erzielbare Umsatzvolumen kompensieren, wobei der Bundesverband der Musikindustrie das Verhältnis zwischen CD und Download und weiteren Digitalerlösen noch 5:1 bezifferte (Lit. 15). Daher bekommen die Live-Events und das Musikstreaming (Lit. 16) im Rahmen der Neuausrichtung der Geschäftsmodelle eine größere Bedeutung. D 13.2.2.10 Kino/Film Die Filmindustrie hat ähnlich wie die Musikindustrie seit Ende der neunziger Jahre signifikante Probleme bei der Etablierung von Erlösmodellen. Anhand der unterschiedlichen Vermarktungsphasen von Kinofilmen lässt sich dies besonders gut darstellen. Anfang 2000 waren dabei noch folgende Schritte möglich: –– Produktion eines Kinofilms für den amerikanischen Markt –– Vermarktung und Verleih der Kinoversion für den europäischen Markt in muttersprachlicher Fassung –– 3 Monate nach Kinostart Vermarktung als Kaufvideo –– 3 Monate danach Vermarktung des Leihvideos –– 12 Monate Vermarktung für Pay TV –– Nach 1,5 Jahren Vermarktung für Free TV-Premium –– Anschließend Vermarktung für Free TV in Paketen Diese Form des sogenannten Windowings, bei dem die Wertschöpfungsstufen aufeinander abgestimmt werden, fand traditionell über längere Zeiträume von z. B. drei Jahren statt. Da im Zuge der Digitalisierung von Medien durch die Omnipräsenz von Aufzeichnungsgeräten die erste Raubkopie der Kinofilme bereits als Rohschnittfassung online angeboten wird, bevor die Endversion erstmalig im Kino ausgestrahlt wird, musste die zeitliche Ausdehnung der einzelnen Wertschöpfungsstufen stark begrenzt werden. Die Kinobesucherzahlen waren mit großen jährlichen Schwankungen (je nach Angebotenen Filmen) bei mittelfristiger Betrachtung zwischen 1993 und 2011 stabil (Lit. 11, S. 359).
D 13.3 Was sind redaktionelle Inhalte wert? Kommerzialisierbarkeit von Inhalt als Geschäftsmodell Angesichts der Veränderungen der Wertschöpfungskette einzelner Mediengattungen im Rahmen der Digitalisierung und der Konvergenz der Produkte und Medienmärkte, durch die beispielsweise früher klar getrennte Mediengattungen wie Nachrichtenmagazine, TV-Nachrichten sowie Tagesund Wochenzeitungen in direkter Konkurrenz zueinander stehen, kommt der Frage der Vermarktbarkeit der Inhalte eine neue Bedeutung zu. Im Rahmen der Informationswissenschaft wird der ökonomische Wert von Informationen ausführlich analysiert. Die Frage, ob Nachrichten, aufbereitete, in den Kontext eingebettete Informationen oder schlichte Unterhaltung einen messbaren Wert aus Sicht der Konsumenten besitzen, spielt gerade bei der Konzeption von Internet-Angeboten eine zentrale Rolle. Neben der Frage der Bezahlung durch die Endnutzer geht es auch um die Frage, zu welchen Konditionen urheberrechtlich geschützte Werke durch Aggregatoren und Suchmaschinen angeboten werden dürfen.
D 13: Medien, Medienwirtschaft
641
D 13.3.1 Kostenpflichtige Inhalte (Paid Content) Die Diskussion über die Marktperspektiven von Bezahlinhalten im Internet verstellt häufig den Blick darauf, dass bereits bei den klassischen nicht-digitalen Medien durch die Endnutzer bezahlte Inhalte und rein werbefinanzierte Angebote parallel existieren. Wie bereits anhand des TV-Sektors beschrieben, gibt es eine enge Abhängigkeit bei den Marktpotenzialen zwischen den kostenlosen und kostenpflichtigen Angeboten. Auch im Printgeschäft gibt es mit kostenlosen Zeitschriften und Zeitungen eine Parallelität der Angebotsformen. Für die meisten Anbieter ist es dabei eine strategische Entscheidung festzulegen, ob die redaktionellen Angebote stärker über den Verkauf an den Nutzer oder über andere Erlösformen wie Werbung finanziert werden sollen. Dabei hat sich seit 2005 der Anteil der einzelnen Erlösmodelle in einigen klassischen Mediengattungen verschoben. Beispielhaft sei hier auf den Zeitungsmarkt verwiesen. Waren es früher zwei Drittel der Erlöse, die aus dem Anzeigengeschäft kamen, dominieren heute die Vertriebserlöse aufgrund der gestiegenen Vertriebspreise und der rückläufigen Werbeerlöse. Bei der strategischen Entscheidung für eine Maximierung der Reichweite (Free Content) gegen Erlöse durch Nutzerbeiträge (Paid Content) geht es auch immer um die Frage, ob die Anbieter darauf achten müssen, dass sie eine gewisse Größe des Angebots erhalten können und somit die publizistische Relevanz des digitalen und nicht-digitalen Angebots erhalten bleibt. D 13.3.1.1 Zugriff nur gegen Bezahlung (Paywall) Hierbei sind die Inhalte hinter einer Paywall abgeschottet und können nur angesehen werden, wenn entweder ein Abonnement für das komplette Inhaltsangebot abgeschlossen wurde oder für den einzelnen Inhaltsbestandteil (Artikel, Video etc.) nach dem Pay per View-Prinzip bezahlt wurde. Der Vorteil liegt hier in einer klaren Kommunizierbarkeit der Abgrenzung zwischen Bezahlinhalten und kostenlosen Angeboten. Nachteilig ist die Tatsache, dass der Nutzer keine Möglichkeit hat, die Preiswürdigkeit des Angebots richtig zu überprüfen. Im Sinne des Marketings haben wir es hier nicht mit der einfachsten Kategorie, dem Inspektionsgut, zu tun, bei dem der Käufer die Qualität der Ware selbst in Augenschein nehmen kann, sondern je nach Aufbereitung handelt es sich um Erfahrungsgüter bzw. Vertrauensgüter, bei denen die Schwelle für den Kauf erheblich sein kann. Im Marketing gibt es unterschiedliche Kategorien von Gütern: Inspektionsgüter ermöglichen dem Käufer einen Test des Produktnutzens vor dem Kauf, wie z. B. TV-Geräte, die am Point of Sale getestet werden können. Erfahrungsgüter hingegen lassen sich nicht vor dem Kauf testen. Allerdings kann nach dem Konsumvorgang der Käufer beurteilen, ob der von dem Produkt gestiftete Nutzen seinen Erwartungen entsprochen hat oder nicht (Besuch eines Konzerts). Vertrauensgüter können jedoch in ihrer Qualität auch nach dem Konsum nicht vom Konsumenten abschließend beurteilt werden (Wie gut war eine Titelstory über Afghanistan recherchiert?). Als Ersatz für die Möglichkeit der Überprüfung findet an dieser Stelle das Konzept des Vertrauens Anwendung, so dass Image- und Markenstrategie der Medien besonders wichtig sind. Sjurts weist bei der Diskussion über die Gütereigenschaft von Medienprodukten zu Recht darauf hin, dass die Werbetreibenden gegenüber den Rezipienten eine höhere Qualitätstransparenz besitzen und die Güter meist in Form von Inspektionsgütern nutzen können (Lit. 17, S. 165). D 13.3.1.2 Zugriff nach dem Prinzip der Parkuhr (Metered Access) Um dem Marketingnachteil einer starren Paywall entgegenzuwirken, gibt es das Modell des Metered Access. Hier sind eine bestimmte Anzahl von redaktionellen Inhalten (z. B. drei Artikel pro Woche) frei zugänglich, bevor die Bezahlschranke greift und die Inhalte bezahlt werden müssen. Dieses Modell soll dafür sorgen, dass auch ein Basis-Set an redaktionellen Inhalten frei zugänglich bleibt und damit ein zu starkes Absinken der Reichweite vermieden werden kann. Die publizistische Relevanz des Angebots und damit der Effekt, dass es die Einschätzung gibt, dass man bestimmte In-
642
D 13: Thomas Breyer-Mayländer
halte gesehen haben muss, wird dadurch gestärkt. Als nachteilig erweisen sich bei vielen Modellen die komplizierten Prozesse und Verfahrensschritte. Die Kontrollmechanismen reichen von der Pflicht zur Anmeldung nach den ersten drei Artikeln und der Verpflichtung zur Zahlung nach weiteren zehn kostenlosen Artikeln, bis hin zu nach unterschiedlichen Gesichtspunkten definierten Kontingenten pro Nutzer. Dabei sind die meisten technischen Modelle durch Cookies abgesichert. Im Unterschied zu einer starren Paywall sind bei Metered access-Modellen auch die Zugriffe über Suchmaschinen und Social Media-Plattformen besser nutzbar. Statt wie bei Paywall-Modellen nur eine verkürzte Teaser-Information zuzulassen, können die ersten Inhalte bei Treffern aus Google und Facebook heraus vollständig genutzt werden. D 13.3.1.3 Aufspaltung freier und kostenpflichtiger Inhalte (Freemium) Eine andere Variante, mit der die Reichweite hoch gehalten, Treffer über Suchmaschinen genutzt und damit publizistische Relevanz und Bezahlinhalte kombiniert werden, ist das Freemium-Modell. Das Wort setzt sich aus kostenlos (free) und Premium zusammen. Dies beschreibt schon das grundsätzliche Vorgehen, bei dem redaktionelle Bereiche als frei verfügbar und andere redaktionelle Bereiche als kostenpflichtige Premium-Inhalte definiert werden. Die Schwierigkeit bei diesem Modell besteht in der Abgrenzung der beiden inhaltlichen Sphären, was insbesondere bei Websites mit hohem Aktualisierungsrhythmus schwer fällt. Eine plausible Trennung lässt sich kaum nach außen kommunizieren. Die Kriterien Exklusivität und Relevanz, die die Zahlungsbereitschaft für Inhalte und Unterhaltung bestimmen, unterliegen dabei keineswegs einer rationalen Beurteilung. So wurde im Jahr 2011 das mobile Angebot der FAZ nicht intensiver genutzt als dieselben Inhalte im Rahmen der FAZ-App, die kostenpflichtig waren. Das Gesamtpaket aus Inhalt, optischer Aufbereitung und Nutzerconvenience bestimmt die Zahlungsbereitschaft. D 13.3.1.4 E-Paper, Apps und mehr Die Möglichkeit Inhalte kostenpflichtig anzubieten hängt auch von der Art der Darstellung und der subjektiven Bewertung der Produktform ab. Während bei Websites von Anfang an ein breites kostenloses Angebot vorhanden war und somit Pay-Angebote stets einen deutlichen Rechtfertigungsdruck verspürten, waren Apps von Beginn an kostenpflichtige Ware, bei der es zwar kostenlose Ausnahmen gab, die jedoch auch als solche erkennbar waren. Dadurch entstand bei Apps beispielsweise eine generelle Zahlungsbereitschaft, die auch bei PDF-basierten E-Papers besteht. Bei letzteren stehen jedoch meist die Paket-Angebote mit Printversionen im Vordergrund. Somit ist die digitale Version hier nur eine (noch nachrangige) Produktform. Erschwert wird ein zügiger Ausbau der E-Paper-Versionen durch die strikten Regelungen der IVW, die eine printnahe Ausgestaltung der Angebote einfordern, damit sie zur Gesamtreichweite eines Mediums zählen. D 13.3.2 Publikumsangebote zwischen Leistungsschutzrecht und Datenjournalismus Publikumsangebote, die stark vom Informations- und Neuigkeitswert der eigenen Inhalte profitieren und abhängen, haben im Rahmen der Medienkonvergenz einige zentrale Probleme in der Nutzerakzeptanz zu lösen. Es geht um die Möglichkeiten der Kommerzialisierung im Sinne des Paid Content, aber auch um die Frage, wer denn bei den eng miteinander vernetzten Leistungserbringern Suchmaschinen, Datenbanken und Websites eigentlich kostenpflichtige Leistungen für den anderen erbringt. Leistungsschutzrecht: Die deutschen Zeitungs- und Zeitschriftenverlage nehmen die Diskussion um den Wert der Urheberrechte bei Musik zum Anlass ihre eigene Rechtsstellung nachzubessern. Ziel ist ein Leistungsschutzrecht, das den Verlagen eine vorteilhaftere Rechtsposition gegenüber Suchmaschinen wie Google bietet und damit vor allem eine Verbesserung ihrer wirtschaftli-
D 13: Medien, Medienwirtschaft
643
chen Position. Die Verlegerverbände Bundesverband Deutscher Zeitungsverleger e.V. (BDZV) und Verband Deutscher Zeitschriftenverleger e.V. (VDZ) starteten 2009 die Initiative für ein Leistungsschutzrecht. Die Gegner der Aktion werfen den Verlagen das Klammern an alten Wertschöpfungsmodellen und Doppelmoral vor, aber auch Eingriffe in die Informationsfreiheit im Internet. Kein Verlag sei schließlich gezwungen, die eigenen Inhalte im Internet anzubieten. Auch die Verwertung durch Google könne ja durch einen entsprechenden Eintrag im HTML-Code vermieden werden. Dabei dominiert – ähnlich wie bei der Auseinandersetzung um den § 52 UrhR im Bereich der elektronischen Pressespiegel – in vielen Fällen die Furcht der Verlage auf der einen Seite, dass sie in ihren Verwertungsmöglichkeiten durch die Digitalisierung ähnliche Einbußen erleiden wie die Musik- und Filmindustrie und auf Seiten der Nutzer ist die Furcht vor einem komplexen Gebühren- und Abgabensystem Kernpunkt der Argumentation. Zur Zeit der Drucklegung dieses Bandes war noch nicht entschieden, inwieweit der von der Bundesregierung im September 2012 vorgelegte Entwurf eines Leistungschutzrechts Gesetz werden kann. Datenjournalismus: Immer komplexere Zusammenhänge beispielsweise in der Politikberichterstattung führen dazu, dass auch in Publikumsmedien immer häufiger mit Interpretationen von Daten gearbeitet wird. Der Wert des Werks entsteht in diesen Fällen nicht durch die Veröffentlichung neuer Informationen, sondern durch die Kombination, Aufbereitung und Interpretation. Dieser Data driven journalism wird jedoch im Wesentlichen durch die freie Verfügbarkeit von Informationen möglich und ist bei vielen digitalen Angeboten (Online-Angebote, Apps etc.) auch so automatisiert, dass beispielsweise die Kriminalitätsstatistik einer Wohnumgebung beim Klick auf eine interaktive Karte direkt aus den öffentlich zugänglichen Datenbeständen errechnet wird und die dort hinterlegte Grafik dann die Information für den Nutzer liefert. Hier stellt sich wiederum die Frage, ob ein auf redaktionelle Inhalte ausgerichtetes Leistungsschutzrecht, wie es die Verlage bevorzugen und einfordern, mit der Nutzung der Daten Dritter im Rahmen des Datenjournalismus kompatibel ist.
D 13.4 Die Impulsgeber (Gamechanger) im Spielfeld der Massenmedien Die Veränderungen durch die Medienkonvergenz haben seit dem Aufkommen der Social MediaWelle (seit dem Jahr 2007) einen zusätzlichen Schub bekommen. Was bei der Brechtschen Radiotheorie noch reichlich utopisch anmutete, dass aus jedem Empfänger ein Sender wird, ist mit der neuen Rollenzuordnung seit dem Web 2.0 Wirklichkeit geworden. Benutzer-generierte Inhalte führten zu neuen Rollenzuschreibungen wie die des Prosumenten (Produzent und Konsument), der einerseits klassisch konsumiert, andererseits über inhaltliche Kommentare oder auch nur über das Lesen und die damit verbundene Rückmeldung der Klickraten von Beiträgen den Inhalt bewusst oder unbewusst gestaltet und erweitert. Im Folgenden werden stellvertretend zwei international bedeutsame Akteure dargestellt, die mit dazu beigetragen haben, dass sich die Spielregeln im Mediengeschäft grundsätzlich verändert haben. Verleger werden mit den Impulsgebern facebook, Google, amazon und apple zur selben Zeit konfrontiert. Facebook: Facebook ist aus der Perspektive des deutschen Markts zunächst das perfekte Beispiel für die Wirkung ökonomischer Netzeffekte in einem abgrenzbaren Wettbewerbsgebiet. Bei Social Media-Plattformen steigt der Nutzen einer Plattform mit der Zahl der darauf vertretenen Mitglieder, denn schließlich geht es ja um die Möglichkeit der Vernetzung, die umso größer ist, je größer auch der Nutzerkreis und die Nutzungshäufigkeit der Plattform sind. D. h. der größte Akteur im Markt verzeichnet überproportionale Wachstumsraten, während kleinere Marktteilnehmer (wie studiVZ) schnell am Existenzminimum angelangt sind. Für die übrigen Medienunternehmen ist Facebook ein zentraler Wettbewerber und Partner zugleich. Auch hier hat sich mit Coopetition ein neues Kunstwort (cooperation und competition) etabliert. Einerseits ist Facebook wichtig zur Reichweitensteigerung und zur Profilierung der eigenen publizistischen Relevanz auf einem weiteren Verbreitungskanal. Einige Zeitungen im US-Markt hatten bereits 2011 mehr externe Zugriffe auf ihre Online-Angebote, die über Facebook kamen, als über Google. Das überproportionale Wachs-
644
D 13: Thomas Breyer-Mayländer
tum von Facebook als Werbeträger führt dazu, dass selbst bei einem steigenden Marktvolumen im Bereich der Online-Werbung für alle anderen Marktpartner nur kleinere Anteile übrig bleiben. Auch dies ist für klassische Medienunternehmen, die im Regelfall in ihrem individuellen Markt eine hohe Relevanz haben (z. B. deutsche TV-Sender), eine eher ungewohnte Situation. Google: Ausgehend vom Kernprodukt der reinen Suchmaschine hat Google sich im ersten Jahrzehnt seines Bestehens rasch zu einem Universalanbieter von Inhalts- und Serviceleistungen entwickelt. Neben Spezialsuchen (z. B. für Produkte, Bücher etc.), gibt es unter dem Dach von Google inzwischen mobile Hardware, ein Free- und Premium-Mailangebot, Social Media-Plattformen und vieles mehr. Für die klassische Medienbranche ist vor allem die Dominanz bei der Suche Gegenstand vieler Diskussionen. Es herrscht dabei häufig die Meinung vor, dass die Treffer ja nur dadurch zustande kämen, dass die redaktionelle Kompetenz der Medienunternehmen hier Eingang findet. Die Diskussion um das Leistungsschutzrecht zeigt jedoch, dass es hier keineswegs bei allen Unternehmern eine einheitliche Sichtweise gibt (Lit. 18). Auch die unbekümmerte Digitalisierung von Büchern aus urheberrechtlich geschützten Zeiträumen hat dazu beigetragen, dass Google in der deutschen Medienbranche sehr schnell als störend wahrgenommen wurde. Google vermittelt direkt den Kontakt zwischen Konsument und Anbieter, sorgt daher für eine neue Form der Kundenbeziehung, die einen direkten Austausch und damit eine Ausschaltung des Handels bedeuten kann.
D 13.5 Crossmediastrategien, neue Geschäftsfelder und Erlösquellen der klassischen Massenmedien Für die Akteure der Medienbranche ist es entscheidend, dass sie Perspektiven entwickeln, wie die Risiken aus dem Wandel der Technologie, der Produkte und Marktstrukturen begrenzt und die Chancen auch bei der Entwicklung neuer Erlös- und Geschäftsmodelle genutzt werden können. D 13.5.1 Arbeitsteilige Nachrichtenerstellung (Newsdesk) Wenn Medienunternehmen unterschiedliche Kanäle mit ihren Inhalten nutzen möchten, empfiehlt sich eine zunächst plattformneutrale Produktion der Kerninhalte, die anschließend für die einzelnen Produktformen und Kanäle angepasst werden. Hier hat sich das Newsdesk-Prinzip bewährt (Lit. 19, S. 371ff). Hier werden mediengattungsübergreifend und teilweise innerhalb einer Mediengattung auch produkt- bzw. titelübergreifend Inhalte aufbereitet. Das Thema, die jeweilige Nachricht oder Information bestimmt dabei den Arbeits- und Aktualisierungsrhythmus, der nicht mehr von den Gepflogenheiten einzelner Mediengattungen (z. B. Wochenmagazin, Tageszeitung) abhängig ist. Die Arbeitsweise der Redakteure ist dabei häufig in ein Reporter Editor-Modell aufgeteilt. Dabei werden bei der Erstellung des plattformtypischen Endprodukts (App, E-Paper etc.) mehr und mehr auch die Programmierung und die technische Aufbereitung in Form von interaktiven Grafiken etc. zum Inhalt journalistischer Arbeit. Die sinnvolle Verknüpfung der unterschiedlichen Kanäle, beispielsweise durch Querverweise, führt zu einer crossmedialen Arbeitsweise, die jedoch von allen Beteiligten ein hohes Maß an Kooperationsbereitschaft und zusätzliche Kenntnisse der angrenzenden Arbeitsgebiete erfordern. D 13.5.2 Diversifikation im Rahmen digitaler Investments Bei der Diversifikation stehen grundsätzlich drei Wege offen: –– Aufbau neuer digitaler Geschäftsfelder aus eigener Kraft: Dies führt zu einem hohen Knowhow-Zuwachs der eigenen Organisation, erfordert jedoch viele Ressourcen und kostet in vielen Fällen auch zu viel Zeit, um mit dem dynamischen Wettbewerb mitzuhalten.
–– ––
D 13: Medien, Medienwirtschaft
645
Aufbau neuer digitaler Geschäftsfelder im Rahmen von Kooperationen: Dabei wird auf das Knowhow eines neuen Partners zurückgegriffen. Die Umsetzung kann schneller vonstattengehen, der Erfolg hängt jedoch sehr stark von der Passung der einzelnen Kooperationspartner ab. Zukauf neuer Geschäftsfelder in Form von strategischen Investments: Verlage und Medienunternehmen beteiligen sich als strategische Investoren in aussichtsreichen Geschäftsfeldern. Dies kann wie z. B. bei Hubert Burda Media und den Investments in „Elite Partner“ oder „Holidaycheck“ zu neuen digitalen Konzernmarken führen, die nur wenig mit dem Kerngeschäft verzahnt sind. Diese Investments dienen der Diversifikation, jedoch ist der Zuwachs an digitalem Know-how für das Gesamtunternehmen begrenzt. Das Risiko liegt in der Beurteilung des Investments, wie der Fall studiVZ zeigt.
D 13.5.3 Werbevermarktung Neben der gemeinsamen Erstellung redaktioneller Basismodule im Rahmen des Newsdesks gibt es für die Medienunternehmen im Rahmen des Ausbaus der digitalen Aktivitäten auch die Anforderung, ihre Aktivitäten im Werbemarkt auszudehnen. Hier gibt es nach wie vor unterschiedliche Modelle, die heterogenen Mediengattungen der großen und kleinen Medienkonzerne in ein einheitliches Vermarktungsschema einzubauen. Oft wird der Kundenkontakt gebündelt nach Kundenklassen (z. B. Großkunden, Key accounts) organisiert und die jeweilige detaillierte Fachberatung (beispielsweise über Werbung in digitalen Medien) erfolgt dann über hauseigene Fachberater. Insgesamt ist hier seit Jahren ein hoher Qualifizierungsbedarf beim Aufbau von crossmedialen Beratungskompetenzen sichtbar. Für die Medienunternehmen bleibt dies eine zentrale Aufgabe des Change-Managements, die in Zeiten von rückläufigen Werbemärkten in Zusammenarbeit mit den provisionsabhängigen Mediaberatern nicht einfach gelöst werden kann. D 13.5.4 Der Markt der Endgeräte Für die Zukunft der Medienunternehmen spielen die künftig verfügbaren Endgeräte, gerade bei den mobilen Endgeräten, eine immer größere Rolle. War die Internetnutzung in Deutschland in den neunziger Jahren vorwiegend eine Nutzung im beruflichen Umfeld (auch wenn die genutzten Inhalte zum Teil sehr privater und persönlicher Natur waren), so wurde in der Folgezeit daraus das mehr und mehr private Medium, das zunehmend auch zu Zeiten der TV Prime-Time genutzt wird. Diese Form der Parallelnutzung bekommt nun eine neue Qualität, da mobile Endgeräte eine mobile oder pseudo-mobile Nutzung gestatten. Die Zugriffe über nicht stationsgebundene Endgeräte wird 2012 erstmals die Nutzung durch klassische PCs übersteigen. Dabei sind Smartphones mit ihrer weiten Verbreitung tatsächlich mobile Geräte, die auch mobil genutzt werden, während tablets wie das iPad zwar auch zu den Portable devices gehören, jedoch meist in Freizeitatmosphäre am Couchtisch, d. h. lediglich pseudo-mobil als Lean back-Medium zum Einsatz kommen. Die Zahl der tablets als Plattformen für Apps der Publikumsmedien ist zwar derzeit noch sehr begrenzt. Zum Jahresende 2012 werden jedoch zunehmend eReader, die einfache mobile und pseudo-mobile Nutzungen gestatten, im Markt erwartet und auch die Geräte auf der IFA 2012 bestätigen bereits den Trend zur preisgünstigen leistungsstarken mobilen Hardware. D 13.5.5 Apps und LBS Wie rasch neue digitale Angebotsformen im Markt etabliert werden können, zeigt die rasante Entwicklung der Apps mit der Etablierung von Smartphones und Tablets. Im Rahmen der Kommunikation gehen Analysen davon aus, dass die digitalen Medien drei globalen Trends folgen:
646 ––
––
––
––
D 13: Thomas Breyer-Mayländer
Das Internet wird mobil: Die Internetnutzung ist mobiler geworden. Hierbei wird eine Generation erreicht, für die in der Marktforschung die Bezeichnung „always on“ geprägt wurde, da diese Zielgruppe nicht mehr differenziert, ob sie „jetzt im Internet ist“ oder nicht. Vor allem die unter 30-Jährigen in Deutschland surfen per Smartphone (Lit. 20, S. 395). Das Internet wird lokal - Location Based Services: Das mobile Web lebt als Geschäftsfeld von der Kombination mit dem lokalen Markt. Die sogenannten Location Based Services (LBS) umfassen alle Angebote, bei denen der Ort, an dem sich der Nutzer befindet, eine besondere Rolle spielt. Wenn ein Smartphone-User mit seinem Blackberry oder iPhone in der Innenstadt unterwegs ist, kann er sich so beispielsweise über Ausgehtipps und das Kinoprogramm vor Ort informieren. Das Internet und die digitalen Angebote werden sozial - Social Media liegen im Trend: In der Weiterentwicklung der bereits skizzierten Entwicklung hin zu Web 2.0-Angeboten im Web haben sich digitale Medien mehr und mehr zu sozialen Medien entwickelt, wie dies bei Social Media-Plattformen wie Facebook, Xing oder Linked in der Fall ist. Dabei haben die jungen Zielgruppen Social Media als mobile Medien in ihren Tagesablauf integriert (vgl. Lit. 21). Wie differenziert die Medienlandschaft sich darstellen kann und welche neuen Themenfelder sich für Medienunternehmen ergeben, lässt sich anhand eines abgeschotteten Marktes wie dem lokalen Medienmarkt darstellen (Lit. 22, S. 26). Hier wird aus der ständigen Verfügbarkeit von Rechnertechnologien als Alltagsbegleiter (ubiquitous computing) die Überallverfügbarkeit von Medien, die sich für die gezielte Kommunikation im Sinne eines Ubiquitous Marketings nutzen lassen (Lit. 23, S. 87). Tageszeitung
Anzeigenblatt
Direktverteilte Prospekte
Location Based Information
Print-Kanäle
Mobile Marketing
OnlineCouponing Lokale redaktionelle Webseite Lokale OnlineCommunities User Generated Content
Blogs
Location Based Community
Location Based Transaction
Location Based Couponing
Location Based Services Lokales Radio
InternetProdukte
Lokale Kommunikationskanäle
Lokaler Rundfunk
Lokal-TV
Web-TV Social MediaKanäle Facebook + Communities
Services
Twitter + Microblogs
Werbekreation
Events
Abb. 1: Mediengattungen im digitalen Wandel (Quelle: Darstellung des Autors, nach Lit. 22)
Ticketing
D 13: Medien, Medienwirtschaft
647
D 13.6 Fazit Zusammenfassend lassen sich für die einzelnen Mediengattungen unterschiedlich starke Substitutions- und Komplementäreffekte durch die neue Technologie-, Markt- und Wettbewerbssituation feststellen, die in der nachfolgenden Abb. 1 zusammengefasst sind. Dabei ändern sich auch die Bedingungen für die Führung und Entwicklung von Medienmarken, die oftmals als Konvergenzmarken oder Crossover die reale und virtuelle Medienwelt bedienen müssen (Lit. 24, S. 48).
Literatur 01 Schumann, Matthias; Hess, Thomas: Grundfragen der Medienwirtschaft. 4. Aufl. Berlin/Heidelberg: Springer 2009 02 Heinrich, Jürgen: Medienökonomie 1: Mediensystem, Zeitung, Zeitschrift, Anzeigenblatt. 2. Aufl. Wiesbaden: Westdeutscher Verlag 2001 03 Breyer-Mayländer, Thomas; Seeger, Christof: Medienmarketing. München: Vahlen 2006 04 Breyer-Mayländer, Thomas; Werner, Andreas: Handbuch der Medienbetriebslehre. München: Oldenbourg Verlag 2003 05 Petzoldt, Kerstin; Sattler, Britta: Medienmarketing. Stuttgart. Lucius & Lucius UTB 2009 06 Beyer, Andrea; Carl, Petra: Einführung in die Medienökonomie. Konstanz: UVK UTB 2004 07 Pürer, Heinz; Raabe, Johannes: Medien in Deutschland – Band 1: Presse. Konstanz: UVK 1996 08 Hofsäss, Michael; Engel, Dirk: Praxishandbuch Mediaplanung Berlin: Cornelsen 2003 09 Unger, Fritz et al.: Mediaplanung: Methodische Grundlagen und praktische Anwendungen. 4. Aufl. Berlin/Heidelberg: Springer 2002 10 Lang, Karin: Heiße Preise: Zeitungen: Das Vertriebsgeschäft wird für die Verlage immer wichtiger. Horizont 34/2012, 13 11 ZAW (Hrsg.): Werbung in Deutschland 2012. Berlin: edition ZAW 2012 12 Paperlein, Juliane: Digitale Zeitschriftennutzung sinkt. Horizont 34/2012, 19 13 Bramann, Klaus: Bedeutung des Verlagswesens. Breyer-Mayländer, Thomas u. a.: Wirtschaftsunternehmen Verlag. 4. Aufl. Frankfurt: Bramann 2010 (Edition Buchhandel Nr. 5), 17-58 14 Gläser, Martin: Medienmanagement. München: Vahlen 2008 15 Bundesverband der Musikindustrie (BVM): Musikindustrie in Zahlen 2011: Fakten und Trends. Anhang zur Pressemitteilung des BVM vom 19.04.2012 16 Bundesverband der Musikindustrie (BVM): Umsatz mit Musik-Streaming im ersten Halbjahr 2012 um mehr als 40 Prozent gestiegen. Pressemitteilung des BVM 04.09.2012 17 Sjurts, Insa: Der Markt wird’s schon richten?! Medienprodukte, Medienunternehmen und die Effizienz des Marktprozesses. Altmeppen, Klaus-Dieter/Karmasin, Matthias (Hrsg.): Medien und Ökonomie. Band 2: Problemfelder der Medienökonomie. Wiesbaden: Westdeutscher Verlag 2004, 159-181 18 Biermann, Kai: Lex Google: Leistungsschutzrecht zielt auf Google, ohne zu treffen. Zeit Online 29.08.2012 19 Breyer-Mayländer, Thomas: Online-Markt. Breyer-Mayländer, Thomas u. a.: Wirtschaftsunternehmen Verlag. 4. Aufl. Frankfurt: Bramann 2010 (Edition Buchhandel Nr. 5), 335-378 20 Klumpe, Bettina: Geräteausstattung der Onlinenutzer. Media Perspektiven 7-8/2012, 391-396 21 Kaplan, Andreas M.: Social Media wird mobil – Grundlagen, Gebrauch und Gestaltung mobiler sozialer Medien. Marketing Review St. Gallen 4/2012, 16-20 22 Breyer-Mayländer, Thomas: Mehr als ein „Communication Shift“: Neue Formen des Mediamix im lokalen Markt. Marketing Review St. Gallen 5/2011, 22-27 23 Breyer-Mayländer, Thomas: Ubiquitous Marketing: Neue technische Möglichkeiten im lokalen Geschäft. IAF (Hrsg.): Neue Beiträge aus Forschung und Technik 2012. Offenburg 2012. S. 87-90 24 Backhaus, Klaus; Sabel, Tatjana: Marken im Internet – Aspekte der Hybrid- und Onlinemarkenführung. Grob, Heinz Lothar; Brocke, Jan vom: Internetökonomie: Ein interdisziplinärer Beitrag zur Erklärung und Gestaltung hybrider Systeme. München: Vahlen 2006, S. 45-70
Helmut Wittenzellner
D 14 Transformation von Buchhandel, Verlag und Druck D 14.1 Übersicht Buchhandel, Verlagswesen und Druckbetriebe sind klassische, stark miteinander verknüpfte Branchen. Sie mussten und müssen sich – nicht zuletzt auch aufgrund ihrer langen Tradition – immer wieder neu orientieren oder zumindest justieren. Die Technologisierung und Industrialisierung haben die drei eng zusammenarbeitenden Branchen gut umgesetzt, die Digitalisierung ist gerade voll im Gange – aber die Ausrichtung auf die Herausforderungen der Onlinewelt steht vielfach noch an. Es zeigt sich, dass hierbei die Fortschritte von Buchhandel, Verlagswesen und Druckbetrieben nicht gleich weit gediehen sind, sondern die Transformation in asynchroner Reihenfolge zur Wertschöpfung läuft: –– Das Druckwesen ist, verglichen mit den beiden anderen Branchen, in seiner Transformation mit Abstand am weitesten entwickelt, die Aufteilung der Branche in Print Factory, Document Manager oder Media Provider ist in weiten Teilen abgeschlossen, die Orientierung zum Kundennutzen ist allgemein in der Branche implementiert (vgl. Lit. 05, S. 533ff). Neue Herausforderungen stehen vor allem in der Begegnung der Konkurrenz rein elektronischer Medien. –– Der Buchhandel findet sich vielfach noch in einer Umbruchsphase, die klassischen Sortimenter verkaufen immer noch auf dem klassischen Wege Bücher, dazu aber auch ein Vielfaches an anderen Produkten, wie Hörbücher, Musik-CDs und Geschenkartikel (sogenannter NonBook-Bereich). Auf die Herausforderungen der Onlinewelten haben vermehrt die größeren Buchhandlungen und Buchhandlungsketten bereits reagiert, auch wenn die ersten Reaktionen oftmals nur eigene Internetseiten mit einfacher Bestell- und Liefermöglichkeit sind. Der Buchhandel muss sich noch zu Internetgrößen wie amazon.de oder buch.de ebenso, wie auch zum E-Book positionieren. –– Innerhalb des Verlagswesens stehen die größten Umbrüche noch an: Die Reaktion auf das Internet ist in sehr unterschiedlichem Maße im Gange, die eigene Positionierung zum Thema EBook ist oftmals noch unklar und von vielerlei Unsicherheiten geprägt. Die Internetpräsenz der Verlage wirft zumeist nur wenig Profit ab und steht nicht zuletzt oftmals in Konkurrenz zum eigenen Printprodukt. Moderne Implementierungen in die eigenen Printprodukte, wie weiterführende Weblinks oder Augmented Reality, spielen de facto noch keine große Rolle.
D 14.2 Aktuelle Lage der Branchen D 14.2.1 Druck Eine klarere Positionierung der Druckunternehmen im Markt hat in den letzten Jahren vermehrt stattgefunden. Innerhalb der acht typischen Glieder der Wertschöpfungskette gibt es verschiedene Bereiche, in denen sich die Druckunternehmen stark machen können; über eine derartige Kompetenzstrategie versuchen die Unternehmen sich besser im Markt zu positionieren. Anhand von acht Merkmalen, die nicht zuletzt auch die Prozesstiefe beschreiben, gehört ein Großteil der Druckunternehmen zu den Typen Print Factory, Document Manager oder Media Provider (Lit. 02, S. 1ff): 1. Konzeption 2. Datenhandling 3. Reproduktion 4. Prepress 5. Druck 6. Weiterverarbeitung
D 14: Transformation von Buchhandel, Verlag und Druck
649
7. Veredelung 8. Distribution Print Factories umfassen Unternehmen der Druckindustrie, bei denen Datenhandling und Repro fehlen. Im Normalfall verfügen Sie jedoch über Prepress-Systeme, um Druckformen herzustellen. Die Hauptaufgabe der Print Factory ist das Vervielfältigen fertig angelieferter, druckreifer Vorlagen. Ihre Aufgabe besteht ausschließlich darin, die gewünschten Informationen auf verschiedene Bedruckstoffe zu übertragen. Die größte Gruppe der Druckbetriebe gehört dem Typen des Document Managers an. Er verfügt in der digitalen Vorstufe neben Prepress-Systemen zusätzlich über eine Reproduktion mit Text- und Bildbearbeitung. Das wichtigste Merkmal eines Document Managers ist das Datenmanagement, es beinhaltet Datentransfer, Datenpflege sowie einen umfassenden Datenservice für den Kunden. Bei diesem Druckereitypen handelt es sich um die üblichen kleinen und mittelständischen Betriebe. Der Media Provider erweitert sich gegenüber den anderen Unternehmenstypen um ein medienübergreifendes Datenhandling. Er ist in der Lage, Daten für die unterschiedlichsten Ausgabemedien aufzubereiten. Seine Kernkompetenz bleibt jedoch der Druck. Diesen Unternehmen kann zusätzlich zur Datenkompetenz auch noch eine Medienkompetenz zugesprochen werden. Aber nicht alle Medien fertigt der Media Provider aus einer Hand. Er hat, genau wie jedes andere Unternehmen der Branche, Kernkompetenzen und stellt seine Daten anderen, spezialisierten Firmen seine Daten zur Verfügung. Unabhängig von der Art der Typologisierung besteht das größte Problem der klassischen Printindustrie nach wie vor in Überkapazitäten und dem damit verbundenen Preiskampf. Die Druckbetriebe stehen vor dem Dilemma, dass immer größere Maschinen nur bei einer hohen bis sehr hohen Auslastung kostendeckend arbeiten. Um diese Auslastungen zu erreichen, reduzieren viele Betriebe ihre Preise, was wiederum den Preiskampf abermals verstärkt. D 14.2.2 Buchhandel Der Buchhandel befindet sich zurzeit vielfach mitten in einer Umbruchphase. Nicht nur, dass der Non-Book-Bereich immer größere Räume der Verkaufsfläche einnimmt, sondern auch, dass der klassische Sortimentsbuchhandel von der übermächtig erscheinenden Onlinekonkurrenz in Bedrängnis gerät. Nachdem der Anteil der Buchclubs am Gesamtmarkt in den letzten Jahren stetig zurückging und die Onlineanbieter diese Anteile scheinbar mühelos übernahmen, kann man in Zukunft den Buchhandel auf zwei große Bereiche reduzieren: den reinen Onlinehändler mit riesiger Angebotspalette zur Direktbestellung und den stationären Buchhandel vor Ort. Letzterer wiederum ist dem Transformationsdruck unterworfen, es gibt ihn vereinfacht gesehen in drei Ausprägungen: Der Spezialist hat nur ein sehr begrenztes Angebot und vor allem kaum ein breiter gefächertes Sortiment. Je nach Grad der Spezialisierung kann er gegebenenfalls sogar gänzlich ohne die Spezialisierung fremder Titel auskommen. Allerdings erreicht der Spezialist oftmals in seinem eigenen Feld ein Angebot mit außergewöhnlicher Tiefe. Hier hält die Buchhandlung auch kleine, vielfach unbekannte Werke eines Themas vorrätig oder weiß diese dem Kunden schnell zu verschaffen. Überhaupt kennt sich der Buchhändler selbst in diesem Thema außergewöhnlich gut aus, um seinen Kunden eine profunde und detaillierte Beratung geben zu können. Typische Beispiele eines Spezialisten sind Buchhandlungen mit den Fachbereichen Religion, Philosophie oder Reise, aber auch an Berufen orientierte Ausrichtungen wie Medizin oder Jura sind möglich. Die an Anzahl mit Abstand größte Gruppe des stationären Buchhandels ist der Typus des kleinen und mittelständischen Vollsortimenters, also eine kleinere Buchhandlung mit teilweise unter 100 qm Verkaufsfläche bis hin zu größeren Einrichtungen mit deutlich dreistelliger Quadratmeterzahl. In diesen meist inhabergeführten Buchhandlungen findet der Kunde nach einzelnen Sparten und Abteilungen geordnet aus den meisten buchhändlerischen Bereichen ein kleineres oder größe-
650
D 14: Helmut Wittenzellner
res Angebot vor. Titel, die nicht im Laden bereitgehalten werden, werden in der Regel über die großen Auslieferungen bestellt und stehen am nächsten Öffnungstag zur Verfügung. Allerdings sind vergriffene Bücher, ebenso wie Spezialausgaben, die nicht bei den klassischen Auslieferungen wie KNV oder Libri erhältlich sind, oftmals für den Kunden nicht erreichbar. Eine breite Angebotspalette gängiger Titel geht hier zu Lasten der Tiefe. Die größte Verkaufsfläche mit einem typischerweise dann ebenfalls sehr großen Angebot bieten die großen Ketten, die sich auch unter dem Begriff Buchkaufhaus subsumieren lassen. Fast immer in 1a-Lagen bieten diese Buchanbieter in mehrstöckigen Gebäuden auf nicht selten mehreren tausend Quadratmetern eine Vielzahl an Büchern an. In den letzten Jahren hatten auch diese Giganten mit der großen Konkurrenz durch das Internetgeschäft zu kämpfen, ihr Wachstum geht – wenn überhaupt – nur noch über die Vergrößerung der Fläche, also neuen Standorten. Allen stationären Modellen ist die Konkurrenz durch den Online-Vertrieb gemein. Dessen Branchengrößen, wie amazon, setzen die traditionellen Vertriebsstrukturen unter großen Druck. Zusätzlichen Herausforderungen ist in der Branche noch nicht annähernd entgegengetreten worden, beispielsweise der elektronischen Publikation oder der Veränderung der Lesegewohnheiten, hin zu einer kürzerer Aufmerksamkeitsspanne, geringerer Konzentrationsfähigkeit und dem Wunsch nach kleineren Informationshäppchen des Kunden, induziert durch zunehmenden Onlinekonsum. Innerhalb der nächsten Jahre wird nach Meinung vieler Branchenkenner im Buchhandel eine große Richtungsentscheidung stattfinden (Lit. 01). D 14.2.3 Verlag Bisher am wenigsten auf die Umwälzungen durch die mobile Digitalisierung reagiert hat das Verlagswesen unter den drei Branchen. Nicht jeder Verlag nutzt die Möglichkeiten seiner Internetpräsenz in gleichem Maße. Je nach Potentialen des Unternehmens steckt die Nutzung der Opportunitäten der digitalen Revolution noch in den Kinderschuhen. Je nach Orientierung des Verlages können externe Veränderungen, wie beispielsweise das Publishing on Demand und der User Generated Content, wie beispielsweise Blogs, zu einem momentan noch stark unterschätzten Problem werden. Das Verlagswesen läßt sich ebenfalls in drei Kategorien einteilen: –– Der Buchverlag lektoriert, bewirbt Bücher und lässt diese zumeist extern drucken. Als Mittler zwischen Autor und Buchhandel hat er ein seiner Ausrichtung entsprechendes Buchprogramm, das in der Regel zwei Mal im Jahr erneuert wird. Alte Titel des Programmes können über die sogenannte Backlist aber noch für eine längere Zeit erworben werden. Neben der Einteilung in Belletristik und Sachbuch, sowie deren jeweilige Untereinteilungen, wird noch die Erscheinungsform unterschieden: Hardcover, Taschenbuch und seit kurzem E-Book. Innerhalb der Gruppe der Buchverlage gibt es keine Mindestgröße, auch kleine Verlage mit teilweise nur einer Neuerscheinung pro Kampagne sind genauso vertreten wie bekannte Großverlage. –– Zeitungs- und Zeitschriftenverlage bringen im Gegensatz zu Buchverlagen hauptsächlich periodisch erscheinende Druckerzeugnisse auf den Markt. Typische Angebote sind Tages- und Wochenzeitungen sowie Zeitschriften, die wiederum als Publikumszeitschriften General(zum Beispiel: Illustrierte, Nachrichten- und Wirtschaftsmagazine, Programmzeitschriften, Kinderzeitschriften, Frauenmagazine oder Yellow-Press) und Special-Interest-orientiert (zum Beispiel: Filmzeitschriften, Sportzeitschriften, Reisemagazine, Kulturmagazine oder populärwissenschaftliche Magazine) oder Fachzeitschriften sind. Die Grenze zwischen Special-Interest und Fachzeitschrift ist dabei je nach Anspruch der Publikation fließend. Zeitschriften aus dem Bereich Corporate Publishing werden oftmals in eigenen, speziell dafür geschaffenen Verlagen organisiert, sind aber sehr auflagenstark und haben wie ADAC Motorwelt teilweise eine sehr große Reichweite.
––
D 14: Transformation von Buchhandel, Verlag und Druck
651
Die dritte Gruppe fasst Verlage einer Vielzahl kleinerer Sonderprodukte zusammen, die beispielsweise Formular, Loseblattsammlungen, Kalender, Karten oder Spiele herstellen und vertreiben. Entsprechend ihrer Produkte können sie unter dem Begriff Sondergebiete zusammengefasst werden. Ihr Bestand auch in zukünftiger Zeit hängt hauptsächlich von der Nische ab, in der Sie ihren Schwerpunkt haben. Manche Bereiche sind durch digitale Entwicklungen „ergänzbar“, andere „gefährdet“ und manche werden sicherlich auch vollständig verdrängt werden und sind somit „obsolet“. Andere Sondergebiete werden dagegen auch in mittlerer Zukunft „unersetzlich“ sein.
D 14.3 Veränderungsprozesse D 14.3.1 Druck Auch zehn Jahre nach Beginn des online-digitalen Wandels ist die Druckbranche noch stark mittelstandsgeprägt, auch wenn die letzten fünf Jahre deutliche Spuren hinterlassen haben. Allein seit 2006 sind die Umsatzzahlen der Branche um etwa 13 % gesunken, seit 2000 ist ein Rückgang um mehr als 21 % zu verzeichnen. Für das Jahr 2011 wird erstmals seit 2006 wieder eine minimale Steigerung erwartet.
Abb. 1: Nominale Umsatzentwicklung der deutschen Druckindustrie (http://www.bvdm-online.de/Zahlen/pdf/ Aussichten-2012-2013-Deutsche%20Druckindustrie.pdf – Abruf vom 13.September 2012)
Unter dem starken Druck der Umsatzrückgänge haben die meisten Druckereien sowohl mit einer Reduzierung ihrer Kostenstrukturen reagiert (indem sie im Personalwesen abermals eingespart haben, den Maschinenpark modernisiert haben und es zu Fusionen kam), als auch mit der Ausrichtung des Unternehmens auf eine der drei Strategien – Print Factory, Document Manager oder Media Provider. Die Fähigkeiten eines Cross-Media-Dienstleisters mit starker Ausrichtung zum Kundennutzen wurde in der Branche innerhalb der letzten 10 Jahre allgemein und unabhängig von der Wahl der Ausrichtung implementiert. Die Crossmedia-Strategie ist keine ganzheitliche Ausrichtung für eine Druckerei, sondern ein Teil der jeweiligen Unternehmensstrategie. Es ist für das Überleben des Unternehmens zwingend erforderlich, dass es sich auch weiterhin Gedanken über den Umgang mit den rasanten Entwicklungen der elektronischen Kommunikation macht. Die allgemeine Annahme der Crossmedia-Strategie war für das unternehmerische Überleben notwendig. Entgegen der Erwartungen jedoch hat sich der Druck, insbesondere der Werbedruck, der über 40 % der Gesamtumsatzerlöse der Branche ausmacht, auch nach Implementierung der Crossmedia-Strategie nicht so gut entwickelt wie erhofft. Die starke Konjunkturabhängigkeit und die Verdrängung des Werbemediums Papier durch das Internet machten viele Erwartungen obsolet.
652
D 14: Helmut Wittenzellner
Auch innerhalb der Druckverfahren stehen Veränderungen anzunehmen, zum Beispiel, dass der Bogenoffset weiter vom stark zunehmenden Digitaldruck bedrängt wird. Für die Gesamtbranche steht nun eine abermalige Differenzierung aus, die verschiedene Strategievarianten nach den Branchenexperten der Unternehmensberatung Grafic Consult in München postuliert. D 14.3.1.1 Strategievarianten für die zukünftige Ausrichtung Den Unternehmen stehen für ihre zukünftige Ausrichtung fünf Strategievarianten offen. Untätig zu sein, kann abermals bedeuten, den Veränderungen des Marktes zum Opfer zu fallen, denn seit dem Jahr 2000 hat sich die Zahl der Druckbetriebe um 30 % verringert (Lit. 11). Für die fünf verschiedenen Strategievarianten sind gegebenenfalls noch eine oder mehrere Innovationen der Betriebe nötig: –– Verfahrensinnovationen, wie beispielsweise weitere Automatisierungen –– Produktinnovationen, die beispielsweise zu einer Erweiterung der Medientiefe führen –– Dienstleistungsinnovationen, die den Service optimieren. Die Strategievarianten selbst sind in ihrer Ausrichtung auf Service und Spezialisierung verschieden, sicherlich kann es aber auch zu Mischformen zwischen den einzelnen Varianten kommen. Druckerei „um die Ecke“
Integrierter Kommunikationsdienstleister
Kleine, regionale Orientierung
Hohe Kundenorientierung, Komplettlösungsanbieter
Strategievarianten
Hochspezialisierte Druckerei
Industrialisierte Druckerei
Standardisierter Onlinedrucker
High Quality, Hoher Veredlungsgrad
High Volume, Kostenführerschaft
Massenmarkt, Kostenführerschaft
Abb. 2: Strategievarianten (verändert übernommen von Grafic Consult)
Service-Varianten: Bei der Druckerei „um die Ecke“ handelt es sich meist um eine kleinere Druckerei, deren Kundenzielgruppe aus einem regional begrenzten Markt besteht. Die Druck- und Dienstleistungspalette ist dementsprechend auf die Erfordernisse des lokalen Marktes abgestimmt, so dass in Zusammenhang mit der Nähe zum Kunden ein Mehrwert gegenüber der Konkurrenz generiert werden kann. Individuelle Beratung des Kunden und eine enge Kundenbindung sind durch die geographische Nähe ein großer Vorteil gegenüber der anonymen Konkurrenz. Abstimmungsprozesse können ebenfalls auf direkter Ebene und mit persönlichem Kontakt sehr kostengünstig realisiert werden. Neben der natürlichen Größenbegrenzung des regionalen Marktes ist die möglicherweise günstigere Konkurrenz von außerhalb der größte Nachteil dieser Ausrichtung. Eine verminderte Auslas-
D 14: Transformation von Buchhandel, Verlag und Druck
653
tung der Maschinen, deren Auslastung stark von der regionalen Nachfrage abhängt, kann diese Nachteile potenzieren. Durch neue Kommunikationstechnologien kann der persönliche Kundenkontakt, das größte Plus der Druckerei „um die Ecke“, eventuell und in Teilen substituiert werden. Der Integrierte Kommunikationsdienstleister legt ebenfalls Wert auf eine hohe Kundenorientierung und im besten Fall auch -bindung. Ziel ist es, die Prozesse des Kunden ganzheitlich zu analysieren und das Kommunikationsbedürfnis des Kunden herauszuarbeiten, anhand derer eine auf den jeweiligen Kunden zugeschnittene Komplettlösung entwickelt wird, egal ob B2B oder B2C. Das Ergebnis geht oftmals über die bloße Produktion von Druckprodukten hinaus und schließt alle Teilbereiche eines Media Providers ein. Für den Kunden ergibt sich aus der Bündelung seiner Anforderungen an einen Ansprechpartner eine entsprechende Reduzierung seines Koordinationsaufwands und für den Integrierten Kommunikationsdienstleister im besten Fall eine enge Kundenbindung. Der Nachteil dieser Ausrichtung besteht in jener Verlagerung der Koordination vom Kunden zum Dienstleister. Letzterer muss nun in möglichst vielen Bereichen Produkte und Dienstleistungen beherrschen, um sie dem Kunden anbieten zu können. Die allgemeinen Anforderungen steigen also linear mit der Übernahme von zusätzlichen Spezialisierungen. Eine Möglichkeit der Reduzierung der Anforderungen besteht in Teilen bei der Auslagerung auf externe Spezialisten – auch wenn die Belastung aufgrund der Koordinationstätigkeit des Media Providers nicht vollständig übertragen werden kann. Spezialisierungs-Varianten: –– Die hochspezialisierte Druckerei steht an der Spitze der Spezialisierungsskala. In ihr arbeiten absolute Fachprofis im High Quality-Bereich der Themen Druck und Veredelung. Die Kundengruppe ist klein, aber beständig, so dass nicht selten ein langjähriger Kundenkontakt und eine enge Kundenbindung möglich ist. Die Kunden kommen beispielsweise aus der Luxusgüter-Industrie und legen höchsten Wert auf einen in allen Bereichen zuverlässigen Partner, der ihnen bestmögliche Qualität liefert. Diese extremste Art der Spezialisierung kann mit der Differenzierungsstrategie von Porter (Lit. 04) verglichen werden; die hochspezialisierten Druckereien verfügen über ein ausreichend ausgeprägtes Differenzierungsmerkmal zum Wettbewerb. Wie bei fast allen Nischen besteht die größte Gefahr in neuer Konkurrenz und einem Rückgang der Nachfrage nach dem entsprechenden Produkt. Mitarbeiter sind Experten auf ihrem Gebiet mit langjähriger Berufserfahrung, eine Abwerbung durch die Konkurrenz könnte tiefgreifende und kurzfristig nicht ausgleichbare Konsequenzen nach sich ziehen. –– Bei der Industrialisierten Druckerei handelt es sich um Unternehmen, die ihre Produkte und Dienstleistungen im High Volume-Bereich zumeist über die konventionellen Betriebswege vertreiben. Klassische Bereiche sind der Druck von Büchern, Zeitschriften, Katalogen oder hochauflagigen Beilagen. Aufgrund des hohen Volumens der Aufträge werden die Skaleneffekte besonders gut genutzt. Ziel der Industrialisierten Druckerei ist es, die niedrigstmöglichen Stückkosten zu erreichen und über diese die Kostenführerschaft zu erzielen; dabei kommen Druckverfahren wie der Tiefdruck, der Rollenoffsetdruck oder der Bogenoffsetdruck mit Großformat- oder Perfektormaschinen zum Einsatz. Das größte Risiko dieser Strategie besteht in dem sich bereits heute realisierten Wunsch der Kunden nach kleineren Auflagen und der enormen Konkurrenz, die sich durch osteuropäische oder asiatische Einflüsse noch verstärken könnte. Da eine Erweiterung auf deren Geschäftsgebiete nur schwer realisierbar ist, kann sich die Konzentration auf Masse schnell als Sackgasse erweisen. Vor allem wegen kleiner werdender Auflagen durchbricht der Digitaldruck mit neuen Maschinentechnologien die Grenzen der bislang durch oben genannte Bestandstechnologien segmentierten Produktionsvolumina. –– Der Standardisierte Onlinedrucker ist eine Form des Massendruckers für den kleineren Kundenwunsch, sei es B2B oder B2C. Als Discounter bietet dieser Typus der Druckerei seinen Kunden ein standardisiertes und weitgehend automatisiert hergestelltes Produkt an. Durch moderne Drucktechniken, die verschiedene Druckaufträge auf einem Bogen zusammenfassen, erreichen die in der Auftragsannahme fast ausschließlich online operierenden Druckereien einen niedrigen Endkundenpreis und können somit in ihrem Segment gegenüber der Konkurrenz die Kostenführerschaft übernehmen.
654
D 14: Helmut Wittenzellner
Für die einzelnen Wettbewerber im Segment ist die Situation dagegen schwieriger und in den letzten Jahren hat ein großer Konzentrationsprozess stattgefunden, der die Anzahl der Wettbewerber stark reduziert hat. Für mittelständische Druckbetriebe ist eine Ausrichtung auf dieses Marktsegment gut zu überlegen, zumal hohe Markteintrittshürden überwunden werden müssten. Die geringe Kundenbindung und die stets neu erforderliche Gewinnung von Neukunden kann gegebenenfalls die eigene Marge stark schmälern. D 14.3.1.2 Ausblick Seit über 10 Jahren kämpft die Druckindustrie mit der gestiegenen Konkurrenz aus In- und Ausland, in einem Markt, der unter immer größerem Kostendruck steht. Während eines Konzentrationsprozesses, dem 30 % der Unternehmen zum Opfer fielen, hat die Branche sich sehr stark gewandelt und erzwungenermaßen auf die neuen Herausforderungen reagiert. Die Ausrichtung der Einzelunternehmen hin zu den Typen Print Factory, Document Manager oder Media Provider ist weitgehend abgeschlossen. Wie keine andere der drei Medienbranchen hat der Druck bereits reagiert und seine Transformation in weiten Teilen hinter sich gebracht. Jetzt sind noch einzelne Spezialisierungen auf Strategievarianten nötig, beziehungsweise die genauere Ausgestaltung der eigenen Ausrichtung, um in den weiterhin schwierig bleibenden Druck- und Medienmärkten bestehen zu können. D 14.3.2 Buchhandel Wolfgang Michael Hanke, Gesamtherstellungsleiter der Verlagsgruppe Random House, stellte im Mai 2012 in einem Interview mit dem Börsenblatt des deutschen Buchhandels sich und der gesamten Branche folgende Frage: „Müssen wir das klassische Lesen in Zukunft noch so begreifen, so vertreiben, so definieren, wie wir es bisher getan haben?“ (Lit. 08) In der Tat ist der Buchhandel gerade mitten im Wandel der digitalen Revolution, die Detlev Bluhm bereits 2010 als „4. Medienrevolution“ bezeichnet hat. Vom Körper- zum Schriftgedächtnis, vom Papyrus zum Pergament, die Entwicklung und Fortentwicklung des Drucks hin zum Digitalwesen mit seinen unbegrenzten Kopien, die überall auf- und abrufbar sind (Lit. 10). Nachdem der Buchmarkt vier Jahre lang nur stagniert hatte, kam es erstmals 2011 wieder zu einem Rückgang des Umsatzes, um 1,4 % von 9,73 Mrd. EUR auf 9,6 Mrd. EUR (Lit. 01, S. 5). Es ist der erste Umsatzeinbruch seit sieben Jahren. Doch bereits die Jahre vor diesem waren für die Sortimentsbuchhändler von Rückgängen geprägt, von 53,6 % reduzierte sich der Vertriebsweganteil des Sortimentsbuchhandels erstmals auf unter 50 %.
Sortimentsbuchhandel Sonst. Verkaufsstellen Warenhäuser Versandbuchhandel Verlage direkt Buchgemeinschaften Insgesamt
2007
2008
2009
2010
2011
53,6 9,1 3,7 12,6 18,0 3,0 100,0
52,6 9,2 3,0 14,0 18,2 2,9 100,0
52,3 9,3 2,4 15,5 18,3 2,3 100,0
50,6 9,4 2,1 17,1 18,5 2,3 100,0
49,7 9,5 1,9 17,8 19,1 2,0 100,0
Tab. 1: Umsatzentwicklung im Buchhandel (nach: Buch und Buchhandel in Zahlen)
D 14: Transformation von Buchhandel, Verlag und Druck
655
Anhand dieser Zahlen lassen sich mehrere langfristige Trends ausmachen: –– Der Versandhandel, der vor allem durch die Onlinekanäle ausgemacht wird, ist der klare Gewinner der vergangenen Jahre und wächst weiterhin rasant. Allein in den letzten fünf Jahren hat sich der Umsatz um 41 % erhöht. –– Der Versandhandel kommt an erste Grenzen, das explosionsartige Wachstum vergangener Jahre konnte zwischen 2010 und 2011 nicht fortgesetzt werden. –– Buchgemeinschaften verlieren weiter an Bedeutung und machen nur noch 2 % des Gesamtumsatzes aus. –– Auch die Krise der großen Warenhäuser setzt sich fort, ihr Umsatzanteil sank seit 2007 von 3,7 % auf 1,9 %. –– Einen leichten Auftrieb erleben dafür Direktverkäufe durch die Verlage und die sonstigen Verkaufsstellen, zu denen beispielsweise Discounter und Tankstellen gehören. Wie will der Buchhandel auf die vielfachen Herausforderungen reagieren? Das Buch ist kein Leitmedium mehr, es wurde schon lange von bildlichen Medien abgelöst; es ist aber auch nicht vom Aussterben bedroht, auch wenn ihm eine Marginalisierung droht. Damit die Buchhandlungen auch hierauf angemessen antworten können, sind für die drei Typen des Buchhandels völlig unterschiedliche Strategien der Anpassung nötig: D 14.3.2.1 Strategievarianten für die zukünftige Ausrichtung Für die Kleinen Spezialisten bleibt die Gewissheit, dass sie auch weiterhin fortbestehen werden. Die hohe Kundenorientierung und die oft langjährige Kundenbindung, einhergehend mit der großen eigenen Kompetenz auf dem jeweiligen Fachgebiet sind wichtige Pluspunkte im Werben um Kunden. Moderne Medien wie das E-Book sind innerhalb der Buchhandlung nur bei Teilen der Kleinen Spezialisten von Bedeutung, je nachdem, welche Bereiche die Buchhandlung abdeckt. Online-Fachpublikationen werden aber in ihrer Bedeutung sicherlich zunehmen und sollten vom Buchhändler zumindest gelesen worden sein, wenn nicht sogar dem Kunden zugänglich gemacht werden. Je nach Ausrichtung der einzelnen Buchhandlung besteht teilweise nur wenig Neuerungsbedarf, weiterhin sollte allerdings gute Beratung, persönlicher Kontakt zum Kunden und eine angenehme, der Zielgruppe entsprechende Atmosphäre gewährleistet werden. Ein großes Risiko besteht jedoch in der Abwanderung der bestehenden und potentiellen Kunden in Spezialforen und Plattformen im Internet. Über diese kann der Buchhändler den Kontakt zu seinen Kunden verlieren und ist dann, aufgrund seiner kleinen Nische, vom Gesamtmarkt abgeschnitten. Hier ist eine gute Onlinevernetzung der Buchhandlung in entsprechenden Foren etc. Pflicht. Eine derartige Ausrichtung kann über die eigene Kundenbindung via Onlinebestellungen von Forumsteilnehmern sogar zu einem zusätzlichen Marktumsatz führen. Bei den kleinen und mittelständischen Vollsortimentern ist der Druck durch den gestiegenen Umsatzanteil des Onlinemarktes und den allgemeinen Umsatzrückgang der Branche extrem. Viele der oftmals inhabergeführten Buchhandlungen haben schon in den letzten Jahren stark unter der Krise gelitten und versucht, sich durch die stetige Erweiterung auf den Non-Book-Bereich und Lockangebote durch Billigartikel vor dem Laden über Wasser zu halten. Dabei ist das inhabergeführte Engagement ein Differenzierungsmerkmal, aber dennoch fehlt den Betrieben teilweise immer noch gutes Personal und eine angenehme Atmosphäre, um den persönlichen Kontakt zu Kunden ausbauen zu können. Der klassische Vollsortimenter ohne Filialen hat zwei Möglichkeiten, sich aktiv gegen die Krise zu stellen: Entweder er folgt dem Konzept der Slow Media, oder er setzt auf die eigene Online- und E-Book-Ausrichtung. Bei beiden Konzepten steht der Buchhandel oftmals vor einem Dilemma, er benötigt momentan noch die Non-Book- und Lock-Artikel, auf die er in beiden Fällen eigentlich verzichten sollte. Besonders die im Slow Media-Manifest (Lit. 13) postulierten Punkte bedeuten eine radikale Abkehr vom bisherigen Wirken, als Konzept gegen die Krise ist es aber durchaus geeignet. Die Stich-
656
D 14: Helmut Wittenzellner
worte hierzu heißen Nachhaltigkeit und Monotasking, die auf Perfektion und Qualität setzen. Als Wettbewerbsvorteil für eine moderne Buchhandlung gilt die Schaffung einer auratischen Umgebung, die diskursiv und dialogisch den Kunden, die als „Prosumenten“ bezeichnet werden, die gewünschte Umgebung und Beratung bietet. Als Prosumenten werden Kunden bezeichnet, die aktiv bestimmen, wie und was sie konsumieren. Diese Punkte bedeuten für viele Buchhandlungen einen Paradigmenwechsel, der die Abkehr vom Bestandsgeschäft mit dem damit verbundenen Umsatzerhalt bedeutet und der sich als Erfolgsstrategie die Maximierung des Nutzens einer bibliophilen Kundschaft vornimmt. Die Transformation ist nicht ohne Risiko, da sich Kundenzahl und Umsatz reduzieren könnten, insbesondere dann, wenn kein gutes Personal zur Verfügung steht, um neue und alte Kunden zu binden. Die andere Möglichkeit besteht darin, mit dem Trend zu gehen und selbst in die Onlinewelt miteinzusteigen. Hierbei spielen eine Anbindung an Facebook und Twitter eine ebenso große Rolle, wie die Umstrukturierung vom Non-Book zum E-Book und die Kundenbindung im E-Book-Bereich über Onlinekanäle. Der E-Book-Markt ist zwar noch äußerst gering, aber bereits 50 % der Verlage boten 2011 E-Books an, in den nächsten Jahren soll die Zahl nach Schätzungen auf 90 % anwachsen (Lit. 01, S. 25). Im Zuge des Ausbaus jener Kanäle muss der eigene Onlinemarkt selbst ausgebaut – oder gegebenenfalls sogar erst etabliert – werden, damit dieser zeitgleich durch die Verbindung mit ausführlicher Fachberatung den weiterhin zu erwartenden Rückgang des Sortimenterumsatzes kompensiert. Verkauf und Beratung sind wie im bekannten stationären Bereich dann auch online zu etablieren. Neben den Kosten für die Umgestaltung der Websites ist natürlich auch hier das Personal ein kritischer Punkt. Es muss nun in der Lage sein, neben dem normalen Verkauf in der Buchhandlung auch deutschlandweit virtuell zu beraten. Der Verkauf von E-Books ist in Deutschland momentan noch sehr gering und macht gerade einmal 1 % des Gesamtumsatzes aus (Lit. 01, S. 22ff). Sollte das Wachstum des E-Book-Marktes nicht schnell genug vonstattengehen, kann eine Schwerpunktsetzung auf das neue Medium zu Fehlinvestitionen führen. Derzeit ist noch nicht abzusehen, wo und wann Marktsättigungsgrenzen erreicht werden und in welcher Geschwindigkeit der E-Book-Markt wachsen wird. Fest steht, dass durch die besondere Struktur des deutschen Buchhandels die Orientierung am anders aufgestellten US-amerikanischen Markt – im Gegensatz zu anderen Medienbereichen – nicht immer zielführend ist. Den Gegensatz zu den Onlinehändlern spüren mit ihrer großen Angebotspalette besonders die Buchkaufhäuser, die erstmals auf dem Rückzug sind. Jahrelang sorgten sie mit Neueröffnungen und Übernahmen für Schlagzeilen. Vier von zehn Euro aus dem stationären Sortiment flossen an sie (Lit. 01, S. 9). Doch jetzt erstmals befinden sich die Großen auf dem Rückzug; nach intensivem Wettbewerb werden Flächen reduziert, beispielsweise beendete Thalia ihr Kölner Engagement am Neumarkt mit insgesamt 1600 Quadratmetern. Die Neuausrichtung soll nun bei 500 bis 600 Quadratmetern liegen. Oftmals sind die Mietpreis für die 1a-Lagen zu hoch, um mit den rückläufigen Umsätzen gedeckt werden zu können. Galten lange Zeit die Einrichtung von Themenbereichen, wie eine Cafewelt oder ein Kinderland, als Ausweg, zeigt sich nun, dass diese Maßnahmen nicht hinreichend funktioniert haben. Heute wird ein großer Teil der Fläche von Zusatzsortimentern oder Partnern genutzt. Die Lösung für die Probleme der Buchkaufhäuser ist dabei nicht einfach, eine Konzentration auf weniger, aber dafür bessere Standorte ist nötig. Teilweise auch schon geschehen, muss mehr in den Onlinehandel und andere elektronische Vertriebs- und Geschäftsmodelle investiert werden. Wie in der gesamten Branche ist der Kundennutzen von elementarer Bedeutung, so dass wenn möglich Spezialabteilungen mit ausgewiesenem Fachpersonal nötig wären. In der momentanen Verfassung wird sich das System Buchkaufhaus nicht halten können, die Größe hat sich als lähmend erweisen.
D 14: Transformation von Buchhandel, Verlag und Druck
657
D 14.3.2.2 Ausblick Im Gegensatz zur Druckbranche steckt der Buchhandel mitten im Umbruch. Es gilt nun, aus den Erfahrungen und Fehlern der anderen Branchen zu lernen und schnell auf die neuen Herausforderungen durch den Onlinehandel zu reagieren. Dass erstmals seit mehreren Jahren auch der Umsatz der Gesamtbranche zurückging verstärkt den Druck auf den Buchhandel nochmals. Die Lösungen für die einzelnen Sortimenter sind dabei so vielfältig, wie der Buchhandel selbst. Gemeinsam ist allen aber die Konzentration auf eigene Stärken und die Notwendigkeit einer Intensivierung des Kundennutzens, um so neue und alte Kunden zu binden – dabei kann je nach Strategie die Onlineanbindung sehr wichtig sein (Digital-Strategie), oder, wer sich gegen diesen Trend entscheidet, kann eine Analog-Strategie mit dem Konzept des Slow Media wählen. D 14.3.3 Verlag Im Verlagswesen zeichnet sich erst langsam der Wandel und eine mit diesem einhergehende Öffnung zum Online-Betrieb ab. Entgegen der anderen Branchen stehen die Verlage zeitlich völlig asynchron in ihrer Transformation. Neue Entwicklungen wie das E-Book waren 2011 gerade einmal bei der Hälfte der Verlage im Programm. Dennoch gilt es E-Books als Ertragsmodell für Verlage zu beachten: das E-Book machte 2011 in der deutschen Verlagswelt bereits durchschnittlich 6,2 % des Umsatzes aus, bis 2015 erwarten die Verlage einen Umsatzanteil von 17 % (Lit. 09). Für die Zeitungs- und Zeitschriftenverlage zeigt sich die seit 2001 andauernde Krise in einer radikalen Umkehrung: Galt bis zur Werbekrise 2001 noch, dass 2/3 des Umsatzes aus Werbeeinnahmen und 1/3 aus Verkaufserlösen kamen, so hat sich das Verhältnis nun gedreht und steht aktuell bei etwa 50:50 (Lit. 06). Medium Tageszeitungen Wochen- und Sonntagszeitungen Zeitungssupplements Publikumszeitschriften Anzeigenblätter TV Hörfunk Direktwerbung Online-Angebote Übrige Medien
Marktanteil 19,4 % 1,2 % 0,5 % 7,7 % 10,7 % 21,4 % 3,7 % 15,9 % 4,6 % 15,2 %
Tab. 2: Werbeaufwendungen in Deutschland 2010, Marktanteile der Medien in Prozent (Quelle: BDZV/ZAW)
Während die gedruckten Auflagen weiter sinken (-3,7 %), steigen die E-Paper-Ausgaben um über 50 % und machen mittlerweile 1/7 der gedruckten Auflage aus. In beiden Fällen haben die Zeitungsund Zeitschriftenverlage unter der großen (teils eigenen) Onlinekonkurrenz und dem damit verbundenen teilweise beträchtlichen Auflageschwund (insbesondere bei Fachmagazinen) zu kämpfen. Zu der bestenfalls stabilisierten Auflage kommt für die Zeitungs- und Zeitschriftenverlage die teilweise drastische Reduzierung der Anzahl von Werbekunden hinzu. Die Probleme, mit denen Buchverlage, Zeitungs- und Zeitschriftenverlage und die Sondergebiete zu kämpfen haben, könnten unterschiedlicher nicht sein, und so ist eine gemeinsame Abstimmung und das Lernen von der Konkurrenz oder anderen Branchen äußerst schwierig. Dennoch gibt es Strategien, mit denen auf die Krise reagiert werden kann.
658
D 14: Helmut Wittenzellner
D 14.3.3.1 Strategievarianten für die zukünftige Ausrichtung Für die Buchverlage zeichnen sich zwei Trends ab, die beide komplementär sein können. Im Allgemeinen geht die Tendenz von dem autoritativen Verlagswesen weg hin zu einem kunden- und laienorientierten Arbeiten. So gilt es, Direct Publishing ebenfalls als einen Teil des Verlagswesens zu begreifen und hier neue Marktchancen zu nutzen. Ebenso kann das individuelle Publishing on Demand ein Teil der Strategie sein, bei dem weniger auflagenfixiert und verstärkt nachfrageorientiert gearbeitet wird. Für die Verlage von immer größerer Bedeutung ist der Direktvertrieb, der bereits jetzt knapp 20 % der Umsätze ausmacht. Die vielfältigen Möglichkeiten des Onlinevertriebs im B2C-Bereich würden es Verlagen nicht nur ermöglichen, direkt mit den Kunden in Kontakt zu kommen, sondern würden die Margen im Vergleich zum B2B-Vertrieb auch noch deutlich erhöhen. Dass es sich nicht um geringe Beträge handelt, zeigen die allgemeinen Rabattstaffeln der Branche. Über die enge Kundenanbindung kann der Verlag dank des proaktiven Feedbacks der Nutzer sowohl sein Programm besser abstimmen, als auch vergriffene Titel als Book on Demand ausliefern und so dem Kunden individuellen Nutzen bringen, was wiederum für eine verstärkte Kundenbindung sorgt. Für eine kleine Nische bibliophiler Leser ist die Qualität von entscheidender Bedeutung. Gut editierte, qualitativ hochwertig gedruckte und gebundene Liebhaberausgaben können auch bei kleiner Auflage ertragreichen Umsatz bringen. Für die Fachverlage gilt es, von der Produktorientierung Abstand zu nehmen und verstärkt auf virtuelle Plattformen und Service zu setzen. Gerade im Bereich des Fachpublikums ist eine enge Anbindung an den Kunden für die Verlage äußerst wichtig. Einmal verlorengegangene Kunden können nur schwer wieder zurückgewonnen werden (ein Trend, der sich auch bei den Zeitschriftenverlagen zeigt). Im Gegensatz zum Publikumsverlag, wo das E-Book aktuell gerade einmal einen Marktanteil von 0,5 % hat, wird bei Fachverlagen das EBook auf absehbare Zeit eine gehobene Stellung einnehmen. Für alle Buchverlage bleibt die Anbindung an den Buchhandel von größter Wichtigkeit. Er ist es, der 50 % der Verkäufe realisiert und letztendlich entscheidet er auch oft, was abseits der Bestseller verkauft wird. Man ist sich einig darüber, dass Printprodukte nur noch wenig Wachstumspotential haben werden, Online-Produkten gehört ein großer Teil der zukünftigen Märkte. Da der Buchhandel noch am weitesten aller hier untersuchten Bereiche von der Transformation entfernt ist, liegen die Risiken der Strategie hauptsächlich in ihrer Unterlassung. Viele proaktive Konzepte sind möglich und müssen ausprobiert werden, bevor sich die Branche auf einen großen Weg einigen wird. Ebenso notwendig wie die Einrichtung von Online-Präsenzen wird aber der Zwang zur Ausrichtung auf Kundenwünsche sein. In den Zeitungs- und Zeitschriftenverlagen macht sich die Krise bereits seit 2001 stark bemerkbar. Einerseits durch immer geringere Auflagen im Umsatz reduziert und andererseits durch die geringeren Werbeschaltungen, bricht der Umsatz im reinen Kerngeschäft ein. Die Auswirkungen der geringeren Werbeausschaltungen von Anzeigekunden werden sogar nochmals verstärkt, da Anzeigen durch die geringere Auflage teilweise günstiger wurden. Wie im Druckbereich findet auch hier ein intensiver Preiswettbewerb statt. Dem starken Umsatzdruck gegenüber steht eine stärker werdende Onlinekonkurrenz, die mit kostenlosen Angeboten und schneller Reaktionszeit auf aktuelle Ereignisse den Printmedien viele Nutzer entzieht. Diesem Zeitdruck waren die Zeitungs- und Zeitschriftenverlage bereits in der Vergangenheit durch das Fernsehen ausgesetzt, doch neu ist, dass die Nutzer nun selbständig ihre Nachrichten auswählen können und mit Video-, Audio-, und Kommentarfunktion eine Medienverschränkung ermöglicht wird. Abseits von Zukunftsvisionen wie der individuellen Tageszeitung, die gedruckt oder digital den Leser (und Zuschauer) erreicht, die mit Videos ebenso wie mit personalisierter Werbung angereichert ist, stehen zwei mittelfristige Optionen für die Zeitungs- und Zeitschriftenverlage zur Verfügung: Die analoge Option hat das Ziel, die Umsätze zu stabilisieren und wieder auszubauen. Dazu gibt es zwei Strategien, die entweder eine Erweiterung des Leserkreises zulasten der Qualität, oder eine Konzentration auf eine gut gebildete, finanzkräftigere Leserschaft bei höherem Einzelpreis des Mediums. Viele Zeitungen versuchen sich an ersterem Konzept. Durch Fusionen und geringeren An-
D 14: Transformation von Buchhandel, Verlag und Druck
659
spruch soll die Auflage des Mantelteils erhöht werden und dieser zusammen mit einem gestärkten Regionalteil verkauft werden. Für Zeitschriften dagegen ist die zweite Möglichkeit die bessere. Um sich vom Onlinemedium abzuheben, bedarf es guter Redaktionen und qualitativ hochwertiger Artikel. Mittels Kompetenz und Qualität können bestehende Kunden an das Magazin gebunden werden, obwohl diese zeitgleich auch Onlineangebote nutzen werden. Durch bessere Anbindungen von Onlinemedien, wie weiterführende Links, Augmented Reality oder E-Reader, kann nicht nur die Abwanderung von Zeitungs- und Zeitschriftenlesern gestoppt werden, sondern auch neue Leser hinzugewonnen werden. Schon heute ist ein deutliches Altersgefälle bei der Zeitungsnutzung auffällig. Online und Offline müssen sich aber unterscheiden, denn auch beide können – entsprechende Qualität vorausgesetzt – bestehen (Lit. 03). Wie kaum ein anderes Medium steht die Welt der Zeitungs- und Zeitschriftenverlage in und immer noch auch vor einem riesigen Umbruch. Die Transformation wird dabei auch weiterhin nicht leise vonstattengehen. Große Entlassungswellen, Fusionen und Insolvenzen stehen noch an. Viele Verlage orientieren sich zu Recht auch schon jetzt in andere, rein elektronische Bereiche, die mit der Nachrichtenvermittlung aber nur noch wenig bis gar nichts mehr zu tun haben. Für die gedruckte Zeitung ist durchaus vorstellbar, dass sie mittel- bis langfristig zu einem einschlägigen Medium für eine kleine Bildungselite wird – der Rest wandert in die Onlinebereiche ab, ob mit oder ohne Verlagswesen im Hintergrund. Richtig wird letztendlich nur sein, was der Kunde wünscht. Bei den sogenannten Sondergebieten verhält es sich die Transformation betreffend völlig unterschiedlich. Je nach Tätigkeitsschwerpunkt und Kundenstruktur kann ein bestimmtes Produkt weiterhin rein analog produziert und vertrieben werden, andere Produkte hingegen werden obsolet. Auch hier bestimmt der persönliche Kundennutzen über das Fortbestehen. Insgesamt kann die gesamte Branche und ihre Produkte in vier Kategorien eingeteilt werden: die Obsoleten, die Gefährdeten, die Ergänzbaren, die Unersetzlichen. Im Gegensatz zu früher gibt es keine „Felsen“ mehr und auch die „Wachstumsstarken“ sind ohne Onlineanbindung nicht mehr denkbar. Obsolet werden in Zukunft beispielsweise Kartenverlage, die zuerst Konkurrenz durch die Navigationsinstrumente bekamen und nun endgültig durch die Mobiltelefone ihren Kundennutzen verloren haben. Gefährdet sind viele Branchen, die nicht auf die digitalen Herausforderungen reagieren und sich dem mobilen und digitalen Kundenwunsch nicht stellen. Kalenderverlage zählen hier zu den besonders Betroffenen. Während Kunstkalender weiterbestehen werden, wird der Markt der Geschäftskalender irgendwann marginalisiert sein. In diesem Bereich Verbindungen zwischen online und analog herzustellen, kann sich als große Marktchance herausstellen. Ein klassischer Bereich ergänzbarer Produkte sind Formulare, deren Druck auf absehbare Zeit nicht verzichtbar ist. Dennoch wird es bei Online-Formularen, nach dem Beispiel der Steuererklärung, große Potentiale geben. Schlicht unersetzlich sind zum Beispiel Spieleverlage, bei denen ein analoges, haptisches Erscheinungsbild gefordert ist. Aber auch hier steht neben der Konkurrenz zu digitalen Spielen die Chance auf steigende Umsätze durch crossmedial verschränkte Artikel. Abgesehen von wenigen Bereichen wie Landkarten oder Loseblattsammlungen, stehen die meisten Verlage aus dem Bereich der Sondergebiete noch nicht so sehr unter Transformationsdruck. Dies kann sich aber einerseits ändern (es gibt keine Felsen und keine Wachstumsstarken mehr), andererseits bietet die Erweiterung des eigenen Geschäftsmodells um digitale und semidigitale Produkte aber große Chancen auf neue Erträge. Hier zeigt sich der Markt oftmals noch unschlüssig und viele Innovationen müssen gemacht werden, ohne dass der Kunde sie anfangs verlangt. Erst wenn die neuen Produkte auf dem Markt sind, wird sich das Risiko dann auszahlen, neue Bedürfnisse beim Kunden mit hohem Aufwand generiert zu haben.
660
D 14: Helmut Wittenzellner
D 14.3.3.2 Ausblick Kaum eine Branche ist so unterschiedlich von den Transformationen des digitalen Zeitalters betroffen wie die Verlagsbranche. Und kaum eine Branche hat erst so wenig auf die neuen Herausforderungen reagiert. Doch gerade dieser asynchrone, zeitliche Verzug in Relation zur Produktionskette, ist eine der großen Vorteile. Die Branche – so unterschiedlich sie in sich ist – kann zwar nicht von sich selbst lernen, aber hat dafür die Möglichkeit, aus den Fehlern und Erfahrungen der anderen Industrien zu lernen, dieses Wissen anzuwenden und so letztendlich gestärkt aus der Krise hervorgehen. Ob ihr das gelingt bleibt abzuwarten, aber die lange Tradition des Verlagswesens und die vielfachen Transformationen in dessen Geschichte, lassen hoffen.
D 14.4 Synopse Obwohl die Transformationstendenzen von Druck, Verlag und Buchhandel teils völlig andere Ursachen haben, wird sich in den nächsten Jahren die Veränderung durch eine zunehmende Berücksichtigung von Individualisierung und heterogener Kundenwünsche auf Produktionsmengen und Rentabilität deutlich niederschlagen. Unternehmen, die diese Trends unberücksichtigt lassen, werden den gesteigerten Konkurrenzkampf voraussichtlich nicht überstehen.
Literatur 01 02 03 04 05
06 07 08 09 10 11 12 13
Börsenverein des Deutschen Buchhandels e.V.: Buch und Buchhandel in Zahlen, Frankfurt am Main, 2012 Matt, B.J.; Finkbeiner, G. (Hrsg.): Waypoints, 2000 Meckel, M: „Das Epische Medium“. Frankfurter Allgemeine Zeitung vom 23.01.2009 Porter, M.: Wettbewerbsstrategie, Methoden zu Analyse von Branchen und Konkurrenten, Frankfurt, 2008 Wittenzellner, Helmut: Transformationsprozesse für die Druckbranche auf dem Weg zum Mediendienstleister. Rainer Kuhlen; Thomas Seeger; Dietmar Strauch (Hrsg.), Grundlagen der praktischen Information und Dokumentation, 5. Ausgabe, München 2004, 533-542 http://www.bdzv.de/markttrends-und-daten/wirtschaftliche-lage/artikel/detail/zur_wirtschaftlichen_ lage_der_zeitungen_in_deutschland_2011/ (Abruf vom 13.09.2012) http://www.bdzv.de/markttrends-und-daten/wirtschaftliche-lage/schaubilder/artikel/ -8937743f67/8222/ (Abruf vom 11.09.2012) http://www.boersenblatt.net/530627/ (Abruf vom 03.09.2012) http://www.boersenverein.de/de/158286 (Abruf vom 13.09.2012) http://www.buchmarkt.de/content/42559--buchhandel-morgen-ein-blick-in-gegenwart-und-zukunft-vondetlev-bluhm.htm? (Abruf vom 01.09.2012) http://www.bvdm-online.de/Zahlen/betriebe_beschaeftigte.php (Abruf vom 13.09.2012) http://www.bvdm-online.de/Zahlen/pdf/Aussichten-2012-2013-Deutsche%20Druckindustrie.pdf (Abruf vom 13.09. 2012) http://www.slow-media.net/manifest (Abruf vom 03.09.2012)
Elke Thomä, Heike Schwanbeck
D 15 Patentinformation und Patentinformationssysteme D 15.1 Inhalt und Nutzen der Patentinformation Durch Patente werden neue technische Erfindungen geschützt. Der Patentinhaber besitzt ein räumlich begrenztes und zeitlich befristetes Privileg, seine Erfindung zu nutzen. Im Gegenzug zum angestrebten Schutz machen die Patentämter angemeldete Erfindungen der Öffentlichkeit zugänglich. Diese Veröffentlichung erfolgt in der Regel 18 Monate nach der Anmeldung und/oder nach der Erteilung des Schutzrechtes. Weitere Informationen zum Verlauf des Verfahrens (Einsprüche, Ende der Laufzeit, Änderung des Inhabers usw.) werden ebenfalls von den Ämtern publiziert. Durch diese Publikationen erhält man eine einzigartige und aktuelle Quelle für technische, wirtschaftliche und rechtliche Fragestellungen. Die Patentinformation kann in drei Bereiche eingeteilt werden (Lit. 01): –– Technische Informationen: Technischer Inhalt der Schutzrechte aus Titel, Zusammenfassung, Beschreibung und Ansprüchen –– Bibliographische Informationen: Formale Angaben zur Publikation, z. B. Erfinder, Anmelder, Klassifikationscodes, Nummern, Daten –– Rechtliche Informationen: Rechts- und Verfahrensstand, z. B.: Wurde das Patent erteilt? Ist es noch in Kraft? Viele technische Entwicklungen werden nur in Patenten beschrieben. Allein beim Deutschen Patent- und Markenamt werden jährlich ca. 60.000 Patente angemeldet. Die technische Beschreibung liefert Anregungen und Ideen für neue Produkte und Verfahren und neue Anwendungen von existierenden Produkten. Die Zahl der Patentanmeldungen steigt weltweit, insbesondere in den asiatischen Staaten, an. Die Erfindernamen, Anmeldernamen und verschiedene Daten zum Patentverfahren geben Auskunft zu Märkten und Mitbewerbern. Da Patente oft zwei bis sechs Jahre publiziert werden, bevor neue Produkte auf den Markt kommen, kann über Patentpublikationen in die Zukunft geschaut werden, Trends können beobachtet und Innovationsprognosen erarbeitet werden. Daneben können auch Kooperationspartner ermittelt und über Lizenzen die innovativen Ideen gegenseitig genutzt werden. Die rechtliche Seite der Patentinformation – Schutzumfang, Rechts- und Verfahrensstände, Patentlaufzeiten – ist insbesondere bei der Markteinführung von Produkten und Verfahren zu berücksichtigen. Die Erfindungen aus nicht erteilten oder abgelaufenen Patenten können frei genutzt werden.
D 15.2 Patentinfrastruktur D 15.2.1 Patentzentren in Deutschland Das DPMA (Deutsches Patent- und Markenamt) in München einschließlich seiner Dienststelle Jena und des Technischen Informationszentrums Berlin ist die zentrale deutsche Einrichtung für das Patentwesen. Kooperationspartner des DPMA sind regionale Patentzentren in Aachen, Bremen, Chemnitz, Darmstadt, Dortmund, Dresden, Halle, Hamburg, Hannover, Hof, Ilmenau, Jena, Kaiserslautern, Kassel, Kiel, Leipzig, Magdeburg, Nürnberg, Rostock, Saarbrücken, Schwerin, Stuttgart. Diese Zentren sind in der Arbeitsgemeinschaft Deutscher Patentinformationszentren (URL1) organisiert und sind Mitglieder im europäischen Netzwerk der Patentbibliotheken PATlib (URL2). Sie übernehmen
662
D 15: Elke Thomä, Heike Schwanbeck
die regionale Nutzerbetreuung mit den Schwerpunkten Patentinformation, Patentseminare, Patentberatung, Patentförderung, Patentannahme und teilweise auch Patentverwertung. D 15.2.2 Wichtige Patentämter weltweit Die wichtigsten Einrichtungen weltweit sind die WIPO (World Intellectual Property Organisation) und die fünf großen Patentämter (auch IP5 oder „Big 5“ genannt): –– EPO – European Patent Organization (URL3) –– USPTO – United States Patent and Trademark Office (URL4) –– JPO – Japan Patent Office (URL5) –– KIPO – Korean Intellectual Property Office (URL6) –– SIPO – State Intellectual Property Office der Volksrepublik China (URL7) Statt weiterer Adressen von Patentämtern und Patentinformationsanbietern soll hier auf einige Linksammlungen verwiesen werden, die gut gepflegt werden: –– WIPO Directory of Intellectual Property Offices (URL8) –– EPO Useful Links (URL9)
D 15.3 Publikationen im Patenterteilungsverfahren D 15.3.1 Anmelde- und Erteilungsverfahren Die Abb. 1 zeigt schematisch das Anmelde- und Erteilungsverfahren beim DPMA. Die Anmeldung wird schriftlich beim Patentamt eingereicht und das Patentamt vergibt eine Anmeldenummer (= Anmeldeaktenzeichen). Dann erfolgt eine Offensichtlichkeitsprüfung (auf Vollständigkeit der Unterlagen) und die Erfindung wird in das technische Gebiet (nach der Internationalen Patentklassifikation) eingeordnet. In vielen Ländern wird 18 Monate nach dem Anmeldedatum die Anmeldung mit einer Publikationsnummer veröffentlicht (in Deutschland Offenlegungsschrift). Erst dann werden die Dokumente in öffentliche Datenbanken aufgenommen und gehören zum weltweiten Stand der Technik (Lit. 03). Die Prüfung auf inhaltliche und sachliche Voraussetzungen für die Patenterteilung wird oft auf Antrag (z. B. Deutschland), manchmal automatisch (z. B. USA) durchgeführt. Die Patenterteilung und die Patentschrift werden in der jeweiligen Publikationsplattform des Amtes (Patentblatt, Publikationsserver) mit einer Patentnummer veröffentlicht. Eine Zurückweisung ist ein anderes mögliches Ergebnis der Prüfung. Ein Einspruch kann von jedem gegen die Erteilung eingelegt werden und führt zu nochmaliger Prüfung (Einspruchsfrist in Deutschland: 3 Monate; bei Europäischen Patenten: 9 Monate). Erst mit einem erteilten Patent erhält der Anmelder den gesetzlichen Schutz für seine Erfindung. Rechtlich muss also unterschieden werden, ob eine Publikation die noch ungeprüfte Anmeldung oder das geprüfte und erteilte Patent ist. Im Sprachgebrauch wird beim Begriff Patentpublikationen oft nicht unterschieden, ob es sich um die Publikation der Patentanmeldung oder die Publikation der Patenterteilung handelt. Neben den Patentpublikationen existieren in Deutschland und einigen anderen Ländern die Gebrauchsmusterpublikationen zu technischen Erfindungen. Diese sind oft unter dem Begriff Patentinformation eingeschlossen.
D 15: Patentinformation und Patentinformationssysteme
18 Monate
Anmeldung
Offensichtlichkeitsprüfung
Auf Antrag innerhalb von 7 Jahren ab Anmeldung
Offenlegung
Recherche Prüfung
Offenlegungsschrift
Zeit Zurückweisung* Widerruf*
Erteilung
Einspruch
Patentschrift
öffentlich zugänglich
663
öffentlich zugänglich
Aufrechterhaltung
* Gegen die Beschlüsse kann über verschiedene Instanzen Beschwerde eingelegt werden
Abb. 1: Deutsches Anmelde- und Erteilungsverfahren für Patente
D 15.3.2 Publikationsnummern Publikationsnummern (Patentnummern z. B. DE102005012700B4) bestehen aus einem Zwei-Buchstabencode für das Publikationsland (Standard ST.3 – Ländercodes) und aus einer Nummer. Zusätzlich wird ein Publikationscode zur Unterscheidung der verschiedenen Arten von Publikationen angehängt. Diese Codes unterscheiden sich von Land zu Land (Lit. 04). Sie bestehen gewöhnlich aus einem Buchstaben zur groben Unterscheidung, oft gefolgt von einer Ziffer (*) oder einem weiteren Buchstaben zur Verfeinerung. Meist gelten folgende Codes: –– A* : Publikation einer Anmeldung (Offenlegung) –– B*, C* : Publikation einer Patenterteilung (Patentschrift) –– T* : Publikation einer Übersetzung (von EP- oder WO-Anmeldungen) –– U*, Y* : Publikation eines Gebrauchsmusters (Weitere Codes bzw. Erklärungen in Lit. 02 und Lit. 04.) Aufgrund von Änderungen in den Patentgesetzen ändern sich auch Publikationscodes. Deshalb muss der Zeitraum betrachtet werden, in dem der jeweilige Code mit seiner Bedeutung gültig ist/ war. Publikationsart
Publikationscode
Erläuterung
Offenlegungsschrift
A1
1. Publikation
Auslegeschrift (bis 1976)
B1 B2
1. Publikation 2. Publikation
Patentschrift (ab 2004)
B3 B4
1. Publikation („überrollte Offenlegung“) 2. Publikation
Patentschrift (bis 12/2003) C1 C2
1. Publikation („überrollte Offenlegung“) 2. Publikation
Tab. 1: Ausgewählte deutsche Publikationscodes (Lit. 03)
D 15.3.3 Anmeldung und Publikation von Patenten in verschiedenen Ländern Ein Patent bewirkt ein Schutzrecht nur in dem Land, in dem es erteilt wurde. Um Schutzrechte in verschiedenen Ländern zu erhalten, kann man z. B.:
664 –– –– ––
D 15: Elke Thomä, Heike Schwanbeck
Eine Anmeldung bei jedem einzelnen nationalen Patentamt einreichen und bekommt ein nationales Aktenzeichen oder Eine Anmeldung beim Europäischen Patentamt (EPO – European Patent Office, Europäische Anmeldung EP) einreichen, die gewünschten Länder benennen und erhält ein europäisches Aktenzeichen oder Eine Anmeldung bei der WIPO (oder DPMA oder EPO) als PCT-Anmeldung (Patent Cooperation Treaty, Weltanmeldung WO) einreichen, die gewünschten Länder benennen und erhält ein internationales Aktenzeichen.
Die Anmeldung setzt jeweils ein eigenes Patentverfahren in Gang, in dessen Verlauf weitere Veröffentlichungen durch das entsprechende Patentamt erfolgen. D 15.3.4 Wichtige Begriffe des Patentwesens Priorität: Die prioritätsbegründende Anmeldung ist die zeitlich erste Anmeldung einer Erfindung. Innerhalb von 12 Monaten kann diese Priorität (oder auch Unionspriorität) in Anspruch genommen werden, wenn ein Schutzrecht im Ausland angemeldet wird. Das ausländische Patentamt berücksichtigt dann bei der Prüfung den Stand der Technik vom Tag der prioritätsbegründenden Anmeldung. Dies gilt für alle Länder, die sich der Pariser Verbandsübereinkunft (PVÜ) angeschlossen haben (u. a. alle wichtigen Industrieländer). Patentfamilie: Alle Patentveröffentlichungen in den verschiedenen Ländern, die dieselbe Erfindung betreffen, bilden die Patentfamilie. Die Mitglieder dieser Patentfamilie beziehen sich auf dasselbe Prioritätsdatum. Abb. 2 zeigt ein Beispiel für eine Patentfamilie mit deutschen, europäischen und US-amerikanischen Publikationen. Prioritätsbegründende Anmeldung
Zeit
Innerhalb von 12 Monaten
DPMA
Nach 18 Monaten DE Offenlegungsschrift 1.10.2009
20.3.2008
Publikation der Erteilung 5.11.2009
Nachanmeldung USPTO
18.3.2009
Nachanmeldung EPO
19.3.2009
US Publikation der Anmeldung 24.9.2009 EP Publikation der Anmeldung 24.9.2009
Publikation der Erteilung 6.3.2012
Publikation der Erteilung 3.6.2010
Abb. 2: Beispiel einer Patentfamilie
D 15.4 Struktur und Inhalt von Patentdokumenten Patentdokumente weisen eine international weitgehend vereinheitlichte Struktur auf: –– Titelseite: Das erste Blatt einer Patentpublikation (Abb. 3) enthält die bibliographischen Einzelheiten: Titel, Nummern (z. B. Anmeldenummer, Prioritätsnummern, Publikationsnummer), Namen (z. B. Erfinder, Anmelder, Patentanwalt), Daten (z. B. Anmeldedatum, Prioritätsdaten, Publikationsdaten). Oft befindet sich auf der Titelseite eine Zusammenfassung, die grundsätzliche Informationen zum Anwendungsgebiet und zum Inhalt der Erfindung enthält. Auch eine ausgewählte charakteristische Zeichnung wird oft aufgenommen und liefert einen
D 15: Patentinformation und Patentinformationssysteme
665
schnellen Überblick.Um die auf der Titelseite erscheinenden Angaben zu identifizieren, ohne die jeweilige Sprache oder die Gesetze zu kennen, werden Standards der World Intellectual Property Organisation (WIPO) verwendet: ST.9 (Identifikation bibliographischer Daten, INIDCodes), ST.16 (Dokumentenartencodes), ST.3 (Ländercodes). Patentnummer mit Länder- und Identifikationscode
Aktenzeichen
Publikationsart
Anmeldetag Offenlegungstag Inhaber Erfinder
Internationale Patentklassifikation
Ergebnisse Amtsrecherche
Titel
Zusammenfassung Abb. 3: Titelblatt einer DE-Patentschrift
––
––
––
Beschreibung: Die Patentbeschreibung enthält Angaben zum Gebiet, zur Aufgabe und zur Anwendung der Erfindung. Sie enthält eine ausführliche Beschreibung des Standes der Technik und dessen Mängel. Daraus werden Lösungsmöglichkeiten abgeleitet, die die Erfindung kennzeichnen. Es ist die Erläuterung von mindestens einem Ausführungsbeispiels enthalten. Die Beschreibung kann durch eine oder mehrere Zeichnungen unterstützt werden, auf die aus dem Text Bezug genommen wird und die die wesentlichen Merkmale der Erfindung zeigen. Patentansprüche: Patentansprüche sind knapp und in juristischer Sprache formulierte Angaben, die darstellen, welcher Schutz im Einzelnen beansprucht wird. In den meisten Fällen ist der erste Anspruch der Hauptanspruch. Dieser kann in einen Oberbegriff und in einen kennzeichnenden Teil gegliedert sein. Während in den Oberbegriff die bekannten Merkmale des Standes der Technik der Erfindung aufgenommen werden, enthält der kennzeichnende Teil die Merkmale, für die Schutz begehrt wird. Beide Teile werden oft durch die Phrase dadurch gekennzeichnet, dass oder ähnlich verbunden. Für eine schnelle Orientierung zum Inhalt der Patentpublikation bietet sich daher der Hauptanspruch an. In der Regel folgen dem Hauptanspruch weitere Ansprüche. Recherchebericht: Die Patentdokumente können entweder auf der Titelseite oder als separaten Teil die Ergebnisse der Amtsrecherchen zum Stand der Technik enthalten. Bei EP- und WO-Publikationen sind zusätzlich Relevanzbewertungen der Prüfer für die zitierten Nachweise enthalten.
666
D 15: Elke Thomä, Heike Schwanbeck
D 15.5 Internationale Patentklassifikation (IPC) Um Patentschriften weltweit einheitlich nach Fachgebieten zu ordnen und ein sprachunabhängiges Werkzeug für die Recherche zu haben, wurde die Internationale Patentklassifikation (IPC) von der WIPO 1968 festgelegt und in 5-Jahres-Abständen revidiert. Sie wird von allen nationalen und regionalen Patentämtern und der WIPO verwendet. Ab dem 1.1.2006 wurde die IPC stark erweitert und es wurden neue Festlegungen getroffen (u. a. Aufbau, Klassifizierungsregeln, Revisionen, Aktualisierung in den Datenbanken). Die IPCVersion von 2012 unterteilt die Technik in ca. 70.000 Teilgebiete, wird nun jährlich revidiert und der gesamte Datenbestand wird immer entsprechend der aktuellen Version umklassifiziert. Sektion Technikgebiet A B C D E F G H
Täglicher Lebensbedarf Arbeitsverfahren; Transportieren Chemie; Hüttenwesen Textilien; Papier Bauwesen; Erdbohren; Bergbau Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen Physik Elektrotechnik
Tab. 2: Sektionen der Internationalen Patentklassifikation
Es existieren acht Sektionen hierarchisch untergliedert: Klasse – Unterklasse – Gruppe/Hauptgruppe – Untergruppe. Das Symbol der Klassifikation ist ein achtstelliger Buchstaben-Nummerncode (Tab. 3). Ein Patent zu Inline Skates wird in die IPC (Tab. 3) wie folgt eingeordnet: A63C 17/06 – „Rollschuhe (Hauptgruppe) – mit anderweitig als in zwei Paaren angeordneten Rollen (1-Punkt-Klassifikation) in der Ausführung – einspurige Rollschuhe (2-Punkt-Klassifikation)“ A
Sektion
Technikgebiet
A63 A63C
Klasse Unterklasse
A63C 17 A63C 17/00 A63C 17/01 A63C 17/02 A63C 17/04 A63C 17/06 A63C 17/08
Gruppe Hauptgruppe Untergruppe Untergruppe Untergruppe Untergruppe Untergruppe
Sport, Spiele, Volksbelustigungen Schlittschuhe; Ski; Rollschuhe; Entwurf oder Anordnung von Spielplätzen, Sportbahnen oder dgl. Rollschuhe; Rollbretter Rollschuhe; Rollbretter . Rollbretter (A63C 17/02-A63C 17/28 haben Vorrang) . mit zweipaarig angeordneten Rollen . mit anderweitig als in zwei Paaren angeordneten Rollen . . einspurige Rollschuhe . . . Einradrollschuhe
Tab. 3: Auszug aus der IPC zum Klassifikationsbeispiel Inline-Skates
In der Recherche muss jede zutreffende Untergruppe einzeln berücksichtigt werden. Zum Beispiel schließt die Recherche nach einer Hauptgruppe nicht automatisch alle darunterliegenden 1-Punkt-, 2-Punkt-, 3-Punkt-Untergruppen usw. ein. Um die „einspurigen Rollschuhe“ zu erfassen, muss der Code A63C 17/06 in der Recherche explizit verwendet werden. Für eine Patentanmeldung können mehrere IPC-Klassifikationscodes vergeben sein.
D 15: Patentinformation und Patentinformationssysteme
667
Seit 2006 gelten für die IPC-Vergabe folgende Regeln: Es wird eine IPC (eine oder mehrere Klassifikationscodes) vergeben, die die Erfindung in ihrem Kern kennzeichnet (Invention IPC). Dabei wird das komplette Dokument klassifiziert, nicht nur die Ansprüche. Außerdem werden Non-Invention (Additional) IPC vergeben. Die IPC wird mit komfortablen Suchmöglichkeiten in verschiedenen Datenbanken oder über die Ämter im WEB angeboten (URL10, URL11). Es existieren weitere, teilweise feiner gegliederte Klassifikationssysteme, die aber jeweils nur für einen Teil der Patentpublikationen angewendet werden (ECLA: europäische Klassifikation, USPC: amerikanische Klassifikation, FI- und F-Terms: japanische Klassifikation, DEKLA: deutsche Klassifikation, DWPI Manual Codes: Klassifikation von Thomson Reuters für DWPI-Datenbanken) (Lit. 05).
D 15.6 Patentrecherchen D 15.6.1 Grundlegende Recherchearten (Lit. 05) –– –– –– –– –– –– –– –– ––
Sachrecherche: Informationen zu den Patentveröffentlichungen zu einem Thema oder Sachgebiet (= Ermittlung des Standes der Technik). Namensrecherche: Informationen über alle Patentveröffentlichungen einer bestimmten Firma (Anmelder) oder Person (Erfinder). Familienrecherche: Information, ob für eine Patentveröffentlichung (Patentnummer, Aktenzeichen) in weiteren Ländern hierzu Schutzrechte angemeldet oder erteilt worden sind. Rechtsstandrecherche: Auskunft zu einer Patentveröffentlichung (Patentnummer, Aktenzeichen), ob ein Patent erteilt wurde und noch gültig ist. Zitierungsrecherche: Welche anderen Veröffentlichungen werden in einer Patentveröffentlichung zitiert oder in welchen anderen Veröffentlichungen wird diese Schrift zitiert. Volltextbereitstellung: Gesamter Text bzw. Zeichnungen einer Patentveröffentlichung. Recherche nach Ländern: Einschränkung einer Recherche (z. B. einer Sachrecherche) auf bestimmte Länder. Recherche nach Datum: Einschränkung auf einen bestimmten Zeitraum. Recherche nach Nummern: Sie haben eine Nummer (Patentnummer oder Aktenzeichen) einer Patentveröffentlichung und wollen wissen, ob dieses Patent wirklich existiert und was geschützt ist.
D 15.6.2 Komplexe Patentrecherchen von der Entwicklung bis zur Vermarktung D 15.6.2.1 Einleitung Die grundlegenden Recherchearten werden in der Recherchepraxis zu komplexen Patentrecherchen kombiniert. Diese Recherchen werden in allen Entwicklungsphasen innerhalb eines Innovationsprozesses durchgeführt (Abb. 4, Lit. 06, Lit. 07). Vor der Entwicklung Grundlagenrecherchen
Nach der Entwicklung
Während der Entwicklung Projektbezogene Recherchen
Recherchen zur Bewertung
Stand der Technik
Stand der Technik
Neuheit
Konkurrenz
Forschungswissen
Schutzfähigkeit
Märkte
Lösungsansätze
Verletzung
Anwendungen
Lizenzpartner
Abb. 4: Patentrecherchen im Innovationsprozess (Lit. 08)
668
D 15: Elke Thomä, Heike Schwanbeck
D 15.6.2.2 Recherche nach dem Stand der Technik (State of the Art Search)/ Technologierecherche In Forschung und Entwicklung sollten vor und während der Entwicklung neuer Produkte Recherchen nach dem Stand der Technik durchgeführt werden. Für diese Recherchen können verschiedene Datenbanken (Patente, wissenschaftlich-technische Fachliteratur, Wirtschaftsinformationen) herangezogen werden. –– Bekannt: Beschreibung eines technischen Problems –– Gesucht: Dokumente mit Lösungsmöglichkeiten –– Anlage der Recherche: Eher eng, um möglichst nur zutreffende Dokumente zu erhalten; Literatur und Patente –– Durchführung: Sachrecherche (Kombinierte Stichwort- und Klassifikationsrecherche) bzw. Struktur- oder Biosequenzrecherchen im Chemie- und Life Science-Bereich D 15.6.2.3 Neuheitsrecherche (Novelty Search) Es wird in Erfahrung gebracht, welchen technischen Fortschritt eine Erfindung gegenüber bereits veröffentlichten Entwicklungen aufweist. Eine Neuheitsrecherche wird i. d. R. abgebrochen, sobald zwei bis drei neuheitsschädliche Dokumente gefunden werden. –– Bekannt: Eine bestimmte Lösung –– Gesucht: Eine Publikation, die alle Merkmale der Erfindung aufweist. –– Anlage der Recherche: Weit, um keine potentiell zutreffenden Schriften zu verlieren; weltweit; Literatur und Patente; keine zeitliche Einschränkung –– Durchführung: Sachrecherche (Kombinierte Stichwort- und Klassifikationsrecherche) bzw. Struktur- oder Biosequenzrecherchen im Chemie- und Life Science-Bereich, ergänzende Zitierungsrecherche D 15.6.2.4 Patentierbarkeitsrecherche (Patentability Search) Durch Patentierbarkeitsrecherchen werden wie durch Neuheitsrecherchen Patent- und Literaturpublikationen ermittelt, die für die Patentfähigkeit einer Erfindung relevant sein könnten. Sie sollten vor der Ausarbeitung und Einreichung einer Patentanmeldung durchgeführt werden. Die Begriffe Neuheits- und Patentierbarkeitsrecherchen werden auch synonym verwendet. Bei der Bewertung der Ergebnisse von Patentierbarkeitsrecherchen muss auch die Erfindungshöhe beachtet werden. Deshalb sind hier auch Dokumente relevant, die kombiniert alle Merkmale der Erfindung aufweisen. D 15.6.2.5 Einspruchsrecherchen (Opposition Search) oder Gültigkeitsrecherche (Validity Search) Ein Wettbewerber hat ein Patent angemeldet und es soll verhindert werden, dass dieses Patent Gültigkeit erreicht. Dafür werden Nachweise benötigt, dass eine Beschreibung der beanspruchten Erfindung schon vor der Anmeldung öffentlich zugänglich war. In der Einspruchsrecherche werden relevante Publikationen aller Art vor dem Prioritätsdatum des interessierenden Patents gesucht. Nach Ablauf der Einspruchsfrist oder wenn ein nationales Patentrecht keinen Einspruch zulässt, werden Gültigkeitsrecherchen durchgeführt. Hier wird wie bei Einspruchsrecherchen Material gesucht, um die Erteilung eines Patents als rechtsungültig zu erklären. Die Durchführung erfolgt wie bei der Patentierbarkeitsrecherche unter Beachtung des Anmeldedatums. D 15.6.2.6 Patentverletzungsrecherche (Infringement Search) Es soll herausgefunden werden, ob das Produkt, das hergestellt werden soll, ein anderes Patent verletzt. Dazu wird nach noch nicht abgelaufenen Patenten gesucht, die die Herstellung, Nutzung oder den Verkauf eines bestimmten Produktes oder die Anwendung eines speziellen Verfahrens
D 15: Patentinformation und Patentinformationssysteme
669
verbieten. Durch Berücksichtigung der gefundenen Patente kann ein Schutz vor möglichen Klagen erreicht werden. Nicht berücksichtigt werden: Abgelaufene Patente, Patente in Ländern, die nicht Zielmarkt sind, Nichtpatentliteratur. –– Bekannt: Eine konkrete Lösung, die auf bestimmten Märkten eingeführt werden soll –– Gesucht: Ähnliche Schutzrechte, die durch die bekannte Lösung verletzt würden –– Anlage der Recherche: Weit, um keine potentiell zutreffenden Schriften zu verlieren; Schutzrechte in den relevanten Ländern; Zeitraum i. d. R. 20 Jahre unter Beachtung der Patentgesetze der Länder –– Durchführung: Sachrecherche (Kombinierte Stichwort- und Klassifikationsrecherche) bzw. Struktur- oder Biosequenzrecherchen im Chemie- und Life Science-Bereich, ergänzende Zitierungsrecherche –– Sichtung der Ansprüche und Rechtsstände D 15.6.2.7 Ausübungsfreiheitsrecherche (Freedom to Operate Search) Wie kann herausgefunden werden, ob auch Teile des Produkts, das hergestellt werden soll, irgendwie geschützt sein könnten? Wie hoch ist das Risiko, durch Patente anderer Firmen behindert zu werden? Hier wird nicht nur nach aktiven Patenten gesucht, die verletzt werden könnten, sondern auch nach abgelaufenen Patenten oder publizierter Literatur, durch die eine Technologie freigehalten wird. Es sollen Freiräume für die Technologieauswahl identifiziert werden. D 15.6.2.8 Überwachungsrecherchen (Patent Monitoring) Überwachungsrecherchen werden fortlaufend durchgeführt und erfassen in bestimmten Zeitabständen Informationen, die neu hinzugekommen sind. –– Überwachung eines Fachgebietes (Sachrecherche) –– Überwachung von Konkurrenzfirmen (Namensrecherche) –– Überwachung von Patentfamilien/Rechtsständen –– Überprüfung der Zitate von Patenten der eigenen Firma Überwachungsrecherchen nach Patenterteilungen sollten wegen der kurzen Einspruchsfrist in Deutschland (3 Monate) mindestens alle 4 Wochen durchgeführt werden. Sie können manuell oder automatisch in geeigneten Datenbanken durchgeführt werden. D 15.6.2.9 Patentstatistische Analysen Patentdatenbanken sind sehr vollständige und gut aufbereitete Quellen von technologischen Informationen. Sie eignen sich für Unternehmensanalysen, Konkurrenzanalysen und Technologieanalysen. Patentanalysen können als Entscheidungshilfe für die strategische Planung innerhalb des Unternehmens dienen. Voraussetzungen zur Erstellung von aussagekräftigen Patentanalysen sind (Lit. 09, Lit. 10, Lit. 11): –– Die Verwendung geeigneter Datenbanken –– Gute Datenbank- und Recherchekenntnisse des Rechercheurs –– Verwendung geeigneter Statistiktools zur Recherche und Visualisierung der Ergebnisse. D 15.6.3 Recherchestrategien Recherchestrategien hängen von der Rechercheart, von den Möglichkeiten der gewählten Datenbanken, vom Kenntnisstand des Rechercheurs und vom Aufwand ab, den man betreiben will oder muss. Recherchestrategien stellen ein eigenes und umfangreiches Gebiet in der Patentinformation
670
D 15: Elke Thomä, Heike Schwanbeck
dar. An dieser Stelle soll nur auf einige Publikationen zu diesem Thema verwiesen werden: Lit. 05, Lit. 12, Lit. 13.
D 15.7 Patentdatenbanken D 15.7.1 Inhalt der Patentdatenbanken In Patentdatenbanken sind die bibliographischen Daten, die Zusammenfassung und/oder der Hauptanspruch bzw. der Volltext, Indexierergebnisse (mindestens die IPC, weitere Klassifikationen, datenbankspezifische Indexierungen), Rechtsstanddaten, Patentzeichnungen und Zitierungen enthalten. Aber nicht jede Datenbank nimmt alle genannten Informationen auf. Die Datenbanken unterscheiden sich hinsichtlich Inhalt und Struktur (inhaltliche Bestandteile, Länderabdeckung, zeitliche Abdeckung, Indexierungen, Fortschreibungskonzepte u. a.) und Recherchemöglichkeiten. Das Europäische Patentamt bietet über OPS (Open Patent Service) die Rohdaten für verschiedene Informationsprodukte an. Darunter befindet sich DOCDB – die weltweite Master-Dokumentationsdatenbank. Sie enthält bibliographische Daten aus ca. 95 Ländern, Zusammenfassungen und Entgegenhaltungen (aber keine Volltexte oder Bilder). Das Format ist XML, die Aktualisierung ist wöchentlich. Informationen über Inhalt und Aktualisierungen siehe URL12. D 15.7.2 Datenbanktypen ––
––
––
Bibliographische und Volltextdatenbanken: In diese Datenbanken werden die Patentdokumente mit den bibliographischen Daten und Abstracts, teilweise mit Hauptanspruch oder auch mit dem kompletten Volltext aufgenommen. In einigen Datenbanken enthält ein Datenbankdokument nur eine Patentpublikation aus dem Patentverfahren (publikationsorientierte Datenbank), in anderen Datenbanken werden alle Publikationen eines Patentverfahrens (verfahrensorientierte Datenbank) und in weiteren alle Publikationen einer Patentfamilie in ein Datenbankdokument aufgenommen (familienorientierte Datenbank). Letztere reduzieren die Redundanz der Rechercheergebnisse und somit die Treffermengen, führen schnell zu sprachlich zugänglichen Patentfamilienmitgliedern und sind Grundlage für komplexe patentstatistische Auswertungen. Für die Zusammenführung von Patentdokumenten mit mehreren Prioritätsdaten zu Patentfamilien existieren verschiedene Standards (Lit. 14). Publikationsserver: Die Patentämter veröffentlichen ihre amtlichen Publikationen in Patentblättern (Official Gazettes). Diese werden teilweise nicht mehr gedruckt, sondern nur noch online auf den Publikationsplattformen der Ämter (PDF-Dateien) veröffentlicht. Zusätzlich werden diese Publikationen in recherchierbare Datenbanken eingestellt. Patentregister: Die Patentämter haben eine gesetzliche Verpflichtung zur Führung eines Registers für amtliche Verfahrens- und Rechtsstandauskünfte. Diese Register werden bei vielen Ämtern online mit unterschiedlichen Recherchemöglichkeiten zur Verfügung gestellt. Über diese Register können unbeglaubigte Registerauszüge erstellt oder beglaubigte Registerauszüge für bestimmte gerichtliche Verfahren angefordert werden.
D 15.7.3 Kostenfreie Online-Patentdatenbanken und Volltextbeschaffung D 15.7.3.1 Einleitung Die Patentämter bieten Patentdatenbanken mit unterschiedlichem Umfang und unterschiedlicher zeitlicher Abdeckung (Retrospektivität) an. Die Suchoberflächen sind oft einfach bedienbar und
D 15: Patentinformation und Patentinformationssysteme
671
bieten eine Unterstützung für Rechercheformulierungen. Teilweise existieren gute Recherchemöglichkeiten in einzelnen Feldern und es werden spezielle Features angeboten. Die Volltexte stehen als PDF- oder TIFF-Einzelseiten und manchmal im HTML-Format zur Verfügung. Der komplette Volltext einzelner Dokumente kann z. T. heruntergeladen werden. Die Nachbearbeitung der Recherche wird wenig unterstützt. Zielgruppen sind Studenten, KMU sowie Endnutzer in der Industrie für einfache Anfragen. Auch Patentspezialisten und Rechercheprofis nutzen diese Datenbanken für Vorrecherchen. Die kostenfreien Angebote haben den Vorteil, dass die Patentinformation einer breiten Öffentlichkeit zugänglich gemacht wird. Als problematisch einzuschätzen ist, wenn ohne einen entsprechenden Kenntnisstand zu Patentdokumentation, Patentrecherche und Patentverfahren falsche Schlüsse aus den Rechercheergebnissen gezogen werden. D 15.7.3.2 Deutsches Patent- und Markenamt DEPATISnet (URL13) ist eine internationale Datenbank für Neuheits- und Stand-der-Technik-Recherchen. Sie enthält Dokumente aus ca. 95 Ländern, die Aktualisierungen erfolgen wöchentlich, die Datenbank ist mehrsprachig, die Aktualität und Vollständigkeit hängen vom Publikationsland ab. Für deutsche Patent- und Gebrauchsmusterpublikationen (DE) sind ab 1877 die Volltexte enthalten (Patentpublikationen der ehemaligen DDR von 1950-1993). Deutsche Geschmacksmuster und Marken sind nicht enthalten. Die Datenbank ist dokumentenorientiert, d. h. jedes Dokument enthält eine Publikation der nationalen Publikationsfolge, die weiteren Publikationen sind jeweils in eigenen Dokumenten in der Datenbank zu finden. Es ist jedoch möglich, aus dem Rechercheergebnis nach einer vorgegebenen Vorrangregel Familienmitglieder zu entfernen und damit die Trefferlisten wesentlich zu verkürzen. Die Zahl der Suchterms ist nicht beschränkt, es kann in vielen Feldern gesucht werden und es stehen umfangreiche Operatoren und Maskierungsmöglichkeiten zur Verfügung, um komplexe Suchstrategien umsetzen zu können. DPMAregister (URL14) bietet einen Zugang zu den amtlichen Veröffentlichungen, die im Rahmen der anhängigen Verfahren zu Patenten und Gebrauchsmustern, Marken- und Geschmacksmustern gesetzlich vorgesehen sind, und ist das amtliche Auskunftssystem zur Ermittlung aktueller Rechts- und Verfahrensstände. Es können Recherchen nach DE-Publikationen und DE-Rechtsständen durchgeführt werden. Außerdem können manuelle Überwachungsrecherchen durchgeführt und automatische Überwachungsrecherchen beauftragt werden (DPMAkurier). Eine Online-Akteneinsicht soll noch 2012 eingeführt werden. Die Recherche nach EP- und WO-Publikationen mit Benennung/Bestimmung DE ist ebenfalls möglich. D 15.7.3.3 Europäisches Patentamt (EPA) Espacenet ist ein Angebot zur Patentrecherche für Neuheits- und Stand-der-Technik-Recherchen, an dem das Europäische Patentamt und verschiedene nationale Patentämter beteiligt sind. Der Zugang zu den Datenbanken kann über die nationalen Server (z. B. URL15) bzw. über das EPA erfolgen (URL16). Über das EPA kann auf EP- und WO-Volltextdatenbanken und auf eine weltweite Datenbank zugegriffen werden. Die weltweite Datenbank enthält Dokumente aus ca. 95 Ländern, die Sprache ist Englisch. Die Datenbank ist familienorientiert, d. h. alle Publikationen aus einer Patentfamilie (gleiche Priorität(en)) werden in ein Dokument aufgenommen. Die Aktualität der Dokumente ist unterschiedlich. Der PCT-Minimalprüfstoff (Patent Cooperation Treaty), der von der WIPO als Mindestanforderung für Patentsammlungen festgelegt wurde, wird innerhalb einer Woche aktualisiert, andere Länder kommen später hinzu. Espacenet bietet verschiedene Recherchemasken an. Über diese kann mit einer beschränkten Anzahl von Suchterms in ausgewählten Feldern, mit einigen Operatoren und Maskierungsmöglichkeiten recherchiert werden. Mit Smartsearch kann in der weltweiten Datenbank eine einfache bis komplexe Suche in vielen Feldern durchgeführt werden. Bei einer einfachen Suchanfrage ohne
672
D 15: Elke Thomä, Heike Schwanbeck
Feldangabe interpretiert das System aus den eingegebenen Wörtern und Zahlen selbständig die zugehörigen Felder. Die Trefferanzeige enthält die bibliographischen Daten, den Abstract und die Zeichnung für die ausgewählte Patentfamilie. Es existieren viele Anzeigeoptionen, z. B. Originaldokumente, Patentansprüche, die INPADOC-Familie und der INPADOC-Rechtsstand. Weitere Tools (z. B. EP-Register, Übersetzungen, Klassifikationen) können abgerufen werden. Das Europäische Patentregister (URL17) liefert Rechtsstand- und Registerdaten zu veröffentlichten europäischen und internationalen (PCT) Patentanmeldungen, mit denen europäische Patente für einen oder mehrere Vertragsstaaten des Europäischen Patentübereinkommens beantragt werden. Eine elektronische Akteneinsicht ist integriert. Eine automatische Überwachung incl. Gebührenüberwachung oder eine manuelle Überwachung mit einem Bookmark auf eine Publikation ist möglich. Der Europäische Publikationsserver (URL18) und das Europäische Patentblatt (URL19) sind die Zugänge zu den amtlichen Veröffentlichungen des Europäischen Patentamtes und dienen zur manuellen Überwachung von europäischen Patentpublikationen. D 15.7.3.4 US-Patent- und Markenamt (USPTO) Das US-Patent- und Markenamt veröffentlicht eine Volltextdatenbank zu US-Patentanmeldungen AppFT (Utility Patents) und eine Volltextdatenbank zu erteilten US-Patenten PatFT (URL20). In PatFT sind alle Schutzrechtsarten enthalten (Utility Patents, Design Patents, Reissue Patents, Defensive Publications, Statutory Invention Registrations, Plant Patents). Beide Datenbanken sind im Volltext ab 1976 recherchierbar. Zusätzlich sind die TIFF-Images als Einzelseiten ab 1790 anzeigbar. Es kann in einer Vielzahl von Feldern gesucht werden, einige Operatoren und Maskierungsmöglichkeiten stehen zur Verfügung. Die Zahl der Suchterms ist nicht beschränkt. PAIR (Patent Application Information Retrieval, URL21) ist das amtliche Register. Hier können Rechtsstandabfragen und teilweise eine Online-Akteneinsicht durchgeführt werden. Die Official Gazette for Patents (URL22) ist der amtliche Publikationsserver des USPTO für Patente. D 15.7.3.5 Weltorganisation für geistiges Eigentum (WIPO) Patentscope (URL23) ist eine Volltextdatenbank für die Publikationen (WO) der internationalen Anmeldungen mit sehr guten Recherchemöglichkeiten (viele Felder, diverse Operatoren und Maskierungen, keine Begrenzung der Suchterms). Für jedes Rechercheergebnis wird sofort für die Weiterqualifizierung der Recherche oder als Endergebnis eine statistische Analyse bereitgestellt. Übersetzungstools sind implementiert. Der Eintritt in die regionale/nationale Phase kann abgelesen werden. PDF-Dokumente der Volltexte und die Online-Akte (z. B. Internationaler Recherchebericht) können angezeigt werden. Eine manuelle Überwachung von WO-Dokumenten kann durchgeführt werden. Über Patentscope kann parallel oder einzeln in weiteren ca. 30 Ländern in verschiedenen Sprachen recherchiert werden. Eine Cross Lingual Expansion (CLIR) unterstützt die Recherche in mehreren Sprachen. D 15.7.3.6 Japanisches Patentamt (JPO) Beim japanischen Amt steht unter IPDL (Industrial Property Digital Library, URL24) eine englischsprachige Oberfläche zur Verfügung. Sie enthält: –– Die Datenbank PAJ (enthält alle ungeprüften japanischen Anmeldungen) –– Die Patent & Utility Model Gazette (Publikationsserver) –– Die Patent & Utility Model Concordance zum Auffinden der richtigen Nummernformate –– Eine Oberfläche zur FI/F-Term-Klassifikationssuche und –– Eine Oberfläche zum Klassifizieren (Search Patent Map Guidance)
D 15: Patentinformation und Patentinformationssysteme
673
Auch die anderen asiatischen Ämter (China, Korea, Indien) bieten englischsprachige Oberflächen zur Information und Recherche an. D 15.7.3.7 Patentsuchmaschinen Die Suchmaschinen verschiedener Anbieter unterscheiden sich in Funktionalität und Länderabdeckung. Für volle Funktionalität ist immer eine kostenfreie Registrierung notwendig, ein vertraulicher Umgang ist nicht gesichert. Über Zuverlässigkeit und Verfügbarkeit wird keine Aussage gemacht. Für Vorrecherchen oder ergänzende Recherchen sind Suchmaschinen geeignet. Da teilweise ein Scoring vorhanden ist, können leicht einige gute Treffer gefunden werden. Beispiele: Google Patents, WikiPatents, Patent Lens, Free Patents Online. Ein neuer Ansatz ist der Prior Art Finder bei Google Patents. D 15.7.4 Kostenpflichtige Online-Patentdatenbanken Kostenpflichtige Angebote richten sich insbesondere an Information Professionals. Als Kosten werden Anschalt- und Anzeigekosten (pay per view) oder Jahrespauschalen berechnet. Vorteile dieser Angebote sind neben den sehr gut aufbereiteten Datenbankinhalten ein dokumentierter Datenbestand, Suchindexe, sehr gute Recherchemöglichkeiten, Möglichkeit der Verknüpfung von schon gestellten Anfragen, Patentstatistik, Standardisierungen, sehr gute Möglichkeiten zur Nachbearbeitung der Recherchen und zum Erstellen von Rechercheberichten. Durch diese Möglichkeiten können alle Recherchearten effizient durchgeführt werden. Einen besonderen Mehrwert bieten Datenbanken, deren Anbieter nicht nur die Originaltexte aufnehmen, sondern selbst aussagekräftige Titel und Abstracts intellektuell erstellen und durch zusätzliche Indexierungen ergänzen, um vollständigere und relevantere Rechercheergebnisse zu ermöglichen. Derwent World Patents Index (DWPI) und Chemical Abstracts Plus (CAPLUS) sind herausragende Vertreter der Datenbanken (Lit. 15). Die kostenpflichtigen Anbieter können in zwei Gruppen eingeteilt werden: Die erste Gruppe sind die Online-Dienstleister mit einem umfangreichen Angebot sowohl an bibliographischen als auch an Volltextdatenbanken für Patente und Literatur, sowie Marken- und Geschmacksmusterdatenbanken und Datenbanken mit Wirtschaftsinformation. Diese Anbieter zeichnen sich zusätzlich durch das Angebot von Mehrwertdatenbanken aus. Vertreter sind STN International, Dialog und Questel. Die zweite Gruppe bietet im Wesentlichen jeweils eine internationale familienbezogene Volltextdatenbank an. Diese Datenbanken werden durch proprietäre Inhalte und Tools ergänzt, so dass der gesamte Workflow von Vorbereitung, Durchführung, Sichtung bis zur Dokumentation von Recherchen unterstützt wird. Vertreter dieser Gruppe sind PATbase (Minesoft), Orbit (Questel) und TotalPatent (LexisNexis). Wichtige Datenbanken sind: –– INPADOC (Hersteller: Europäisches Patentamt) enthält die bibliographischen Daten von Veröffentlichungen nationaler, regionaler und internationaler Patent- und Gebrauchsmusterschriften von ca. 95 Patentämtern. Die Titel erscheinen in Originalsprache oder werden ins Englische übersetzt. Für viele neue Dokumente existieren englischsprachige Abstracts. Außerdem enthält die Datenbank Patentzitierungen aus 27 Ländern, alle wichtigen Klassifikationssysteme und teilweise auch Zeichnungen. INPADOC ist die Datenbank mit den vollständigsten Familien- und Rechtsstandinformationen. Die Datenbank wird kostenfrei über Espacenet zur Anzeige der Rechtstände und Familienmitglieder angeboten. Als kostenpflichtige Datenbank wird INPADOC mit verfahrensorientierter oder mit Familienstruktur angeboten, die Rechtsstände sind hier recherchierbar, es existieren standardisierte Nummernformate und die Familienzusammenführungen werden laufend evaluiert und ggf. korrigiert (STN, Lit. 16). INPADOC ist eine wichtige Datenbank für Überwachungsrecherchen nach Firmennamen und Klassifikationen.
674 ––
––
––
––
D 15: Elke Thomä, Heike Schwanbeck
DWPI (Derwent World Patents Index, Hersteller: Thomson Reuters Ltd.) enthält Dokumente von allen wichtigen Industrieländern und hat eine Familienstruktur. DWPI ist eine Mehrwertdatenbank, die sich durch die vom Hersteller intellektuell erzeugten Text- und Klassifikationsbestandteile, Standardisierungen und Zusatzfunktionen auszeichnet: aussagekräftige Titel und strukturierte Abstracts, Manual Codes, zusätzliche Indexierungssysteme für die Chemie, Patentanmeldercodes, NPS (Numeric Property Search) bei STN (Lit. 05, Lit. 17). CAPLUS (Chemical Abstracts Plus, Hersteller: Chemical Abstracts Service) ist eine Datenbank mit Literatur- und Patentpublikationen zu den Fachgebieten Chemie und chemische Verfahrenstechnik. Patentdokumente haben eine Familienstruktur und es sind alle wichtigen Industrieländer enthalten. CAPLUS ist eine Mehrwertdatenbank, die sich durch aussagekräftige Titel und Abstracts und durch eine ausführliche Indexierung von chemischen Verbindungen (CAS-Registry-Nummern), Markush-Strukturen und Biosequenzen auszeichnet. Über die Datenbank REGISTRY können die CAS-Nummern u. a. über eine Struktursuche ermittelt werden (STN). PatBase (Hersteller: Minesoft Ltd. und RWS Information Ltd.) enthält die bibliographischen Daten von Patentveröffentlichungen von ca. 95 Patentämtern sowie Volltexte von 20 wichtigen Patentämtern. Die familienorientierte Datenbank nutzt ein eigenes Archiv für die Zeichnungen, so dass alle Zeichnungen zu einer Patenfamilie schnell angezeigt werden können. Zur statistischen Auswertung und graphischen Aufbereitung der Rechercheergebnisse sind verschiedene Tools integriert. ORBIT (Hersteller: Questel) enthält die bibliographischen Daten nationaler und internationaler Patentveröffentlichungen von ca. 95 Patentämtern sowie Volltexte von 20 wichtigen Patentämtern. Neben Patenten können über dieses Portal auch Geschmacksmuster recherchiert werden. Die Datenbankoberfläche unterstützt effektiv bei der Verknüpfung von Sachrecherchen mit bestimmten Rechtsständen und bietet ein komplexes Tool für Patenstatistiken an (Lit. 18).
D 15.7.5 IP-Managementsysteme IP-Managementsysteme dienen zur Organisation der firmeninternen Arbeitsabläufe bei der Patentinformation und bei Verwaltung von Schutzrechten. Diese Systeme sollen Suchmöglichkeiten für externe und interne Patentdaten bieten, den Datenimport und die Dokumentenverteilung in der Firma unterstützen. Die Tools umfassen die Verwaltung und Bearbeitung von Schutzrechtsakten von verschiedenen Schutzrechtsarten, deren Bewertung und Fristenverwaltung. Es werden verschiedene Systeme angeboten, die alle genannten Aufgaben oder nur einen Teil erfüllen. XPAT und XPATAKTE (Kramer & Hofmann) ist ein System, das alle genannten Aufgaben berücksichtigt.
D 15.8 Neue Initiativen Analyse-Tools für statistische Auswertungen und graphische Darstellungen auf der Basis von verschiedenen Datenfeldern und einfachen Berechnungen sind insbesondere in die kommerziellen Datenbanken integriert. In Zukunft werden leistungsfähige komplexere Methoden der Datenverarbeitung wie Textmining und Visual Data Mining nötig sein, um die großen Datenmengen zu beherrschen. Einige Beispiele für komplexe Analysesysteme sind: STN AnaVist, Intelllixir, Patent iNSIGHT Pro, Thomson Data Analyzer, VantagePoint. Asiatische Patentpublikationen (CN, IN, JP, KR, SG, TW) stellen eine Herausforderung für Datenbankanbieter und Rechercheure dar. Zum einen erzwingt die Globalisierung eine Berücksichtigung der asiatischen Schutzrechte und zum anderen ist es die hohe Zahl an Publikationen (nationale Patente und Gebrauchsmuster, aber auch EP- und WO-Publikationen mit ostasiatischen An-
D 15: Patentinformation und Patentinformationssysteme
675
meldern). Kommerzielle Datenbankanbieter haben in den letzten Jahren die Recherchemöglichkeiten in übersetzten Texten (intellektuelle oder Maschinenübersetzung) stark verbessert (Lit. 19). Bei kostenfreien Anbietern stehen lediglich für Japan und Korea englische Titel und Abstracts zur Verfügung. Rechtsstände von Japan und China sind in INPADOC verfügbar. Die Patentämter der asiatischen Länder bieten auch englischsprachige Oberflächen mit Recherchetools an. Es ist jedoch sehr aufwändig, diese Quellen einzeln zu durchsuchen. Das Europäische Patentamt bietet Informationen und Dienstleistungen rund um Patentinformation aus Asien an (URL25). Übersetzungstools spielen in der Patentinformation eine große Rolle, da die nationalen Patentdokumente in der Landesprache publiziert werden. In kostenfreien Datenbanken können zunehmend in besserer Qualität Echtzeit-Übersetzungen durchgeführt werden. Das Europäische Patentamt kooperiert mit Google, um die maschinelle Übersetzung von Patenten in verschiedene europäische, künftig auch slawische und asiatische Sprachen zu ermöglichen und die Übersetzungstechnologie in Bezug auf den speziellen Sprachgebrauch in Patenten weiter zu verbessern (Patent Translate – URL26). In kommerziellen Datenbanken werden intellektuell übersetzte und maschinenübersetzte Volltexte angeboten. CPC (Cooperative Patent Classification (URL27) ist das gemeinsame Klassifikationssystem des EPA und des USPTO ab 1.1.2013. Die Europäische Klassifikation ECLA und die Klassifikation des US-Patentamtes werden dann wegfallen. Die CPC basiert auf der ECLA mit verbesserter Ausrichtung auf die Standards der IPC. Neue Funktionen werden implementiert, um die besten Klassifizierungspraktiken des EPA und des USPTO zu integrieren. Der Umfang wird ca. 200.000 Codes betragen und die Hierarchie (Anzahl der Punkte) wird erhalten bleiben (Lit. 20). Die CPC soll ein Zwischenschritt zu einer anvisierten Hybridklassifikation sein, in die weitere Klassifikationssysteme integriert werden sollen. CCD (Common Citation Document, URL28) ist ein Patentinformationstool, das von dem EPA, dem JPO und dem USPTO entwickelt wurde. Es bietet einen Zugang zu den Zitierungsdaten (Prüfer- und Anmelderzitierungen) der geprüften Patentanmeldungen. Damit werden die Rechercheergebnisse der beteiligten Ämter in einem Dokument zusammengefasst und der Stand der Technik repräsentiert.
Literatur 01 DPMA Patentinformation – http://www.dpma.de/patent/patentinformation/index.html 02 DPMAinformativ: Informationen über Patentdokumente des In- und Auslandes – http://www.dpma.de/ ponline/ipia/03_DPMAinformativ_IPIA.pdf 03 E. Thomä; R. Tribiahn: Leitfaden zu Patentrecherchen mit STNEasy, Karlsruhe: FIZ Karlsruhe, 2005 – http://www.stn-international.de/fileadmin/be_user/STN/pdf/search_materials/patents/EasyGuide_ de.pdf 04 E. Thomä; R. Tribiahn: Dokumentenartencodes in STN-Patentdatenbanken, Karlsruhe: FIZ Karlsruhe, 2012 – http://www.paton.tu-ilmenau.de/pdf/PKCodes_A4_2011-07.pdf 05 E. Thomä; R. Tribiahn: Leitfaden zu STN-Patentdatenbanken, Karlsruhe: FIZ Karlsruhe, 2012 – http://www. stn-international.de/fileadmin/be_user/STN/pdf/search_materials/patents/GuideFull_de_2012.pdf 06 E. Thomä: Patentrecherchen – von der Entwicklung bis zur Vermarktung. OMPF Oldenburger Patent und Markenforum, 2010 – http://www.opmf.de/download/patentrecherchen_oldenburg.pdf 07 SIGNO-Partner und PIZ-Netzwerk: Standard für Recherchen zu gewerblichen Schutzrechten, 2010 – http://www.signo-deutschland.de/e5072/e6133/SIGNORecherche-Standard_Januar2010.pdf 08 H. B. Cohausz; H. Wupper: Gewerblicher Rechtsschutz und angrenzende Gebiete: Leitfaden für die Praxis. Carl Heymanns: Auflage April 2010 09 E. Thomä: SELECT bis ANAVIST – STN Tools für Patentstatistik. Proceedings der 29. Online-Tagung der DGI, 59. Jahrestagung der DGI, Frankfurt am Main, 2007, 53-66 10 C. Sternitzke; A. Bartkowski; H. Schwanbeck; R. Schramm: Patent and literature statistics – The case of
676
11 12 13 14 15 16
17
18 19
20
21
D 15: Elke Thomä, Heike Schwanbeck
optoelectronics. World Patent Information Vol. 29, 2007, 4, 327-338 A. Bartkowski; R. Schramm; H. Schwanbeck: Analyse chinesischer Patente. Proceedings des 30. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2008, 191-206 E. Nijhof: Searching? Or actually trying to find something? – The comforts of searching versus the challenges of finding. World Patent Information Vol. 33, 2011, 4, 360-363 R. Oltra-Garcia: Efficient situation specific and adaptive search strategies: Training material for new patent searchers. World Patent Information, Vol. 34, 2012, 1, 54-61 C. Emmerich; E. Thomä: Patentfamilien auf STN – Konzepte, Qualität, Vollständigkeit. Proceedings des 32. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2010, 307-324 C. Emmerich: Comparing first-level patent data with value-added patent information: A case study in the pharmaceutical field. World Patent Information, Vol. 31, 2009, 2, 117-122 E. Thomä; C.-D. Siems, C. Emmerich: INPADOCDB und INPAFAMDB – zwei Konzepte ergänzen sich. Proceedings des 31. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2008, 143-155 J. Gromotka; E. Thomä: Numerische Suchen in Patentdatenbanken – Neue Möglichkeiten für gezielte Recherchen. Proceedings des 33. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2011, 169-181 K. Whitman: Intellogist: An online community dedicated to comparing major patent search systems. World Patent Information, Vol. 33, 2011, 2, 168-179 E. Thomä; C.-D. Siems; C. Emmerich: Asiatische Patente – Der Rechercheur vor neuen Aufgaben. Proceedings des 30. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2009, 209-225 P. Held: Cooperative Patent Classification (CPC): Ein gemeinsames Klassifikationssystem für das EPA und das USPTO. Proceedings des 34. Kolloquiums der TU Ilmenau über Patentinformation (PATINFO), Ilmenau: Techn. Univ., 2012, 167-182 S. Adams: Information Sources in Patents. De Gruyter Saur: 3. Revised edition 2011
URL-Verzeichnis URL1 http://www.piznet.de/ URL2 http://www.epo.org/searching/patlib.html URL3 http://www.epo.org/ URL4 http://www.uspto.gov/ URL5 http://www.jpo.go.jp/ URL6 http://www.kipo.go.kr/ URL7 http://www.sipo.gov.cn/ URL8 http://www.wipo.int/directory/en/ URL9 http://www.epo.org/service-support/useful-links.html URL10 http://depatisnet.dpma.de/ipc/ (deutsch, englisch, französisch) URL11 http://www.wipo.int/classifications/ipc/ipc8/ (englisch, französisch) URL12 http://www.epo.org/searching/data/data/tables/weekly_de.html URL13 http://depatisnet.dpma.de URL14 http://register.dpma.de URL15 http://at.espacenet.com URL16 http://worldwide.espacenet.com URL17 http://worldwide.espacenet.com URL18 http://www.epo.org/searching/free/publication-server.html URL19 http://www.epo.org/searching/free/bulletin.html URL20 http://patft.uspto.gov URL21 http://portal.uspto.gov/external/portal/pair
D 15: Patentinformation und Patentinformationssysteme
URL22 http://www.uspto.gov/news/og/patent_og/index.jsp URL23 http://patentscope.wipo.int/search/de/search.jsf URL24 http://www.ipdl.inpit.go.jp/homepg_e.ipdl URL25 http://www.epo.org/searching/asian.html URL26 http://www.epo.org/searching/free/patent-translate.html URL27 http://www.cpcinfo.org/) URL28 http://www.trilateral.net/citation.html
677
Index
Index A AAT (Art and Architecture Thesaurus) 612 Abfragesprache 211 Abstract 286, 288 Abstracting 252, 269 Abstraktion 294 Abstraktionsrelation 215 Advanced Encryption Standard (AES) 472 Ähnlichkeitsberechnung 243 Ähnlichkeitsmaß 324, 353 Ajax (Asynchronous JavaScript and XML) 154 Akkreditierung 35 AKMB (Arbeitsgemeinschaft Kunst- und Museumsbibliotheken) 609 ALGOL 60 160 Allgemeines Künstler-Lexikon 613 ALPAC (Automatic Language Processing Advisory Committee) 305 Altmetrics 487 American Society for Information Science and Technology 5, 11 Anapher 291, 294 Anomalous State of Knowledge 110, 336, 340 Anonymität 467 Anzeigenblatt 637 App 147, 419, 444, 638, 642 Äquivalenz 302, 307 Äquivalenzrelation 215 Arbeitsgemeinschaft Kunst- und Museumsbibliotheken 609 Archiv 25, 134, 529, 530, 577, 596, 609, 617 Archivexemplar 59 Archivgut 597 Archivierung 530, 597 Archivwissenschaft 597 Art and Architecture Thesaurus 612 ArXiv 381, 512, 524 ASI (Austrian Standards Institute) 545 ASIS (American Society for Information Science) 5 ASIS&T (American Society for Information Science and Technology) 5, 11 ASK (anomalous state of knowledge) 110, 336, 340 Assoziationsmaß 186 Assoziationsrelation 215 Asymmetrische Verschlüsselung 473 Asynchronous JavaScript and XML 154 Audiovisual Work Identifier 541
679
Augment 88 Ausbildung 25, 538 Ausbildung Museumswesen 610 Ausleihe 57 Austrian Standards Institute 545 Auswertung 127, 128, 131, 133 Authentifikation 466 Authentizität 466 Automatic Language Processing Advisory Committee 305 Automatische Indexierung 272 Automatisches Abstracting 286, 297 Autorisierung 467
B Backus-Naur-Form 160 Bannerwerbung 413 Baumstruktur 197 Bearbeitungsrecht 41 Befragung 98, 129, 137, 140, 413 Begriffssystem 177 Benutzer 229, 238, 326, 340 Benutzeraufgabe 193 Benutzerbedürfnis 337 Benutzererlebnis 435 Benutzerfokussierung 432 Benutzerinteraktion 193 Benutzermodellierung 238 Benutzerpräferenz 240 Benutzerschnittstelle 338 Benutzerverhalten 336 Benutzungsoberfläche 433, 436 Beobachtung 98, 130, 131 Berichterstattung 65 Berliner Erklärung über offenen Zugang zu wissenschaftlichem Wissen 379 Berufsausbildung 25 Bestandserhaltung 601 Bestandsrelation 215 Bibliographie 13, 149, 558, 628, 670 Bibliometrie 479 Bibliothek 57, 59, 80, 520, 623 Bibliothekar 630 Bibliothek, digitale 629 Bibliotheksangst 139 Bibliotheksbau 627 Bibliothekskatalog 156 Bibliotheksnutzung 624 Bibliothekswissenschaft 29, 31, 136, 623 Big Data 575 Bildarchiv Foto Marburg 611
680
Index
Bildklassifikation 354 Bildsegmentierung 348, 354, 355 Bildverarbeitung 348 Bing 497 biometrisch 348 Blended Library 114 Blog 563 BNF (Backus-Naur-Form) 160 Bologna-Prozess 27, 29, 31, 33 Bonus-Liste 287 Boolesches Retrieval 322, 338, 399 Bot 469 Bradfords Gesetz 480 Browsing 97, 101, 106, 120, 145, 495 Bücherautodienst 521 Buchhandel 648, 656 Budapest Open Access Initiative 380 Buffer-Overflow 468
C C3S (Cultural Commons Collecting Society) 455 CA (Certification Authority) 475 Caesar-Addition 471 Canadian Heritage Information Network 612 CC (Creative Commons) 389, 460, 461 CEN (Comité Européen de Normalisation) 544 CENELEC (Comité Européen de Normalisation Electrotechnique) 544 Certification Authority 475 Chiffrieren 470 CHIN (Canadian Heritage Information Network) 612 CIDOC (International Committee for Documentation) 610 Citation Index 480 Cited Half-Life 487 Citing Half-Life 487 CLEF (Cross-Language Evaluation Forum) 404 Client/Server-Konzept 145 Cloud 376, 466, 488, 511, 592 Clustering 186, 246, 266 Cognitive Map 111 Cognitive Turn 15, 110 Comité Européen de Normalisation 544 Comité Européen de Normalisation Electrotechnique 544 Commoners 75 Common Pool Resources 74 Commons 17, 68 Commons-based economy 71 Computer Supported Cooperative Work 88, 121 Computervermittelte Kommunikation 424
Computervirus 468 Cookie 49, 151 Cosinus-Maß 324 CPR (Common Pool Resources) 74 Crawling 495, 497, 499 Creative Commons 389, 460, 461 Cross-Language Evaluation Forum 404 Crossmedia 644 Cross-Site-Scripting 469 CSCW (Computer Supported Cooperative Work) 88, 121 Cultural Commons Collecting Society 455 CvK (Computervermittelte Kommunikation) 424
D Data Dictionary 167 Data Encryption Standard 472 Data Mining 50, 93, 183 Data Table 193 Datenaustauschformat 613 Datenbank 60, 166, 511 Datenbankschema 167 Datenerhebung 129, 136 Datenfeldkatalog 612 Datenschutz 47, 48, 50, 569 Datensicherheit 248 Datenspeicherung 466 Datenübertragung 466 DDB (Deutsche Digitale Bibliothek) 617, 618, 629 Dechiffrieren 470 Delicious 86 Dependenzstrukturanalyse 261 DES (Data Encryption Standard) 472 Desktop Publishing 511 Deutsche Digitale Bibliothek 617, 618, 629 Deutsche Forschungsgemeinschaft 520, 532, 579 Deutsche Historische Museum 616 Deutsche Initiative für Netzwerkinformation 384, 458 Deutsche Nationalbibliothek 59, 531, 613 Deutsches Institut für Normung 545 Deutsches Patent- und Markenamt 661 Deutsche Zentralbibliothek für Medizin 521 Deutsche Zentralbibliothek für Wirtschaftswissenschaften 521 Dexter-Hypertext-Referenzmodell 91 Dezimalklassifikation 162 DFG (Deutsche Forschungsgemeinschaft) 520, 532, 579 DHM (Deutsche Historische Museum) 616 Didaktik 585
Index
digiCULT 617 Digitale Bibliothek 629 Digitale Signatur 475 Digitalisierung 40 Digitalkopie 379 Digital Object Identifier 149 Digital Peer Publishing 459, 462 Digital Rights Management 45, 525 DIN (Deutsches Institut für Normung) 545 DINI (Deutsche Initiative für Netzwerkinformation) 384, 458 DiPP (Digital Peer Publishing) 459, 462 Directory of Open Access Journals 384 Direkte Manipulation 201 Direktlieferdienst 521 Display Advertising 413 DIW-Hierarchie 3 DNB (Deutsche Nationalbibliothek) 59, 531, 613 DNS-Spoofing 469 DOAJ (Directory of Open Access Journals) 384 Document Delivery 520 Document Manager 649 Document Type Definition 163 Document Web 219 DOI (Digital Object Identifier) 149 Dokumentlieferung 520 Dokumenttypdefinition 152 DPMA (Deutsches Patent- und Markenamt) 661 DRM (Digital Rights Management) 525 Druckwesen 648 DTD (Document Type Definition) 152, 163 Dublin Core 165, 541, 614, 629
E EAD (Encoded Archival Description) 606 E-Book 57, 509, 515 EDIFACT 541 Effektivitätsbewertung 399 Effektivitätsmaße 399 Eigentum, geistiges 71 Eigentumsrecht 81 Eingangsbuch 610 Einspruchsrecherche 668 Einzelautorenschaft 482 E-Journal 509 E-Learning 584 Elektronischer Umschlag 475 Elektronisches Publizieren 509 ElGamal (Kryptosystem) 473 E-Mail-Marketing 412, 414 Emotion 101, 115
681
Empfehlungssystem 238 Empirische Sozialforschung 126, 139 Emulation 530 Encoded Archival Description 606 Enigma 471 EN-Norm 543 Entertainment 639 Enzyklopädie 550, 559 EPA (Europäisches Patentamt) 671 E-Print 512 Erhebung, qualitative 140 Erhebung, quantitative 139 Erschließungsverfahren 229 Erschöpfungsgrundsatz 43 Ethnografie 136 ETSI (European Telecommunication Standards Institute) 544 Europäisches Patentamt 671 Europäische Standardisierung 543 Europeana 617 European Committee for Standardization 544 European Telecommunication Standards Institute 544 Eurotra 306 Evaluierung 296, 310, 396 Expertenwissen 113 eXtensible Markup Language 154, 164, 223 Extraktion 281, 286, 290, 296
F Facebook 86, 91, 514, 564 Fachinformation 15 Fachterminologie 302 Fachverlag 522 Fachzeitschrift 10, 479, 638 FDL (Free Documentation License) 459 Feedback 98 Fernleihe 520 Fernsehen 638 Film 64, 640 Filterung 240, 243, 315, 427 Findbuch 603 Findmittel 602 FIRE (Forum for Information Retrieval) 405 Firefox 153 FOAF Ontology 216 Folksonomie 178, 229 Formale Semantik 214 Formkommentar 554 Forschungsdaten 169, 575 Forschungsfinanzierung 387
682
Index
Fortbildung 538 Forum for Information Retrieval 405 Fragebogen 129 Frame 293, 294 Free Documentation License 459 Freemium 642 Freeware 459 Frequenz 314 Fress (Hypertext-System) 88 Fuzzy Retrieval 323
G Games 639 GATE 189 Gebrauchstauglichkeit 431 Gedächtnis 598 Geheimhaltung 466 Geisteswissenschaft 6, 12, 14, 17, 116 GEMA (Gesellschaft für musikalische Aufführungsund mechanische Vervielfältigungsrechte) 455 Gemeinfreiheit 17, 73 Gemeingut 70 Gemeinsame Normdatei 613 General Public License 459 Geräteabgabe 456 Geschäftsgrafik 194 Geschäftsmodell 79 Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte 455 Gesichtserkennung 348, 351 Gestaltungshöhe 39 Gewichtung 332, 336 GND (Gemeinsame Normdatei) 613 GNU General Public License 459 Google 53, 497 Goportis 521 GPL (GNU General Public License) 459 Graphical User Interface 436 Grounded Theory 139 Grundformerzeugung 276 Grundrecht 71 GUI (Graphical User Interface) 436 Gültigkeitsrecherche 668 Gut, öffentliches 74 Gut, privates 75
H Haftung 52 Halbautomatische Indexierung 272 HAM (Hypertext Abstract Machine) 91 Hermeneutik 2, 13
h-Index 485 Histogramm 350, 351, 353 Hochschulverband Informationswissenschaft 5 Hörfunk 638 HTML (HyperText Markup Language) 145, 152, 164 HTTP (HyperText Transfer Protocol) 145, 149, 220 Human Interaction 193 Hybride Verschlüsselung 473 Hypercard 88 Hyperlink 52, 86, 500 Hypertext 15, 86, 93, 152, 219, 514, 554 Hypertext Abstract Machine 91 HyperText Markup Language 145, 152, 164 Hypertextsystem, offenes 91 HyperText Transfer Protocol 145, 149, 220
I ICA (International Council on Archives) 607 ICANN (Internet Corporation for Assigned Names and Numbers) 443 ICOM (International Council of Museums) 610 ICONCLASS 613 Identifikator 576 IDF (inverse document frequency) 280, 327 IEC (International Electrotechnical Commission) 543 IFLA (International Federation of Library Associations and Institutions) 547 IFLA-Standard 547 Immaterialgüterrecht 39 Impact Factor 10, 483, 485 Impact-Messung 487 Indexierung 232, 252, 268, 272, 287, 322, 328, 497, 500 Indexierung, halbautomatische 272 Indexierung, intellektuelle 272 Indikatorik 483 INEX (Initiative for the Evaluation of XML Retrieval) 406 Informale Semantik 214 Informatik 13, 336 Information Anxiety 109, 119 Information (Begriff) 1 Information Behaviour 99 Information Engineering 31 Information Foraging Theory 112 Information Grounds 119, 120 Information Overload 119 Information Retrieval 6, 13, 15, 89, 103, 117, 119, 174, 232, 268, 273, 296, 322, 336, 396, 495 Informationsangebot 366 Informationsarbeit 3, 15, 25, 35, 88, 98, 99
Index
Informationsarmut 118 Informationsbedarf 100, 126 Informationsbedürfnis 97, 100, 104, 109, 110, 338, 341 Informationsdienstleistung 520 Information Seeking 11, 97, 109, 113, 117, 139, 336, 343 Informationsethik 76, 77 Informationsextraktion 184, 252, 269 Informationsfreiheit 71 Informationsgesellschaft 7, 86 Informationskompetenz 4, 26 Informationslinguistik 252, 273 Informationsmanagement 25, 31, 219, 365 Informationsmarkt 25, 78, 81 Informationsnachfrage 366 Informationsökologie 68, 72 Informationsqualität 18, 366 Informationsrecht 39 Informationssoziologie 13 Informationsspezialist 25, 32 Informationstheorie 3, 17 Informationsverarbeitung, soziale 428 Informationsverhalten 97, 104, 109, 336 Informationsvermittlung 25, 338 Informationsvisualisierung 192, 433 Informationswirtschaft 16, 365 Informationswissenschaft 1, 29, 31, 34, 86, 110, 136, 336, 339 Informatisierung 15 Informetrie 479 Inhaltsanalyse 132, 133 Inhaltserschließung 230 Initiative for the Evaluation of XML Retrieval 406 Institut für Museumsforschung 610, 611 Institutionalisierungsform 75, 76 Institutionenökonomik 72, 74 Integrität 466 Intellektuelle Indexierung 272 Intelligenz, künstliche 13, 15, 320 Interaktion 431, 446 Interaktivität 339 Interlingua 304, 306 Intermedia 88 International Committee for Documentation 610 International Council of Museums 610 International Council on Archives 607 International Electrotechnical Commission 543 Internationale Patentklassifikation 666 Internationaler Standard Ton- und Bildtonaufnahmeschlüssel 541
683
Internationale Standard-Musik-Nummer 541 International Federation of Library Associations and Institutions 547 International Organization for Standardization 543 International Standard Book Description 162 International Standard Book Number 541 International Standard Identifier for Libraries and related Organizations 613 International Standard Musical Work Code 541 International Standard of Archival Description (General) 606 International Standard Serial Number 541 International Telecommunication Union 543 Internet Corporation for Assigned Names and Numbers 443 Internet Governance 442 Internetrecht 39, 56, 63 Interoperabilität 532 Interview 136 Inventarisierung 610 Inverse Document Frequency 280, 327 IPC (Internationale Patentklassifikation) 666 ISAD (G) (International Standard of Archival Description (General)) 606 ISAN (Audiovisual Work Identifier) 541 ISBD (International Standard Book Description) 162 ISB (Information Seeking Behaviour) 97 ISBN (International Standard Book Number) 541 ISIL (International Standard Identifier for Libraries and related Organizations) 541, 613 ISMN (Internationale Standard-Musik-Nummer) 541 ISO (International Organization for Standardization) 543 ISO-Norm 543, 545, 546 ISRC (Internationaler Standard Ton- und Bildtonaufnahmeschlüssel) 541 ISSN (International Standard Serial Number) 541 ISWC (International Standard Musical Work Code) 541 IT-Governance 372 ITU (International Telecommunication Union) 543
J JavaScript 146, 153 Journalismus 642
K Kanalreduktions-Modell 426 Katalogisierung 628 Kino 640 Klassifikation 13, 14, 162, 186, 268, 330, 351, 354,
684
Index
355 Kleine Münze 39 Kognition 192, 348 Kognitionspsychologie 112, 113, 114 Kognitionswissenschaft 113 kognitiv 99, 101, 286, 336 Kognitives Information Retrieval 6, 336 Kohärenz 290, 292 Kohäsion 290, 291 Kollaboration 18, 105, 106, 121 Kollaborative Filterung 243 Kommunikationsökologie 68 Kommunikationstechnik 369 Kommunikationsverhalten 424 Kommunikationswissenschaft 13, 121 Kompetenzanalyse 139 Komposita 278, 309 Kontrolle, terminologische 177 Konversationslexikon 551 Konzelationssystem 470 Konzepterkennung 351 Kookkurrenz 341 Kosten-Nutzen 113, 119 Kreuzqualifikation 29, 33 Kryptoanalyse 470 Kryptologie 470 Kryptosystem 470 Kundenzufriedenheit 127, 134 Kunst, bildende 64 Künstliche Intelligenz 13, 15, 320
L Langzeitarchivierung 388, 529 Latent Semantic Indexing 284 Learning Management System 585 Learning Object Metadata 589 Leermedienabgabe 456 Lehrmethode 585 Leihverkehr 521 Leistungsschutz 39, 42, 44, 642 Lemmatisierung 254, 552 Lernalgorithmus 266, 348, 351 Lernen 3, 295, 303, 329, 584 Lernen, maschinelles 348 Lernmaterial 586 Lernmedien 584 Lernmethode 585 Lernplattform 584 Lernstil 104 Lesegerät 511 Lexikalische Semantik 257
Lexikographie 559 Lexikon 252, 303, 550 LIDO (Lightweight Information Describing Objects) 613, 615 Lightweight Information Describing Objects 613, 615 linear 86 LingPipe 189 Linguistik 252 Link 332 Linked Open Data 219, 224 Literaturrecherche 127 Literaturversorgung 524 Lizenz 57, 60, 454, 579 LOM (Learning Object Metadata) 589 Lotkas Gesetz 481 LSI (Latent Semantic Indexing) 284 Lucene 189 LuKII 537 LVO (Leihverkehrsordnung) 521
M Makrostruktur 552 Manipulation 201 MAP (Mean Average Precision) 404 Marketing 411 Maschinelles Lernen 184, 266, 348 Maschinelle Übersetzung 269, 293, 302 Massenmedium 204, 634 Matching-Paradigma 15 Math-Net 382 MCI (Mensch-Computer-Interaktion) 431 Mean Average Precision 404 Mean Normalized Citation Score 486 Media Provider 649 Medical Literature Analysis and Retrieval System 510 Medien 634 Mediendidaktik 585 Medienwirtschaft 634 Medium, digitales 584 MEDLARS (Medical Literature Analysis and Retrieval System) 510 MEDLINE (MEDLARS online) 510 Mehrautorenschaft 482 Mehrworterkennung 279 Memex 87, 92 Mensch-Computer-Interaktion 111, 431, 432 Messung 127, 132 Metadaten 159, 172, 173, 207, 340, 514, 534, 576 Metasuchmaschine 496 Microsoft 497 Migration 530
Index
Mikrostruktur 554 MNCS (Mean Normalized Citation Score) 486 Mobiltelefon 419 Morphologie 274, 294, 306, 339 Multimedia 64 Münze, kleine 39 Museum 609 museumdat 614, 615 museum-digital 611 Museumsdokumentation 610, 611 Museumsdokumentationsverbund 611 MusIS (Museumsdokumentationsverbund) 611 Mustererkennung 90, 313, 348, 349, 354
N NABD (Normenausschuss Bibliotheks- und Dokumentationswesen) 545 Nachhaltigkeit 69, 70, 72, 77 Nachnutzbarkeit 532 Nachnutzung 576 Nachschlagewerk 550 Narrative Visualisierung 204 National Bibliography Number 149 Nationallizenz 524 Natural User Interface 436 Natürliche Sprache 183, 273 Navigation 89, 176 NBN (National Bibliography Number) 149 nestor 533 Netscape 146, 153 Netzkultur 429 Netzwerk, soziales 86, 105 Neuheitsrecherche 668 News Aggregation 188 n-Gramm 295, 311 NII Test Collection for IR Systems 405 NMCR (Normalized Mean Citation Rate) 486 Nominalphrasenanalyse 263 Norm 541 Normalized Mean Citation Rate 486 Normenausschuss Bibliotheks- und Dokumentationswesen 545 Normung 541 NoteCards 88 NTCIR (NII Test Collection for IR Systems) 405 NUI (Natural User Interface) 436 Numerische Daten 183 Nutzen 296 Nutzer 109 Nutzermarkt 634 Nutzermodellierung 18, 93
685
Nutzerverhalten 89 Nutzungsrecht 42, 454, 456 Nutzungsstatistik 488
O OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) 155 OAIS (Open Archival Information System) 534, 547, 577 Objektklassifikation 615 Objektlokalisation 354 Objektspezifikation 147 OCLC (Online Computer Library Center) 116, 162 ODBL (Open Database License) 459 Ökologie 69, 111 Ökonomie 69 Online-Banking 477 Online Computer Library Center 116, 162 Online-Kommunikation 424 Online-Marketing 411 Online-Public-Access-System 159 Ontologie 172, 177, 207, 222 Ontologiesprache 207 Ontology Working Language 224 OPAC (Online-Public-Access-System) 159 Open Access 53, 58, 76, 77, 379, 380, 458, 459, 509, 577 Open-Access-Net 383 Open Archival Information System 547, 577 Open Archives Initiative Protocol for Metadata Harvesting 155 Open Content 379, 458 Open Data 380, 389 Open Database License 459 Open Source 68, 463, 538 Opinion Mining 188 Orientierungswissen 4 Outsourcing 49 Overfitting 352 Overstemming 276 OWL (Web Ontology Language) 207, 224
P PageRank 89, 330, 501 Paid Content 641 Parsing 259, 289, 292, 294 Patent 661 Patentdatenbank 669, 670 Patentierbarkeitsrecherche 668 Patentinformation 661 Patentnummer 663
686
Index
Patentometrie 479 Patentrecherche 667 Patentrecht 39 Patentschrift 663 Patentverletzungsrecherche 668 Paywall 641 Permuterm Subject Index 480 Personalisierung 238 Personennamendatei 613 Persönlichkeitsrecht 41, 47, 56, 57, 66 Perzeptionsforschung 204 Pflichtexemplar 532 PhysNet 382 Plagiat 188, 390 Plansprache 306 PND (Personennamendatei) 613 Polyrepräsentation 341 postmodern 87 Practice Turn 16, 111 Pragmatic Turn 17 Pragmatik 2, 4, 305, 339 Präparator 610 Precision 187, 296, 326, 336, 399 PREMIS-Datenmodell 534 Preprint 381, 512 Primärdaten 579 Primat, pragmatischer 3, 8, 13 Print Factory 649 Private Key 473 Privatgut 75 Privatkopie 44, 57, 58, 59, 60, 456 Privatsphäre 189 probabilistisch 326 Professionalisierung 25 Programmiersprache 160 Protocol and RDF Query Language 211, 224 Provider 46, 50, 51, 52 Pseudonymisierung 468 Public Key 473, 475 Publikation 509 Publikationsfreiheit 79 Publikationsmarkt 78 Publikumszeitschrift 637 Publizieren, elektronisches 509
Q Qualität 295 qualitativ 98, 128, 133, 134, 140 Qualitätsmanagement 36 quantitativ 98, 128, 133, 134, 139
R Radio 638 Rahmenstruktur 552 Ranking 327, 336, 416, 501 Rational Choice 112 Raw Data 193 RDF (Resource Description Framework) 220, 443, 614 RDFS (Resource Description Framework Schema) 220 Recall 187, 296, 326, 336, 399, 501 Recherche, visuelle 201 Rechteübertragung 41 Redocumentarisation 13 regelbasiert 303, 348 Relationale Datenbank 166 Relevance Feedback 325, 330, 337, 341 Relevance Ranking 280 Relevanz 398 Relevanzmaß 264 Relevanzurteil 406 Repositorium 86, 155, 381, 524, 586 Repräsentation 322 res communes 73 res nullius 73 Resource Description Framework 220, 443, 614 Resource Description Framework Schema 220 res publicae 73 Restaurator 610 res universitatis 73 Retrieval 6, 13, 15, 89, 103, 117, 119, 174, 232, 268, 273, 296, 322, 336, 396, 495 Retrievalfunktion 322 Retrievalqualität 326 Retrieval, semantisches 179 RIF (Rule Interchange Format) 224 RSA (Kryptosystem) 473 Rule Interchange Format 224
S SAA (Society of American Archivists) 607 Sammelauftrag 531 Sammelwerk 64 Schlagwortnormdatei 613 Schöpfung, geistige 63 Schranke 42, 456 Schrifterkennung 348 Schriftgut 597 Schutzdauer 66 Schutzfrist 42, 56, 59 Schweizerische Normen-Vereinigung 545 Science Citation Index 480
Index
Searcher 497, 501 Secret Key 474 Segmentierung 355 Selbstarchivierung 380 Selbstbestimmung, informationelle 16, 47 Self-archiving 380 Semantic Web 91, 94, 162, 172, 178, 209, 219, 222, 223, 614 Semantik 2, 214, 257, 282, 293, 305, 339 Semantische Relation 258 Semantischer Kommentar 554 Semantisches Retrieval 179 Sequential Query Language 159, 168 Serendipity 120 Session Key 473 SGML (Standard Generalized Markup Language) 152, 163 Shareware 459 Sharing 121 Sicherheit 466 Signalverarbeitung 314 Signatur, digitale 475 Signifikanztest 403 SIPT (Social Information Processing Theory) 428 Small Data 575 Smartphone 420 SMB-digital 611 SNV (Schweizerische Normen-Vereinigung) 545 Social Bookmarking 234, 495 Social Information Processing Theory 428 Social Media 86, 91, 121, 234, 514 Social-Media-Marketing 412, 418 Social Navigation 230 Social Software 563 Social Tagging 178, 229 Social Web 91, 94, 216, 219, 229, 418, 562 Society of American Archivists 607 Sociological turn 111 Source Index 480 Soziale Maschine 449 Soziale Medien 562 Soziales Netzwerk 86, 105 Sozialforschung, empirische 126, 139 SPARQL (Protocol And RDF Query Language) 211, 224 Spatial Hypertext 92 Spectrum 612 Spider 499 Spiele 639 Spinnennetzdiagramm 197 Spoofing 469 Sprachanalyse 184
687
Sprache 1, 313 Sprache, natürliche 183 Spracherkennung 313 Sprachverarbeitung 183, 252 SQL-Injection 469 SQL (Sequential Query Language) 159, 168 SRU-Protokoll (Search/Retrieval via URL) 156 Staatsbibliothek zu Berlin 613 Standard 541 Standard Generalized Markup Language 152, 163 Standardisierung 541 Stand der Technik 668 Statistik 264, 303, 307, 348, 352, 358 Stemming 255, 275 Sterndiagramm 197 Stoppwort-Liste 287 subito 522 Suchanfrage 97 Suchmaschine 13, 18, 52, 145, 172, 240, 332, 495, 502 Suchmaschinenmarketing 414 Suchmaschinenoptimierung 416 Suchvokabular 175 Suchwortvermarktung 415 Surface Web 500 SWD (Schlagwortnormdatei) 613 Symmetrisches Authentifikationssystem 474 Symmetrische Verschlüsselung 471 Synonym 279 Syntaktische Analyse 259 Syntaktischer Kontext 257 Syntax 288, 289, 305, 306, 339 Systran 305 Szientometrie 479
T Tag (Auszeichnung) 163, 230 Tag Cloud 233 Tageszeitung 637 Tag Gardening 234 Tagging 230, 449 Taxonomie 162, 178 TCP/IP-basiert 145 TC (Trustcenter) 475 Technische Information 661 Technische Informationsbibliothek 521 TEI (Text Encoding Initiative) 163 Telekommunikationsgesetz 48 Telemediatisierung 6 Telemediengesetz 47, 49, 50, 52 Template 90
688
Index
Termhäufigkeit 280 Terminologische Kontrolle 177, 234 Territorialitätsprinzip 59 Text 287, 288, 302, 322 Text-Encoding-Inititiative 163 Text Mining 183, 252, 269 Text Retrieval Conference 337, 397 Textstatistik 279 Texttoken 254 Textzusammenfassung 286, 288 TGN (Thesaurus of Geographical Names) 613 ThemeViews 196 Thesaurus 177, 212, 281 Thesaurus of Geographical Names 613 Thumbnail 41 TIB (Technische Informationsbibliothek) 521 TileBar 195 TMG (Telemediengesetz) 47, 49, 50, 52 Tokenisierung 184 Tonkunst 64 Topic Map 178 Transfer 304 Transformationsmodell 3 Transkription 128 TREC (Text Retrieval Conference) 337, 397 Tree Map 197 TRIPS (Trade-related aspects of intellectual property rights) 57 Trojaner 468 Trustcenter 475 TV 638 Typologie 90
U Übersetzung, maschinelle 269, 293, 302 ULAN (Union List of Artist Names) 613 Umtext 552 Umwelt 112, 113, 114, 122 Understemming 276 UNESCO 70, 533 Uniform Resource Identifier 145 Uniform Resource Locator 147 Uniform Resource Name 147 Union List of Artist Names 613 Universallexikon 551 Unversehrtheit 466 Urheber 63, 66 Urheberpersönlichkeitsrecht 41, 46, 66 Urheberrecht 39, 53, 56, 59, 60, 63, 71, 77, 454, 456, 516, 526 Urheberrechtsgesetz 454
Urheberrechtsschranke 456 Urhebervertragsrecht 42 UrhG (Urheberrechtsgesetz) 454 URI (Uniform Resource Identifier) 145, 224 URL (Uniform Resource Locator) 147 URN (Uniform Resource Name) 147 Usability 132, 431, 435 User-Feedback 92
V VDA (Verband deutscher Archivarinnen und Archivare) 606 Vektormodell 265 Vektorraum 323, 325 Verband deutscher Archivarinnen und Archivare 606 Verband Österreichischer Archivarinnen und Archivare 607 Verbindlichkeit 467 Verbreitungsrecht 40, 65 Verein Schweizerischer Archivarinnen und Archivare 607 Verfügbarkeit 467 Vergütung 44 Verknappung 71, 72 Verlag 80, 81, 388, 454, 520, 648 Verlagsvertrag 457 Verschlüsselung 470 Verstehen 336 Verteilungsstruktur 552 Vertraulichkeit 466 Vervielfältigungsrecht 40, 65 Verweisstruktur 554 Verwendungsrecht 56, 57 Verwertung 455 Verwertungsgesellschaft 44, 57, 455, 526 Verwertungsrecht 40, 65 VG WORT 526 Vigenère-Verfahren 471 Virtualisierung 428 Virus 468 Visual analytics 204 Visualisierung 192, 204, 233 Visual Mapping 193 Visuelle Recherche 201 VÖA (Verband Österreichischer Archivarinnen und Archivare) 607 Vokabular 175, 176, 252, 276 Volltextversorgung 520 VSA (Verein Schweizerischer Archivarinnen und Archivare) 607
Index
W W3C (World Wide Web Consortium) 210, 222, 443 WAP (Wireless Application Protocol) 146 Web 89, 145, 454, 495, 500, 562 Web 2.0 219, 229, 445, 516, 562, 591 Web Governance 442 Web-Index 498 Web-Katalog 495 Web Mining 184 Webometrie 479 Web Ontology Language 207 Webregulierung 442 Web Science 441 Web-Verzeichnis 495 Weinberg-Report 15 Weiterbildung 31, 32, 33, 538 Weka 189 Weltwissen 113, 303 Werbemarkt 634 Wiki 563 Wikipedia 5, 86, 91, 555, 617 WIPO (World Intellectual Property Organisation) 662 Wireless Application Protocol 146 Wissen 1, 2, 68, 69, 109, 172, 303, 304, 336 Wissensallmende 68 Wissenschaft 39, 44, 53, 379 Wissenschaftliche Information 379 Wissenschaftsflatrate 53 Wissenschaftsfreiheit 79 Wissenschaftskommunikation 515 Wissenschaftsurheberrecht 53 Wissenschaftsverlag 458 Wissensmanagement 26, 31, 121, 365, 372 Wissensmodell 207 Wissensökologie 68, 78 Wissensökonomie 69, 78, 79, 82 Wissensorganisation 172, 207 Wissensrepräsentation 90, 207, 230, 293 Wissensverarbeitung 199 WordNet 189 World Intellectual Property Organisation 662 World Standards Cooperation 543 World Summit on Information Society 70 World Wide Web 86, 87, 88, 91, 145, 210, 219, 441, 495 World Wide Web Consortium 210, 222, 443 Wort 287, 306, 318, 320, 351 Wortart 256 Wörterbuch 305, 317, 550 Worterkennung 317
689
Wortform 253 Wortgruppe 304 WSC (World Standards Cooperation) 543 WSIS (World Summit on Information Society) 70
X Xanadu 87, 88 XML (eXtensible Markup Language) 154, 164, 223 XY-Punktdiagramm 195
Y Yahoo 497 YouTube 564
Z Zahlungssystem 476, 477 ZB MED (Deutsche Zentralbibliothek für Medizin) 521 ZBW (Deutsche Zentralbibliothek für Wirtschaftswissenschaften) 521 Zeichen 136 Zeichentheorie 3 Zeitschriftenmarkt 79 Zeitung 637 Zentrale Fachbibliothek 520 Zertifizierung 475, 548 Zielgruppe 636 Zipfsches Gesetz 264, 280, 287, 481 Zitation 479, 480 Zitationsindex 480 Zitationskennwert 485 Zitationsrate 483, 485 Zitierfreiheit 43, 44 Zugänglichmachung, öffentliche 41, 44 Zugriffssteuerung 467 Zugriffsstruktur 554 Zurverfügungstellungsrecht 65 Zweckübertragungsregel 42 Zweitverwertungsrecht 79, 458
Autoren- und Herausgeberverzeichnis
691
Autoren- und Herausgeberverzeichnis Reinhard Altenhöner (Kapitel D 4) Deutsche Nationalbibliothek [email protected] | www.dnb.de Prof. Dr. Rolf Assfalg (Kapitel B 2) Duale Hochschule Baden-Württemberg Heidenheim, Studiengang Informatik [email protected] | www.dhbw-heidenheim.de Sascha Beck M.A. (Kapitel C 9) Hochschule für Technik und Wirtschaft HTW Chur [email protected] | www.htwchur.ch Prof. Dr. Bernard Bekavac (Kapitel B 1) Hochschule für Technik und Wirtschaft (HTW) Chur (Schweiz) [email protected] | www.informationswissenschaft.ch Roland Bertelmann (Kapitel D 8) Deutsches GeoForschungsZentrum GFZ [email protected] Felix Bießmann (Kapitel B 17) Technische Universität Berlin, Machine Learning Group Alexander Binder (Kapitel B 17) Technische Universität Berlin, Machine Learning Group Prof. Dr. Thomas Breyer-Mayländer (Kapitel D 13) Hochschule Offenburg, Professur für Medienmanagement [email protected] | www.hs-offenburg.de Prof. Dr. Urs Dahinden (Kapitel A 10) Hochschule für Technik und Wirtschaft HTW Chur, Schweizerisches Institut für Informationswissenschaft SII [email protected] | www.htwchur.ch/informationswissenschaft/institut-sii/team/dozierende Elena Di Rosa (Kapitel C 8) Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden (SLUB) [email protected] Prof. Dr. Nicola Döring (Kapitel C 5) Technische Universität Ilmenau [email protected] | www.nicola.doering.de Axel Ermert (Kapitel D 11) Institut für Museumsforschung – Staatliche Museen zu Berlin, Stiftung Preußischer Kulturbesitz Sprecher, DGI-AKTS [email protected]
692
Autoren- und Herausgeberverzeichnis
Prof. Dr. Norbert Fuhr (Kapitel B 15) Universität Duisburg-Essen, Abteilung Informatik und Angewandte Kognitionswissenschaft [email protected] | www.is.inf.uni-due.de Prof. Dr. Ursula Georgy (Kapitel A 3) Fachhochschule Köln, Fakultät Informations- und Kommunikationswissenschaften, Institut für Informationswissenschaft [email protected] | www.fbi.fh-koeln.de/georgy.htm Florian Geyer (Kapitel C 6) Universität Konstanz, Fachbereich Informatik & Informationswissenschaft, Human-Computer Interaction Lab [email protected] | hci.uni-konstanz.de Prof. Dr. Stefan Gradmann (Kapitel B 7) Humboldt-Universität zu Berlin [email protected] Prof. Dr. Joachim Griesbaum (Kapitel C 4, D 7) Universität Hildesheim, Institut für Informationswissenschaft und Sprachtechnologie [email protected] | www.uni-hildesheim.de/social/collabuni/user/view.php?id=9 Prof. Dr. Udo Hahn (Kapitel B 10, B 12) Friedrich-Schiller-Universität Jena, Language & Information Engineering (JULIE) Lab [email protected] | www.julielab.de Prof. Dr. Rainer Hammwöhner (Kapitel A 7) Universität Regensburg, Institut für Information und Medien, Sprache und Kultur [email protected] www.uni-regensburg.de/sprache-literatur-kultur/informationswissenschaft/mitarbeiter/rainer-hammwoehner Dr. Stefanie Haustein (Kapitel C 10) Forschungszentrum Jülich GmbH [email protected] Prof. Dr. Ulrich Heid (Kapitel B 13) Universität Hildesheim, Institut für Informationswissenschaft und Sprachtechnologie [email protected] | www.uni-hildesheim.de/index.php?id=5543 Prof. i. R. Dr. Dr. Eberhard R. Hilf (Kapitel C 2) Institute for Science Networking Oldenburg GmbH an der Carl von Ossietzky Universität Oldenburg [email protected] | www.isn-oldenburg.de/~hilf Prof. Dr. Hans-Christoph Hobohm (Kapitel A 9, A 12, D 12) Fachhochschule Potsdam, Fachbereich Informationswissenschaften [email protected] | informationswissenschaften.fh-potsdam.de/3048.html Prof. Dr. Thomas Hoeren (Kapitel A 3) Universität Münster, Institut für Informations-, Telekommunikations- und Medienrecht [email protected] | www.uni-muenster.de/jura.itm/Hoeren
Autoren- und Herausgeberverzeichnis
693
Stephan Holländer (Kapitel A 4) Stephan Holländer Beratung, Basel [email protected] Dr. Hermann Huemer (Kapitel D 5) Experte für Qualitätsinfrastruktur [email protected]
|
www.academicus.info
Hans-Christian Jetter (Kapitel B 5) Universität Konstanz, Fachbereich Informatik & Informationswissenschaft, Human-Computer Interaction Lab scikon.uni-konstanz.de/personen/hans-christian.jetter Ben Kaden M.A. (Kapitel D 2) Zentrum Technik und Gesellschaft, Technische Universität Berlin [email protected] | tu-berlin.de/ztg/menue/team/mitarbeiterinnen/kaden_ben_ma Motoaki Kawanabe (Kapitel B 17) Technische Universität Berlin, Machine Learning Group Prof. Dr. Michael Kerres (Kapitel D 9) Universität Duisburg-Essen, Fakultät für Bildungswissenschaften, Lehrstuhl für Mediendidaktik und Wissensmanagement/Learning Lab [email protected] | mediendidaktik.uni-due.de/kerres Dr. Jens Klump (Kapitel D 8) Deutsches GeoForschungsZentrum GFZ [email protected] Prof. Dr. Helmut Krcmar (Kapitel C 1) TU München, Fakultät Informatik, Lehrstuhl für Wirtschaftsinformatik [email protected] | www.winfobase.de Prof. Dr. Rainer Kuhlen (Kapitel A 1, A 6, Herausgeber) Universität Konstanz, FB Informatik und Informationswissenschaft [email protected] | www.kuhlen.name Prof. Dr. Klaus Lepsky (Kapitel B 11) Fachhochschule Köln, Institut für Informationswissenschaft [email protected] | www.indexierung-retrieval.de Prof. Dr. Dirk Lewandowski (Kapitel D 1) Hochschule für Angewandte Wissenschaften Hamburg [email protected] | www.bui.haw-hamburg.de/lewandowski.html Dr. Karin Ludewig (Kapitel D 11) Hochschule Furtwangen, Netzwerk Frauen.Innovation.Technik Baden-Württemberg [email protected] | www.netzwerk-fit.de
694
Autoren- und Herausgeberverzeichnis
Prof. Dr. Bernd Ludwig (Kapitel B 14) Universität Regensburg, Institut für Information und Medien, Sprache und Kultur [email protected] www.uni-regensburg.de/sprache-literatur-kultur/informationswissenschaft/mitarbeiter/bernd-ludwig Prof. Dr. Thomas Mandl (Kapitel A 8, B 4) Universität Hildesheim [email protected] | www.uni-hildesheim.de/index.php?id=5549 Frank C. Meinecke (Kapitel B 17) Technische Universität Berlin, Machine Learning Group [email protected] | www.ml.tu-berlin.de/menue/members/frank_meinecke Prof. Dr. Angelika Menne-Haritz (Kapitel D 10) Vizepräsidentin des Bundesarchivs Apl. Prof. Deutsche Universität für Verwaltungswissenschaften Speyer [email protected] www.bundesstiftung-aufarbeitung.de/prof-dr-angelika-menne-haritz-1840.html Prof. Dr. Klaus-Robert Müller (Kapitel B 17) Technische Universität Berlin, Machine Learning Group und Korea University, Dept. Brain and Cognitive Engineering, Seoul [email protected] | www.ml.tu-berlin.de/menue/mitglieder/klaus-robert_mueller Jens Olf (Kapitel D 3) Technische Informationsbibliothek und Universitätsbibliothek Hannover (TIB/UB) [email protected] | www.tib-hannover.de Dr. Isabella Peters (Kapitel B 8) Heinrich-Heine-Universität, Institut für Sprache und Information, Abteilung für Informationswissenschaft [email protected] www.phil-fak.uni-duesseldorf.de/infowiss/mitarbeiter/wissenschaftliche-mitarbeiter-hilfskraefte/isabella-peters Dr. Annabell Preussler (Kapitel D 9) Universität Duisburg-Essen, Fakultät für Bildungswissenschaften, Lehrstuhl für Mediendidaktik und Wissensmanagement Learning Lab [email protected] | www.annabellpreussler.de Prof. Dr. Gerhard Reichmann (Kapitel A 5) Universität Graz, Institut für Informationswissenschaft und Wirtschaftsinformatik [email protected] | www.kfunigraz.ac.at/iwiwww/pers/reich.html Prof. Dr. Ulrich Reimer (Kapitel B 3, B 9) Fachhochschule St. Gallen, Institut für Informations- und Prozessmanagement [email protected] | www.ipmsg.ch/~ipm/index.php?Itemid=22 Prof. Dr. Harald Reiterer (Kapitel B 5, C 6) Universität Konstanz, Fachbereich Informatik & Informationswissenschaft, Human-Computer Interaction Lab [email protected] | hci.uni-konstanz.de
Autoren- und Herausgeberverzeichnis
Uwe Rosemann (Kapitel D 3) Technische Informationsbibliothek und Universitätsbibliothek Hannover (TIB/UB) [email protected] | www.tib.uni-hannover.de Dr. Mandy Schiefner-Rohs (Kapitel D 9) Universität Duisburg-Essen, Fakultät für Bildungswissenschaften, Lehrstuhl für Mediendidaktik und Wissensmanagement/Learning Lab [email protected] | uni-due.academia.edu/MandySchiefnerRohs Sabine Schrimpf (Kapitel D 4) Deutsche Nationalbibliothek [email protected] | www.dnb.de Heike Schwanbeck (Kapitel D 15) Technische Universität Ilmenau, PATON – Landespatentzentrum Thüringen [email protected] | www.paton.tu-ilmenau.de Prof. Dr. PhD Michael Seadle (Kapitel A 11) Humboldt-Universität zu Berlin [email protected] | www.ibi.hu-berlin.de/forschung/digibib/seadle Prof. Dr. Wolfgang Semar (Kapitel C 9, Herausgeber) Hochschule für Technik und Wirtschaft HTW Chur [email protected] | www.htwchur.ch Thomas Severiens (Kapitel C 2) Institute for Science Networking Oldenburg GmbH an der Carl von Ossietzky Universität Oldenburg [email protected] | www.severiens.de Prof. Dr. Ulrike Spree (Kapitel D 6) Hochschule für Angewandte Wissenschaften Hamburg, Fakultät Design Medien Information [email protected] | www.bui.haw-hamburg.de/pers/ulrike.spree Prof. Dr. Steffen Staab (Kapitel C 7) Universität Koblenz-Landau, Institute for Web Science and Technologies [email protected] | west.uni-koblenz.de Dietmar Strauch M.A. (Herausgeber) PROGRIS Projektgruppe Informationssysteme Berlin [email protected] | www.progris.de Elke Thomä (Kapitel D 15) Technische Universität Ilmenau, PATON – Landespatentzentrum Thüringen, [email protected] | www.paton.tu-ilmenau.de Rolf A. Tobler (Kapitel A 4) Fürsprecher, Bern [email protected]
695
696
Autoren- und Herausgeberverzeichnis
Dr. Dirk Tunger (Kapitel C 10) Forschungszentrum Jülich GmbH, Zentralbibliothek [email protected] | www.bibliometrie.de Dr. Katrin Weller (Kapitel B 6) GESIS – Leibniz-Institut für Sozialwissenschaften [email protected] | katrinweller.net Michael Weller (Kapitel C 8) Europäische EDV-Akademie des Rechts gGmbH [email protected] Prof. Dr. Helmut Wittenzellner (Kapitel D 14) Hochschule der Medien Stuttgart, Fakultät Druck und Medien [email protected] | www.hdm-stuttgart.de/pmm Prof. Dr. Christa Womser-Hacker (Kapitel A 8, B 16, C 3) Universität Hildesheim [email protected] | www-alt.uni-hildesheim.de/de/womser.htm