254 32 6MB
German Pages 561 [564] Year 2013
Handbuch Methoden der Bibliotheks- und Informationswissenschaft
Handbuch Methoden der Bibliotheksund Informationswissenschaft Bibliotheks-, Benutzerforschung, Informationsanalyse
Herausgegeben von Konrad Umlauf, Simone Fühles-Ubach und Michael Seadle Redaktion: Petra Hauke
ISBN 978-3-11-025553-9 e-ISBN 978-3-11-025554-6 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar © 2013 Walter de Gruyter GmbH, Berlin/Boston Druck und Bindung: Hubert & Co. GmbH & Co. KG, Göttingen ♾ Gedruckt auf säurefreiem Papier www.degruyter.com
Inhalt Einleitung
21
Konrad Umlauf Literaturbericht – Wie geht man vor, um einen guten Literaturbericht zu schreiben? Michael Seadle Entwicklung von Forschungsdesigns Lars Rinsdorf Qualitative Methoden
41
64
Simone Fühles-Ubach und Konrad Umlauf Quantitative Methoden 80 Simone Fühles-Ubach Quantitative Befragungen Simone Fühles-Ubach Online-Befragungen
96
114
Petra Werner Qualitative Befragungen
128
Nathalie Mertes Fallstudien 152 Tobias Galliat Clusteranalyse und Diskriminanzanalyse Christian Schlögl Logfile- und Link-Analysen
184
Gerd Richter Methoden der Usability-Forschung Elke Greifeneder Benutzerforschung
257
203
168
25
6
Inhalt
Konrad Umlauf Methoden der Marktforschung und Bedarfsanalyse Michael Seadle Ethnomethodologie
284
315
Frank Havemann Methoden der Informetrie
338
Vivien Petras Methoden für die Evaluation von Informationssystemen
368
Wolfgang Coy Modellierung und Tests als methodische Grundbausteine der Informatik Eric W. Steinhauer Juristische Methoden und Arbeitstechniken Helmut Volpers Inhaltsanalyse
412
Reiner Keller Diskursanalyse
425
Alice Keller Delphi-Methode
398
444
Ursula Rautenberg Methoden der buchwissenschaftlichen Forschung Elmar Mittler Historische Bibliotheksforschung
483
Sandra Rühr, Marina Mahling und Axel Kuhn Methoden der modernen Lese- und Leserforschung Register
547
Autoren & Herausgeber
561
461
525
387
Inhalt Konrad Umlauf, Simone Fühles-Ubach, Michael Seadle Einleitung 21 Konrad Umlauf Literaturbericht – Wie geht man vor, um einen guten Literaturbericht zu schreiben? 25 1 Einleitung 25 2 Gattungen der bibliotheks- und informationswissenschaftlichen Literatur 3 Beurteilungsdimensionen 29 3.1 Wissenschaftliches Niveau 29 3.2 Nutzwert für die Praxis 30 3.3 Quellenwert für die Wissenschaft 30 4 Fragestellungen und Vorgehensweisen 31 5 Beispiele für Literaturberichte 35 6 Bibliografische Datenbanken 37 7 Literatur- und Quellenverzeichnis 39 Michael Seadle Entwicklung von Forschungsdesigns 41 1 Einführung 41 2 Forschungsdesign 42 3 Forschungsfragen 43 4 Datenerhebung 46 4.1 Daten aus Befragungen 47 4.2 Archiv-Daten 51 4.3 Beobachtungsdaten 52 4.4 Textdaten 54 5 Analytics und Analyse 55 5.1 Daten kennenlernen 56 5.2 Daten bereinigen 56 5.3 Hypothesen-Tests 59 6 Bedeutung 60 7 Resümee 61 8 Literatur- und Quellenverzeichnis 62 Lars Rinsdorf Qualitative Methoden 64 1 Was ist qualitative Forschung? 64 2 Verhältnis von Forschenden und Forschungsgegenstand 3 Dimensionen qualitativer Forschung 69
66
28
8
4
5 6 7
Inhalt
Besonderheiten in der Praxis qualitativer Forschungsprojekte 70 4.1 Formulierung von Forschungsfrage und Forschungsgegenstand 70 4.2 Auswahl geeigneter empirischer Methoden 71 4.3 Sampling 73 4.4 Auswertung und Interpretation 75 Gütekriterien und Verallgemeinerbarkeit qualitativer Forschung 77 Anwendbarkeit auf Fragestellungen der Informations- und Bibliothekswissenschaft 78 Literatur- und Quellenverzeichnis 79
Simone Fühles-Ubach und Konrad Umlauf Quantitative Methoden 80 1 Einleitung 80 2 Primär- und Sekundärforschung 82 3 Methoden der Primärforschung 83 3.1 Befragung 83 3.2 Beobachtung 84 3.3 Experiment 84 3.4 Panel 85 4 Quantitative Methoden in der Bibliotheks- und Informationswissenschaft 4.1 Liqual+ 87 4.2 Bibliotheksindex 88 4.3 Kontingente Bewertungsmethode 88 5 Vorzüge quantitativer Daten 89 5.1 Ergebnisse, die mit quantitativen Daten erzielt werden können 89 5.2 Nähe quantitativer Daten zu betriebswirtschaftlichen Fragestellungen 91 6 Kausalitätsaussagen auf Basis quantitativer Daten 92 7 Literatur- und Quellenverzeichnis 93 Simone Fühles-Ubach Quantitative Befragungen 96 1 Einleitung 96 2 Ziele, Fragestellungen und Hypothesen 96 3 Formen der quantitativen Befragung 98 3.1 Persönliche Befragung 99 3.2 Schriftliche Befragung 99 3.3 Telefonische Befragung 99 3.4 Online-Befragung 100 3.5 Quantitative Inhaltsanalysen 101
86
Inhalt
4
5
6 7 8
9
101 Gestaltung von Fragebögen 4.1 Generelle Gestaltung 101 4.2 Fragetypen 102 4.3 Formulierung von Fragen 104 4.4 Reihenfolge der Fragen 105 4.5 Besondere Gestaltungshinweise bei verschiedenen Formen der Befragung 106 Beurteilungskriterien quantitativer Befragungen 107 5.1 Repräsentanz 107 5.2 Kosten und Zeitaufwand 108 5.3 Qualität der Daten 108 Vor- und Nachteile einzelner Kommunikationsformen 109 Rahmenbedingungen der Befragung/Erhebungsdesign 110 Auswertung 111 8.1 Skalenniveaus 111 8.2 Auswertungsverfahren in Abhängigkeit des Skalenniveaus 112 Literatur- und Quellenverzeichnis 113
Simone Fühles-Ubach Online-Befragungen 114 1 Einleitung 114 2 Arten von Online-Befragungen 115 2.1 Die WWW-Befragung 115 2.2 Die mobile Befragung 116 3 Gestaltungshinweise 119 4 Grenzen der Online-Befragung 119 4.1 Die Verbreitung und Nutzung des Internets 120 4.2 Probleme der Selbstselektion 121 4.3 Geringe Kontrollmöglichkeiten der Erhebungssituation 121 5 Trends im Bereich der Online-Befragung 122 5.1 Befragungen mit Hilfe von Touchscreen-Terminals 122 5.2 Mobiles Tagging 123 5.3 Handyvotings 124 6 Qualitätsstandards 125 7 Literatur- und Quellenverzeichnis 126 Petra Werner Qualitative Befragungen 128 1 Einleitung 128 2 Zweck und Charakter qualitativer Befragungen 3 Einsatzmöglichkeiten qualitativer Befragungen
128 129
9
10
4
5
6
Inhalt
Qualitative Einzelbefragungen 130 4.1 Teilstrukturiertes Interview 130 4.2 Fokussiertes Interview 139 4.3 Narratives Interview 140 4.4 Experten-Interview 142 Gruppendiskussionen 143 5.1 Charakteristika sozialer Gruppen 143 5.2 Zusammensetzung und Rekrutierung von Gruppen 145 5.3 Entwicklung von Diskussionsleitfäden 147 5.4 Moderation von Gruppendiskussionen 148 5.5 Dokumentation und Auswertung von Gruppendiskussionen Literatur- und Quellenverzeichnis 150
149
Nathalie Mertes Fallstudien 152 1 Einleitung 152 2 Zweck und Charakter von Fallstudien 152 3 Die Forschungsfragen 153 4 Arten von Fallstudien 154 5 Die Auswahl des Falls: Sampling auf zwei Ebenen 155 6 Die Datenerhebung 157 7 Datenanalyse und Interpretation 159 8 Der Fallstudienbericht 161 9 Strategien zur Erhöhung der Vertrauenswürdigkeit 162 9.1 Glaubwürdigkeit (credibility) 162 9.2 Übertragbarkeit (transferability) 163 9.3 Zuverlässigkeit (dependability)/Übereinstimmung (consistency) 9.4 Bestätigbarkeit (confirmability) 164 10 Beispiele von Fallstudien 164 11 Die Leistung von Fallstudien 166 12 Literatur- und Quellenverzeichnis 166 Tobias Galliat Clusteranalyse und Diskriminanzanalyse 168 1 Einleitung 168 2 Die Methode der Clusteranalyse 168 3 Proximitätsmaße 170 4 Agglomerative hierarchische Cluster-Verfahren 5 Partitionierende Cluster-Verfahren 174 6 Anwendungsbeispiel zur Clusteranalyse 175 7 Die Methode der Diskriminanzanalyse 178 8 Die Diskriminanzfunktion 179
173
163
Inhalt
9 10 11 12 13
Validierung und Interpretation der Diskriminanz-Ergebnisse Schrittweises Verfahren bei der Merkmalsauswahl 180 Anwendungsbeispiel zur Diskriminanzanalyse 181 Resümee 183 Literatur- und Quellenverzeichnis 183
11
180
Christian Schlögl Logfile- und Link-Analysen 184 1 Einleitung 184 2 Fragestellungen 185 3 Logfile-Analysen 187 3.1 Nutzungsanalyse von Websites 189 3.2 Analyse von Suchanfragen 191 3.3 Nutzungsmessung von elektronischen Ressourcen 192 4 Link-Analysen 194 4.1 Link-Impact-Analysen 195 4.2 Analyse des Zusammenhangs (Mapping) 195 5 Studien 197 5.1 Website-Analysen 197 5.2 Analyse von Anfragen an Suchmaschinen 198 5.3 Analyse der Nutzung von elektronischen Ressourcen 199 5.4 Link-Analysen 199 6 Resümee 200 7 Literatur- und Quellenverzeichnis 201 Gerd Richter Methoden der Usability-Forschung 203 1 Definition und Problemfelder 203 1.1 Was ist Usability? 203 1.2 Was ist Web-Usability? 204 2 Usability-Prüfungen im Bibliothekswesen 206 2.1 Diagnose: Web-Angebote von Bibliotheken sind bei der Informationsrecherche nicht mehr die erste Wahl 207 2.2 Anamnese: Das Internet hat das Informationsrechercheverhalten grundlegend verändert 207 2.3 Therapie: Usability-Prüfungen des Web-Angebots und konsequentes User-Centered-(Re-)Design 209 2.4 Was bedeutet das für die Durchführung von Usability-Prüfungen? 3 Organisation von Usability-Prüfungen 212 3.1 Ziele und Fragestellungen der Usability-Prüfung 212 3.2 Einzelaufgaben und Entwurf eines Untersuchungsdesigns 214
210
12
4
5 6 7
Inhalt
3.3 Vorbereitung der Usability-Prüfung: Explorative Methoden und Pretest 215 3.3.1 (Online-)Benutzerbefragung 216 3.3.2 Logfile-Analyse 217 3.3.3 Auskunftsprotokolle 217 Produktanalyse und Benutzertest 219 4.1 Die Expertenanalyse als Produktanalyse 219 4.1.1 Aspekte und Eigenschaften der Expertenanalyse 219 4.1.2 Dokumentation der gefundenen Probleme 221 4.1.3 Auswertung der Evaluationsberichte 222 4.2 Der Benutzertest 222 4.2.1 Vorteile und Nachteile von Benutzertests 222 4.2.2 Planung und Arbeitspakete eines Benutzertests 223 4.2.3 Gewinnung und Auswahl von Testern 224 4.2.4 Entwicklung von Aufgabentypen und Formulierung der Testaufgaben 227 4.2.5 Durchführung des Tests – Aufgaben des Moderators 229 4.2.6 Lautes Denken und Benutzerkommentar 231 4.2.7 Problemzentriertes Interview nach dem Test 232 4.2.8 Strukturierte Beobachtung während der Durchführung der Tests 233 4.2.9 Die Auswertung der Tests 234 4.2.10 Quantitative Auswertung 234 4.2.11 Qualitative Auswertung 237 4.2.12 Problemindikatoren, Probleme und Problemursachen 238 4.2.13 Problemanalyse – ein Beispiel 239 4.2.14 Benutzerpfade: Idealpfad und abweichender Pfad 240 4.2.15 Zusammenfassung der Auswertung und Anwendung der Ergebnisse 242 4.2.16 Umsetzung der Analyseergebnisse: Optimierung des Web-Angebots 242 Resümee 243 Literatur- und Quellenverzeichnis 244 Anhang 248
Elke Greifeneder Benutzerforschung 257 1 Einführung 257 2 Untersuchungsgegenstand der Benutzerforschung 3 Planung einer Studie 261 3.1 Studiendesign 261 3.2 Ort der Testdurchführung 263
258
Inhalt
4 5
6
7 8
264 3.3 Rechte der Teilnehmer und Datenschutz 3.4 Zeitplan 266 3.5 Getting Buy-In 267 Fragen- und Aufgabenstellung 268 Durchführung der Studie 273 5.1 Stichproben 273 5.2 Teilnehmergewinnung 274 5.3 Abbrecher und Ausreißer 276 5.4 Aufwandsentschädigungen 277 5.5 Pretest 277 5.6 Vertrauen 278 Auswertung der Daten 278 6.1 Kodieren der Daten 278 6.2 Statistikprogramm oder Tabellenkalkulation 279 6.3 Veröffentlichung der Ergebnisse 280 Benutzerforschung in der Praxis und für die Praxis 281 Literatur- und Quellenverzeichnis 283
Konrad Umlauf Methoden der Marktforschung und Bedarfsanalyse 284 1 Marktforschung, Bedarfsanalyse, Benutzerforschung, Mediennutzungsforschung 284 2 Eigenschaften des Informationsbedarfs 287 3 Ausgewählte Themen und Methoden 290 3.1 Stimuli des Informationsbedarfs 290 3.2 Nutzungsmessung 292 3.3 Marktsegmentierung 294 3.4 Zufriedenheitsmessung, Libqual+ 295 3.5 Imageforschung 296 3.6 Präferenzforschung 296 3.7 Konjunkt-Analyse 297 3.8 Fokusgruppen-Interview 297 3.9 Blueprinting, sequenzielle Ereignismethode und Critical Incident Technique 299 3.10 Thinking Aloud Methode und Site Covering 300 3.11 Weblog 303 3.12 Online-Laddering 304 3.13 Tests 305 4 Grenzen der Marktforschung 305 5 Beispiele 307 6 Literatur- und Quellenverzeichnis 312
13
14
Inhalt
Michael Seadle Ethnomethodologie 315 1 Einführung 315 2 Theorie 316 3 Datenerhebung 318 3.1 Befragungen 318 3.1.1 Selbstständige Befragungen 318 3.1.2 Forscher-begleitete Befragungen 319 3.2 Interviews 320 3.2.1 Formale Interviews 320 3.2.2 Offene Interviews 322 3.2.3 Formlose Interviews 323 3.3 Beobachtung 324 3.3.1 Formale Beobachtung 324 3.3.2 Offene Beobachtung 325 3.3.3 Formlose Beobachtung 326 4 Beispiele 327 4.1 Rochester 2007 328 4.1.1 Design Workshops 329 4.1.2 Foto-Essays 329 4.1.3 Mapping Diaries 330 4.1.4 Bibliothekare und Ethnologie 331 4.2 Rutgers 2009 332 4.3 Connecticut 2012 333 4.4 Teilnahme-Anreiz 335 5 Experimente 335 6 Resümee 336 7 Literatur- und Quellenverzeichnis 337 Frank Havemann Methoden der Informetrie 338 1 Bibliometrie und Informetrie 338 1.1 Historisches 338 1.2 Informetrie und Informationswissenschaft 339 1.3 Informetrische Verteilungen, Modelle, Netzwerke und Indikatoren 340 1.4 Literatur 342 2 Informetrische Verteilungen 342 2.1 Die Lotka-Verteilung 342 2.2 Das Gesetz von Zipf 344 2.3 Die Bradford-Verteilung 346 2.4 Zitationsverteilungen 347
Inhalt
3
4
5
6 7
348 Informetrische Netzwerke 3.1 Zitationsnetzwerke von Artikeln 349 3.2 Zitationsnetzwerke von Journalen 350 3.3 Der PageRank-Algorithmus 352 3.4 Bibliografische Kopplung von Artikeln 354 3.5 Kozitationsanalyse 355 3.6 Das Vektorraum-Modell 356 Erklärende Modelle für informetrische Verteilungen 358 4.1 Der Matthäus-Effekt 358 4.2 Wachstumsmodelle 359 Informetrische Wissenschaftsindikatoren 360 5.1 Forschungsproduktivität 360 5.2 Wirkung von Publikationen 362 5.2.1 Journal Impact Factor 363 5.2.2 Hirsch-Index 364 Zusammenfassung 365 Literatur- und Quellenverzeichnis 365
Vivien Petras Methoden für die Evaluation von Informationssystemen 368 1 Einleitung 368 2 Ziele und Zweck der Evaluation 368 3 Evaluationsansätze für Informationssysteme 369 4 Evaluationskriterien für Informationssysteme 370 5 Methoden der Evaluation 371 5.1 System-zentrierte Evaluation 371 5.2 Nutzer-zentrierte Evaluation 372 5.3 Usability-zentrierte Evaluation 374 6 Information-Retrieval-Evaluation 375 6.1 Anwendungsprobleme und Lösungsansätze 375 6.2 Evaluationskriterien im IR: Effektivität und Relevanz 377 6.3 Das Cranfield-Paradigma 379 6.4 Maßzahlen der Effektivität 380 6.5 Moderne Information-Retrieval-Evaluation 382 6.6 Fallstudien und Evaluationsinitiativen 383 7 Weiterführende Literatur 385 8 Literatur- und Quellenverzeichnis 385
15
16
Inhalt
Wolfgang Coy Modellierung und Tests als methodische Grundbausteine der Informatik 1 Anfänge des programmierten Rechnens 387 2 Computerprogramme als Modelle von etwas und Modelle für etwas 389 3 Datentypen und Datenstrukturen als Modelle 390 4 Informatik als dynamische Modellierungstechnik 391 5 „Was wäre, wenn …?“ – Simulation als Ergebnis programmierter Modellbildung 391 6 Technische Erweiterungen des informatischen Modellbegriffs 393 7 Die Zuverlässigkeit informatischer Systeme 395 8 Informatik ist die Modellierungstechnik der Informationsgesellschaft geworden 396 9 Literatur- und Quellenverzeichnis 397
387
Eric W. Steinhauer Juristische Methoden und Arbeitstechniken 398 1 Einleitung 398 1.1 Juristische Fragestellungen in der Bibliotheks- und Informationswissenschaft 398 1.2 Bibliotheks- und informationswissenschaftliche Fragestellungen in der Rechtswissenschaft 399 1.3 Disziplinen und Fragestellungen juristischer Methoden 399 2 Anwendungsfelder juristischer Fragestellungen in der Bibliotheks- und Informationswissenschaft 400 2.1 Gesetzesauslegung 401 2.2 Gesetzesanwendung 404 2.3 Gesetzesformulierung 405 2.4 Die Anwendung juristischer Methoden durch Nichtjuristen 406 3 Juristische Arbeitsweise als bibliotheks- und informationswissenschaftliche Methode 407 4 Zusammenfassung sowie Konsequenzen für die bibliothekarische Ausbildung und die Wissenschaftspraxis 409 5 Literatur- und Quellenverzeichnis 410
Inhalt
Helmut Volpers Inhaltsanalyse 412 1 Einleitung 412 2 Zielsetzung und Gegenstandsbereich 413 3 Methode 415 3.1 Forschungsablauf 415 3.2 Stichprobenbildung 416 3.3 Operationalisierung, Kategorienschema und Codierung 417 3.4 Datenauswertung 419 3.5 Reichweite: Komplexitätsreduktion und Inferenzschlüsse 420 4 Inhaltsanalyse von Online-Angeboten und Social Media Monitoring 421 5 Anwendungsbereiche der Inhaltsanalyse in der Bibliotheks- und Informationswissenschaft 423 6 Literatur- und Quellenverzeichnis 424 Reiner Keller Diskursanalyse 425 1 Einführung 425 2 Disziplinäre und interdisziplinäre Perspektiven der Diskursanalyse 3 Varianten der sozialwissenschaftlichen Diskursanalyse 429 3.1 Kritische Diskursanalyse 429 3.2 Hegemonietheoretische Diskursanalyse 430 3.3 Michel Foucaults Diskursperspektive 431 3.4 Wissenssoziologische Diskursanalyse 433 3.5 Offene Fragen 434 4 Forschungsprozess und Vorgehensweisen 435 4.1 Fragestellungen 436 4.2 Arten und Rolle von Daten 437 4.3 Interpretative Analytik: Datenanalyse 438 4.4 Von der Detailanalyse zum Gesamtergebnis 441 5 Forschungsstand 441 6 Literatur- und Quellenverzeichnis 442
427
17
18
Inhalt
Alice Keller Delphi-Methode 444 1 Einführung 444 2 Arbeitsdefinition 444 3 Eignung und Anwendungsgebiete 445 4 Entwicklung der Delphi-Methode 446 5 Merkmale und Ablauf einer Delphi-Studie 447 5.1 Die Expertengruppe 447 5.1.1 Auswahl der Experten 448 5.1.2 Zahl der Experten 448 5.1.3 Sub-Gruppen 448 5.2 Anonymität 448 5.3 Moderation 449 5.4 Design einer Delphi-Befragung 449 5.4.1 Null-Runde oder qualitative Befragungsrunde 450 5.4.2 Erste, quantitative Fragerunde 451 5.4.3 Das Feedback 452 5.4.4 Zweite und nachfolgende, quantitative Runden 452 5.5 Rücklaufquote 453 6 Datenanalyse und Schlussbericht 454 7 Das Gruppendelphi 455 8 Planungshilfe 455 9 Methodenkritik 455 10 Literatur- und Quellenverzeichnis 458 Ursula Rautenberg Methoden der buchwissenschaftlichen Forschung 461 1 Methoden der historischen Buchforschung 461 2 Typenanalyse 461 3 Analytische Druckforschung 464 4 Papier- und Wasserzeichenanalyse 468 5 Einbandforschung 472 6 Provenienzforschung 473 7 Marginalienforschung 476 8 Statistische Methoden in der historischen Buchforschung 9 Ausblick 480 10 Literatur- und Quellenverzeichnis 480
476
Inhalt
19
Elmar Mittler Historische Bibliotheksforschung 483 1 Einleitung 483 2 Bibliotheksgeschichtliche Quellen und Methoden 485 2.1 Mesopotamien und Ägypten 485 2.2 Antike 486 2.3 Frühes Mittelalter 487 2.4 Hohes und Spätes Mittelalter 488 2.5 Bucharchäologie – Die Materialität der Informationsträger 488 2.6 Provenienzforschung 490 2.7 Bestandsgeschichte 492 2.8 Leseforschung 492 2.9 Bibliotheksbau und -ausstattung 493 2.10 Buch- und Bibliothekskultur in Humanismus und Aufklärung 495 2.11 Das Buch als Beute 496 2.12 Die Säkularisation von Bibliotheken 496 3 Bibliotheksgeschichte und die kulturelle Wende der historischen Forschung 497 3.1 Die Schule der Annales 497 3.2 Mikrohistorie 498 3.3 Gender Studies 498 3.4 Kulturelles Gedächtnis 499 3.5 Oralität und Literalität 499 3.6 Medienwandel 500 3.7 Der Cultural Turn 501 3.7.1 Der Linguistic Turn 501 3.7.2 (Post-)Strukturalismus 502 3.7.3 Historische Anthropologie 503 3.7.4 Der Global Turn 504 4 Die digitale Wende 505 4.1 Kataloge und Datenbanken 505 4.2 Digitalisierung und virtuelle Rekonstruktion 506 4.3 Digitale Editionen 507 4.4 Virtuelle Forschungsumgebungen 508 4.5 Hypertext 509 4.6 Kollaborative Arbeitsmethoden 510 4.7 Semantic Web 511 4.8 Soziale Netzwerke 512 4.9 Langfristarchivierung 512 4.10 Systemtheoretischer Ansatz 513 5 Literatur- und Quellenverzeichnis 514
20
Inhalt
Sandra Rühr, Marina Mahling und Axel Kuhn Methoden der modernen Lese- und Leserforschung 525 1 Einleitung 525 2 Theoretische Grundannahmen und Fragestellungen 525 3 Erhebungsmethoden 528 3.1 Befragungen 528 3.1.1 Leistungen 528 3.1.2 Erhebung von Lesesozialisationsfaktoren 529 3.1.3 Organisationen der Bereitstellung von Lesestoffen und Lesemedien 532 3.1.4 Darstellung von Wirkungen sowie Funktionen und Leistungen des Lesens 533 3.2 Beobachtungen 534 3.2.1 Leistungen 534 3.2.2 Selbstbeobachtungen individueller Leseakte 535 3.2.3 Fremdbeobachtungen individueller Leseakte 536 3.3 Tests 537 3.3.1 Leistungen 537 3.3.2 Messung von Lesekompetenz 538 3.3.3 Messung emotionalen und ästhetischen Erlebens 539 3.4 Inhaltsanalysen 540 3.4.1 Leistungen 540 4 Forschungsdesiderate und methodische Probleme der Lese- und Leserforschung 541 5 Literatur- und Quellenverzeichnis 544 5.1 Studien 544 5.2 Sekundärliteratur 546 Register
547
Autoren & Herausgeber
561
Einleitung Dies ist das erste deutschsprachige Handbuch, das Methoden der Bibliotheks- und Informationswissenschaft in einem breiten Überblick darlegt. Beim Stichwort Methoden denken Praktiker und Fachvertreter überwiegend an Methoden, die in der Praxis Probleme lösen oder bei der Aufgabenwahrnehmung zur Anwendung kommen wie z.B. Methoden der Informationsaufbereitung oder Methoden des Qualitätsmanagements. Um solche Methoden geht es in diesem Handbuch nicht. Vielmehr behandeln die Beiträge dieses Handbuchs Forschungsmethoden, die zur Anwendung kommen, um neue Erkenntnisse zu gewinnen. Die Fragestellungen, zu deren Beantwortung diese Methoden eingesetzt werden, können aus der Praxis kommen oder aus der akademischen Forschung. Beispiele für Fragestellungen aus der Praxis können sein: – – – –
Wie zufrieden sind die Benutzer meiner Bibliothek mit den Öffnungszeiten? Welche Öffnungszeiten werden gewünscht? Wie ist die Nutzerschaft meiner Bibliothek nach sozialen Milieus zusammengesetzt? Wie kann die Usability meines Fachportals verbessert werden? Wie sind die Bedarfe der Benutzer meines innerbetrieblichen Information Services beschaffen?
Beispiele für Fragestellungen, die eher im Rahmen akademischer Forschung bearbeitet werden, sind: – – –
Wie haben sich Einstellungen und Argumentationen der Praktiker in Öffentlichen Bibliotheken gegenüber Gebühren gewandelt? Welche Rollen spielen Emotionen bei der Nutzung digitaler Informationssysteme? Welche Einstellungen haben verschiedene Wissenschaftszweige zum Open Access? Wie müsste Open Access beschaffen sein, wenn die Akzeptanz erhöht werden soll?
Es wird deutlich, dass derartige Forschungsergebnisse mindestens teilweise letztlich auch wieder im Anwendungsfeld des Faches, der Bibliotheks- und Informationspraxis, ausgewertet werden können. Das ist in einer Disziplin nicht überraschend, die sich als Handlungswissenschaft versteht. Ob man nun mehr an akademische Forschung oder an Forschung denkt, die unmittelbar im Praxisbezug steht und zur Optimierung dieser Praxis einen Beitrag leisten möchte – in jedem Fall müssen wissenschaftlich-methodische Standards eingehalten werden. Andernfalls sind die Ergebnisse beliebig, und man könnte sie
22
Umlauf, Fühles-Ubach, Seadle
ebenso gut frei erfunden haben. Elke Greifeneder schreibt in ihrem Beitrag in diesem Sinn: Praktische Benutzerforschung, die auf die Erfassung von Daten nach wissenschaftlichem Maßstab verzichtet, gibt es nicht. Es handelt sich dann lediglich um das Erfassen eines subjektiven Meinungsbildes, das für die tatsächliche Nutzungssituation oft wenig bis gar nicht aussagekräftig ist.
Freilich kann der Leser von diesem Handbuch keine Einführung in das wissenschaftliche Arbeiten einschließlich Regeln des Zitierens erwarten. Lediglich das Kapitel Literaturbericht – Wie geht man vor, um einen guten Literaturbericht zu schreiben? (Konrad Umlauf) steht solchen Einführungen nahe. Die Herausgeber haben, so ist dieser Beitrag motiviert, in den zahlreichen Einführungen in das wissenschaftliche Arbeiten viele praktische Hinweise auf Zitation und Zeitmanagement, auf Gliederung und Hypothesen gefunden, jedoch nur selten eine Anleitung, wie man einen Literaturbericht schreibt. Zunächst legt Michael Seadle dar (Entwicklung von Forschungsdesigns), wie man eine Frage findet, die zu untersuchen sich lohnt und die im wissenschaftlichen Sinn relevant ist, und wie diese Frage so formuliert werden kann, dass sie mit wissenschaftlichen Methoden bearbeitet werden kann, d.h., wie Daten erhoben und ausgewertet werden können. Es wird deutlich, dass die Bibliotheks- und Informationswissenschaft ein heterogenes Fach ist, das Methoden aus vielen Nachbardisziplinen aufgreift, vor allem aus sozialwissenschaftlichen Disziplinen wie Soziologie und Ethnologie sowie aus der Informatik. Die folgenden Kapitel legen zunächst die Eigenarten Qualitativer Forschungsmethoden (Lars Rinsdorf) und Quantitativer Forschungsmethoden (Simone FühlesUbach, Konrad Umlauf) dar. Der einst tiefe Graben zwischen beiden Ansätzen ist glücklicherweise heute überbrückt; in vielen Forschungsvorhaben werden quantitative und qualitative Methoden kombiniert. Dann wird die Perspektive auf Befragungen fokussiert: Simone Fühles-Ubach erläutert Methoden Quantitativer Befragungen, wie sie beim Einsatz von Fragebogen typisch und weit verbreitet sind. Im folgenden Kapitel stellt dieselbe Autorin die Besonderheiten von Online-Befragungen heraus, die beachtet werden müssen, damit man valide Ergebnisse bekommt. Petra Werner erklärt Methoden Qualitativer Befragungen. Sie werden, nachdem in der Bibliotheks- und Informationswissenschaft und in der Bibliotheks- und Informationspraxis wie in der Markt- und Meinungsforschung viele Jahre quantitative Befragungsmethoden dominierten, zunehmend auch in der Bibliotheks- und Informationswissenschaft eingesetzt. Auch Fallstudien (Natalie Mertes) stellen eine Methode dar, die in der Vergangenheit weniger häufig in der Bibliotheks- und Informationswissenschaft angewandt wurde, aber gerade in dieser Disziplin, beispielsweise bei der Rekonstruktion von Entscheidungsprozessen – Warum führen mehr und
Einleitung
23
mehr Öffentliche Bibliotheken die Interessenkreiserschließung ein, obwohl empirische Belege für ihre bessere Usability fehlen? Warum kam es in Deutschland nie zur Sparten übergreifenden Anwendung einer geeigneten Klassifikation, während in vielen Ländern sowohl Wissenschaftliche wie auch Öffentliche Bibliotheken die Dewey Decimal Classification einsetzen? – oder bei der Suche nach Best-PracticeBeispielen ergiebig sein kann. Das Kapitel über Cluster- und Diskriminanzanalyse (Tobias Galliat) scheint unspezifisch zu sein; diese statistischen Methoden werden in allen sozialwissenschaftlichen Fächern eingesetzt, insbesondere auch in der Marktforschung und für die Entwicklung von Modellen, die Konsumenten nach Lebensstil-Merkmalen gruppieren. Und gerade deshalb haben die Herausgeber ein einschlägiges Kapitel einbezogen: Zunehmend greifen Bibliothekspraktiker auf der Suche nach ihren Zielgruppen auf Modelle sozialer Milieus zurück. Christian Schlögl behandelt mit nicht-reaktiven Methoden der Online-Forschung (vor allem: Logfile- und Link-Analysen) genuine Forschungsmethoden des Faches. Sie finden, ähnlich wie Online-Befragungen, stärker noch als Fallstudien, eine verbreitete Anwendung im Praxisfeld des Faches. Ähnliches gilt für Usability-Studien, deren Methoden Gerd Richter mit dem Fokus auf der Usability von Informationssystemen wie z.B. Bibliothekskatalogen oder bibliografischen Datenbanken darlegt. Damit beginnt die Reihe der Kapitel, die nicht auf einzelne Methoden, sondern auf komplexe Fragestellungen ausgerichtet sind, die typischerweise mit Methodentriangulation bearbeitet werden, also mit der Kombination verschiedener Methoden. Deshalb greifen diese Kapitel vielfach auf frühere Kapitel zurück. Freilich haben die Herausgeber Überschneidungen und Wiederholungen bewusst nicht vermeiden wollen, um die isolierte Lesbarkeit der einzelnen Kapitel zu verbessern. Zunächst erklärt Elke Greifeneder Methoden der Benutzerforschung, eines der beliebtesten Themen sowohl unter Praktikern wie unter Dozenten des Faches. Es folgt das in Teilen verwandte Kapitel über Methoden der Marktforschung und Bedarfsanalyse (Konrad Umlauf). Michael Seadles Kapitel über Ethnomethodologie hebt ebenfalls auf Methodenvielfalt ab (vor allem Befragung und Beobachtung) und reflektiert die zunehmende Beliebtheit dieses Ansatzes gerade unter dem Gesichtspunkt einer Verwendung der Erkenntnisse für die Verbesserung der Praxis in Bibliotheken und anderen Informationseinrichtungen. Während die Ethnomethodologie überwiegend qualitative Methoden einsetzt, wendet sich das folgende Kapitel rein quantitativen Methoden zu: Methoden der Informetrie (Frank Havemann), also Methoden zur Messung von Informationsströmen. Das Kapitel über Methoden für die Evaluation von Informationssystemen (Vivien Petras) setzt die quantitativ dominierten Ansätze fort. Das folgende Kapitel von Wolfgang Coy schließt hier an und behandelt Methoden der Modellierung und der Tests, wie sie in der Informatik entwickelt wurden und von der Bibliotheks- und Informationswissenschaft aufgegriffen werden.
24
Umlauf, Fühles-Ubach, Seadle
Es folgen Kapitel, die genuin sozialwissenschaftliche Methoden darstellen, die ebenfalls in der Bibliotheks- und Informationswissenschaft auf ihre eigenen Fragestellungen angewendet werden. Hier erklärt zunächst Eric W. Steinhauer Juristische Methoden und Arbeitstechniken, die in der Bibliotheks- und Informationswissenschaft angewendet werden, wenn es um die Auslegung diesbezüglicher Rechtsvorschriften, um rechtliche Ermessensentscheidungen im Praxisfeld und um die Konzipierung und Formulierung einschlägiger juristischer Texte geht. Dann stellt Helmut Volpers dar, wie man Inhaltsanalysen durchführt; Reiner Keller gibt eine Einführung in die Diskursanalyse, die bisher in der Bibliotheks- und Informationswissenschaft nur vereinzelt zur Anwendung kam, und Alice Keller erklärt, wie man mit der Delphi-Methode zu Aussagen über künftige Entwicklungen kommt. Damit kommt dieses Handbuch zu Methoden, die anderen Fächern angehören, aber gleichwohl auch für die Bibliotheks- und Informationswissenschaft von Interesse sind, besonders die Provenienzforschung und die Methoden der historischen Forschung. Ursula Rautenberg umreißt Methoden der buchwissenschaftlichen Forschung (Typenanalyse, analytische Druckforschung, Papier- und Wasserzeichenanalyse, Einbandforschung, Provenienzforschung, Marginalienforschung, statistische Methoden) – auch in dieser Disziplin fehlt bislang ein Methodenhandbuch; insoweit betritt Rautenberg mit ihrem Kapitel Neuland. Elmar Mittler gibt eine Orientierung in den Methoden der Geschichtsschreibung (Historische Bibliotheksforschung), indem er die Perspektiven darlegt, aus denen historische Prozesse untersucht werden. Den Abschluss bildet der Beitrag Axel Kuhns, Marina Mahlings und Sandra Rührs, die Fragestellungen und Methoden der modernen Lese- und Leserforschung darlegen. Unter didaktischen Gesichtspunkten empfehlen die Herausgeber den Lesern in jedem Fall die grundlegenden Kapitel – – – –
Konrad Umlauf: Literaturbericht, Michael Seadle: Entwicklung von Forschungsdesigns, Lars Rinsdorf: Qualitative Methoden und Simone Fühles-Ubach, Konrad Umlauf: Quantitative Methoden
zu studieren und vor diesem Hintergrund ggf. eine Auswahl der weiteren Kapitel zu treffen, die dem je eigenen Forschungsvorhaben (z.B. Bedarfsforschung, Benutzerforschung, Usability-Analyse) entsprechen. Die Herausgeberin und die Herausgeber danken Dr. Petra Hauke für die sorgfältige und kreative Redaktion der Beiträge. Berlin und Köln, Dezember 2012 Konrad Umlauf, Simone Fühles-Ubach, Michael Seadle
Konrad Umlauf
Literaturbericht – Wie geht man vor, um einen guten Literaturbericht zu schreiben? 1 Einleitung Ein Literaturbericht bildet im Spektrum der Informationsdienstleistungen einen Mehrwertdienst, der die Literatur zu einem Thema, meistens freilich eine Auswahl davon, zusammenstellt und wie eine Sammelrezension referiert, kommentiert und wertet. Bei einer Sammelrezension ist die Auswahl enger, vielleicht zufällig oder auf prägnante Beispiele beschränkt. Bei einem Literaturbericht soll die Auswahl, wenn er nicht umfassend ist, begründet und nachvollziehbar sein. Ziel ist, den Leser, ja zunächst den Autor des Literaturberichts auf den Stand der Kenntnisse und Erkenntnisse, Auffassungen und Auslassungen in Bezug auf dieses Thema zu bringen. Jede Forschung setzt auf einem Literaturbericht zum Forschungsthema auf und leitet aus ihm offene Forschungsfragen ab, interpretiert die bekannten Fakten in einem neuen Licht oder entwickelt vor seinem Hintergrund neue Sichten auf die bekannten Gegenstände. Zunächst sollen Gattungen der bibliotheks- und informationswissenschaftlichen Literatur skizziert werden, weil Literaturberichte sich nicht selten auf ausgewählte Gattungen beschränken und vor allem reflektieren müssen, mit welcher Gattung sie es zu tun haben. Sodann sollen Beurteilungsdimensionen – also Qualitätsmaßstäbe für die im Literaturbericht ausgewertete Literatur – umrissen werden. Im Hauptteil sollen vor diesem Hintergrund Fragestellungen und Vorgehensweisen in Bezug auf die Erarbeitung eines Literaturberichts behandelt werden. Es folgen Hinweise auf prägnante Literaturberichte des Faches und auf die wichtigsten bibliografischen Datenbanken. Freilich soll sich dieser Beitrag auf die Spezifika des Literaturberichts beschränken; die allgemeinen Regeln wissenschaftlichen Arbeitens und wissenschaftlicher Textproduktion, wie sie in zahllosen Ratgebern ausgebreitet sind¹, werden hier als bekannt vorausgesetzt. Auch arbeitspraktische Fragen (z.B.: Schreibt man seine Exzerpte in eine Textdatei oder in ein Literaturverwaltungs- und Wissensorganisationssystem wie Citavi?) können hier nicht behandelt werden.
1 Beispiele: Berger 2010; Heister 2011; Kornmeier 2010.
Praktiker berichten aus ihrer Fachzeitschriften, Arbeit, von ihren Entwicklungen Sammelbände, Kongressschriften, Papiere, Präsentationen
Praxisbericht
Fachzeitschriften, Broschüren, Papiere
Programmatische Deklaration, Planungsdokument, Evaluationsbericht
SOLL-Aussagen über gewünschte Zustände, Ereignisse, Entwicklungen und einschlägige Maßnahmen. Wertende Aussagen über vorhandene Leistungen, Einrichtungen usw. Urheber sind meistens Körperschaften
Fachzeitschriften, Monografien, Tools, Faltblätter, LoseblattAusgaben
Anleitung, Checkliste, Beschreibung, wie eine How-To-Do-Manual bestimmte Aufgabe richtig und gut ausgeführt wird
Wissenschaftliche und Fachzeitschriften, wissenschaftliche Monografien, Kongressschriften
Gewinnung und Vermittlung neuer Erkenntnisse. Fachterminologie, Zitate, Literaturangaben
Wissenschaftliche Untersuchung, theoretische Abhandlung
Typische Publikationsformen
Charakteristika
Gattung
Verlage, Dokumentenserver der herausgebenden Körperschaften
Beispiele
Nutzwert für andere Praktiker, Quellenwert für die Wissenschaft
Macht und Autorität der herausgebenden Stelle, Legitimität und Sinnhaftigkeit der Ziele, Maßnahmen und Bewertungsmaßstäbe
Wissenschaftsrat u. Deutsche Forschungsgemeinschaft 2011; Bibliotheksplan ’73 1973
Plieninger 2002ff.; Bakewell 2010; Spließ 2009
Becker 2010; Vogel 2004; Tolppanen u. Slough 2003
Wissenschaftliches Mayr u. Petras 2008; Niveau, Anwendung Wegmann 2000 anerkannter Regeln wissenschaftlicher Arbeit, Erkenntnisfortschritt
Wichtigste Beurteilungsdimensionen
Verlage, DokumentenNutzwert für andere server von KörperPraktiker, Quellenwert schaften und Verbänden für die Wissenschaft
Verlage, Dokumentenserver von Informationseinrichtungen und Verbänden
Verlage, (zertifizierte) Repositorien wissenschaftlicher Einrichtungen und Gesellschaften
Typische Publikationsinstanzen
Tabelle 1: Gattungen der Literatur auf dem Gebiet der Bibliotheks- und Informationswissenschaft.
26 Umlauf
Zusammenfassung und Vermittlung gesicherten Wissens
Journalisten berichten über Zeitungen und kommentieren Bibliotheken und Informationssysteme
Lexikon, Handbuch, Lehrbuch
Zeitungsartikel
Monografien, Datenbanken
Fachzeitschriften, Monografien, Tools, Loseblatt-Ausgaben
SOLL-Aussagen, Anweisungen, Empfehlungen für richtige und gute Praxis. Urheber sind meistens Körperschaften
Normen, Standards, Richtlinien, Regelwerke, rechtliche Regelungen
Fachzeitschriften, Broschüren, Papiere
SOLL-Aussagen, Forderungen, selektive Beschreibungen. Urheber sind meistens Verbände
Lobbyistische Verlautbarungen
Zeitungsverlage
Verlage, (zertifizierte) Repositorien der Hochschulen
Verlage, Dokumentenserver und Websites der herausgebenden Körperschaften
Verlage, Dokumentenserver und Websites der herausgebenden Körperschaften
Wahrheitsgehalt, Aktualität, Niveau
Stoffauswahl, Aktualität, Verständlichkeit, Niveau
Bedeutung und Einfluss der herausgebenden Stelle, Verbreitung in der Anwendung
Bedeutung und Einfluss der herausgebenden Stelle, Argumentationskraft
Viele Bibliotheken dokumentieren die Artikel über sie in einem Pressespiegel
Lexikon der Bibliotheks- und Informationswissenschaft 2009ff.; Rubin 2010
IFLA 2006; DIN ISO 11799 2005–2006
21 gute Gründe 2008; Berufsverband Information Bibliothek 2011ff.
Literaturbericht – Wie geht man vor? 27
28
Umlauf
2 Gattungen der bibliotheks- und informationswissenschaftlichen Literatur Die Literatur der Bibliotheks- und Informationswissenschaft ist durch eine große Vielfalt von Gattungen gekennzeichnet, ähnlich wie die Literatur der Pädagogik oder der Betriebswirtschaftslehre, anders als die Literatur der Physik oder der Mathematik. Da gibt es wissenschaftliche Untersuchungen neben programmatischen Deklarationen, lobbyistische Verlautbarungen neben Praxisberichten u.v.a.m. In einer akademischen Perspektive wird man manches davon nicht als Literatur des Faches, aber als relevante Quelle des Faches verstehen, vor allem Zeitungsartikel. Letztere sind eine gute Quelle für Imageanalysen. Freilich sind die Grenzen ähnlich fließend wie in der Literaturwissenschaft, die die Unterscheidung in wissenschaftliche Sekundärliteratur und Primärliteratur, die ihr Quelle und Gegenstand ist, bei bestimmten Textsorten nicht durchhalten kann.² Tabelle 1 versucht in erster heuristischer Annäherung eine Übersicht, ohne dabei Vollständigkeit beanspruchen zu können; z.B. werden Patente oder Berichte von parlamentarischen Kommissionen nicht ausdrücklich behandelt, obwohl sie z.T. auch für die Bibliotheks- und Informationswissenschaft von Interesse sind. Die Auswahl und Gruppierung geschieht aus der Perspektive dieses Beitrags unter dem Gesichtspunkt der praktischen Relevanz für Literaturberichte. Deshalb bleiben spezifisch akademische Literaturgattungen, die wohl niemals Gegenstand eines Literaturberichts werden, wie Seminarprotokolle, Thesenpapiere, Klausuren, Haus- und Qualifizierungsarbeiten³ ebenfalls unberücksichtigt. Viele Publikationen lassen sich nicht klar einer dieser Gattungen zuordnen, sondern vermischen sie oder enthalten Beiträge mehrerer Gattungen; z.B. enthält das von Hobohm und Umlauf⁴ herausgegebene Handbuch Beiträge, die nahezu allen genannten Gattungen entsprechen. Oder viele Dokumente der Bibliotheksplanung sind eine Mischung aus programmatischer Deklaration und lobbyistischer Verlautbarung. Daneben sind für das Fach weitere Ressourcentypen relevant, die man nicht als Literatur bezeichnen mag: Statistiken, Primärdaten z.B. von Benutzerbefragungen, Websites von Informationseinrichtungen, bibliografische Datenbanken u.v.a.m. Sie werden immer wieder Gegenstand vergleichender Untersuchungen usw., aber diese haben einen anderen Charakter als Literaturberichte. Freilich muss ein Literaturbericht zu einem Thema der Bibliotheks- und Informationswissenschaft beachten: Etliche Themen, die die Bibliotheks- und Informationswissenschaft beforscht, allen voran die Bibliotheksgeschichte, aber auch Themen wie Informationsverhalten, Management, Informationstechnik oder Bibliotheksbau,
2 Stanitzek 2007: 160f. 3 Stykow u.a. 2009: 75–78. 4 Hobohm u. Umlauf 2002ff.
Literaturbericht – Wie geht man vor?
29
werden auch von anderen Disziplinen bearbeitet, wenn auch z.T. unter anderen Fragestellungen und mit anderer Terminologie. Für Rechtsfragen, die Bibliotheken und Informationsflüsse betreffen, ist ohnehin die Rechtswissenschaft zuständig, und die Bibliotheks- und Informationswissenschaft kann hier nur deren Ergebnisse integrieren. Das Fach ist gegenüber Einflüssen anderer Disziplinen sehr offen. Deshalb lohnt es sich oft – und ist bei bestimmten Themen und Fragestellungen zwingend – auch die Literatur anderer Fächer zum bearbeiteten Thema zur Kenntnis zu nehmen.
3 Beurteilungsdimensionen Die im Folgenden angesprochenen Beurteilungsdimensionen können zur Bewertung der Qualität herangezogen werden. Tabelle 1 macht deutlich, dass die wichtigsten Beurteilungsdimensionen der verschiedenen Gattungen sehr verschieden sind.
3.1 Wissenschaftliches Niveau Es hat mit Schwierigkeit oder leichter Verständlichkeit nichts zu tun. Eine wissenschaftliche Publikation hat dann ein hohes Niveau, wenn sie ihre Fragestellungen explizit aus dem Stand der Forschung zu dem Thema oder aus Bedarfen des Anwendungsfeldes ableitet, die Methodenwahl überzeugend begründet, die Methoden sauber anwendet und einen Erkenntnisfortschritt erzielt. Ein hohes wissenschaftliches Niveau bemisst sich auch in einer Wissenschaft, die eng mit ihren Anwendungsfeldern verbunden ist, nicht in erster Linie am Nutzwert für die Praxis. Z.B. hat Wegmann⁵ ein hohes wissenschaftliches Niveau, ist aber für die Praxis wertlos, was damit zusammenhängen mag, dass Wegmann als Germanist schreibt. Die oft zitierte Relevanz einer wissenschaftlichen Fragestellung bezieht sich nicht primär auf die praktische Verwertbarkeit der Ergebnisse, sondern vor allem auf ihre Bedeutung im wissenschaftlichen Diskurs. Man neigt dazu, den Rang einer Publikation auch nach Kriterien wie den folgenden zu bemessen⁶: – – – – –
Peer-Reviewed-Zeitschrift, Impact-Faktor der Zeitschrift, Anzahl der zitierten Quellen, ihre Herkunft und Internationalität, Berücksichtigung der Standardliteratur zum Thema,
5 Wegmann 2000. 6 Vgl. Kornmeier 2010: 83.
30
– –
Umlauf
Zitationshäufigkeit der Publikation, wissenschaftliche Reputation von Verlag, Herausgeber, Beiträger.
Diese Kriterien bewegen sich freilich in der Nähe zu Vorurteilen: Man meint, eine Publikation sei deshalb gut, weil sie in einem Verlag oder in einer Zeitschrift erscheint oder von Herausgebern herausgegeben wird, die sich bisher durch besondere Qualität auszeichneten … Und man denkt an den Astronomen in Saint-Exupérys Le Petit Prince.
3.2 Nutzwert für die Praxis Eine Publikation hat dann einen hohen Nutzwert für Praktiker, wenn Sachverhalte wie z.B. Prozesse, Innovationen, Algorithmen, die das Anwendungsfeld betreffen, so dargelegt werden, dass Praktiker Impulse für die Weiterentwicklung, die Verbesserung oder einfach für die gute Ausübung ihrer Praxis erhalten können. Auch wissenschaftliche Untersuchungen können einen hohen Nutzwert für Praktiker haben. Umgekehrt kann ein Praxisbericht, der ein miserables wissenschaftliches Niveau hat, weil die relevante Literatur nicht angeführt wird oder weil die in der Praxis eingesetzte Methode nicht begründet, sondern einfach ihr Erfolg beschrieben wird, von hohem Nutzwert für die Praxis sein. Ein Praxisbericht, der wissenschaftlichen Ansprüchen genügen will, muss ggf. die Doppelrolle des Autors als handelnder Praktiker und analysierender Wissenschaftler im Sinn einer teilnehmenden Beobachtung klug reflektieren, ferner die geschilderte Praxis terminologisch sauber darlegen, schließlich im Sinn einer Fallstudie die Voraussetzungen und Rahmenbedingungen der beschriebenen Praxis umfassend explizieren.
3.3 Quellenwert für die Wissenschaft Die Wissenschaft erzeugt ihre Quellen z.T. selbst, z.B. durch Datenerhebung wie eine Befragung. Zum Teil wertet sie ohne ihr Zutun gewonnene Daten aus, z.B. bei einer Logfile-Analyse. Praxisberichte, Anleitungen für Praktiker, Zeitungsartikel und vieles andere mehr können ebenfalls eine Quelle für die Forschung darstellen. Quellen, die die Wissenschaft nicht selbst erzeugt hat, muss man einer äußeren und inneren Quellenkritik unterziehen.⁷ Im Kontext eines Literaturberichts sind zwei Ebenen zu unterscheiden: Die Quellen sind Teil eines Kommunikationsprozesses; z.B. kann man Zeitungsartikel unter der Fragestellung untersuchen, welches Image von Bibliotheken sie transportieren. Und die Quellen geben Auskunft über den außerhalb der Quellen liegenden Gegenstand; z.B. kann man Praxisberichte unter der Fragestellung
7 Vgl. Lengwiler 2011: 84–127; Connaway 2010: 214–217.
Literaturbericht – Wie geht man vor?
31
untersuchen, was darin über Praxis ausgesagt wird. Freilich sollte man sich im Sinn der Quellenkritik über Grenzen, Lücken und den Blickwinkel der Quellen Klarheit verschaffen. Im Allgemeinen sind Zeitungsartikel über Bibliotheken eine ziemlich unzuverlässige Quelle, und Praxisberichte geben ein ganz punktuelles Bild.
4 Fragestellungen und Vorgehensweisen Ohne Scheu vor rezeptologischem Schematismus sollen Fragestellungen und Vorgehensweisen eines Literaturberichts in drei Schritten beschrieben werden. Vorausgesetzt wird, dass man sich anhand der üblichen Stufenfolge einen ersten Überblick über das Thema verschafft hat, wenn es subjektiv neu ist: Man beginnt mit Lexikonartikeln über das Thema, geht dann zu Hand- und Lehrbüchern, die im Idealfall ein überschaubares Kapitel zu dem Thema enthalten, findet ggf. eine Monografie – oder den Literaturbericht, den man selber gerade schreiben wollte. Bei Themen, die objektiv neu oder innovativ sind, findet man naturgemäß auf diese Weise nichts und fängt gleich bei Schritt 1 an. Freilich soll hervorgehoben werden, dass die wissenschaftliche Gattung Literaturbericht viel weniger festgelegt ist als etwa eine Patentschrift oder ein Abstract es sind.
Schritt 1 Man grenzt das Thema ein, zu dem der Literaturbericht entstehen soll, und sucht geeignete Deskriptoren und weitere Kriterien, um in bibliografischen Datenbanken (zu diesen s. Abschnitt 6) und weiteren Quellen Literatur zu finden. Die Deskriptoren bilden das Thema (ggf. einschließlich geografischer Begrenzungen) und ggf. die auf das Thema angewendeten Methoden ab. Weitere Kriterien können aus den in den Abschnitten 2 und 3 behandelten Sachverhalten gewonnen werden, z.B. Begrenzung auf Beiträge in Peer-Reviewed-Zeitschriften oder auf programmatische Deklarationen. Aufwändig wird es, wenn man Kriterien gewählt hat, die in den bibliografischen Datenbanken nicht als Selektionskriterien vorgesehen sind, z.B. ist das für Praxisberichte nicht vorgesehen. In vielen Fällen lassen sich die Theorien, an denen die ausgewertete Literatur sich orientiert, nicht gut in Deskriptoren abbilden. Dann bleibt nur die Durchsicht der Treffer oder sogar der Volltexte. Bei diesem Schritt wendet man die bekannten Suchstrategien⁸ an, vor allem weitere Recherchen mit Deskriptoren oder Stichwörtern in anderen Sprachen, mit Synonymen, verwandten Begriffen und Oberbegriffen, ferner Blockbildung (variierende Verknüpfung von Deskriptoren oder Stichwörtern), Citation Chaining (man geht von einigen gefundenen Beiträgen
8 Stock 2007; Niedermair 2010.
32
Umlauf
aus und erweitert diese Menge um diejenigen Beiträge, die darin zitiert werden, und um diejenigen Beiträge, die diesen Beitrag zitieren) und Citation Pearl Growing (man verwendet die Deskriptoren eines gefundenen Beitrags, mit denen man noch nicht recherchiert hat, für die weitere Recherche). Und man muss sich vor Augen führen, was in den bibliografischen Datenbanken nicht oder unvollständig nachgewiesen ist (s. Abschnitt 6).
Schritt 2 Man exzerpiert die ausgewählten Beiträge unter folgenden Fragestellungen: Welcher Autor schreibt was zu dem gewählten Thema? Welche Fragestellungen werden bearbeitet? Mit welchen Methoden arbeitet der Autor? Was ist dabei herausgekommen? In welcher theoretischen Schule steht der Autor? Um welche Literaturgattung (vgl. Abschnitt 2) handelt es sich? Ein Literaturbericht beantwortet diese Fragen zunächst auf der Ebene des einzelnen Beitrags. Die Aussagen, die man über den einzelnen Beitrag formuliert, können einem Abstract ähneln. Einen Literaturbericht allerdings nur auf vorgefundene Abstracts zu stützen, kann gefährlich sein: Man verlässt sich dann darauf, dass die Abstracts mit denselben Fragestellungen erzeugt wurden, die man selbst für den Literaturbericht hat. Ob das der Fall ist, weiß man aber erst, wenn man nicht nur den Abstract, sondern auch den Volltext gelesen hat. Wenn die Beiträge anhand einer überschaubaren Anzahl an Kriterien gut vergleichbar sind, bietet sich eine Synopse an.⁹ Sie kann Spalten enthalten für Aussagen wie: – – – – –
– – –
bibliografische Referenz, Jahr, Land, auf das die Autoren Bezug nehmen; ggf. nationale Spezifika, die für die Ergebnisse wichtig sein könnten, Gattung des Beitrags, z.B. empirische Untersuchung, theoretische Abhandlung, Erfahrungsbericht, Fragestellung. Ggf. werden weitere Rubriken gebraucht, die die Fragestellungen näher beschreiben, z.B. bei einer empirischen Untersuchung die Kennzeichnung der Grundgesamtheit, bei einer theoretischen Abhandlung die Theorie-Schule, der die Autoren angehören, oder bei einem Erfahrungsbericht das Niveau der begrifflichen und theoretischen Durchdringung, Methode, Ergebnis, offene Fragen.
9 Vgl. Kornmeier 2010: 60; Clark 2007: 122f.
Literaturbericht – Wie geht man vor?
33
Wissen¹⁰ verwendet in seiner Synopse über Delphi-Studien u.a. folgende Rubriken: bibliografische Referenz, Anzahl der Autoren, Erscheinungsjahr, Erhebungsjahre, Erhebungsdauer, Zukunftsjahr, Anzahl der rekrutierten und der teilnehmenden Probanden, Anzahl der Panels und der Befragungsrunden, Rücklaufquoten insgesamt und der einzelnen Runden, Anzahl der Fragen und der behandelten Themen. Die Synopse fungiert nicht nur als Teil eines Literaturberichts im Vorlauf des eigenen Forschungsdesigns, sondern auch zur Ermittlung erforderlicher Arbeitskapazitäten zur Durchführung der eigenen Delphi-Studie – eine ungewöhnliche, aber ergiebige Fragestellung. Wenn man im Literaturbericht mehrere Gattungen berücksichtigt, gilt es, die Unterschiede bei den wichtigsten Beurteilungsdimensionen im Auge zu behalten. Sinnlos ist z.B. festzustellen, dass die meisten Praxisberichte die vorhandene Literatur zum Thema kaum zitieren, weil das bei Praxisberichten üblich ist. Hier ginge es um die Frage, ob die Autoren inhaltlich zeigen, dass sie ihre Praxis in die verbreitete Praxis angemessen einordnen.
Schritt 3 Dann fasst man für die untersuchten Beiträge insgesamt die Antworten auf die folgenden Fragen zusammen: – – – – – –
Welche Fragestellungen werden bearbeitet? Welche Methoden werden eingesetzt? Welche Ergebnisse kommen heraus? Welche Theorien sind erkennbar? Wie beziehen sich die Beiträge aufeinander? Sind Konsense und Dissense erkennbar? Sind Qualitätsunterschiede zwischen den Beiträgen erkennbar? An welchen Kriterien kann man die Qualitätsunterschiede festmachen? In welchen Literaturgattungen werden welche Fragestellungen behandelt?
… und benennt die gewonnenen Erkenntnisse¹¹, z.B. – – –
häufig, selten oder typischerweise bearbeitete Fragestellungen, häufig, selten oder typischerweise getroffene Aussagen bzw. Ergebnisse, häufig, selten oder typischerweise angewendete Methoden,
10 Wissen 2008: 88f. 11 Vgl. Clark 2007: 112–124.
34
–
– – – –
Umlauf
Konsense und Dissense zwischen den Autoren bzw. bestätigte oder entgegengesetzte empirische Ergebnisse und ggf. Veränderungen bei diesen Sachverhalten im Zeitverlauf, Veränderungen in Fragestellungen und berücksichtigten Aspekten im Zeitverlauf, Literaturgattungen, in denen das Thema häufig, typischerweise oder selten bearbeitet wird, Erklärungskraft der Theorien, offene Forschungsfragen.
Zweck eines Literaturberichts ist, den Leser zur Literatur hinzuführen und ihm einen Überblick zu verschaffen, welche Teilaspekte in welcher Weise behandelt werden und was der Stand der Erkenntnisse oder Dissense zum betreffenden Thema ist. Ein Literaturbericht im Rahmen eines Forschungsprojekts bzw. im Antrag eines Drittmittelprojekts soll insbesondere die offenen Fragen herausarbeiten und darlegen, weshalb das vorgenommene Forschungsprojekt interessante Erträge verspricht und darüber hinaus zeigen, dass der Autor in der Lage ist, die Forschung auf diesem Gebiet oder in dieser theoretischen Schule voranzubringen.¹² Im Rahmen einer Masterarbeit oder einer Dissertation beabsichtigt der Autor des Literaturberichts, seine Leser davon zu überzeugen, dass er zu offenen Fragen einen Erkenntnisfortschritt beitragen wird.¹³ Der Anspruch an einen Literaturbericht ist begrenzter als an eine Untersuchung, die diskursanalytischen Ansätzen¹⁴ folgt. Eine Diskursanalyse interessiert sich für die meist unausgesprochenen Regeln, Tabus, Trends, Werte, Metaphern und Symbole sowie Argumentationsfiguren eines Kommunikationsprozesses. Nichts spricht dagegen, auch in einem Literaturbericht diskursanalytische Fragestellungen in beschränktem Maß aufzugreifen. Mit bibliometrischen Methoden¹⁵ können folgende Fragen bearbeitet werden: – – – – –
Welches sind die Kernzeitschriften für dieses Thema? Welche Autoren veröffentlichen die meisten Beiträge über das Thema? Welche Autoren arbeiten bevorzugt mit welchen Methoden? Welche Autoren bzw. Beiträge werden besonders häufig zitiert? Lassen sich anhand der Zitationsnetzwerke Autorengruppen oder Schulen identifizieren?
12 Gatrell [u.a.] 2005: 16f. 13 Clark 2007: 105. 14 Capellaro 2007. 15 Havemann 2009.
Literaturbericht – Wie geht man vor?
–
35
Lassen sich über die bibliografische Kopplung (Aufsatz A zitiert zwar nicht Aufsatz B, aber beide zitieren den Aufsatz C) ähnliche Autoren oder Schulen identifizieren?
Für die Bearbeitung der letzten drei Fragen braucht man nicht nur eine bibliografische Datenbank, sondern eine Zitationsdatenbank. Freilich werden in den Zitierindexen nur wenige Zeitschriften der Bibliotheks- und Informationswissenschaft indexiert; das ISI Web of Knowledge wertet nur wenige Zeitschriften des Fachs aus, darunter eine deutschsprachige.
5 Beispiele für Literaturberichte ARIST (1966ff.). Annual Review of Information Science and Technology. Hrsg. von der American Society for Information Science and Technology. Medford, NJ: Information Today, Inc. http:// onlinelibrary.wiley.com/journal/10.1002/%28ISSN%291550-8382 (9.5.2012).
Die Jahrbücher stellen die wichtigste Plattform für Literaturberichte des Faches dar. Sie werden zu Themengruppen wie den folgenden erstellt (Beispiel des Jahrgangs 2008): Information Seeking and Retrieval, The Nature of Academic Disciplines, Information Management and Systems, Issues in Information Science. In jeder Themengruppe gibt es zu ausgewählten Einzelthemen einen Literaturbericht oder mehrere. Jede Dissertation und viele Masterarbeiten enthalten einen mehr oder minder umfangreichen Literaturbericht. Als Beispiel soll genannt werden: Rauchmann, S.: Bibliothekare in Hochschulbibliotheken als Vermittler von Informationskompetenz. Eine Bestandsaufnahme und eine empirische Untersuchung über das Selbstbild der Bibliothekare zum Thema Informationskompetenz und des Erwerbs methodisch-didaktischer Kenntnisse in Deutschland. Berlin, Humboldt-Univ., Diss., 2010. urn:nbn:de:kobv:11-100174524 (9.5.2012).
Rauchmann gibt auf Seite 56–98 anhand der Literatur einen Überblick, wie sich der Begriff Informationskompetenz entwickelt hat und welche Modelle für die Vermittlung von Informationskompetenz in der Literatur dargelegt sind. Daraus leitet sie die Fragestellungen für ihre empirische Untersuchung ab. Von den nicht sehr zahlreichen monografischen Literaturberichten des Faches sollen einige erwähnt werden: Fett, O. F.: Impact – Outcome – Benefit. Ein Literaturbericht zur Wirkungsmessung für Hochschulbibliotheken. Berlin: Institut für Bibliothekswissenschaft 2004 (Berliner Handreichungen zur Bibliothekswissenschaft und Bibliothekarausbildung 142). www.ib.hu-berlin.de/~kumlau/ handreichungen/h142 (9.5.2012).
36
Umlauf
„Die Arbeit stellt die vor allem in der angloamerikanischen Fachliteratur dokumentierte Entwicklung von Begriffen, Methoden und Ergebnissen der Wirkungsmessung für Hochschulbibliotheken vor und diskutiert den möglichen strategischen und operativen Einsatz von Wirkungsdaten.“ (Originalreferat, S. 2) Koch, C.: Das Bibliothekswesen im Nationalsozialismus. Eine Forschungsstandanalyse. Marburg: Tectum-Verl. 2003.
Koch referiert anhand einer thematischen Gliederung die Inhalte einer weit gefassten Auswahl an Monografien und Beiträgen in Sammelbänden und Zeitschriften der Bibliotheks- und Informationswissenschaft. Vor diesem Hintergrund fasst sie den Stand der Erkenntnisse knapp zusammen, wertet z.T. auch die behandelten Publikationen, benennt offene Fragen und noch nicht oder kaum bearbeitete Aspekte. Grenzen sind: Es wird nur deutschsprachige Literatur berücksichtigt, und die Beiträge in geschichtswissenschaftlichen Zeitschriften sind nicht ausgewertet. Insoweit kann die Autorin ihren Anspruch einer Forschungsstandanalyse nicht einlösen. Es handelt sich um einen begrenzten Literaturbericht. Er wurde hier vorgestellt, um hervorzuheben: Wer über Bibliotheksgeschichte arbeitet, muss auch die geschichtswissenschaftliche Literatur auswerten. Hill, M. W.: National Information Policies and Strategies. An Overview and Bibliographic Survey. British Library Research Information Policy Issues. London [u.a.]: Bowker Saur 1994.
Der Autor schrieb den Literaturbericht als Direktor der Forschungsabteilung der British Library. Mehrere Hundert Dokumente zum Thema Informationspolitik mit dem Schwerpunkt Großbritannien, aber auch unter dem Gesichtspunkt des Vergleichs nationaler Politiken, werden ausgewertet, zum großen Teil amtliche Dokumente wie Gesetze, Regierungsprogramme und Deklarationen, aber auch Forschungsarbeiten. Die Fragestellungen sind: Auf welchen Feldern handelt die britische Informationspolitik, und was will sie damit erreichen? Schließlich sollen als Zeitschriftenbeitrag oder als Beitrag in Sammelbänden erschienene Literaturberichte bzw. Sammelrezensionen beispielhaft erwähnt werden: Bullis, D. R. u. L. Smith: Looking Back, Moving Forward in the Digital Age. A Review of the Collection Management and Development Literature, 2004-8. In: Library Resources & Technical Services 55 (2011) 4. S. 205–220.
Die Autoren fassen ca. 180 ohne weitere Begründung ausgewählte Beiträge, meist in Zeitschriften, zusammen und arbeiten die Trends der inhaltlichen Aussagen heraus. Davis, P. M. u. W. H. Walters: The Impact of Free Access to the Scientific Literature. A Review of Recent Research. In: Journal of the Medical Library Association 99 (2011) 3. S. 208–217.
Literaturbericht – Wie geht man vor?
37
Der Literaturbericht wertet empirische Untersuchungen aus den Jahren 2001–2010 unter den Fragestellungen aus, welche Auswirkungen Open Access auf das Verhalten der Wissenschaftler als Autoren und Leser hat. Die wichtigsten Aussagen sind thesenartig zusammengefasst. Umlauf, K.: Neuere Lehr- und Fachbücher und Fachlexika der Buchwissenschaft. Bestandsaufnahme und Desiderate. In: Buchwissenschaft in Deutschland. Ein Handbuch. Hrsg. von U. Rautenberg. Berlin: De Gruyter Saur 2010. S. 655–766.
Die Sammelrezension untersucht deutschsprachige Lexika sowie Lehr- und Handbücher der Buchwissenschaft aus den Erscheinungsjahren ab ca. 2000 unter den Fragestellungen: Welche Themen werden behandelt, wer ist der Adressat? Welcher Buchbegriff liegt zugrunde? Wie weit werden Spezifika der Buchwirtschaft (z.B. Buch als duales Gut) berücksichtigt?
6 Bibliografische Datenbanken Bibliografische Datenbanken findet man gut über das Datenbank-Infosystem (DBIS) unter www.bibliothek.uni-regensburg.de/dbinfo. Die wichtigsten bibliografischen Datenbanken des Faches sollen im Folgenden aufgeführt werden. Freilich muss man beachten, dass bestimmte Gattungen hierin nicht oder unvollständig nachgewiesen sind, bes. gilt dies für lobbyistische Verlautbarungen, programmatische Deklarationen und Normen. b2i. Bayerische Staatsbibliothek [u.a.] 2006ff. Open Access unter www.b2i.de (9.5.2012).
Metasuche in zahlreichen ausgewählten und qualitätskontrollierten Fachressourcen (Fachkataloge, Bibliografien, Internetquellen, Digitale Volltextarchive etc.) der Bibliotheks-, Buch- und Informationswissenschaften. Darüber hinaus Zugang zu zahlreichen weiteren Online-Datenbanken und Zeitschriften. Bestellmöglichkeit (über eine Verfügbarkeitsrecherche) insbesondere bei den Fachkatalogen. Durchsucht auch DABI, Infodata (Anzeige mit unvollständigen Katalogisaten) und das Bibliotheksportal. LISA. Library and Information Science Abstracts. Cambridge Scientific Abstracts 1969ff. www. csa.com/factsheets/lisa-set-c.php (22.10.2012). Lizenzpflichtig.
Bibliografische Datenbank über 440 Zeitschriften aus mehr als 68 Ländern in über 20 verschiedenen Sprachen, darunter einige deutschsprachige. Die Zeitschriften werden z.T. selektiv indexiert. Schlagwörter und Abstracts englisch.
38
Umlauf
LISTA. Library, Information Science & Technology Abstracts. Ipswich, MA: Ebsco 1964ff. www. ebscohost.com/academic/library-information-science-technology-abstracts-lista (22.10.2012). Lizenzpflichtig.
Bibliografische Datenbank über etwa 560 Zeitschriften weltweit, darunter einige deutschsprachige. Die Zeitschriften werden z.T. selektiv indexiert, die wichtigsten deutschsprachigen vollständig. Schlagwörter und Abstracts englisch. DABI. Datenbank deutsches Bibliothekswesen. Hrsg. vom Institut für Bibliotheks- und Informationswissenschaft. Berlin: Humboldt-Univ. 1999ff. Open Access unter http://141.20.126.79/dabi/ datenbank.html (9.5.2012).
Bibliografische Datenbank, die ca. 16 deutschsprachige Fachzeitschriften, ferner die Kongressschriften der Bibliothekartage und ausgewählte Sammelbände indexiert und damit Lücken ausfüllt, die LISA und LISTA haben. Übernahme von Katalogisaten aus der Medizinbibliothekarischen Bibliographischen Datenbank und von auf Bayern bezogenen Aufsatz-Katalogisaten der Staatlichen Landesfachstelle für das Öffentliche Bibliothekswesen bei der BSB München. Austausch von Katalogisaten mit Infodata. Die Katalogisate werden auch über b2i erschlossen. Infodata. Informationszentrum für Informationswissenschaft und -praxis (IZ) der Fachhochschule Potsdam. www.infodata-edepot.de/(22.10.2012). Lizenzpflichtig.
Deutsch/englische Literaturdatenbank zur Informationswissenschaft und zu verwandten Gebieten mit Inhaltsangaben. Enthielt 2011 ca. 109.000 Katalogisate, jährlicher Zuwachs ca. 1.500 bei monatlicher Aktualisierung. Indexiert ca. 240 Periodika und ca. 30.000 Monografien. Hauptsachgebiete: Fachinformation, Dokumentation, Information Retrieval, Informationsvermittlung, Informationsmanagement, Informationssysteme, Computerlinguistik, Informatik, Künstliche Intelligenz, Neue Medien, Elektronisches Publizieren. Die Katalogisate werden auch über b2i erschlossen, aber in b2i unvollständig (ohne „In: …“) angezeigt. Auch wissenschaftliche Suchmaschinen wie Google scholar¹⁶ oder BASE¹⁷ sind hilfreich. Einige Dokumentenserver enthalten z.T. wertvolle Beiträge, z.T. ephemere Papiere oder Folienpräsentationen von Praktikern: OPuS-Publikationsserver des Berufsverbands Information Bibliothek und des Vereins Deutscher Bibliothekare. www.bib-info.de/verband/publikationen/opus.html (9.5.2012). Bachelor- und Masterarbeiten auf den Servern der Hochschulen mit einschlägigen Studiengängen. Diese sind unter www.informationswissenschaft.org verzeichnet (9.5.2012).
16 http://scholar.google.de (9.5.2012). 17 http://mobile.base-search.net (9.5.2012).
Literaturbericht – Wie geht man vor?
39
7 Literatur- und Quellenverzeichnis 21 gute Gründe für gute Bibliotheken. Berlin: Bibliothek & Information Deutschland 2008. www. bideutschland.de/download/file/2_21 %20GUTE%20GRUENDE_endg_4-9-08.pdf (9.5.2012). Bakewell, L.: Off the Shelf. How to Run a Successful Primary School Library and Promote Reading. Carlisle: Carel Press 2010. Becker, T.: Wandel im Quadrat. Change Management beim Einsatz von RFID. In: „Gut ist uns nie gut genug!“ Instrumente zur Qualitätsentwicklung und Qualitätssicherung für eine ausgezeichnete Bibliothek. Hrsg. von T. Becker u. C. Vonhof. Wiesbaden: Dinges & Frick 2010 (B.I.T. online – Innovativ 30). S. 71–110. Berger, D.: Wissenschaftliches Arbeiten in den Wirtschafts- und Sozialwissenschaften. Hilfreiche Tipps und praktische Beispiele. Lehrbuch. Wiesbaden: Gabler 2010. Berufsverband Information Bibliothek: Bibliothekssterben. 2011ff. www.bib-info.de/verband/ projekte/portal-bibliotheksleben/bibliothekssterben.html (9.5.2012). Bibliotheksplan ’73. Entwurf eines umfassenden Bibliotheksnetzes für die Bundesrepublik Deutschland. Berlin: Dt. Bibliothekskonferenz 1973. www.bibliotheksportal.de/bibliotheken/ strategie-und-vision/bibliotheksentwicklung/deutschland.html#c1688 (9.5.2012). Capellaro, C.: Die Gebührendebatte im Öffentlichen Bibliothekswesen der Bundesrepublik Deutschland seit 1945. Eine Diskursanalyse. Berlin: Institut für Bibliotheks- und Informationswissenschaft 2007 (Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft 224). www.ib.hu-berlin.de/%7Ekumlau/handreichungen/h224 (9.5.2012). Clark, I. L.: Writing the Successful Thesis and Dissertation. Upper Saddle River, NJ: Prentice Hall 2007. Connaway, L. S. u. R. R. Powell: Basic Research Methods for Librarians. 5. Aufl. Santa Barbara, CA: Libraries Unlimited 2010 (Library and Information Science Text Series). DIN ISO 11799. Anforderungen an die Aufbewahrung von Archiv- und Bibliotheksgut. Berlin: Beuth 2005–2006. Gatrell, J. D., G. D. Bierly u. R. R. Jensen: Research Design and Proposal Writing in Spatial Science. Berlin [u.a.]: Springer 2005. Gruber, H., B. Huemer u. M. Rheindorf: Wissenschaftliches Schreiben. Ein Praxisbuch für Studierende der Geistes- und Sozialwissenschaften. Wien: Böhlau 2009 (UTB 3286, Schlüsselkompetenzen). Havemann, F.: Einführung in die Bibliometrie. Berlin: Ges. für Wissenschaftsforschung 2009. http:// d-nb.info/993717780 (9.5.2012). Heister, W. u. D. Weßler-Poßberg: Studieren mit Erfolg. Wissenschaftliches Arbeiten für Wirtschaftswissenschaftler. 2. Aufl. Stuttgart: Schäffer-Poeschel 2011. Hobohm, H.-C. u. K. Umlauf (Hrsg.): Erfolgreiches Management von Bibliotheken und Informationseinrichtungen. Losebl.-Ausg. Hamburg: Dashöfer 2002ff. IFLA, International Federation of Library Associations and Institutions (Hrsg.): Funktionelle Anforderungen an bibliografische Datensätze. Abschlussbericht der IFLA Study Group on the Functional Requirements for Bibliographic Records. Frankfurt a.M.: Dt. Nationalbibliothek 2006. urn:nbn:de:1111-20040721195 (9.5.2012). Khoo, C. S., J.-C. Na u. K. Jaidka: Analysis of the Macro-Level Discourse Structure of Literature Reviews. In: Online Information Review 35 (2011) 2. S. 255–271. Kornmeier, M.: Wissenschaftlich schreiben leicht gemacht. Für Bachelor, Master und Dissertation. 3., aktual. u. erw. Aufl. Bern [u.a.]: Haupt 2010 (UTB 3154, Arbeitshilfen). Lengwiler, M.: Praxisbuch Geschichte. Einführung in die historischen Methoden. Zürich: Orell Füssli 2011 (UTB 3393).
40
Umlauf
Lexikon der Bibliotheks- und Informationswissenschaft. LBI. Hrsg. von S. Gradmann u. K. Umlauf. Stuttgart: Hiersemann 2009ff. Mayr, P. u. V. Petras: Cross-Concordances. Terminology Mapping and its Effectiveness for Information Retrieval. In: World Library and Information Congress, 74th IFLA General Conference and Council, Québec, Canada, 10–14 August 2008. [Conference Proceedings]. http://hdl. handle.net/10760/11773; http://archive.ifla.org/IV/ifla74/papers/129-Mayr_Petras-en.pdf (22.10.2012). Niedermair, K.: Recherchieren und Dokumentieren. Der richtige Umgang mit Literatur im Studium. Konstanz: UVK-Verlagsges. 2010 (UTB 3356). Plieninger, J.: Umzug von Buchbeständen in Bibliotheken. In: Erfolgreiches Management von Bibliotheken und Informationseinrichtungen. Hrsg. von H.-C. Hobohm u. K. Umlauf. Hamburg: Dashöfer 2002ff., Kap. 3.9.4. Rubin, R. E.: Foundations of Library and Information Science. 3. Aufl. New York, NY: Neal-Schuman Publishers 2010. Spließ, C.: Anleitung zur Erstellung eines Podcasts anhand des Netbib-Podcasts. 2009. urn:nbn:de:0290-opus-9686 (9.5.2012). Stanitzek, G.: Essay. In: Handbuch Literaturwissenschaft. Gegenstände – Konzepte – Institutionen. Hrsg. von T. Anz. Stuttgart [u.a.]: Metzler 2007. S. 160–166. Stock, W. G.: Information retrieval. Informationen suchen und finden [Lehrbuch]. München: Oldenbourg 2007 (Einführung in die Informationswissenschaft 1). Stykow, P., C. Daase, J. MacKenzie u. N. Moosauer: Politikwissenschaftliche Arbeitstechniken. Paderborn: Fink 2009 (UTB 3137). Töpfer, A.: Erfolgreich forschen. Ein Leitfaden für Bachelor-, Master-Studierende und Doktoranden. 2., überarb. u. erw. Aufl. Berlin [u.a.]: Springer 2010. Tolppanen, B. P. u. M. Slough: Providing Circulation Services in a Temporary Location. In: Journal of Access Services 1 (2003) 4. S. 115–127. Vogel, M.: Ermittlung der Schäden an der Zweigbibliothek Forstwesen der SLUB Dresden durch das Hochwasser der Wilden Weißeritz im August 2002 und Vorschläge zu deren Beseitigung. Berlin: Institut für Bibliothekswissenschaft 2004 (Berliner Handreichungen zur Bibliothekswissenschaft 130). www.ib.hu-berlin.de/%7Ekumlau/handreichungen/h130 (9.5.2012). Wegmann, N.: Bücherlabyrinthe. Suchen und Finden im alexandrinischen Zeitalter. Köln: Böhlau 2000. Wissen, D.: Zukunft der Bibliographie – Bibliographie der Zukunft. Eine Expertenbefragung. Berlin: Logos 2008 (Berliner Arbeiten zur Bibliotheks- und Informationswissenschaft 20). Wissenschaftsrat u. Deutsche Forschungsgemeinschaft: Zur Zukunft der Bibliotheksverbünde als Teil einer überregionalen Informationsinfrastruktur in Deutschland. Gemeinsame Erklärung. 2011. www.dfg.de/download/pdf/foerderung/programme/lis/gemeinsame_erklaerung_dfg_ wr_bibliotheksverbuende.pdf (9.5.2012).
Michael Seadle
Entwicklung von Forschungsdesigns 1 Einführung Internationale Forschung in Library and Information Science (LIS, Bibliotheks- und Informationswissenschaft) folgt heute Prinzipien, die entweder aus den Sozialwissenschaften im breiten angloamerikanischen Sinn kommen oder aus der angewandten Forschung der Informatik. Dieser Beitrag wird i.d.R. von Library and Information Science handeln, als ob es ein einheitliches Fach wäre, obwohl die Elemente der heutigen LIS vielfältig sind und manchmal Wurzeln haben, die nicht kompatibel sind. Die herausragenden Forschungsinstitute im LIS-Bereich, vor allem die Mitglieder der iSchool Gruppe¹, gehen davon aus, dass ihre Ausrichtung und Forschungsinteressen nicht hauptsächlich bibliotheksorientiert sind, sondern das ganze Spektrum der kulturellen Gedächtnis-Institutionen einschließen, darunter besonders Archive und Museen. Information ist ubiquitär in unserer modernen Gesellschaft, und zum Forschungsbereich der LIS gehören unter anderem: – – –
die Infrastruktur der Informationsträger, die Mechanismen, die Informationen zur Verfügung stellen (Metadaten) und der Umgang der Benutzer mit Information.
Internationale LIS-Forschung ist grundsätzlich empirisch. Das heißt, dass die Forschung auf Nachweisen und bestimmten Regeln für die Nachweisführung basiert und sich dadurch von den abstrakten Sphären der Philosophie unterscheidet. Isaiah Berlin definierte Empirische Forschung in einem BBC-Interview mit Bryan Magee: ‘What sort of questions can be answered? At the cost of some over-simplification, one might say that there are two great classes of issues about which it can be said with a certain firmness that they can – at least in principle, if not always in practice – be settled. One is the class of ordinary empirical questions, … the sort of thing ordinary observation or the sciences deal with.’ ‘Are there black swans in Australia?’ ‘Yes, there are; they have been seen there.’²
Dieser Beitrag beschäftigt sich mit empirischer Forschung aus den Disziplinen, in denen der Autor einige Erfahrung hat, darunter: Ethnologie, Geschichte, Wirtschaftswissenschaft, Soziologie und Psychologie.
1 www.ischools.org/(1.9.2012). 2 Magee u. Berlin 1978: 24.
42
Seadle
Es ist nicht möglich, die Forschungsdesign-Fragen für jede Disziplin im Detail zu behandeln. Nur Wissenschaftler mit formaler Ausbildung in den jeweiligen Bereichen sollten dies tun. Alle oben genannten Disziplinen spielen in LIS eine Rolle, und ihre Forschungsmethoden lassen sich grob in zwei breite Klassen unterteilen: in quantitative und qualitative Klassen – die erste mit einem numerischen Fokus, bei dem die Verwendung statistischer Tools zur Analyse wertvoll ist, und die zweite mit einer Orientierung auf Beobachtung und Interpretation.
2 Forschungsdesign Bei Forschungsdesign handelt es sich grundsätzlich um Planung mit dem Ziel, höchstmögliche Validität der Ergebnisse sicherzustellen. Forschungsdesign ist kein mechanisches Verfahren, sondern ein organisches, in dem man immer wieder prüfen muss, ob die verfügbaren Daten und die gewählten analytischen Methoden zu sinnvollen Antworten führen. Die Zeit, die man zu Beginn investiert, um Probleme zu vermeiden, spart man später bei der Analyse. Schlechtes Design untergräbt den Zeitplan und kann die gesamte Forschung wertlos machen. Gutes Design bietet zwar keine Garantie für gute Ergebnisse, aber es erhöht die Wahrscheinlichkeit zumindest brauchbarer Ergebnisse und ermöglicht eine effizientere Analyse. Unerfahrene Forscher neigen dazu, an der Zeit für die Gestaltung des Forschungsdesigns zu sparen. Auch ist ein gutes Design für den unerfahrenen Forscher schwieriger, weil er wenig oder gar keine Erfahrung hat, auf die er sich verlassen kann. Forschungsdesign ist iterativ: Es beruht nicht nur auf Prinzipien, sondern auf Feedback während des Projekts. Das Ziel dieses Beitrags ist es, dem Leser zu zeigen, wo Probleme im Forschungsdesign und Validitätsrisiken auftreten und was für Folgen sich daraus ergeben können. LIS ist ein Fach, das bewusst und regelmäßig Forschungsprinzipien aus anderen Bereichen entlehnt. Methodenübernahme ist typisch in den Sozialwissenschaften: Behavioral Economics (Verhaltensökonomie) entlehnen Methoden aus der Psychologie, und Cliometrics (Wirtschaftsgeschichte) entlehnen aus der Wirtschaftswissenschaft. Auch die Grenze zwischen Soziologie und Ethnologie wird immer unschärfer, seitdem Ethnologen sich stärker für Institutionen (besonders Bibliotheken) interessieren und seitdem Soziologen sich verstärkt mit kulturellen Fragen beschäftigen. Experimentelles Design ist in den Behavioral Economics wie in der Psychologie wichtig, in der LIS-Forschung spielt es eine bescheidene, wenn auch zunehmende Rolle.³ Das Werk von Shadish, Cook und Campbell⁴ ist in diesem Bereich ein Standardwerk, das
3 Siehe z.B. Greifeneder 2012. 4 Shadish [u.a.] 2002.
Entwicklung von Forschungsdesigns
43
LIS-Forscher kennen sollten. Das Feld des Experimentellen Designs ist allerdings zu komplex, um es in diesem Beitrag detailliert zu besprechen. Das Forschungsdesign für LIS-Untersuchungen im Bereich der angewandten Informatik lässt sich i.d.R. den Vorgehensweisen der quantitativen Forschung zuordnen. Forschung im Bereich Informatik hat aber auch einen ingenieurwissenschaftlichen Aspekt, indem man etwas baut und testet.⁵ Dieser Beitrag untersucht drei kritische Aspekte des Forschungsdesigns. Im ersten Teil geht es darum, welche Fragen in der LIS-Forschung wichtig sind. Der zweite Teil behandelt die verschiedenen Arten von Daten, die für ein Forschungsdesign möglich sind. Der dritte Teil untersucht die analytischen Methoden, die man in der sozialwissenschaftlichen Forschung verwendet. Die Beispiele in diesem Beitrag kommen für die quantitative Forschung weitgehend aus Befragungen und für die qualitative Forschung aus der Ethnologie.
3 Forschungsfragen Forschung beginnt im jedem Fachgebiet mit einer Fragestellung, und man vergisst leicht, wie schwierig es ist, eine relevante und beantwortbare Forschungsfrage zu formulieren. Relevanz hat nichts mit persönlichen Interessen oder Geschmack zu tun, obwohl persönliches Interesse sicherlich hilft, ein Forschungsprojekt zu Ende zu führen. Relevanz hat in erster Linie mit den Themen und den Fragen in der bestehenden wissenschaftlichen Literatur zu tun. Dies ist ein Grund, warum wissenschaftliche Arbeiten traditionell einen Literaturbericht enthalten.⁶ Das Ziel ist nicht zu beweisen, dass der Autor die nötige Hintergrundinformation kennt, sondern den Kontext darzustellen, in dem die Frage relevant ist und aus dem die Frage erwächst. Originelle Arbeit existiert nie ohne Kontext. Mythen über brillante Denker wie Einstein besagen, dass sie die Welt mit vermeintlich völlig neuen Ideen verändert hätten. Aber wenn man ernsthaft auf die Mathematik und Physik hinter Einsteins Relativitätstheorie schaut, sieht man, wie weit er Leibniz, Gauss, Planck und anderen mit seinen Methoden und Ideen verbunden war. Der Historiker Michel Foucault hat in Folie et Deraison⁷ ein wichtiges Argument geltend gemacht, nämlich dass der menschliche Verstand ein Gefangener der Zeitkultur ist. In der heutigen Gesellschaft ist das nicht anders. Die Fragen, die im Mittelpunkt des Forschungsdesigns stehen, stammen aus dem wissenschaftlichen Umfeld des Forschers. In gutem Forschungsdesign macht man heute diesen Zusammenhang
5 Für einen tieferen Einblick in Design-Fragen der Informatik siehe den Beitrag Modellierung und Tests als methodische Grundbausteine der Informatik von W. Coy in diesem Band. 6 Siehe den Beitrag Literaturbericht von K. Umlauf in diesem Band. 7 Foucault 1961.
44
Seadle
und diese Wurzeln explizit. Das heißt nicht, dass eine Frage erst relevant ist, wenn sie von der deutschen oder internationalen LIS-Community gestellt wurde. LIS-Forschung beruht auf vielen Traditionen, wie man in diesem Buch sieht, aber fachfremde Literatur einzuführen erfordert immer eine Legitimation der neuen Fragestellungen, damit der LIS-Leser den Kontext und den Hintergrund versteht. Ein Ziel der heutigen internationalen LIS-Forschung ist es, eine Kultur aufzubauen, in der die Forschungsergebnisse aus einem Projekt die Basis für ein weiteres bilden können. Das klassische Modell dafür stammt aus den Naturwissenschaften, und zunehmend setzen es auch die Sozialwissenschaften und die Wirtschaftswissenschaften mit einigem Erfolg ein. Auf anderen Ergebnissen aufbauen zu können ist wichtig, damit nicht jedes Forschungsprojekt wieder bei Null anfangen muss. Relevanz bedeutet in diesem Zusammenhang, die Bausteine der früheren Forschung zu benennen, auf denen das neue Projekt basiert. Eine beantwortbare Frage zu formulieren, wird immer schwieriger und gleichzeitig immer wichtiger. Forschungsprojekte leben und sterben mit der Qualität der Fragen, die sie beantworten. Eine schlecht konzipierte Frage kann unbeantwortbar oder unverständlich sein, und schlechte, unklare, unbeantwortbare Fragen untergraben die Bedeutung und den Wert aller Ergebnisse. Leider bekommen die Forschungsfragen nur selten die nötige Aufmerksamkeit im Design. Autoren pflegen mit einer vertrauten Methode oder mit leicht greifbaren Daten oder mit einem allgemeinen Interessensbereich zu beginnen und formulieren die Forschungsfragen erst hinterher. Eine gute Forschungsfrage berücksichtigt drei Faktoren: – – –
die Daten (Nachweise), die im praktischen Sinn verfügbar sind, die analytischen Werkzeuge, über die der Forscher verfügt und die wissenschaftliche Literatur, in die sich die Ergebnisse einfügen sollen.
Fragen im Bereich des Information Retrieval bieten gute Beispiele. Die meisten Online-Ressourcen haben Logfile-Daten (die leider oft nicht unbeschränkt zur Verfügung stehen), die statistischen Werkzeuge sind Standard für die Analyse, und die substantielle Forschungsliteratur liegt vor. Keinen dieser Faktoren kann man gefahrlos ignorieren. Es gibt leider viele interessante Fragen, für die keine Daten zur Verfügung stehen, manchmal wegen des Datenschutzes oder weil Unternehmen die Information als proprietär betrachten. Die Streuung von Daten über mehrere Plattformen hinweg ist auch ein Problem, weil die Daten dann nur aufwändig zu beschaffen sind. Wenn Daten nicht verfügbar sind, könnte man günstigenfalls statt ihrer Proxies (d.h. Ersatzquellen oder Ersatzprobanden) verwenden, aber inwieweit Proxies als Quellen legitim sind, muss man genau abwägen. Außerdem könnte die Wahl der Proxies die Struktur der Forschungsfrage beeinflussen bzw. verändern. Die verfügbaren und benutzbaren Analysetools bestimmen auch, ob man die Daten angemessen analysieren kann. Eine Person ohne Kenntnis der Inferenzstatistik riskiert z.B. Fehler einzugehen, die die Ergebnisse wertlos machen. Eine Person, die die Stichproben-Techniken
Entwicklung von Forschungsdesigns
45
nicht versteht, kann falsch berechnen, inwieweit die Stichprobe repräsentativ ist. Auch in einem qualitativen Bereich wie Ethnologie könnte jemand ohne gründliche Ausbildung und ohne den richtigen Fachhintergrund die Feinheiten der kulturellen Interaktionen falsch verstehen. Daten, die nicht zur Forschungsfrage passen, erzeugen natürlich Relevanz-Probleme, wenn man sie dennoch benutzt; z.B. passen Daten über das Verhalten von Studierenden in einer Universitätsbibliothek i.d.R. nicht zu Fragen, die Öffentliche Bibliotheken betreffen, selbst wenn Daten von Studierenden einfacher zu erheben sind. Viele Projekte beginnen mit sehr offenen Fragen, die von hohem Interesse für die LIS-Gemeinschaft sind, die aber in der Tat schwer oder unmöglich konkret und definitiv zu beantworten sind. Man kann einige Probleme umgehen, wenn man nur Fragen stellt, die für konkrete Antworten geeignet sind. Eine Ja/Nein-Frage erfordert eine sehr konkrete Antwort, z.B.: Kann LOCKSS (Lots of Copies Keep Stuff Safe) Onthe-fly-Migration ermöglichen? Antwort: Ja.⁸ Eine Frage nach einer bestimmten Zahl führt ebenfalls zu einer konkreten Antwort, z.B.: Wie viele Verlage im Portico-System haben 100 oder mehr Titel? Antwort: 19 von 111 Verlagen.⁹ Seltener und problematischer sind Fragen, die eine begrenzte Anzahl von Optionen anbieten. Dieser Typ von Fragen wird nicht häufig verwendet, weil er eine Begründung für alle vorgestellten Entscheidungsalternativen erfordert sowie eine Entscheidungsgrundlage für die gewählte Option. Die Tendenz in der LIS-Forschung ist, offene Fragen zu stellen und für eine bevorzugte Option zu argumentieren. Das hat mehr mit Interessenvertretung als mit Forschung zu tun. Es gibt eine starke Tendenz, vor allem in den Entwicklungsländern und unter unerfahrenen Forschern, Forschungsfragen in Handlungsempfehlungen münden zu lassen. Die empfohlene Strategie kann angemessen und erforderlich sein, aber politische Empfehlungen sind eine Form der Interessenvertretung. Sie unterscheiden sich von Forschung, in der man letztendlich eine unabhängige Antwort sucht, egal was die Folgen sind. Forschung kann zu politischen Entscheidungen führen, sollte aber nicht damit verwechselt werden. Viele andere Typen von Forschungsfragen findet man in der LIS-Literatur. Wiewir-was-tun-Fragen sind besonders beliebt, und sie haben eine gewisse Legitimität in einer Literatur, die sich in erster Linie an Praktiker richtet. Ein Beispiel ist die Frage, wie man ein Softwareprodukt installiert. Eine gute Antwort auf eine Wie-wir-wastun-Frage (z.B. eine Softwareinstallation) kann wohl hilfreich sein, aber sie bringt die Wissenschaft nicht voran. Solche Antworten konzentrieren sich eher auf spezielle Anwendungen, deren Nutzen und Wert flüchtig sein kann. Dennoch haben Wie-wirwas-tun-Fragen sehr konkrete und spezifische Antworten und entsprechen damit wissenschaftlichen Regeln, auch wenn der Kontext nicht allgemein erweiterbar ist.
8 Rosenthal [u.a.] 2005. 9 Seadle 2011: 189–197.
46
Seadle
Aufzählungsfragen sind ebenfalls beliebt und nehmen die Form einer Liste von Optionen an. Obwohl solche Antworten konkret wirken, besteht die Gefahr, dass sie nicht eindeutig eingrenzbar sind. Es ist leicht, nach einer Auflistung z.B. aller digitalen Langzeit-Archivierungssysteme zu fragen, aber es ist schwer, genau zu definieren, welche Systeme sich als echte Archivierungssysteme qualifizieren, weil die Definition immer noch umstritten ist. Aufzählung funktioniert als wissenschaftliche Frage nur, wenn die Merkmale völlig klar und fair definiert sind. Deskriptive Fragen sind in der qualitativen Forschung beliebt und gleichzeitig manchmal problematisch. Eine Beschreibung ist i.d.R. sehr offen, und es ist schwer festzustellen, wann eine Beschreibung vollständig ist, wenn die Frage nicht klar und vorsichtig formuliert ist. Ethnologische Forschung erwächst prinzipiell aus Fragen, die man mit systematischen und ausführlichen Beschreibungen beantwortet. Ethnologen lernen, wie man hochspezifisch antwortet („this ethnografer, in this time, in this place, with these informants …“¹⁰). Sie lernen auch, dass es gefährlich ist, allgemeine Schlüsse aus der deskriptiven Beschreibung zu ziehen. Am Ende gibt es keine perfekte Frage, die garantiert, dass der Forscher sie problemlos beantworten kann, aber einige Fragen machen es schwer, eine vollständige und zuverlässige Antwort zu geben. Fragen in der Form: „Warum passiert X?“ erzeugen Antworten, die von politischen, sozialen und wirtschaftlichen Annahmen abhängig sind. Solche Fragen können echte Forschung reflektieren, aber sie sind schwerer zu beurteilen als Fragen mit konkreteren und Daten-spezifischen Antworten. Wenn Forscher ihre Chancen für Akzeptanz in einer internationalen peer-reviewed LISZeitschrift maximieren möchten, sollten sie i.d.R. nur Fragen stellen, die man spezifisch und unbestritten beantworten kann, Fragen mit eindeutig relevanten Daten und etablierten Methoden für die Analyse. Der vorliegende Beitrag konzentriert sich auf Forschungsdesigns für diese Art von Fragen.
4 Datenerhebung Die Datenerhebung ist von grundlegender Bedeutung für gutes Forschungsdesign. Ohne zuverlässige und geeignete Daten kann kein anderer Aspekt eines Forschungsprojektes Erfolg haben. Daten sind in diesem Zusammenhang nicht nur numerische Information, sondern jede Form von numerischen, textlichen, visuellen oder andere Arten von Nachweisen, die der Forscher analysiert, organisiert, interpretiert oder anders verwendet, um logische und überzeugende Schlussfolgerungen zu erzielen. Obwohl die Datenerhebung als eine der wichtigsten Aufgaben in einem Forschungsdesign gelten kann, ist es eine Aufgabe, die man oft vernachlässigt. Ein
10 Geertz 1988: 5.
Entwicklung von Forschungsdesigns
47
Forschungsdesign, das mit dem Fazit beginnt und dann nach Daten sucht, die das Fazit rechtfertigen, riskiert unbeabsichtigte Verfälschungen, die den Anspruch auf wissenschaftliche Neutralität unterminieren. Ein erster logischer Schritt für gute Datenerhebung ist nachzudenken, welche Daten die Forschungsfrage vernünftig beantworten können und welche Daten dem Forscher zur Verfügung stehen. Manchmal muss man die Forschungsfragen ändern, wenn man mit der Planung der Datenerhebung anfängt. Die Verfügbarkeit der Daten prägt die endgültige Form der Forschungsfrage, genau wie die Art der Frage die Auswahl der Daten beeinflusst. Proxy-Daten (Ersatzdaten) sind oft legitim und werden in einigen Forschungsbereichen weitgehend eingesetzt. Für die Erforschung des Verhaltens in Entscheidungssituationen verwendet die Betriebswirtschaftslehre z.B. oft Studierende als Ersatzprobanden für die Angestellten in Unternehmen. Einige Proxies sind besser geeignet als andere. MBA-Studierende sind effektiver und glaubwürdiger als Proxies für Entscheidungen auf der Management-Ebene als Bachelor-Studenten, weil die MBAs (in hoch gerankten Studiengängen an den Elite-US-Universitäten) traditionell mehrere Jahre Berufserfahrung haben und weil sie in Kürze hohe Positionen in Firmen erhalten, in denen sie tatsächlich wichtige Entscheidungen treffen müssen. Dennoch können Bachelor-Studierende bessere Proxies für unternehmerische Entscheidungen sein, wenn spezifische technische Kenntnisse oder Fähigkeiten in Frage kommen, die die Bachelor-Studierenden definitiv haben und die MBAs nicht. Im Fall von ManagementForschung (bzw. Experimenten) gibt es heute genügend Akzeptanz für Proxies. Man sollte jedoch die Verwendung von Proxies in der LIS-Forschung immer noch vertretbar begründen können. In der LIS-Forschung sind Proxies nicht ungewöhnlich. Studierende in einer Lehrveranstaltung dienen manchmal als Ersatz für Studierende an der Universität oder für die Öffentlichkeit. Ob sie als Proxies sinnvoll sind, hängt von der jeweiligen Fragestellung und den Eigenschaften der Studierenden ab. Studierende in einer Lehrveranstaltung über Information Retrieval werden mehr als andere über die Recherche in OPACs und in Datenbanken wissen, aber sie sind vermutlich mit allen anderen Studierenden gleichzusetzen, wenn es sich um andere Fragen handelt, z.B. um die Mensa. LIS-Forschung verwendet eine Reihe von Standard-Methoden zur Datenerhebung im Rahmen des Forschungsdesigns. Der folgende Abschnitt berücksichtigt ausführlicher vier Methoden: Befragungen, Archivdaten, Beobachtung und Textdaten.
4.1 Daten aus Befragungen Dieser Abschnitt behandelt Daten aus Befragungen und experimentelle Daten, da sie einige Eigenschaften gemeinsam haben, teils weil Experimente manchmal Fragebogen benutzen. Umfragen sind eine der beliebtesten Methoden für die Erfassung von
48
Seadle
Daten in der LIS-Forschung. Gutes Forschungsdesign erfordert die Berücksichtigung einer Reihe von Faktoren, darunter: – – –
die Klarheit (Verständlichkeit) der Fragen, die Zufälligkeit der Stichprobe und die statistische Wahrscheinlichkeit, dass die Antworten wahr sind.
Wenn man diese Faktoren ignoriert, kann man den Wert der Antworten schnell untergraben. Die Eindeutigkeit der Fragen ist unbedingt erforderlich. Die Fragen und die möglichen Antworten scheinen manchmal der Person klar zu sein, die sie verfasst hat, aber sie können auch zweideutig für die Probanden sein. Das ist einer der Gründe, warum ein Pretest unverzichtbar ist, obwohl auch er die Eindeutigkeit der Fragen nicht garantieren kann, wenn der Forscher nicht den nächsten Schritt unternimmt und die Ergebnisse analysiert. In einer kürzlichen (zum Redaktionsschluss noch unveröffentlichten) Umfrage in Deutschland wurden die Teilnehmer gefragt, ob sie ein Abitur, einen Bachelor-Abschluss, ein Diplom, einen Magister, eine Promotion oder einen anderen akademischen Grad hätten. Erst, als es zur Analyse der Daten kam, wurde klar, dass der Master-Abschluss fehlte, obwohl vier erfahrene Wissenschaftler die Frage überprüft hatten. Alle hatten angenommen, dass Magister und Master Synonyme waren, aber die Zahl der Befragten, die die Kategorie „andere Studiengänge“ gewählt hatte, und die relative geringe Zahl der Magister-Abschlusse impliziert, dass einige Probanden mit einem Master den Magister nicht als Äquivalent betrachteten. Fehlende Klarheit kann auch noch andere Konsequenzen haben. Probanden lesen Umfragen i.d.R. schnell, und sie können dabei subtile Unterschiede in den Fragen und Antworten übersehen. Sie missverstehen auch komplexe oder verneinende Satzkonstruktionen. Einige dieser Probleme entdeckt man in einem Pretest, aber PretestTeilnehmer aus der Arbeitsumgebung der Forscher tendieren dahin, alles genau wie die Kollegen zu verstehen, und entdecken deshalb die Probleme nicht. Eine weitere Design-Technik, um diese Probleme zu vermeiden, ist, einfach zufällige AntwortDaten zu erstellen und danach zu versuchen, die Ergebnisse mit diesen Zufallsdaten zu analysieren. Oft werden die Unklarheiten erst dann sichtbar, wenn man darüber nachdenkt, was eine Antwort wirklich bedeutet. Es beansprucht natürlich Zeit, aber die Erhebung von Daten mit fraglicher Bedeutung ist Zeitverschwendung, die ein ganzes Forschungsprojekt untergraben kann. Gutes Design versucht solche Probleme zu vermeiden. Repräsentativität ist ein weiterer Aspekt von Befragungen, die ein Forschungsdesign berücksichtigen muss. Eine große Zahl von Befragungsteilnehmern löst das Problem nicht. Wie David Radwin schreibt:
Entwicklung von Forschungsdesigns
49
The concern most commonly voiced is that if certain groups participate in surveys at higher rates than others, the differences in response rates among groups will skew the results.¹¹
Es gibt mehrere Möglichkeiten, um die Repräsentativität unter den Probanden zu gewährleisten. In erster Linie muss der Forscher klar entscheiden, wie man die Zielgruppe klar und objektiv definiert; z.B. ist eine Grundgesamtheit des Personals mit Promotion an einer Universität ein ganz klares Ziel. Die Personalabteilung könnte theoretisch dem Forscher eine Liste aller solcher Personen geben, damit er mit einem Zufallsalgorithmus die Namen für eine Befragung auswählen könnte. Die Antworten dieser Befragung hätten einen starken Anspruch auf Repräsentativität. Da die meisten Personalabteilungen solch eine Liste nicht anbieten wollen oder können, könnte man nach Statistiken über die Grundgesamtheit fragen, z.B.: Wie viele Personen haben – differenziert nach Fächern – eine Promotion (also ohne Namen). Mit diesen Statistiken könnte man testen, ob die Antworten einer Umfrage statistisch etwa zum Ganzen passen. Diese Methode ist nicht ganz zuverlässig, weil relevante Eigenschaften fehlen könnten, aber es erhöht die Wahrscheinlichkeit einer repräsentativen Stichprobe. Es ist wichtig, zwischen verschiedenen Stichprobentechniken zu unterscheiden. Eine echte Stichprobe ist ideal, aber eine solche zu ziehen ist in den meisten Fällen schwierig oder unmöglich, wenn man Menschen befragt. Als Alternative benutzt man bei Menschen ein Convenience Sample. Eine Befragung der Studierenden in der Lobby einer Universitätsbibliothek garantiert keine Zufallsstichprobe der Grundgesamtheit aller Studenten, aber es ist ein praktisches Convenience Sample in dem Sinne, dass es ein Ort ist, wo man viele Studierende um die Teilnahme bitten kann, obwohl es eine Zufallsauswahl nicht garantiert. Dennoch ist die Wahrscheinlichkeit groß, dass dieses Convenience Sample eine relativ zuverlässige (wenn nicht vollständige) Stichprobe der Studenten darstellt, die die Bibliothek benutzen, wenn es gerade keine besonderen Veranstaltungen gibt, die spezifische Arten von Studenten anlocken. Ein Convenience Sample, durchgeführt in der Bibliothekslobby, wird i.d.R. eher zufällig sein und eher der Grundgesamtheit der Studierenden nahekommen als ein Convenience Sample von Studierenden in einer bestimmten Lehrveranstaltung, obwohl letzeres typischer ist. Mit veröffentlichten Statistiken über die Grundgesamtheit der Studierenden kann man die Repräsentativität überprüfen, wenn man in der Befragung die richtigen demografischen Fragen stellt. Repräsentativität muss nicht perfekt sein, um eine Stichprobe machen zu können. Eine Zufallsauswahl ist dagegen absolut erforderlich bei der Aufteilung der Teilnehmer in Versuchsgruppen für Experimente, wenn man die Beziehung zwischen den Gruppen mit Hilfe der Inferenzstatistik untersuchen möchte. Zufälligkeit ist eine grundlegende Voraussetzung für die Inferenzstatistik, und ohne eine echte
11 Radwin 2009.
50
Seadle
Zufallsstichprobe der Treatment-Versuchsgruppen ist die Gültigkeit der statistischen Ergebnisse fraglich. Für die beschreibende Statistik einer Stichprobe ist keine Zufallsauswahl notwendig, aber die weitere Generalisierung, gestützt auf eine breitere Grundgesamtheit, hängt von der Repräsentativität der Daten ab. Aufrichtigkeit ist ein Problem in Umfragen, sowohl auf der bewussten Ebene (indem die Teilnehmer bewusst die Unwahrheit sagen) als auch auf der unterbewussten Ebene. Ein Beispiel stammt aus einer Standardfrage der LIS, wie oft ein Benutzer eine Bibliothek in einer Woche besucht. Die Befragten neigen dazu zu behaupten, dass sie öfter in die Bibliothek kommen, als sie es tatsächlich tun, entweder weil die Wahrheit irgendwo zwischen den Umfrage-Optionen liegt und sie aufwärts runden oder weil sie glauben, dass sie die Bibliothek öfter besuchen sollten und dass es besser aussieht, wenn sie eine höhere Zahl angeben (soziale Erwünschtheit). Ein weiteres Beispiel stammt aus Fragen zum Lesen von elektronischen Dokumenten, wo manche Befragte die Menge ihrer Online-Lektüre unterschätzen, weil sie Papier bevorzugen und befürchten, dass ausgedehntere elektronische Lektüren weniger Papierexemplare in der Bibliothek zur Folge haben könnten. Eines der größten Probleme mit der Aufrichtigkeit in Befragungen ist, dass die Forscher nur erraten können, welche Richtung und welche Häufigkeit Täuschungen haben. Eine Person, die Bibliotheken unterstützt und offenhalten möchte, könnte dazu neigen, die Zahl der Besuche pro Woche als ganz korrekt oder zu hoch zu schätzen, und jemand, der gegen elektronisches Lesen ist, könnte argumentieren, dass Online-Lesen überschätzt wird, weil die Teilnehmer auch das Browsing als elektronisches Lesen bezeichnen. Ohne externe Nachweise, wie Gate-Count oder DownloadStatistiken, sollte man Umfrage-Ergebnisse nicht als einen Nachweis für das Verhalten betrachten, sondern als einen Nachweis für Meinungen. Wie zuverlässig Befragungen sind, ist ein Gegenstand fortgesetzter Diskussion. Das National Opinion Research Council an der University of Chicago verwendet Faceto-Face-Interviews für seine Forschung, und die relative Stabilität der Antworten bei Fragen über Waffenbesitz in den USA im Laufe der Zeit legt bei dieser Methode eine größere Aufrichtigkeit nahe als bei Telefon-Interviews: You might be tempted to believe that people might answer more truthfully to a sensitive subject over the phone. People have not, however, changed their responses in GSS surveys since 2002, despite more anonymous methods being applied. Political science literature also indicates that people were actually less likely to be truthful over the phone than in person when it came to sensitive topics.¹²
Der Wahrheitsgehalt hängt auch von den erfragten Details ab. Fast niemand kann mit Bestimmtheit sagen, wie viele Bücher er besitzt oder wie oft er eine bestimmte Zeitschrift im letzten Jahr gelesen hat, es sei denn, er hat absichtlich gezählt. Solche
12 Enten 2012.
Entwicklung von Forschungsdesigns
51
Fragen laden grundsätzlich zum ‚Lügen‘ ein, aber eine Frage aus der unmittelbaren Vergangenheit bietet die Möglichkeit einer wahren Antwort, weil man die wahre Antwort noch nicht vergessen hat, z.B. ob man heute ein Buch gekauft hat oder ob man eine bestimmte Zeitschrift in den letzten 48 Stunden gelesen hat. Demografische Fragen sind i.d.R. für Befragungen unproblematisch, weil man nicht über die Antworten nachdenken muss. Die Befragten kennen ihr Geschlecht, ihr Alter und ihr Bildungsniveau. Das Einkommen ist wahrscheinlich auch jedem bekannt, wenn das Einkommen aus einer einzigen Quelle (z.B. Arbeitslohn) stammt, aber die gleiche Frage könnte man schwer beantworten, wenn das Einkommen mehrere variable Quellen umfasst. Die Bereitschaft, Fragen über Alter, Einkommen, sozialen Status oder Familienstand zu beantworten, hängt stark mit der Kultur zusammen. Ein deutsches Projekt hat Fragen über den familiären Hintergrund aufgrund von Protesten während eines Pretests aus einem Fragebogen herausgenommen. Als amerikanische Forscher die Ergebnisse gelesen haben, haben sie sofort gefragt, warum man solch eine grundlegende Frage nicht gestellt hatte.
4.2 Archiv-Daten Archiv-Daten beinhalten andere, aber ähnliche Probleme wie Daten aus einer Befragung. Archiv-Daten können Logfile-Daten sein, die die Spuren von Online-Interaktionen darstellen, oder vielleicht Zitationsdaten von Thomson Reuters oder anderen Index-Anbietern. Das Hauptmerkmal von Archiv-Daten ist, dass sie relativ stabil und geschlossen sind und dass sie Aktionen aus der Vergangenheit darstellen. ArchivDaten können nicht geändert, verbessert oder klargestellt werden. Sie sind, was sie sind. Das bedeutet nicht, dass sie keine Probleme mit sich bringen. Repräsentativität ist ein Problem bei Archiv-Daten. Die ISI-Datenbank, die die Grundlage für die Impact Factors ist, ist keine repräsentative Stichprobe für wissenschaftliche Arbeiten. Die Titelauswahl ist nicht transparent, und sie schließt viele Open-Access Quellen aus, besonders Repositorien. Die Auswahl von nicht-englischsprachigen Zeitschriften ist besonders problematisch. Genauigkeit ist auch ein Problem, da nicht alle Zitate in den Original-Artikeln korrekt sind: Autorennamen haben oft Rechtschreibfehler, und das Publikationsdatum kann auch durch Tippfehler oder Versehen falsch eingegeben worden sein. Trotzdem ist diese Datenbank die Basis für die meisten bibliometrischen Analysen und Veröffentlichungen, teils weil keine bessere und vollständigere Quelle existiert. Der Wahrheitsgehalt ist kein Problem im direkten Sinn. Ein Zitat ist gewiss ein Zitat, auch wenn es Fehler enthält. Aber die Bedeutung eines Zitates kann mehrdeutig sein. Nicht mit jedem Zitat ist eine positive Bewertung verbunden, und man zitiert manche Werke weniger wegen ihres wissenschaftlichen Beitrags, sondern weil Formulierungen oder Argumente ein aktuelles Thema berühren. Unsichere Autoren neigen auch mehr als etablierte Autoren dazu, mehr Werke zu zitieren, und unsichere
52
Seadle
Autoren präferieren oft Standpunkte, die weitgehend akzeptabel sind, um das Risiko einer Ablehnung zu vermeiden. Die Werke von Mendel¹³ sind ein extremes Beispiel für wegweisende Forschung, die über mehrere Jahre wegen einer obskuren Veröffentlichung gelitten haben und auch deshalb gelitten haben, weil die wissenschaftliche Community auf die Ideen nicht vorbereitet war. Ähnliche Validitäts-Probleme gibt es für Logfile-Daten, die sicherlich die tatsächliche Nutzung des Systems darstellen, aber auch die Spuren von Webcrawlern zeigen, die sich systematisch durch das Netz bewegen. Es gibt Algorithmen, die die Spuren von Webcrawlern beseitigen können, aber die Crawler-Spuren sind nicht immer erkennbar und können die Benutzung von wenig benutzten Werken falsch darstellen. Probleme hinsichtlich der Aussagekraft von Archiv-Daten entstehen nicht aus den Tatbeständen an sich, sondern aus der Deutung dieser Tatbestände. Ein Log-Eintrag zeigt, dass ein Benutzer eine bestimmte Seite aufgerufen hat. Das heißt nicht, dass der Benutzer diese Seite suchte oder aufrufen wollte. Der Benutzer wollte vielleicht anderswo klicken und hat den richtigen Ort verpasst, oder er hat vielleicht den Link falsch interpretiert, oder er wollte zwar diese Seite besuchen, entdeckte aber, dass sie die gewünschten Daten nicht enthält. Die Verweildauer auf einer Webseite kann man berechnen, wenn die Logfile-Daten genügend Informationen über die anfragende Quelle enthalten, damit ein System die Informationen anhand der IP-Adresse zusammenfügen kann. Google Analytics¹⁴ kann dies recht gut. Die meisten Logfile-AnalyseStatistiken versuchen es erst gar nicht. Die Tatsache, dass ein Benutzer für einige Zeit auf einer Seite geblieben ist, bedeutet nicht, dass er die Seite gelesen hat. Es könnte einfach sein, dass der Benutzer abgelenkt war und die Seite sofort verlassen hat, sobald die Ablenkung ein Ende fand. Inferenzen soll man mit Sorgfalt erstellen, und das Forschungsdesign muss diese Mehrdeutigkeit berücksichtigen.
4.3 Beobachtungsdaten Beobachtungsdaten sind generell nicht repräsentativ im statistischen Sinn und versuchen i.d.R. auch nicht, repräsentativ zu sein. Man sammelt Beobachtungsdaten an verschiedenen Orten wie z.B. an der Informationstheke (z.B. die Anzahl und Art der Fragen) oder am Bibliothekseingang (Gate Count oder eine einfache Aufzeichnung, wer hereinkommt und wer hinausgeht). Beobachtungsdaten sind eher qualitative als quantitative Daten, obwohl sie Aspekte von beiden haben können. Das Ziel von Beobachtungen ist nicht, eine allgemeine Aussage über eine Grundgesamtheit zu treffen, sondern zu diagnostizieren, was unter spezifischen Umständen geschieht. Beobach-
13 Gregor Johann Mendel, 1882–1884. 14 www.google.com/intl/de/analytics/(1.11.2012).
Entwicklung von Forschungsdesigns
53
tungsdaten in diesem Sinn passen zu den Regeln für ethnologische Analysen, die im Kapitel Ethnomethodologie¹⁵ tiefer erörtert werden. Aufrichtigkeit ist selten ein Problem in Beobachtungsdaten, außer wenn der Beobachter unbewusste Gründe für einen bestimmten Bias hat. Absichtliche Täuschung muss man in den meisten Fällen nicht berücksichtigen. Unbewusster Bias ist aber schwer zu verhindern, da niemand völlig frei von kulturellen Voreingenommenheiten ist, auch wenn die Vorurteile ziemlich neutral sein können (z.B. die Annahme, dass ein Angehöriger einer anderen Kultur jünger als in Wirklichkeit ist) oder wenn die Vorurteile ihre Wurzeln in sozialen Erwartungen haben (z.B. dass jemand mit dunkler Haut potenziell bedrohlicher ist). Ein gutes Forschungsdesign kann diese Probleme minimieren, wenn es auf bestimmte Details fokussiert und versucht, Beobachterbasierte Entscheidungen zu vermeiden. Eine genaue und eindeutige Bestimmung dessen, was beobachtet und protokolliert werden soll, ist ein elementarer Bestandteil eines jeden Forschungsdesigns. Beides hängt zum Teil von der Menge der beobachteten Details ab. Fotos oder Tonaufnahmen nehmen alle Details in einem schmalen Ausschnitt auf, manchmal zu schmal. Sie können lügen, z.B. indem sie Informationen jenseits des Rahmens des Fotos ausschließen, oder sie stärken durch ihre Fokussierung einige Details, die man im Kontext eines normalen Hintergrunds vielleicht nicht bemerken würde.¹⁶ Fotografien und Sprach- oder Video-Aufnahmen in einem öffentlichen Raum greifen in die Privatsphäre ein und sind manchmal zu invasiv. Bei privaten Beobachtungen fragen Ethnologen oft um Erlaubnis und bekommen sie oft ohne Probleme. Beobachtungen sollen konkret und detailliert sein, aber dies richtig zu machen, erfordert eine Ausbildung, die die meisten Bibliothekare nicht haben. Eine praktische und leicht erweiterbare Lösung ist ein Formular mit den jeweiligen Kriterien für die Beobachtung von Menschen und Umgebungen, die der Beobachter abhaken kann. Solch eine Checkliste besitzt ähnliche Merkmale und Probleme wie eine Umfrage, deshalb soll man die Check-Liste vor der Benutzung sorgfältig prüfen, da die Genauigkeit der Details und die Art der Fragen die Antworten stark beeinflussen können. Eine Check-Liste scheint vielleicht klar, z.B. wenn sie die Bibliothekare bittet, Fragen nach Örtlichkeiten von echten Auskunftsfragen zu trennen; aber die Benutzerfrage, wo man bestimmte Forschungsmaterialien im Bibliotheksgebäude findet, hat sowohl den einen wie den anderen Charakter, und verschiedene Mitarbeiter könnten die Kategorien unterschiedlich wählen. Die schriftliche Beschreibung ist eine Standard-Alternative zu einer Checkliste an öffentlichen Orten, aber das Schreiben geht langsam und hängt von der Fähigkeit der Autoren ab. Schulung hilft, abweichende Aufzeichnungen zu minimieren, und sorgt dafür, dass die Beobachtungen so klar und präzise wie möglich sind. Schulung ist beson-
15 Vgl. den Beitrag Ethnomethodologie von M. Seadle in diesem Band. 16 Greifeneder u. Seadle 2009.
54
Seadle
ders wichtig, wenn in einem Forschungsprojekt mehrere Beobachter tätig sind. Variierende Beobachtungen führen zu ähnlichen Problemen wie die der Verlässlichkeit von Aussagen, weil beide ein gewisses Maß an Unsicherheit ergeben, was die Daten wirklich bedeuten. Zwei Menschen sehen nie genau dieselben Personen oder Ereignisse. Ein Aufzeichnungsformular, mit dem man Männer und Frauen getrennt zählen soll, was theoretisch einfach sein sollte, könnte unter Umständen zu ungenauen Ergebnissen führen. Während der gesellschaftlichen Veränderungen der 1970er Jahre wurden Frauen manchmal als Männer wahrgenommen, wenn ihr Körperbau nicht eindeutig war und wenn die Frau kurzes Haar hatte und Jeans trug. Heute nimmt man leicht an, wenn man nicht genauer prüft, dass eine Frau mit einem Kopftuch wahrscheinlich eine Ausländerin ist, obwohl deutsche Studierende, die mit Muslimen verheiratet sind, auch oft Kopftücher tragen. Diese Art von Problem fällt in den Fehlerbereich der Beobachtungsdaten und kann unbedeutend sein, aber man soll sie nicht im DesignProzess vernachlässigen um sicherzustellen, dass sie minimal bleiben.
4.4 Textdaten Textquellen sind ein fester Bestandteil jedes Forschungsprojekts, vor allem bei der Diskussion über den wissenschaftlichen Kontext. Diese sind nicht Forschungsdaten per se, aber man verwendet sie, um Argumente zu stützen oder zu illustrieren. Die Hinweise und Notizen in diesem Kapitel sind Beispiele dafür. Text kann man aber als eine tatsächliche Datenquelle verwenden, vor allem in historischer oder literarischer Forschung. Repräsentativität ist generell kein Ziel bei der Verwendung von Textdaten, aber sie könnte wichtig sein, wenn das Forschungsziel ist, eine Verallgemeinerung auf Basis einer bestimmten Grundgesamtheit zu ermöglichen. Häufiger benutzt man Textdaten, um ein bestimmtes Werk oder eine Reihe von Werken zu analysieren, vor allem hermeneutisch zu analysieren. Aus der Perspektive des Forschungsdesigns kann man Textdaten als Archiv-Quelle betrachten, wenn es eine bestimmte Sammlung von Wörtern ist. Ein Beispiel findet man in James Pennebakers The Secret Life of Pronouns.¹⁷ Die explizite Bedeutung von Texten interessiert ihn nicht, sondern die Verwendung der Funktionswörter – d.h., Wörter, die die grammatische Struktur erzeugen, ohne eigentlichen Inhalt zu haben – und was diese Wörter über psychologische Elemente des Denkens aussagen. Die Eindeutigkeit der Textdaten hängt von der Verwendung ab. Im obigen Pennebaker-Beispiel ist die Definition der Funktionswörter klar, ebenso ihre Rolle im Text. Wenn man Text-Passagen hinsichtlich ihrer Bedeutung interpretieren muss, spielt die übliche Unklarheit des menschlichen Ausdrucks eine unvermeidliche Rolle. Texte
17 Pennebaker 2011.
Entwicklung von Forschungsdesigns
55
selbst sind nur dann völlig verlässlich, wenn sie als Archiv-Objekte analysiert werden und nicht als Träger von Bedeutung. Wenn Forscher versuchen, die Bedeutung von Texten zu interpretieren, muss man das Konzept von Verlässlichkeit im kulturellen Kontext betrachten. Einige Texte sind reine Erfindung oder Lügen. Andere sind plagiiert oder teilweise kopiert. Das Forschungsdesign muss diese Faktoren berücksichtigen.
5 Analytics und Analyse Analytics ist ein relativ neuer und weit gefasster Begriff, der statistische Methoden bezeichnet, um Muster und Trends zu entdecken. Einfache deskriptive Statistik spielt eine Rolle, aber nur mit Inferenzstatistik kann man Hypothesen über die Daten und Beziehungen innerhalb der Daten testen. Analytics betrifft idealerweise das gesamte Spektrum der Fragen des Forschungsdesigns und bedeutet weit mehr, als die Daten mit einem Statistikprogramm wie Excel (oder SAS¹⁸ oder SPSS¹⁹) auszuwerten. Dieser Abschnitt behandelt die folgenden Design-Fragen im Zusammenhang mit Analytics: – – – –
Wie man die Daten kennenlernt, wie man die Daten reinigt, wie man Hypothesen testet, wie man den Sinn der Daten versteht.
Die Antworten auf diese Fragen beruhen stark auf der vorherigen Diskussion über Forschungsfragen und über Datentypen. Wenn man eine Forschungsfrage nicht beantworten kann, kann keine Analyse helfen, und wenn die Daten nicht repräsentativ oder nicht klar sind, kann die Analyse sie nicht verbessern. Analytics gelten vor allem für quantitative Daten, obwohl viele der grundlegenden Prinzipien für qualitative Daten gleich gut passen. Obwohl dieser Abschnitt sich auf das Forschungsdesign für quantitative Daten konzentriert, erörtert der folgende Abschnitt zunächst Fragen des Forschungsdesigns qualitativer Daten.
18 www.sas.com/offices/europe/germany/(1.11.2012). 19 www-01.ibm.com/software/de/analytics/spss/(1.11.2012).
56
Seadle
5.1 Daten kennenlernen Deskriptive Statistiken sind kein Selbstzweck, sondern ein Mittel, um die Daten besser kennenzulernen, bevor man weitere Analysen durchführt. Die Rohdaten aus einer Umfrage können besonders problematisch sein, und ein gutes Forschungsdesign muss verschiedene Umstände einplanen, darunter hohe Varianz aus Gründen, die nicht relevant für die Forschung sind. Die Varianz ist manchmal unvermeidlich, aber die Fragen und die Antwortskalen können die Probleme verschärfen oder minimieren; z.B. ist eine umstrittene Frage mit einer breiten Antwortskala vielleicht anfälliger für Varianz als eine schmalere Skala, aber eine schmalere Skala ist nicht immer erwünscht und reduziert die Sichtbarkeit feiner Unterschiede. Man muss manchmal Kompromisse eingehen, die besser schon in der Planung bedacht werden als später, nachdem man ein Problem bei der Analyse entdeckt hat. Ein Forscher sollte die Daten kennenlernen, damit er weiß, was zu erwarten ist. Ein Pretest ist besonders hilfreich, weil man echte Daten bekommt, mit denen man arbeiten kann. Ein Umfrage-Pretest setzt i.d.R. eine kleine Gruppe ein, die nicht repräsentativ ist. Solch ein Pretest ist natürlich wegen nicht vorhergesehener Faktoren für Überraschungen anfällig, aber irgendein Pretest ist besser als keiner, weil er dem Forscher ermöglicht, das Design vor der echten Befragung zu ändern. Umfragen sind nicht die einzige Form von Daten, die einen Pretest lohnend erscheinen lassen. Archiv-Daten kann man ebenfalls testen, damit der Forscher eine kleine und überschaubare Menge von Daten analysieren kann, um die Probleme leichter und schneller zu finden. Es ist naiv anzunehmen, dass eine Analyse beim ersten Mal einwandfrei funktioniert. Insbesondere in statistischen Analysen sind Test-Probleme bei kleineren Zahlen leichter zu entdecken, und manchmal muss man die Daten manipulieren oder reinigen. Das Forschungsdesign sollte diese Probleme berücksichtigen.
5.2 Daten bereinigen Auch hochwertige Daten können Artefakte oder Ausreißer haben, die eine Bereinigung erforderlich machen. Wie Julie Pallant in der Einleitung zu ihrem SPSS Survival Manual erklärt, ist die Strukturierung und Bereinigung der Daten wesentlich für sinnvolle Ergebnisse, damit sie den Erwartungen und Annahmen der statistischen Tests richtig entsprechen.²⁰ Forscher, die kommerzielle Systeme wie SPSS benutzen, haben den Vorteil, dass das System warnt, wenn die Daten nicht zu den Annahmen passen. Dieses Kapitel erörtert nur zwei häufige Arten von Problemen der Daten-Bereinigung:
20 Pallant 2010.
Entwicklung von Forschungsdesigns
57
Ausreißer und unvollständige Daten. Es gibt darüber hinaus viele andere Probleme, die ein Forschungsdesign berücksichtigen sollte, je nach Datentyp. Ausreißer sind normal in Daten von Befragungen und ebenso in Archiv-Daten, und es gibt mehrere Standard-Ansätze, mit ihnen umzugehen. Ein Ansatz besteht darin, die Ausreißer zu verwerfen, besonders wenn es wenige Ausreißer gibt und wenn sie die Ergebnisse ernsthaft beeinflussen, die andernfalls logisch und vertretbar wären. Wenn Forscher Ausreißer verwerfen, müssen sie Gründe dafür haben. Es gehört zum guten Forschungsdesign, dass man überlegt, was als Ausreißer zählen und welche zusätzlichen Informationen man eventuell sammeln sollte, um plausible Gründe für das Verwerfen zu haben. Rand Wilcox schreibt: When we discard outliers, this is not to say that they are uninteresting or unimportant. Outliers can be very interesting, but for some goals they do more harm than good.²¹
Die entscheidende Frage ist, wann und warum die Ausreißer Schäden verursachen. Ausreißer können aufgrund von Datenerhebungsfehlern auftreten, vor allem in großen Archiv-Datenquellen, aber es gibt auch Fälle, in denen man keinen guten Grund zum Verwerfen findet, außer dass sie die Variation so vergrößern, dass einige statistische Tests nicht mehr gültig sind. Streng genommen bedeutet dies, dass die Ausreißer den Plan für die Analyse ungültig machen. Elke Greifeneder erklärt: This means that an outlier might be only an extreme manifestation within the data set and not a value outside of it. Deleting this kind of outlier means concealing and thus distorting the real distribution.²²
Eine Möglichkeit ist, die Ausreißer einfach zu löschen, die Analyse durchzuführen und dann zu erklären, welchen Effekt die Ausreißer hätten, wenn die Annahmen für den Test erlaubt hätten, sie zu benutzen. Eine andere Möglichkeit ist, einen Durchschnittswert als Ersatz zu verwenden. Dies ermöglicht die statistischen Tests und maskiert auch die Verzerrung (wenn es legitim ist). Wieder einmal sollte der Forscher fairerweise erklären, was die möglichen Auswirkungen eines legitimen Ausreißers sein könnten. Es gibt technische Überlegungen, welche Methode zu verwenden ist. In einigen statistischen Tests muss die Zahl der Zellen gleich bleiben, und dann ist eine Verwerfung nicht möglich. Wie man mit den Ausreißern umgeht, ist eine wichtige Design-Frage. Unvollständige Daten stellen ähnliche Probleme wie Ausreißer für das Forschungsdesign dar, weil sie statistische Tests ungültig machen können. Bei Ausreißern kennt der Forscher den Wert, und er weiß (im Idealfall), warum er aufgetreten ist. Bei einem fehlenden Wert ist weniger bekannt: Hat man ihn vergessen oder
21 Wilcox 2012: 236. 22 Greifeneder 2012: 14.
58
Seadle
absichtlich weggelassen, oder waren die Optionen für die Befragten zu verwirrend? Rein mechanisch könnte man in einer Umfrage die Teilnehmer zwingen, die Fragen zu beantworten, aber das erzeugt das Risiko, dass die Befragten falsche Antworten eingeben um einfach weiterzukommen. In Archiv-Daten sind auch Lücken möglich, je nach der Quelle und der Bedeutung der Daten. Eine Lücke könnte nichts anderes als ein Fehler bei der Dateneingabe sein, oder sie könnte auch andere Ursachen haben, die nicht immer in der Datenbeschreibung klar werden. Fehlende Daten kann man in bestimmten Fällen mit einem Durchschnittswert ersetzen, wenn es glaubwürdige Gründe gibt, dass die fehlenden Daten keine besondere Bedeutung haben. Manchmal kann externe Information helfen, die Gründe für die fehlenden Werte klar zu machen. In jedem Fall muss ein Forschungsdesign die Ebene festsetzen, von der an zu viele Daten fehlen, um aussagekräftige Ergebnisse zu produzieren. Datenbereinigung ist ebenso ein Thema in der qualitativen Forschung, und hier können ähnliche Probleme auftreten. Ein Proband könnte in einem Interview ungewöhnliche Stellungnahmen abgeben oder radikale Vorschläge machen. Beobachtetes Verhalten kann ebenfalls einen Ausreißer im Sinn eines sonderbaren Verhaltens darstellen. Der Ansatz für den Umgang mit diesen Ausreißern könnte ähnlich sein wie bei den quantitativen Daten, da das Problem im Grunde das gleiche ist: Stellt die außergewöhnliche Antwort oder das seltsame Verhalten eine extreme Manifestation dar, die man berücksichtigen muss, oder ist sie so seltsam, dass man sie ignorieren kann? Bei qualitativen Daten hat der Forscher typischerweise mehr Informationen, um eine vernünftige Entscheidung zu treffen. Das Problem liegt darin, dass qualitative Daten i.d.R. weniger Datenpunkte (d.h. Befragte oder Beobachtungen) haben, sodass jeder Datenpunkt von größerem Wert ist. Fehlende qualitative Daten sind i.d.R. ein Problem, eben weil ihre Zahl schon klein ist und weil man wenig oder gar nichts über die vermissten Personen oder die Beobachtung weiß. Eine Person, die ein Interview verweigert, mochte vielleicht das Thema nicht oder hatte wirklich keine Zeit. Eine Erklärung für die Nicht-Teilnahme hilft, aber Erklärungen sind oft nicht verfügbar. Man kommt leicht in Versuchung, sich Gründe vorzustellen oder anzunehmen. Das Forschungsdesign soll das besser vermeiden. Soweit wie möglich soll ein Design die Möglichkeit von fehlenden Informationen antizipieren, und man soll einplanen, externe Informationen zu sammeln, um den Forscher zu informieren. Ein einfaches Beispiel stammt aus der Masterarbeit Nadine Messerschmidts, die eine einfache Erklärung gibt, warum zwei Professoren nicht an der Studie teilgenommen haben: Von den insgesamt 13 Professoren und Professorinnen wurden 11 im Interview befragt. Die beiden übrigen konnten aufgrund von Krankheit oder aus Zeitgründen nicht an der Studie teilnehmen.²³
23 Messerschmidt 2011: 34.
Entwicklung von Forschungsdesigns
59
Krankheit ist ein relativ neutraler Grund für die Nicht-Teilnahme. Ein Mangel an Zeit könnte eine Abneigung gegen das Thema verdecken oder lediglich einen Selbstschutz gegen Zeitverschwendung bedeuten. Messerschmidt spekuliert nicht, und es gab dazu auch keine Notwendigkeit, da 11 Professoren von 13 am Institut eine ausreichende Stichprobe darstellen. Ein gutes Forschungsdesign sagt, wann man weitere Informationen suchen sollte und wann man aufhören darf.
5.3 Hypothesen-Tests Quantitative Daten ermöglichen Tests von Hypothesen in Verbindung mit einer statistischen Analyse. Die US National Library of Medicine (NLM) bietet ein Glossar an mit einer Standard-Definition des Hypothesen-Tests: Hypothesis testing: a means of interpreting the results of a clinical trial that involves determining the probability that an observed treatment effect could have occurred due to chance alone if a specified hypothesis were true. The specified hypothesis is normally a null hypothesis, made prior to the trial, that the intervention of interest has no true effect. Hypothesis testing is used to determine if the null hypothesis can or cannot be rejected.²⁴
Hypothesen-Tests in LIS beschäftigen sich nicht mit den Auswirkungen eines Eingriffs wie in der Medizin, aber das Grundprinzip ist gleich, dass nämlich eine NullHypothese einen normalen, erwarteten, etablierten Zustand widerspiegelt. In der LIS-Forschung ist es wichtig, die Null-Hypothese aus der wissenschaftlichen Literatur zu begründen. Wie die NLM-Definition deutlich macht, muss man die Nullhypothese aufstellen, bevor die Forschung anfängt – d.h. als Teil des Designs. Es ist extrem schwer, einen wirksamen Test einzurichten, wenn die Nullhypothese vage oder nicht bekannt ist. Über Hypothesen-Tests existiert eine große Menge wissenschaftlicher Literatur, ebenso über die verschiedenen statistischen Tests, die man benutzen kann, um die Beziehung zwischen Versuchsgruppen zu ermitteln. Dieser Beitrag kann und soll diese Werke nicht ersetzen. Das Ziel ist hier, den Forscher daran zu erinnern, wie weit das Forschungsdesign eine klare Planung braucht. Der Signifikanzwert ist ein Thema, mit dem die LIS-Forscher sich beschäftigen sollten. In der Medizin könnte ein Test-Fehler bei neuen Medikamenten das Leben kosten, und deshalb ist die Grenze der Irrtumswahrscheinlichkeit nicht die 5 %-Wahrscheinlichkeit für einen Fehler (P 1 = deuklid(X°,Y°), d.h., die Distanz zwischen X und Y ist größer als zwischen X° und Y°, obwohl das erste Objektpaar drei übereinstimmende von Null verschiedene Merkmalsausprägungen besitzt, das zweite Objektpaar jedoch keine einzige. Die Objekte X° und Y° sind sich also eigentlich nur ‚ähnlich‘ hinsichtlich der Tatsache, dass über sie wenig Information vorliegt, wenn man das Vorliegen von Nullwerten entsprechend interpretiert. Beim Cosinusmaß tritt dieser Effekt nicht auf, denn hier gilt scos(X,Y) = 3/4 > 0 = scos(X°,Y°). Ist der Anteil der Nullwerte in den Daten jedoch eher
Clusteranalyse und Diskriminanzanalyse
173
niedrig oder besitzt die 0 denselben Informationsgehalt wie ein Wert ungleich 0, ist das Euklidische Distanzmaß durchaus sinnvoll einsetzbar, insbesondere dann, wenn eine Invarianz gegenüber unterschiedlichen Werteniveaus – wie es das Cosinusmaß aufweist – nicht erwünscht ist. Mit zunehmender Erfahrung des Anwenders sollten aber auch andere Proximitätsmaße in Erwägung gezogen werden, da diese möglicherweise besser zu den vorliegenden Daten passen. Nach Wahl des Proximitätsmaßes und der notwendigen Untersuchung auf Korrelationen zwischen den Merkmalen startet dann das eigentliche Clusterverfahren. Zur Vereinfachung der Darstellung sei dabei die Wahl eines Ähnlichkeitsmaßes vorausgesetzt. Für Distanzmaße gelten die Ausführungen in analoger Weise.
4 Agglomerative hierarchische Cluster-Verfahren Beim agglomerativen Clustern stellt zunächst jedes Objekt ein eigenes Cluster dar (die Startpartition). Es folgt ein Berechnungsschritt, bei dem für jedes Cluster die Ähnlichkeit zu jedem anderen Cluster berechnet wird. Wenn die zu vergleichenden Cluster jeweils nur ein Objekt enthalten, ist die Cluster-Ähnlichkeit sinnvollerweise als die Ähnlichkeit zwischen den betroffenen beiden Objekten definiert. Im anschließenden Vereinigungsschritt werden dann die beiden Cluster mit der größten Ähnlichkeit zu einem Cluster vereinigt, wodurch sich die Anzahl der Cluster um 1 reduziert. Es folgen ein erneuter Berechnungsschritt sowie ein Vereinigungsschritt. Dies wiederholt sich solange, bis nur noch ein Cluster vorhanden ist, das dann alle Objekte enthält (sog. Ein-Cluster-Partition). Es stellt sich nun natürlich die Frage, wie die Ähnlichkeit zwischen Clustern berechnet wird, die mehr als ein Objekt enthalten, und welche der vielen möglichen Partitionen zwischen Startpartition und Ein-Cluster-Partition als Ergebnis ausgewählt werden sollte, d.h., wie viele Cluster die ‚optimale‘ Lösung besitzen. Zur Beantwortung der ersten Frage stehen mehrere Möglichkeiten zur Verfügung. In der Praxis werden gerne das Single-Linkage- und das Complete-Linkage-Verfahren verwendet. Bei ersterem wird für jedes Objekt aus dem einen Cluster und jedes Objekt aus dem anderen Cluster die Ähnlichkeit berechnet. Der höchste ermittelte Ähnlichkeitswert – die zugehörigen Objekte bezeichnet man als nächstgelegene Nachbarn – wird dann als Ähnlichkeit zwischen den beiden Clustern festgelegt. Beim Complete-Linkage-Verfahren wird hingegen der niedrigste ermittelte Ähnlichkeitswert verwendet; die zugehörigen Objekte nennt man deshalb entfernteste Nachbarn. Das Single-Linkage-Verfahren führt tendenziell zu Clustern, die untereinander sehr heterogen sind, sodass Objekte, die sich hinsichtlich ihrer Merkmalsausprägungen stark von der Mehrzahl der anderen Objekte unterscheiden, üblicherweise separate Cluster bilden, die dann nur sehr wenige Objekte oder sogar nur ein Objekt umfassen. Für die Identifikation von sog. Ausreißer-Objekten ist das natürlich sehr hilfreich,
174
Galliat
allerdings wird dies erkauft durch eine geringe Homogenität innerhalb der Cluster für die ‚normalen‘ Objekte. Beim Complete-Linkage-Verfahren sind die Cluster tendenziell homogener, allerdings nur, wenn keine Ausreißer-Objekte vorhanden sind. In der Praxis wird deshalb oft zunächst das Single-Linkage-Verfahren angewendet, um die Ausreißer-Objekte zu identifizieren, und nur für die restlichen Objekte dann das Complete-Linkage-Verfahren eingesetzt. Zur Bestimmung der optimalen Clusterzahl werden in der Literatur verschiedene Kriterien vorgeschlagen, die aber immer nur als Indikatoren zu verstehen sind.² Einen leicht zu handhabenden Ansatz stellt die Beobachtung der Änderung des maximalen Ähnlichkeitswertes – d.h. der Ähnlichkeit zwischen den Clustern, die sich im letzten Berechnungsschritt für die Vereinigung qualifiziert haben – dar. Man beobachtet, dass dieser Wert nach jedem Vereinigungsschritt sinkt. Erkennt man dabei einen signifikanten Sprung (Elbow-Kriterium) – was sich als unerwünschte signifikante Zunahme der Heterogenität innerhalb der Cluster interpretieren lässt –, dann ist die Clusterzahl k vor dem Sprung ein guter Kandidat für den optimalen Wert. Zur Identifikation der Sprungstelle ist die Darstellung der maximalen Ähnlichkeitswerte für k ≤ 20 in einem Diagramm sehr hilfreich. Viele Statistik-Programme bieten auch eine Dendogramm-Darstellung der Vereinigungsschritte an: eine baumartige Struktur, bei der die Startpartition die Blätter und die Ein-Cluster-Partition die Wurzel darstellt, wobei die Kanten umso länger sind, je größer die Heterogenitätszunahme innerhalb der Cluster wird. Erhöht sich die Länge der Kanten signifikant, ist die zum vorherigen Vereinigungsschritt gehörende Partitionierung möglicherweise bereits optimal.
5 Partitionierende Cluster-Verfahren Wenn die Zahl N der zu gruppierenden Objekte eine bestimmte Größe übersteigt (eine genaue Zahl anzugeben ist hier sehr schwierig, weil dies auch immer von der vorhandenen Prozessorleistung und den Fähigkeiten des Analysten abhängt; in vielen Fällen dürfte aber N=10.000 schon sehr kritisch sein), sind agglomerative hierarchische Verfahren oft nicht mehr praktikabel, da die Ähnlichkeit zwischen allen Objekten berechnet werden muss. Außerdem ist die Clusterzuordnung unumkehrbar, d.h., wenn zwei Objekte demselben Cluster zugeordnet worden sind, dann bleiben sie das auch nach weiteren Vereinigungsschritten. Bei den partitionierenden Verfahren werden nicht nur weniger Ähnlichkeitsberechnungen benötigt, auch können in jedem Iterationsschritt die Objekte neu gruppiert werden. Beim k-Means-Verfahren, als bekanntestem Vertreter der partitionierenden Verfahren, wird in jedem Iterati-
2 www.bibliotheksstatistik.de/eingabe/dynrep/index.php (20.10.2012).
Clusteranalyse und Diskriminanzanalyse
175
onsschritt t die Ähnlichkeit jedes Objektes X zu den Clusterzentren Zkt (1 ≤ k ≤ k°) berechnet. Das ähnlichste Clusterzentrum legt dann die Clusterzugehörigkeit von X im Iterationsschritt t fest. Danach werden die Clusterzentren neu berechnet, indem für jedes Merkmal Mj die mittlere Ausprägung zktj := (xkt1j+…+xktIj)/I der aktuell zum Cluster k gehörenden I Objekte Xkti ermittelt wird. Hierbei bezeichnet xktij die Ausprägung des Objektes Xkti für Merkmal Mj. Das Ganze wiederholt sich solange, bis sich die Clusterzentren nicht mehr verändern (d.h. Zkt = Zk(t+1) für 1 ≤ k ≤ k°) und somit auch die Zuordnung der Objekte zu den k° Clustern stabil ist. Oft wird auch eine maximale Anzahl an Iterationsschritten festgelegt, z.B. 100. In der Regel konvergieren die partitionierenden Verfahren aber sehr schnell. Kritisch bei diesem Vorgehen sind die vorab vorzunehmende Wahl der Clusterzahl k° sowie die Festlegung der anfänglichen Clusterzentren Zk1. Letztere werden oft zufällig erzeugt, wobei die Wertebereiche der Merkmale beachtet werden sollten. Alternativ können auch k° Objekte zufällig als Clusterzentren ausgewählt werden. Wenn die optimale Anzahl an Clustern a priori nicht bekannt ist, sollte das Verfahren für unterschiedliche k° durchgeführt und dann beispielweise das Elbow-Kriterium angewandt werden. Man beachte dabei aber, dass die partitionierenden Verfahren gegen lokale statt globale Optima konvergieren können. Es ist deshalb sinnvoll, für ein k° verschiedene Durchläufe mit variierenden Startwerten für die Clusterzentren durchzuführen.
6 Anwendungsbeispiel zur Clusteranalyse Zum besseren Verständnis der theoretischen Ausführungen wird im Folgenden die praktische Durchführung einer Clusteranalyse beschrieben, die sich vom Leser am Rechner nachvollziehen lässt. Die Analyse wurde deshalb mit frei verfügbaren Daten zu Ausstattung, Bestand, Entleihungen, Finanzen und Personal aller Öffentlichen Bibliotheken Deutschlands aus der Deutschen Bibliotheksstatistik mit Hilfe des Statistik-Programms SPSS 19 durchgeführt. Hierzu wurden für die Gruppe der Öffentlichen Bibliotheken in Deutschland mit hauptamtlicher Leitung für das Berichtsjahr 2009 die verfügbaren 22 metrisch skalierten, nicht negativen Kennzahlen (Felder 901–22) sowie die Anzahl der primären Nutzer (Feld 1) aus der online-verfügbaren Datenbank³ gezogen. Da die Ausprägung der Merkmale stark von der Anzahl der primären Nutzer abhängt, wurden die 2.040 Datensätze in folgende 5 – an die Einwohnerklassen des BIX-Bibliotheksindex angelehnte – Segmente eingeteilt: „≤15.000 primäre Nutzer“, „15.001–30.000 primäre Nutzer“, „30.001–50.000 primäre Nutzer“, „50.000–100.000 primäre Nutzer“, „>100.000 primäre Nutzer“. Da für alle fünf Segmente jeweils deutlich mehr als 10 %
3 www.bibliotheksstatistik.de/eingabe/dynrep/index.php (20.10.2012)
176
Galliat
der zugehörigen Datensätze fehlende Einträge (missing values) für die Felder 906, 908, 912, 915, 916 und 918 enthalten, wurden diese Felder von der weiteren Analyse ausgeschlossen. Eine Analyse der linearen Korrelationen zwischen den verbleibenden Merkmalen führt zum Ausschluss weiterer Felder (903, 909, 910, 913, 917), da hier in allen Segmenten der Korrelationskoeffizient nach Pearson über 0,7 beträgt (auf einem Signifikanzniveau < 0,01) und auch eine inhaltliche Analyse einen engen Zusammenhang zwischen den Merkmalen erwarten lässt. Bei den restlichen elf Merkmalen (901, 902, 904–905, 907, 911, 914, 919–922) wurden die fehlenden Einträge jeweils durch die mittlere Merkmalsausprägung im Segment ersetzt. Anschließend erfolgte eine Normierung aller Merkmale auf das Intervall [0,1]. Das Segment „15.001–30.000 primäre Nutzer“ enthält 501 Datensätze, sodass eine Anwendung der agglomerativen hierarchischen Verfahren mit dem Cosinusmaß möglich ist. Um Ausreißer-Objekte zu identifizieren, wurde eine Analyse mit dem Single-Linkage-Verfahren durchgeführt. Tabelle 1 zeigt einen Ausschnitt der von SPSS erstellten Zuordnungsübersicht für die letzten zehn Vereinigungsschritte. Tabelle 1: Vereinigungsschritte des Single-Linkage-Verfahren. Zuordnungsübersicht (Segment = 15.001–30.000 primäre Nutzer) Schritt Zusammengeführte Cluster Cluster 1
Cluster 2
491
1204
1632
492 493 494 495 496 497 498 499 500
1204 1204 1204 1204 1204 1204 1204 1204 1204
1673 1393 1218 1495 1479 1243 1646 1379 1253
Koeffizienten
Erstes Vorkommen des Clusters
Nächster Schritt
Cluster 1
Cluster 2
,955
490
0
492
,955 ,954 ,951 ,949 ,949 ,946 ,946 ,913 ,894
491 492 493 494 495 496 497 498 499
0 0 0 0 0 489 0 0 0
493 494 495 496 497 498 499 500 0
In der Spalte „Koeffizienten“ wird jeweils der maximale Ähnlichkeitswert angegeben. Man erkennt leicht, dass bei den letzten beiden Vereinigungsschritten der Wert deutlich abfällt. Man beobachtet ferner, dass die mit dem Cluster 1204 zu vereinigenden Cluster 1379 und 1253 jeweils nur ein Objekt enthalten (beide enthalten den Eintrag 0 in der Spalte für das erste Vorkommen, wurden also noch nicht mit einem anderen Cluster vereinigt), während Cluster 1204 alle anderen 499 Objekte umfasst (denn am Ende des letzten Schritts wird die Ein-Cluster-Partition erreicht). Die beiden betroffenen Objekte (Kreisbibliothek Helmstedt und Stadtbibliothek Bassum) unterscheiden sich also offensichtlich hinsichtlich der beobachteten Merkmale deutlich von den rest-
Clusteranalyse und Diskriminanzanalyse
177
lichen Objekten und wurden deshalb von der nachfolgenden Analyse mit dem Complete-Linkage-Verfahren ausgeschlossen. Für dieses zeigt Abbildung 1 die grafische Darstellung der maximalen Ähnlichkeitswerte für die letzten 20 Vereinigungsschritte. 0,9
maximaler Ähnlichkeitswert
0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Clusterzahl (k) Abbildung 1: Maximale Ähnlichkeitswerte des Complete-Linkage-Verfahrens.
Eine Anwendung des Elbow-Kriteriums signalisiert k = 3 oder k = 7 als optimale Clusterzahl. Die Häufigkeitsverteilungen der zugehörigen Cluster lässt sich Tabelle 2 entnehmen. Tabelle 2: Häufigkeitsverteilung der Complete-Linkage-Clusterlösungen. Häufigkeitsverteilung für k = 7 Cluster Häufigkeit Prozent
Häufigkeitsverteilung für k = 3 Cluster Häufigkeit Prozent
1 2 3 4 5 6 7
56 6 128 87 22 138 62
1 2 3
118 359 22
Gesamt
499
Gesamt
499
Kumulierte Prozente 11,2 11,2 1,2 12,4 25,7 38,1 17,4 55,5 4,4 59,9 27,7 87,6 12,4 100,0
Kumulierte Prozente 23,6 23,6 71,9 95,6 4,4 100,0
100,0
100,0
Alternativ zum Cosinusmaß kann das Euklidische Distanzmaß verwendet werden, allerdings ist hier im konkreten Anwendungsfall die Identifikation der AusreißerObjekte sowie der optimalen Clusterzahl sehr viel schwieriger.
178
Galliat
Die Verwendung des k-Means-Verfahrens ist ebenfalls möglich. Hier kommt in SPSS allerdings zwingend das Euklidische Distanzmaß zum Einsatz. Interessanterweise bilden für k = 3 die mit dem k-Means-Verfahren in 28 Iterationsschritten gebildeten Cluster 1 und 2 fast vollständige Teilmengen der mit dem Complete-LinkageVerfahren und dem Euklidischen Distanzmaß ermittelten Cluster 2 und 1, während das k-Means-Cluster 3 ein Mix aus den Complete-Linkage-Clustern 1 bis 3 darstellt, wie Tabelle 3 deutlich zeigt. Die Verteilung der Objekte auf die drei Cluster ist beim k-Means-Verfahren im Beispielfall deutlich gleichmäßiger als beim Complete-Linkage-Verfahren.
Tabelle 3: Kreuztabelle k-Means-Clusterung vs. Complete-Linkage (Euklid).
Cluster k-Means
Anzahl Objekte Complete Linkage 1 2
3
Gesamt
1
12
188
1
201
2 3
109 66
6 89
5 23
120 178
Gesamt
187
283
29
499
7 Die Methode der Diskriminanzanalyse Die Diskriminanzanalyse setzt voraus, dass es bereits eine Einteilung der zu analysierenden Objekte in Gruppen – üblicherweise Klassen genannt – gibt. Ziel ist es, diese Klassentrennung mittels der verfügbaren Objektmerkmale zu erklären, insbesondere auch den trennenden (diskriminierenden) Einfluss der einzelnen Merkmale zu quantifizieren und ferner ein Modell zu erhalten, um für Objekte, deren Klasse nicht bekannt ist, diese zu prognostizieren. Um die Güte dieser Prognose beurteilen zu können, wird die Menge der Objekte, deren Klasse bekannt ist, zufällig in eine Lernstichprobe und eine Validierungsstichprobe unterteilt. Das Prognosemodell wird auf Basis der größeren Lernstichprobe erstellt und anhand der kleineren Validierungsstichprobe getestet. Üblich sind hierbei Aufteilungen in der Größenordnung 3:1 oder 4:1. Die Anwendungsbereiche der Diskriminanzanalyse sind vielfältig, so könnte beispielsweise eine Gruppierung von Kunden in Klassen, die das Kaufverhalten beschreiben („Kauf des Produktes A – Ja/Nein“) oder von Nutzern in Nutzungsklassen („Nutzung des Web-Angebotes der Bibliothek – Ja/Nein“) analysiert werden. Dabei dürfen dann die a priori unbekannten Merkmale, wie eben das Kaufverhalten oder das Nutzungsverhalten, nicht zur Erklärung der Klasseneinteilung verwendet werden, da sonst natürlich kein Prognosemodell erstellt werden kann. Für die Anzahl k der Klassen gibt es prinzipiell keine Beschränkung, allerdings steigt mit k auch die
Clusteranalyse und Diskriminanzanalyse
179
Komplexität der Analyse. Im Folgenden wird deshalb nur der in der Praxis häufig zu beobachtende Fall k = 2 betrachtet. Für den Fall k > 2 sei z.B. auf Bishop verwiesen.⁴
8 Die Diskriminanzfunktion Für ein Objekt X bezeichnen wieder x1,…,xJ die Ausprägungen der metrisch skalierten Merkmale M1,…,MJ (in der Praxis werden oft auch Merkmale mit binärer Ausprägung verwendet, die sich ja rein formal als metrisch skaliert auffassen lassen). Dann ist die sog. (lineare) Diskriminanzfunktion definiert als Y(X):=b0+b1x1+…+bJxJ wobei b1,…,bJ die (unstandardisierten) Diskriminanzkoeffizienten und b0 eine Konstante sind. Sei K1 bzw. K2 die Menge der Objekte der Lernstichprobe, die zur ersten bzw. zweiten Klasse gehören (man beachte: K1K2 = {}, d.h., jedes Objekt gehört zu genau einer Klasse) und bezeichne Z1 bzw. Z2 den durchschnittlichen Wert (den Zentroid) der Diskriminanzfunktion für alle Objekte aus K1 bzw. K2, dann ist die absolute Differenz |Z1–Z2| ein Maß für die Trennung der beiden Klassen durch die Diskriminanzfunktion. Wenn wir annehmen, dass Z1 < Z2, dann wird Y* := (Z1+Z2)/2 der kritische Diskriminanzwert genannt. Dieser kann genutzt werden, um die Klasse eines Objektes X zu prognostizieren: nämlich Klasse 1, wenn Y(X) < Y* und Klasse 2, wenn Y(X) > Y*. Die Güte dieser Prognose hängt jedoch stark von der Streuung bezüglich Y innerhalb von K1 und K2 ab. Als Maß für die Trennung wird deshalb das Verhältnis der Streuung zwischen den Klassen SSb (Sum of Squares between) zu der Streuung innerhalb der Klassen SSw (Sum of Squares within) verwendet und üblicherweise als Diskriminanzwert Γ bezeichnet. Sei Y° der Gesamtmittelwert der Diskriminanzfunktion für alle Objekte der Lernstichprobe., dann gilt SSb:=|K1|(Z1-Y°)2+|K2|(Z2-Y°)2, wobei |K1| bzw. |K2| die Anzahl der Objekte in K1 bzw. K2 bezeichnet, und zur Berechnung von SSw wird für jedes Objekt die quadrierte Differenz des Wertes der Diskriminanzfunktion zum jeweiligen Klassen-Zentroid gebildet und aufsummiert. Offensichtlich entspricht SSb dem Teil der Streuung, die durch die Diskriminanzfunktion erklärt ist, während SSw der unerklärte Teil der Streuung ist. Dies bedeutet aber, dass die Diskriminanzfunktion die beiden Klassen umso besser trennt, je größer Γ = SSb/SSw ist. Damit lässt sich die Bestimmung der Diskriminanzfunktion als Optimierungsproblem formulieren: Finde Diskriminanzkoeffizienten b1,…,bJ, sodass Γ maximiert wird.
4 Bishop 2006: 182–192.
180
Galliat
9 Validierung und Interpretation der Diskriminanz-Ergebnisse Der Wert von Γ ist nach oben nicht beschränkt. Deshalb wird oft stattdessen Wilks‘ Lambda Λ := SSw/(SSb + SSw) als Gütemaß für die Trenneigenschaft verwendet, wobei die Minimierung von Λ dabei äquivalent zur Maximierung von Γ ist. Es gilt 0 ≤ Λ ≤ 1, wobei die Trennung umso besser ist, je kleiner Λ. Besondere Bedeutung erlangt Wilks‘ Lambda dadurch, dass es sich in eine näherungsweise Chi-Quadrat verteilte Zufallsvariable transformieren lässt, mit deren Hilfe sich die Trennleistung der Diskriminanzfunktion hinsichtlich ihrer statistischen Signifikanz überprüfen lässt. Hierzu nutzt man die Tatsache, dass die Zufallsvariable χ2 := (2+J/2-N) ln(Λ) angenähert wie χ2 verteilt ist, mit J Freiheitsgraden (wobei ln der natürliche Logarithmus ist). Die Nullhypothese „H0 : Die Diskriminanzfunktion trennt die beiden Klassen nicht.“, lässt sich dann bei entsprechend hohem χ2-Wert mit einer Irrtumswahrscheinlichkeit (Signifikanzniveau) α verwerfen. Daneben lässt sich die Prognoseleistung anhand der Validierungsmenge bewerten. Hierzu berechnet man für jedes Objekt X der Validierungsmenge den Wert Y(X) und prognostiziert die Klasse durch Vergleich mit dem kritischen Diskriminanzwert. Anschließend vergleicht man das Ergebnis mit der tatsächlichen Klasse. Für beide Klassen sollte der Anteil der korrekt klassifizierten Objekte deutlich über 50 % liegen, was einer Zufallsprognose entsprechen würde. Der Einfluss der Merkmale auf die Trennung lässt sich mittels der Diskriminanzkoeffizienten quantifizieren. Allerdings müssen diese hierzu standardisiert werden, da die Merkmale unterschiedlich skaliert sein können. Die standardisierten Diskriminanzkoeffizienten bj* erhält man durch Multiplikation der unstandardisierten Koeffizienten bj mit der Standardabweichung des zugehörigen Merkmals Mj. Je größer der absolute Wert von bj*, umso größer ist der Einfluss auf die Trennung zwischen den beiden Klassen.
10 Schrittweises Verfahren bei der Merkmalsauswahl Die Diskriminanzfunktion muss nicht zwingend alle Merkmale als Variable enthalten. Stattdessen ist es auch möglich, mit einem Merkmal zu beginnen und dann schrittweise jeweils ein weiteres Merkmal hinzuzunehmen. Allerdings wird ein Merkmal nur dann für die Diskriminanzfunktion verwendet, wenn es zur Verbesserung der Trennleistung führt, also Wilks‘ Lambda signifikant reduziert. Im Gegenzug kann ein Merkmal auch wieder entfernt werden, wenn dadurch die Trennleistung nicht signifikant sinkt. Der Vorteil dieses Vorgehens ist ein trennscharfes Prognosemodell, das mit möglichst wenigen Merkmalsvariablen auskommt. Dies erleichtert nicht nur die
Clusteranalyse und Diskriminanzanalyse
181
Interpretation, sondern macht das Modell in der Regel auch robuster. Eine umfassende Diskussion des Themas Merkmalsauswahl findet sich in McLachlan.⁵
11 Anwendungsbeispiel zur Diskriminanzanalyse Die Ergebnisse des Anwendungsbeispiels für die Clusteranalyse sollen nun mittels der Diskriminanzanalyse weiter untersucht werden. Hierzu wird zunächst (mittels des in SPSS 19 verfügbaren Mersenne-Twister-Zufallszahlengenerators mit dem Startwert 456789123) eine zufällige Aufteilung der Datensätze im Segment „15.001–30.000 primäre Nutzer“ in Lern- und Validierungsstichprobe durchgeführt, sodass sich ein ungefähres Verhältnis von 3:1 ergibt. Für die Cluster 3 und 6 der Lösung des CompleteLinkage-Verfahrens für k = 7 enthält die Lernstichprobe 99 bzw. 95 Datensätze und die Validierungsstichprobe 29 bzw. 43 Datensätze, was ausreichend für die Durchführung einer Diskriminanzanalyse ist. Werden alle zur Clusteranalyse verwendeten Merkmale berücksichtigt, erhält man eine Diskriminanzfunktion mit signifikanter Trennleistung zwischen den Clustern 3 und 6, wobei für Wilks’ Lambda gilt: Λ=0,342. Die Gruppenzentroide liegen bei –1,352 für Cluster 3 und 1,409 für Cluster 6, sodass der kritische Diskriminanzwert also nahe bei 0 liegt. Die Abbildung 2 zeigt die Verteilung der Diskriminanzwerte sowie zum Vergleich die Normalverteilungskurven.
Abbildung 2: Histogramm der Diskriminanzwerte (Cluster 6 vs. Cluster 3).
5 McLachlan 2004: Kap. 12.
182
Galliat
Die berechneten standardisierten Diskriminanzkoeffizienten werden in Tabelle 4 aufgelistet. Man erkennt, dass die Fläche der Bibliothek pro 1.000 Einwohner (Feld 922), die Anzahl der Medien pro Einwohner (Feld 901) und der Anteil der Personalausgaben an den Gesamtausgaben (Feld 919) einen besonders hohen Einfluss auf die Trennung der beiden Cluster haben, wobei eine Bibliothek tendenziell Cluster 6 zugeordnet wird, wenn sie für die beiden zuerst genannten Merkmale hohe Werte und für das zuletzt genannte einen niedrigen Wert besitzt. Im umgekehrten Fall ist sie eher Cluster 3 zuzuordnen. Die Prognoseleistung ist sehr gut, denn für beide Cluster werden auf der Lern- und auf der Validierungsstichprobe jeweils mindestens 90 % der Fälle korrekt klassifiziert. Tabelle 4: Standardisierte kanonische Diskriminanzfunktionskoeffizienten. Merkmal F901_Medien_pro_EW_norm F902_Erneuer_quote_norm F904_Veranst_pro_Tsd_EW_norm F905_Jahresöff_std_pro_Tsd_EW_norm F907_Anteil_Entleiher_pro_EW_norm F911_Tsd_Entleih_pro_Pers_VZÄ_norm F914_Jahresöff_std_pro_Pers_VZÄ_norm F919_Anteil_Pers_ausg_pro_Ges_ausg_norm F920_Anteil_selbsterw_und_Fremdm_durch_Ges_ausg_norm F921_Erwerb_ausg_pro_EW_norm F922_Pub_Fläche_pro_Tsd_EW_norm
Koeffizient ,394 ,143 -,252 ,262 ,260 ,099 -,034 -,493 ,118 ,032 ,632
Mittels des schrittweisen Verfahrens (als Grenze für den Signifikanztest zur Merkmalsaufnahme bzw. -entfernung wurde der Wert 0,05 bzw. 0,1 verwendet) lässt sich die Anzahl der Merkmale im Modell verringern, wie Tabelle 5 zeigt. Dabei erhöht sich der Wert für Wilks’ Lambda nur geringfügig auf 0,346, und die Prognoseleistung ist mit Werten über 87 % nahezu identisch. Tabelle 5: Standardisierte kanonische Koeffizienten (schrittweises Verfahren). Merkmal F901_Medien_pro_EW_norm F902_Erneuer_quote_norm F904_Veranst_pro_Tsd_EW_norm F905_Jahresöff_std_pro_Tsd_EW_norm F907_Anteil_Entleiher_pro_EW_norm F919_Anteil_Pers_ausg_pro_Ges_ausg_norm F922_Pub_Fläche_pro_Tsd_EW_norm
Koeffizient ,451 ,206 -,279 ,248 ,308 -,527 ,617
Clusteranalyse und Diskriminanzanalyse
183
Natürlich lassen sich auch die Ergebnisse der Clusteranalyse mittels des k-MeansVerfahrens analysieren. Hier erhält man eine noch schärfere Trennung zwischen den Clustern und ein Prognosemodell, das über 95 % der Fälle korrekt klassifiziert.
12 Resümee Die Durchführung einer Clusteranalyse sowie einer Diskriminanzanalyse unter Verwendung gängiger Statistik-Software erscheint auf den ersten Blick einfach. Wie die obigen Ausführungen aber versucht haben zu verdeutlichen, sind die vorab notwendige Aufbereitung der Daten, die Auswahl der für die Verfahren kritischen Parameter (Proximitätsmaß, Clusterzahl, Startwerte) sowie die Evaluation und Interpretation der Analyseergebnisse keineswegs trivial. Insbesondere ist für ein tiefergehendes Verständnis eine Beschäftigung mit den mathematischen Grundlagen unerlässlich. Als Lohn stehen dem Anwender dann aber zwei mächtige Verfahren zur Datenanalyse zur Verfügung, die sich zur Lösung einer Vielzahl von Problemstellungen einsetzen lassen.
13 Literatur- und Quellenverzeichnis Backhaus, K., B. Erichson, W. Plinke u. R. Weiber: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin [u.a.]: Springer 2008. Bishop, C. M.: Pattern Recognition and Machine Learning. New York, NY [u.a.]: Springer 2006. Jain, A. K. u. R. C. Dubes: Algorithms for Clustering Data. Englewood Cliffs, NJ: Prentice Hall 1988. McLachlan, G. J.: Discriminant Analysis and Statistical Pattern Recognition. [Nachdr.] New York, NY [u.a.]: Wiley 2004.
Christian Schlögl
Logfile- und Link-Analysen Nicht-reaktive Methoden der Online-Forschung
1 Einleitung Nicht-reaktive Erhebungsmethoden unterscheiden sich von reaktiven dadurch, dass sie „… im Zuge ihrer Durchführung keinerlei Einfluß auf die untersuchten Personen, Ereignisse oder Prozesse ausüben“.¹ Dies ist dadurch möglich, dass Beobachter bzw. Forscher und Untersuchungsobjekt nicht miteinander in Kontakt treten, sodass keine störenden Reaktionen wie z.B. Interviewer-Effekte auftreten können. Häufig werden nicht-reaktive Erhebungsverfahren als Sonderform der Beobachtung gesehen. Tatsächlich handelt es sich dabei entweder um verdeckte Beobachtungen, die keine Beeinträchtigung des zu beobachtenden Geschehens hervorrufen, oder um indirekte Beobachtungen, bei denen die zu untersuchenden Sachverhalte (indirekt) aus den beobachteten Objekten erschlossen werden. Die Beobachtungsobjekte können dabei sehr unterschiedlich sein. Beispiele sind – – – –
abgetretene Teppichbelege in Museen als Indikator für häufig gewählte Besucherwege, Häufigkeit von „Spielen verboten“-Schildern als Indikator für die Kinderfeindlichkeit in Wohnsiedlungen, Anstecker als Indikatoren für Gruppenzugehörigkeit, Anzahl abgeschlossener Versicherungen als Indikator für Sicherheitsstreben.²
Bibliometrische Analysen basieren ebenfalls auf nicht-reaktiven Erhebungsmethoden. Ein wesentliches Charakteristikum von Online-Erhebungen ist, dass die Datensammlung computergestützt erfolgt. Grundsätzlich lassen sich nach Knapp³ folgende Erhebungsformen unterscheiden: – – –
Online-Umfragen, qualitative Befragungen, qualitative Beobachtungen (z.B. von Chats oder Pinboard-Diskussionen),
1 Bortz u. Döring 2005: 325. 2 Ebd.: 325f. 3 Knapp 2003: 143.
Logfile- und Link-Analysen
– –
185
Aufzeichnung von Benutzeraktivitäten (z.B. in Logfiles), Adaptionen anderer Offline-Verfahren (z.B. Online-Mystery-Transaktionen als Online-Anwendung des sog. Mystery-Shopping).
Laut Reips⁴ lassen sich Online-Erhebungen durch folgende fünf Kriterienbündel charakterisieren: – – – –
–
benutzter Dienst: E-Mail, News, WWW usw., eingesetzter Medienkanal: Text, Bild, Ton, Video, VRML⁵ usw. Ort der Datensammlung: serverseitig, clientseitig, auf einem Proxy-Server, durch einen eigenen Dienste-Anbieter, Art der Teilnehmerrekrutierung: gezielte Werbung an bestimmten (Informations-)Orten (online und/oder offline), fixe oder zufällige Auswahl des nächsten Zugriffs, Art der Variablen: Textantwort, Antwortalternativen (Radiobutton, Pop-upMenü, Checkbox, Link), Makronavigation, Mikronavigation oder Zeitmessung (z.B. Reaktionszeit, Antwortzeit, Blickzeit).
Aus der Vielzahl der Kombinationsmöglichkeiten resultiert eine dementsprechend große Variantenvielfalt für den Einsatz von Online-Verfahren. In diesem Beitrag werden die beiden nicht-reaktiven Online-Verfahren der Logfile- und der Link-Analyse vorgestellt. Gemeinsam ist diesen beiden Verfahren, dass meist ohnehin anfallende Daten genutzt werden, ohne dass die davon betroffenen Personen (vorher) davon etwas wussten.⁶
2 Fragestellungen Die zu untersuchenden Forschungsfragen hängen vom jeweiligen ‚Beobachtungsobjekt‘ ab. Im Rahmen von Logfile-Analysen kann beispielsweise die Nutzung von Websites, Suchmaschinen oder elektronischen Ressourcen untersucht werden. LinkAnalysen erforschen hingegen den Zusammenhang von Webseiten oder Websites auf der Basis ihrer Verlinkungen.
4 Reips 2003: 22. 5 Virtual Reality Modeling Language. 6 Ebd.: 23.
186
Schlögl
Logfile-Analysen –
Websites: – Welche Seiten einer Website werden üblicherweise als Einstiegspunkt verwendet? – Von welchen Websites kommen die meisten Besucher? Aus welchen Ländern sind sie? – Wie viele Internetnutzer besuchen die Website durchschnittlich? Hat sich nach der letzten Marketing-Kampagne das Nutzeraufkommen spürbar erhöht? – Welche Webnutzer besuchen die Website öfters? Wie oft? – Wie viele Webseiten besucht ein Benutzer üblicherweise? – Wie lange ist die Verweildauer der Benutzer? – Wie navigieren die Benutzer durch die Website? In welcher Reihenfolge besuchen sie die einzelnen Seiten? – Über welche Webseite verlässt ein Benutzer die Website normalerweise? – Gibt es mögliche Verbesserungspotenziale hinsichtlich Inhalt, Aufbau und Struktur der Website? Wie kann die Navigation optimiert werden? – Ist eine Personalisierung der Inhalte der Website sinnvoll? – Lassen sich Nutzer eines Onlineshops auf Basis ihres bisherigen Kaufverhaltens gruppieren? Können einem Nutzer spezielle Angebote gemacht werden, die andere Mitglieder der Gruppe in Anspruch genommen haben?
–
Anfragen an Suchmaschinen: – Wie viele Suchbegriffe gibt ein Benutzer einer Suchmaschine bei einer Suchanfrage im Durchschnitt ein? – Wie häufig werden Boolsche Operatoren und andere fortgeschrittene Suchmöglichkeiten (z.B. Suche im Titel oder nach einem bestimmten Dokumenttyp) verwendet? – Wie hoch ist der Anteil der Suchmaschinennutzer, die auch die zweite Seite der Trefferliste anschauen? – Welche Themen interessieren die Web-Community aktuell am meisten? – Gibt es einen Zusammenhang zwischen der Häufigkeit der Suchanfragen nach einem bestimmten Produkt und dessen Umsatzentwicklung in einer bestimmten Periode? Wie schaut dieser Zusammenhang genau aus?
–
Elektronische Ressourcen: – Wie gut werden elektronische Zeitschriften genutzt? – Welche Zeitschriftenartikel wurden am häufigsten heruntergeladen? – Wie häufig wurde auf den OPAC zugegriffen? – Wie aktuell sind die heruntergeladenen Artikel?
Logfile- und Link-Analysen
– –
187
Sind die Zeitschriften mit den meisten Downloads auch jene, die am häufigsten zitiert werden? Käme ein Pay-per-View billiger als die Lizenzierung der Zeitschrift?
Link-Analysen – –
Welche Websites haben die meisten Inlinks? Zwischen welchen Websites gibt es auf Basis der existierenden Verlinkungsstrukturen Gemeinsamkeiten? Welche Websites sind nur schwach in das Link-Netzwerk eingebunden?
3 Logfile-Analysen Eine Log-Datei ist ein elektronisches Protokoll aller oder nur bestimmter Interaktionen, die zwischen einem System und dessen Benutzern stattgefunden haben.⁷ Eine synonyme Bezeichnung ist Ereignisprotokolldatei. Systeme, die derartige Protokolle führen, können Systemprogramme (z.B. Betriebssystem, Webserver, Datenbankmanagementsystem) oder Anwendungsprogramme (z.B. Suchmaschine, OPAC) sein. Bei Systemsoftware stehen vor allem Aspekte der Prozesskontrolle im Vordergrund. Beispielsweise kann die von einem Datenbanksystem generierte Log-Datei dazu verwendet werden, die bei einem Systemabsturz sonst verloren gegangenen Daten wieder herzustellen. Für informationswissenschaftliche Fragestellungen sind von Webservern und Anwendungsprogrammen generierte Protokolldateien am interessantesten. Im Vordergrund steht hier die Nutzungsanalyse von Web-Anwendungen. Sollen dabei primär Muster der Systemnutzung aus Log-Dateien aufgedeckt werden, wird dafür auch die Bezeichnung „Web Usage Mining“⁸ verwendet. Grundsätzlich können Analysen auf Makro- oder Mikroebene erfolgen. Bei MakroAnalysen werden allgemeine Zugriffsdaten aggregiert (z.B. Summe der Downloads eines Dokuments), während Mikro-Analysen bis auf die Transaktionen einzelner Benutzer zurückgehen und somit eine Analyse des detaillierten Online-Verhaltens ermöglichen. Bei einigen Einsatzszenarien kann auch eine kombinierte Vorgehensweise sinnvoll sein.⁹ Im Vergleich zu anderen Datenerhebungsmethoden wie schriftlicher oder mündlicher Befragung oder Videoanalyse haben Log-Datei-Analysen den Nachteil, dass sie
7 Jansen [u.a.] 2009: 2. 8 Z.B. Markov u. Larose 2007: 141 oder Liu 2007: 7. 9 Mayr u. Nançoz: 2005.
188
Schlögl
nur auf den tatsächlichen Benutzeraktionen basieren. Verbesserungswünsche, Idealanforderungen sowie Urteile über die vorhandenen Angebote lassen sich damit kaum oder gar nicht ableiten. Auch demografische Benutzerdaten können damit nicht erhoben werden.¹⁰ In vielen Fällen ist es nicht einmal möglich, den Benutzer anhand der IP-Adresse zu identifizieren, wenn diese dynamisch (an verschiedene Benutzer) vergeben wird. Weitere Verfälschungen ergeben sich, wenn die angeforderten Inhalte aus einem Zwischenspeicher (z.B. Proxyserver) befriedigt werden, z.B. beim mehrmaligen Zugriff auf dieselbe Seite. Zur Identifikation von Benutzer-Sessions sollten daher neben der IP-Adresse weitere Parameter wie verwendeter Browser und Browserversion oder eingesetztes Betriebssystem herangezogen werden.¹¹ Eine häufig verwendete Form der Benutzeridentifizierung bei dynamisch erzeugten Webseiten, die obige Verfälschungen vermeidet, ist die Vergabe einer Session-ID, die der Client bei jeder Anfrage mitsendet. Dies kann durch ein sog. Cookie realisiert werden, das beim Client abgelegt wird, und – sofern es in der Zwischenzeit vom Client nicht gelöscht wurde – zur späteren Wiedererkennung dient. Voraussetzung dafür ist allerdings, dass der Benutzer in seinem Web-Browser die entsprechenden Einstellungen zum Umgang mit Cookies vorgenommen hat. Grundsätzlich gilt, dass Logfile-Analysen aus Datenschutzgründen nicht unproblematisch sind. So dürfen nach § 15 des deutschen Telemediengesetzes personenbezogene Daten von Nutzern einer Webseite ohne deren Einwilligung nur erhoben und verwendet werden, um die Inanspruchnahme von Telemedien zu ermöglichen und abzurechnen. Nach dem Nutzungsvorgang dürfen Nutzungsdaten nur verwendet werden, soweit sie für Zwecke der Abrechnung mit dem Nutzer erforderlich sind. Für Zwecke der Werbung, der Marktforschung oder zur bedarfsgerechten Gestaltung der Telemedien dürfen Nutzungsprofile bei Verwendung von Pseudonymen erstellt werden, sofern der Nutzer nicht widerspricht. In Österreich ist die Frage der Zulässigkeit der Speicherung von Verkehrsdaten im Telekommunikationsgesetz, durch das die Richtlinie 2002/58/EG des Europäischen Parlaments und des Rates vom 12.7.2002 umgesetzt wurde, geregelt. Ausjudifiziert ist mittlerweile, dass IP-Adressen (statische und dynamische) personenbezogene Daten sind. Erst eine echte Anonymisierung, bei der die IP-Adresse nicht mehr reproduzierbar ist, würde also den Datenschutz gewährleisten.¹²
10 Jansen 2006: 411. 11 Mandl [u.a.] 2011: 29. 12 Für die kompetente Fachauskunft bedankt sich der Autor vielmals bei Frau Prof. Dr. Elisabeth Staudegger vom Institut für Rechtsphilosophie Rechtssoziologie und Rechtsinformatik der Universität Graz.
Logfile- und Link-Analysen
189
Je nach dem Analyseobjekt decken Logfile-Analysen ein breites Spektrum ab.¹³ In diesem Beitrag wird aus Platzgründen nur auf die Nutzungsanalyse von Websites, Suchanfragen und elektronischen Ressourcen eingegangen.
3.1 Nutzungsanalyse von Websites Die beiden Hauptanwendungsbereiche betreffen hier das Monitoring und die Optimierung einer Website sowie, im Bereich des E-Commerce, die Entwicklung von sog. Empfehlungsdiensten.¹⁴ Letztere ermitteln automatisch ähnliche Objekte (z.B. Kunden, die dieses Buch gekauft haben, haben oft auch noch jene Titel erworben) und unterbreiten diese dann dem jeweiligen Benutzer. Häufig werden auch die Bezeichnungen Web-Analytics und Clickstream-Analyse verwendet. Wie bereits erwähnt, können die Nutzungsdaten serverseitig, clientseitig oder durch eigene Dienstanbieter (z.B. Google Analytics) gesammelt werden. Bei der serverseitigen Datenerhebung¹⁵ werden Web-Nutzungsdaten in sog. Webserver-Log-Dateien aufgezeichnet. In diesen wird jede Anforderung von Seiten eines Browsers eines Web-Nutzers automatisch festgehalten. Die aufgezeichneten Inhalte und deren Struktur hängen von der verwendeten Webserver-Software ab. Beispiele sind das Microsoft IIS-, das Common Log- (CLF oder clog) und das Extended Common Log-Format (ECLF). Bei Letzterem werden beispielsweise folgende Daten gespeichert: – –
– – –
Remote host: IP-Adresse jenes Computers, der eine Anforderung an den Webserver stellt, Identifizierung: Identifizierungsdaten für den Fall, dass der Webserver eine Identifizierungsprüfung durchführt; meist ist dieses Feld leer, da diese Daten in unverschlüsselter Form gespeichert werden, Benutzername: Name des Client, sofern dieser erforderlich ist, um auf bestimmte Verzeichnisse zuzugreifen, Datum/Uhrzeit: Zeitpunkt, an dem die jew. HTTP-Anforderung gestellt wurde, HTTP-Anforderung: die vom Browser gestellte Anforderung; sie ist in Anführungszeichen eingeschlossen und umfasst folgende vier Bestandteile: – HTTP-Befehl: z.B. GET für eine Leseanforderung, – Uniform Resource Identifier (URI): Name der betroffenen Webseite bzw. des jeweiligen Dokuments, – Header: zusätzliche Angabe zum HTTP-Befehl, – verwendete Version des HTTP-Protokolls: z.B. HTTP/1.1,
13 Jansen [u.a.] 2009: 2. 14 Markov u. Larose 2007: 143. 15 Die folgenden Ausführungen beziehen sich auf Markov u. Larose 2007: 143–211.
190
– – – –
Schlögl
Status: z.B. 200 – erfolgreiche Datenübertragung, 400 – clienterror, 500 – servererror, übertragenes Datenvolumen: in Byte, Herkunft des Besuchers (referrer): URL der vom Client zuvor besuchten Webseite, Benutzerdaten (user agent): verwendeter Browser inkl. Browser-Version, Betriebssystem, auch Daten über Web-Crawler können festgehalten werden.
Beispiel: 129.27.13.13 – schloegl [18/Apr/2012:18:27:38 -5000] ‘‘GET/iwiwww/index.html HTTP/1.1‘‘ 200 4711 ‘‘www.univie.ac.at/‘‘ ‘‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)“
Vor der Verarbeitung müssen die Daten von Log-Dateien zunächst aufbereitet werden. Dabei fallen u.a. folgende Schritte an: Entfernen von nichtrelevanten und nicht von Benutzern gestellten Webanfragen (z.B. Zugriffe durch Crawler), Bestimmung der Benutzer-Sessions (Reihenfolge und Dauer der besuchten Webseiten) sowie Ergänzung der Benutzer-Sessions um besuchte Webseiten, die in der Log-Datei nicht aufgezeichnet wurden (z.B. bei Verwendung der BACK-Schaltfläche eines Browsers). Nach erfolgter Datenbereinigung und -aufbereitung können u.a. folgende Kennzahlen ermittelt werden: – –
–
–
Unique Visitors: – Anzahl der (verschiedenen) Besucher einer Website. Page Impressions (Page Views) und Visits: – Häufigkeit der Abrufe einzelner Webseiten (einer Website), – Häufigkeit der Besuche der gesamten Website, – Anzahl der besuchten Webseiten, – Reihenfolge, in der Webseiten besucht wurden, – häufigste Einstiegs- und Ausstiegsseite. Verweildauer: – Dauer der Visits (Session-Länge), – durchschnittliche Dauer, die sich Benutzer auf einer Webseite aufhalten. Zusammenhang zwischen Anzahl der besuchten Webseiten und Session-Länge.
Darüber hinaus können auch komplexere Verfahren wie Clustering (z.B. 90 % aller Nutzer haben kurze Session-Längen), die Analyse von Zusammenhängen (z.B. Besucher, die Webseite X besuchen, schauen sich mit einer 60 %igen Wahrscheinlichkeit auch noch Webseite Y an) und Klassifikation (z.B. Benutzer, die weniger als 100 Sekunden auf der Einstiegsseite verbringen und auf Webseite x weniger als drei Aktionen tätigen, halten sich in der Regel nur kurz auf der Website auf) zum Einsatz kommen.
Logfile- und Link-Analysen
191
Neben serverseitig generierten Log-Dateien besteht auch die Möglichkeit, Benutzeraktionen auf Initiative des Client protokollieren zu lassen. Dies ist oft dann der Fall, wenn der Betreiber einer Website keinen Zugriff auf die Log-Datei des Webservers hat. Bei der deutschen Bibliotheksstatistik (DBS) kommt zur Ermittlung der Zugriffshäufigkeiten der Bibliotheks-Homepage und des OPAC beispielsweise das sog. Skalierbare Zentrale Messverfahren (SZM), das auch unter dem Namen Zählpixel-Verfahren bekannt ist, zum Einsatz. Bei diesem wird von einem eigenen Server (Analyseserver) – im Falle der DBS ist das zurzeit die Hochschule der Medien in Stuttgart – ein 1x1 Pixel großes Bild (meistens ist dieses transparent oder in der Hintergrundfarbe der jeweiligen Webseite gehalten) heruntergeladen, wenn die entsprechende Webseite einer Bibliothek von einem Benutzer aufgerufen wird. Dies wird durch folgenden HTMLCode auf der zu beobachtenden Webseite erreicht:
Das Herunterladen des Bildes ist mit einem Skript am Analyseserver verknüpft, durch das festgehalten wird, wann welcher Nutzer dieses Zählpixel angefordert hat. Jede an der DBS teilnehmende Bibliothek erhält von der Hochschule der Medien einen Link mit einem Zugangscode, über den die Tages- und die Jahressumme der Zugriffe auf die jeweils unter Beobachtung stehenden Webseiten eingesehen werden können. Die Jahressumme der Visits (Anzahl der Besuche durch einzelne Internetnutzer) wird nach Jahresende durch die Hochschule der Medien direkt an die DBS-Redaktion übermittelt.¹⁶
3.2 Analyse von Suchanfragen Bei der Analyse von Suchanfragen kann man laut Hochstötter¹⁷ zwischen deskriptiven, zeitlichen und inhaltlichen Auswertungen unterscheiden. Beispiele für deskriptive Analysen sind die Ermittlung der Länge von Suchanfragen (Anzahl der Suchterme) oder der Nutzung von Operatoren. Zeitliche Analysen haben die zeitliche Verteilung von Suchanfragen im Ablauf eines Tages, an den Wochentagen oder im Laufe eines Jahres zum Gegenstand. Vor allem wenn man die Nutzung von Suchtermen über einen längeren Zeitraum betrachtet, lassen sich dadurch Rückschlüsse auf die Interessen der Suchmaschinennutzer ziehen (s. Abbildung 1). Je nachdem wie konstant das Nachfrageverhalten ist, kann man die Suchbegriffe in Dauerbrenner (Evergreens), Eintagsfliegen, Events (z.B. Weihnachten oder Wahlen) und Impulse (z.B. Nachricht über Tsunami) einteilen. Während die Häufigkeit eines Suchbegriffs
16 Mundt o. J. 17 Hochstötter 2007: 138f.
192
Schlögl
bei Events bis zum jeweiligen Ereignis hin stetig ansteigt, wird bei Impulsen das Maximum des Suchvolumens in der Regel am Tag des Ereignisses erreicht und fällt dann wieder rasch ab. Bei inhaltlichen Analysen werden die Suchbegriffe verschiedenen Kategorien zugeordnet und damit jene Themengebiete identifiziert, mit denen sich die Suchenden beschäftigen. Die Klassenzuordnung kann dabei manuell oder automatisch erfolgen. Ein Internetdienst, bei dem die Suchbegriffe automatisch kategorisiert werden und der auf den Suchanfragen der Suchmaschine Google basiert, ist Google Trends. Wie in Abbildung 1 zu sehen ist, kann damit die Häufigkeitsverteilung von einem bis zu fünf Suchbegriffen in einem wählbaren Zeitintervall (von „Letzte 7 Tage“ bis „2004 bis heute“) dargestellt werden. Weitere Filtermöglichkeiten bestehen für Suchbereich (Websuche, Bildersuche, News-Suche, Produkt-Suche), Region (weltweit bzw. einzelne Länder) und Kategorien. Letztere entspringen einer mehrstufigen polyhierarchischen Klassifikation, die auf höchster Ebene über zwei Dutzend Hauptklassen umfasst und die eine exaktere Analyse ermöglicht (z.B. Java in der Kategorie „Essen und Trinken“ statt „Internet und Telekommunikation“). Die Eingabehäufigkeiten für einen Suchbegriff werden bei Google Trends normalisiert, indem sie zum Suchvolumen der jeweiligen Region zum jeweiligen Zeitpunkt in Beziehung gesetzt werden. Darüber hinaus werden statt absoluten Suchhäufigkeiten relative Werte angegeben. Wie aus Abbildung 1 hervorgeht, ist das Interesse nach Elektroautos in Deutschland seit 2007 sukzessive gestiegen. Im Vergleich dazu stagnierten die Suchanfragen nach „Hybridauto“, die sich in der Analyseperiode von der Entwicklung her nicht wesentlich vom Suchvolumen der gesamten Kategorie „Autos und Fahrzeuge“ unterschieden. Die Suchanfragen nach Elektroautos liegen hingegen seit Mitte 2011 um einige hundert Prozent über dem Durchschnitt der gesamten Kategorie. Im April 2012 wurde das maximale Suchvolumen für „Elektroauto“ erreicht. (Der Anstieg nach dem Jahr 2011 könnte teilweise auch darauf zurückzuführen sein, dass bei Google Trends laut eigenen Angaben eine verbesserte geografische Zuordnung der Suchbegriffe zum Einsatz kommt.) Als weitere Ergebnisse liefert Google Trends noch das regionale Interesse (nicht in Abbildung 1 zu sehen) sowie die TopSuchanfragen und jene Suchbegriffe mit den höchsten Zuwachsraten.
3.3 Nutzungsmessung von elektronischen Ressourcen Mit der zunehmenden Verfügbarkeit von elektronischen Ressourcen, insbesondere von elektronischen Zeitschriften und E-Books, gewinnt auch die Messung ihrer Nutzung für alle Beteiligten im Bereich der Wissenschaftskommunikation an Bedeutung. Verlage möchten naturgemäß wissen, wie intensiv ihre Produkte genutzt werden. Wissenschaftler haben Interesse daran, dass ihre Publikationen in Zeitschriften erscheinen, die einen möglichst hohen Leserkreis haben. Darüber hinaus möchten sie wissen, wie häufig ihre Publikationen tatsächlich genutzt (heruntergela-
Logfile- und Link-Analysen
193
Abbildung 1: Google Trends: Relatives Suchvolumen von „Elektroauto“ und „Hybridauto“ in Deutschland im Vergleich zur gesamten Kategorie „Autos und Fahrzeuge” (2004 bis heute).
den) wurden. Für Bibliotheken und Informationseinrichtungen ist es wiederum von zentraler Bedeutung, dass die Lizenzierung der teilweise sehr kostspieligen elektronischen Ressourcen durch eine entsprechende Nutzung gerechtfertigt wird. Bei von Bibliotheken selbst produzierten elektronischen Ressourcen (z.B. OPAC, Repositorien) können die in Abschnitt 3.1 erwähnten Methoden, zum Beispiel das Zählpixel-Verfahren, zum Einsatz kommen. Bei von Verlagen angebotenen elektronischen Ressourcen, die üblicherweise einen Großteil des Informationsangebotes einer Bibliothek ausmachen, erfolgt die Nutzungsmessung hingegen in der Regel durch die Verlage selbst. Eine Erhebung der Nutzungsdaten durch die Bibliotheken ist daher nicht erforderlich, da diese durch die Verlage bereitgestellt werden. Nachdem die elektronischen Ressourcen aber meist von vielen Verlagen bezogen werden, kommt der Vergleichbarkeit der bereitgestellten Nutzungsstatistiken eine zentrale Bedeutung zu. Zu diesem Zweck wurde im Jahr 2002 das Projekt Counting Online Usage of Networked Electronic Resources (COUNTER) initiiert.¹⁸
18 Counter 2012a.
194
Schlögl
Ziel von COUNTER ist die Entwicklung von Richtlinien für die Erfassung, Darstellung und Bereitstellung von Nutzungsstatistiken durch Anbieter und Verlage. Im April 2012 wurde Version 4 des Code of Practice for e-Resources¹⁹ veröffentlicht, der die Bereitstellung von Nutzungsdaten für elektronische Zeitschriften, Datenbanken, E-Books und Multimedia-Inhalte regelt. Die COUNTER-Richtlinien werden mittlerweile von den meisten, wenn auch nicht von allen Anbietern unterstützt. Unterschiede in der Umsetzung gibt es auch bei den einzelnen elektronischen Ressourcen. Bei E-Books ist der Verbreitungsgrad beispielsweise geringer als bei elektronischen Zeitschriften. Auf der COUNTER-Homepage kann unter dem Link Compliant Vendors nachgelesen werden, welche Anbieter für welche elektronischen Ressourcen (z.B. elektronische Zeitschriften) welchen Richtlinien folgen. Grundsätzlich lassen sich mit Zeitschriftennutzungsdaten ähnliche Kennzahlen wie mit Zitationsdaten – z.B. Impaktfaktor, Halbwertszeit oder Immediacy Index – berechnen.²⁰ Auch COUNTER arbeitet zurzeit an einem Projekt, bei dem die Einsatzmöglichkeit eines sog. Journal Usage Factor untersucht wird.
4 Link-Analysen Obwohl (Hypertext-)Links zur Erleichterung der Navigation – um beispielsweise von einer Webseite rasch auf eine andere gelangen zu können – eingerichtet werden, können aus ihnen im Rahmen von Link-Analysen wertvolle Informationen gewonnen werden. Häufig wird dafür auch die Bezeichnung Web Structure Mining verwendet. Bei Links lässt sich eine Analogie zu Zitaten herstellen. Häufig findet man die auf McKiernan²¹ zurückgehende Bezeichnung sitation, so z.B. bei Rousseau.²² Analog zu erhaltenen Zitaten und zu Referenzen lässt sich auch eine Unterscheidung zwischen Inlinks und Outlinks vornehmen, die je nach betrachteter Website unterschiedlich ausfällt. Beispielsweise handelt es sich beim linken Grafen in Abbildung 2 aus Sicht von Website A um einen Outlink, aus der Perspektive von Website B jedoch um einen Inlink. Bei der Interpretation der Ergebnisse von Link-Analysen muss unbedingt berücksichtigt werden, dass Links ein noch breiteres Bedeutungsspektrum als Zitate haben.²³ Beispielsweise können Links von universitären Webseiten wie folgt kategorisiert werden: Link auf Linkliste, Link zu Kooperationspartner, Link zu Lehrveranstaltungs-
19 Counter 2012b. 20 Schlögl u. Gorraiz 2010 u. 2011. 21 McKiernan 1996. 22 Rousseau 1997. 23 Thelwall u. Ruschenberg 2006.
Logfile- und Link-Analysen
195
seite, Link mit persönlichem Bezug eines Mitarbeiters oder Link zu einem Weblog.²⁴ Zwischen Links und Zitaten gibt es aber noch weitere Unterschiede. Beispielsweise können zwei Webseiten wechselseitig verlinkt sein. Darüber hinaus sind aufgrund des flüchtigen Charakters von Web-Inhalten Altersanalysen nur bedingt möglich.²⁵ Verfahren der Link-Analyse basieren auf Grundlagen, die bereits im Bereich der Zitationsanalyse erarbeitet wurden. Man kann daher auch bei Link-Analysen folgende zwei Hauptanwendungsbereiche unterscheiden: die Untersuchung der Bedeutung (Link-Impact) und des Zusammenhangs von Webdokumenten (Mapping).²⁶ Als Analyseebene kommen dabei grundsätzlich Websites²⁷ oder Webseiten²⁸ in Frage, Aggregierungen sind auch auf TLD-Ebene (top leveldomain – z.B. .at) möglich.
4.1 Link-Impact-Analysen Bei diesen Analysen wird der Impact von Webseiten/-sites auf Basis ihrer Inlinks ermittelt. Ein Beispiel ist das sog. Webometrics Ranking of World Universities, bei dem die Anzahl der Inlinks neben anderen Faktoren (z.B. Anzahl Webseiten, Anzahl Dokumente; pdf, doc, ppt, usw.; Anzahl mit Google Scholar recherchierbarer Publikationen) ein wesentlicher Faktor für die Platzierung einer Universität ist. InlinkHäufigkeiten finden auch beim PageRank-Algorithmus von Google Anwendung, bei dem zusätzlich noch das Gewicht der verlinkenden Website berücksichtigt wird. Um große Websites bei der Impact-Ermittlung gegenüber kleineren nicht zu bevorzugen, wurde von Ingwersen²⁹ in Analogie zur Zeitschriftenbewertung der „Web Impact Factor“ vorgeschlagen. Dieser ergibt sich aus der Division der Anzahl der Inlinks auf die betrachtete Website durch die Anzahl der Webseiten, die diese umfasst. Obwohl bei der erweiterten Form die Anzahl der Inlinks von der betrachteten Website (SelbstInlinks) nicht berücksichtigt wird, ist der Web Impact Factor nicht weniger problematisch als sein Pendant im Bereich der Zitationsanalyse.³⁰
4.2 Analyse des Zusammenhangs (Mapping) Wie bei Zitationsanalysen können bei Link-Analysen ebenfalls drei verschiedene Formen des Zusammenhangs untersucht werden (s. Abbildung 2):
24 Vgl. Chu 2005; Harries [u.a.] 2004. 25 Egghe 2000: 332. 26 Thelwall 2009: 28. 27 Z.B. www.uni-graz.at (19.10.2012). 28 Z.B. www.kfunigraz.ac.at/iwiwww/pers/schl.html (19.10.2012). 29 Ingwersen 1998. 30 Noruzi 2006.
196
– – –
Schlögl
direkte Links, Koinlinks bzw. Kositations, Kooutlinks bzw. Website-Kopplung.
Website A
Website B
direkter Link
Website A
Website B
Website C
Koinlinks (Kositation)
Website A
Website B
Website C
Website-Kopplung
Abbildung 2: Drei Formen des Zusammenhangs zwischen Websites (Webseiten).³¹
Auf Grundlage direkter Links können die wechselseitigen Link-Beziehungen zwischen Websites in Form eines gerichteten Grafen dargestellt werden. Abbildung 3 ist ein Beispiel für einen Link-Grafen, in dem die Verlinkungshäufigkeiten (Schwellenwert: 4 Links) zwischen informationswissenschaftlichen Hochschuleinrichtungen im deutschsprachigen Raum dargestellt sind. Wie aufgrund der Anzahl und der Stärke der Kanten zu erkennen ist, waren zum Zeitpunkt der Analyse im Januar 2006 die informationswissenschaftlichen Institute der Universität Saarbrücken, der Humboldt-Universität zu Berlin und der Universität Düsseldorf am stärksten in das Link-Netzwerk eingebunden.³² Bei umfangreicheren Link-Grafen empfiehlt sich die Berechnung von Kennzahlen der sozialen Netzwerkanalyse (z.B. Zentralität) zur Identifizierung der bedeutendsten Websites. Bei der Koinlink-Analyse ergibt sich ein Zusammenhang zwischen zwei Websites, wenn auf beide von einer anderen Website ein Link gesetzt wurde (Abbildung 2, Mitte). Je höher die Anzahl der Koinlinks, desto stärker ist der Zusammenhang zwischen den betrachteten Websites. Im Gegensatz dazu geht die Website-Kopplung von den Outlinks aus. Demnach besteht zwischen zwei Websites dann ein Zusammenhang, wenn von beiden ein Link auf dieselbe Website (in Abbildung 2 rechts) erstellt wurde. Je öfter dies der Fall ist (weitere Links von den beiden betrachteten Websites auf eine dritte Website), desto stärker ist die Beziehung zwischen ihnen.³³ Allgemein empfiehlt sich die Durchführung von Koinlink-Analysen (und Analysen der WebsiteKopplung) dann, wenn die zu untersuchenden Websites nur schwach miteinander
31 In Anlehnung an Schlögl 2001: 41. 32 Pernik u. Schlögl 2006: 409ff. 33 Ebd.: 410ff.
Logfile- und Link-Analysen
197
verlinkt sind, wie dies z.B. bei Unternehmens-Homepages der Fall ist, die naturgemäß keine Links zu Konkurrenzunternehmen aufweisen.³⁴
Abbildung 3: Link-Graph (2,5 Punkt Linienstärke: >= 15 Links; 1,5 Punkt >= 10 Links; 0,5 Punkt: >= 4 Links).³⁵
5 Studien 5.1 Website-Analysen Ein Beispiel für eine Website-Analyse findet sich im Beitrag von Böhm und Rittberger.³⁶ Im konkreten Fall wurden die Nutzungsdaten des Deutschen Bibliotheksservers, des größten deutschen Internetportals im Bildungsbereich, im Zeitraum vom 1.7. bis zum 30.11.2009 mit der Analysesoftware Piwik ausgewertet. Die Analyse der 1,88 Mio. Benutzersitzungen ergab, dass ein überdurchschnittlicher Anteil der Benutzer (fast 70 %) über eine Suchmaschine einsteigt. Hingegen macht der Anteil der Direkteinstiege (z.B. durch URL-Eingabe oder Lesezeichen) nur 20 % aus. Die durchschnittliche
34 Thelwall 2009: 41f. 35 Quelle: Pernik u. Schlögl 2006: 410. 36 Böhm u. Rittberger 2012.
198
Schlögl
Besuchstiefe (Anzahl der Aktionen je Sitzung) beläuft sich auf ca. 3,5 Aktionen. Bei Direkteinstiegen ist die Absprungrate (nur eine Webseite wird besucht) mit 55 % deutlich höher als bei Suchmaschineneinstiegen (42 %). Auch der Anteil der wiederkehrenden Besucher unterscheidet sich bei Direkteinstiegen (48 %) deutlich von Suchmaschineneinstiegen (15 %). In einer ähnlichen Studie wurde eine wissenschaftliche Website im Bereich Stadterneuerung mit Google Analytics untersucht. Bei dieser erfolgten die meisten Zugriffe über Links von anderen Websites (50 %), gefolgt von Zugriffen über Suchmaschinen (33 %) und Direktzugriffen (17 %). Die Absprungraten waren besonders bei Zugriffen über andere Websites und Suchmaschineneinstiegen hoch, während wiederkehrende Besucher sich deutlich länger auf der Website aufhielten.³⁷
5.2 Analyse von Anfragen an Suchmaschinen Wang, Berry und Yang³⁸ werteten in ihrer Studie insgesamt 542.000 Suchanfragen aus, die zwischen Mai 1997 und Mai 2001 im Suchfenster der Website der University of Tennessee, Knoxville, eingegeben wurden. Naturgemäß gab es dabei mehr oder weniger große tageweise und monatsweise Schwankungen. Interessanterweise lieferte zirka ein Drittel der Suchanfragen keine Treffer, einer der Hauptgründe dafür waren Tippfehler. Der Großteil der Suchanfragen bestand aus einem oder zwei Worten (jeweils ca. 40 %). Immerhin die Hälfte der Suchwörter kam nur in einer Suchanfrage vor. Das Ranking der am häufigsten eingegebenen Suchbegriffe entspricht dem Kontext, in dem die Suchmaschine eingesetzt wurde (akademisches Umfeld) und unterscheidet sich daher stark von den Top-Wort-Listen bei allgemeinen Suchmaschinen. In einer Metaanalyse stellten Jansen und Spink³⁹ neun Suchmaschinenstudien⁴⁰ einander gegenüber, in denen insgesamt über eine Milliarde Suchanfragen ausgewertet wurden. Die Ergebnisse zeigen, dass ungefähr die Hälfte der Such-Sessions nur eine Suchanfrage umfasste, bei den meisten Studien 25 % bis 30 % der Suchanfragen nur aus einem Wort bestanden, je nach betrachteter Untersuchung nur bei 2 % bis 20 % der Suchanfragen Operatoren verwendet wurden und beim Großteil der Studien nur die erste Ergebnisseite konsultiert wurde. Suchmaschinen werden v.a. dazu verwendet, um Informationsbedürfnisse zu befriedigen. In einem ökonomischen Kontext lässt sich nun die Hypothese aufstellen, dass sich zwischen Abfragehäufigkeiten (z.B. von bestimmten Produkten) und den folgenden wirtschaftlichen Aktivitäten (z.B. Verkäufe) ein Zusammenhang herstellen
37 Plaza 2009. 38 Wang [u.a.] 2003. 39 Jansen u. Spink 2006. 40 Folgende Suchmaschinen wurden dabei verwendet: Altavista, AlltheWeb, BWIE, Exite, Fireball.
Logfile- und Link-Analysen
199
lässt. Varian u. Choi⁴¹ verwenden für diesen Zweck Google Insights for Search und können – nach entsprechender statistischer Modellierung – einen starken Zusammenhang zwischen den Umsätzen einzelner Einzelhandelsbranchen (z.B. Motorrad) und den Abfragehäufigkeiten in den entsprechenden Kategorien von Google Insights for Search belegen.
5.3 Analyse der Nutzung von elektronischen Ressourcen Die Nutzung von elektronischen Ressourcen kann auf lokaler oder globaler Ebene untersucht werden. Während lokale Nutzungsanalysen an jeder Bibliothek und Informationseinrichtung Anwendung finden sollten, sind globale Studien relativ selten, da die zugrunde liegenden Downloaddaten von den Verlagen nur schwer zu bekommen sind. Eine der wenigen Ausnahmen stellen die beiden Studien von Schlögl und Gorraiz⁴² dar, die Onkologie- und Pharmaziezeitschriften von ScienceDirect zum Gegenstand hatten. Beide Studien brachten eine hohe Korrelation zwischen Download- und Zitationshäufigkeiten zu Tage. Häufig zitierte Zeitschriften werden also auch oft heruntergeladen. Für die untersuchten Zeitschriften-Samples (Zeitschriften, die sowohl in ScienceDirect als auch im Web of Science in den entsprechenden Zeitschriftenkategorien vorkamen) gilt dieser Zusammenhang auch in umgekehrter Richtung. Auf Artikelebene ist dieser Zusammenhang etwas schwächer. Deutliche Unterschiede gibt es hingegen bei der Altersstruktur. Während die Hälfte der im Betrachtungsjahr heruntergeladenen Artikel nicht älter als zwei Jahre war, belief sich die Halbwertszeit der Zitate auf über fünf Jahre. Daraus leitet sich ab, dass sich (künftige) Zitationshäufigkeiten aus (aktuelleren) Downloadzahlen abschätzen lassen, was durch eine hohe Korrelation zwischen Download Immediacy Index⁴³ und Impactfaktor (bringt zum Ausdruck, wie oft ein Artikel, der in einer Zeitschrift in den beiden dem Betrachtungsjahr vorangegangenen Jahren publiziert wurde, im Betrachtungsjahr im Durchschnitt zitiert wurde) auch bestätigt wurde.
5.4 Link-Analysen Am Beispiel von informationswissenschaftlichen Hochschuleinrichtungen zeigen Pernik und Schlögl⁴⁴ die Vorgehensweise, aber auch Problembereiche und Einschrän-
41 Varian u. Choi 2009. 42 Schlögl u. Gorraiz 2010 u. 2011. 43 Gibt an, wie oft ein Artikel einer Zeitschrift im Durchschnitt bereits im Publikationsjahr heruntergeladen wurde. 44 Pernik u. Schlögl 2006.
200
Schlögl
kungen von Link-Analysen auf. Zu diesem Zweck wurden ein Link-Graf (s. Abbildung 3) erstellt und eine Koinlink-Analyse durchgeführt. Letztere zeigte unter Fachhochschul- und unter Universitätsinstituten einen stärkeren Zusammenhang auf. Die Studie von Vaughan und You⁴⁵ untersuchte, inwieweit Koinlink-Analysen geeignet sind, die Wettbewerbsposition von Unternehmen zu identifizieren. Demnach sind sich zwei Unternehmen ähnlich (und dadurch auch Konkurrenten), wenn sie hohe Koinlink-Häufigkeiten aufweisen. Untersuchungsgegenstand waren 32 Unternehmen aus der Telekommunikationsbranche. Die Analyse wurde für den chinesischen und den Weltmarkt durchgeführt und ergab eine relativ gute Übereinstimmung mit den tatsächlichen Wettbewerbspositionen.
6 Resümee In diesem Beitrag wurden die beiden nicht-reaktiven Online-Verfahren der Logfileund Link-Analyse vorgestellt. Es handelt sich dabei nicht nur um Methoden der empirischen Sozialforschung, sondern im Bereich der Webometrie auch um wichtige Forschungsgebiete der Informationswissenschaft. Beispielsweise kann auf der Grundlage von Logfiles die Nutzung von Websites, Suchmaschinen und elektronischen Ressourcen wie E-Journals und E-Books untersucht werden. Bei Link-Analysen können die Bedeutung von und der Zusammenhang zwischen Websites untersucht werden. In Analogie zu Zitationsanalysen kann man dabei zwischen direkten Links, Koinlinks und Website-Kopplung unterscheiden. Gemeinsam ist den beiden Online-Verfahren, dass sie keinen Einfluss auf die untersuchten Personen, Ereignisse oder Prozesse ausüben und damit keine störenden Reaktionen bei der Datenerhebung hervorrufen. In der Regel werden die bei verschiedenen Diensten ohnehin anfallenden Daten genutzt, sodass die Datenerhebung besonders kostengünstig ist. Da die Daten aber auf den tatsächlichen Benutzeraktionen basieren, können Verbesserungswünsche, Idealanforderungen oder Urteile über die vorhandenen Angebote kaum oder gar nicht ermittelt werden. Darüber hinaus unterliegen Logfile-Analysen aus Datenschutzgründen gewissen Einschränkungen. In vielen Fällen können Logfile- und Link-Analyse aber eine sinnvolle Ergänzung anderer Methoden der empirischen Sozialforschung darstellen.
45 Vaughan u. You 2005.
Logfile- und Link-Analysen
201
7 Literatur- und Quellenverzeichnis Böhm, P. u. M. Rittberger: Nutzungsanalyse des Deutschen Bibliotheksservers und Konzeption eines Personalisierungsangebots. In: Informationswissenschaft. Begegnungen mit Wolf Rauch. Hrsg. von O. Petrovic, G. Reichmann u. C. Schlögl. Wien [u.a.]: Böhlau 2012. S. 61–74. Bortz, J. u. N. Döring: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. 3. Aufl. Heidelberg [u.a.]: Springer 2005. Chu, H.: Taxonomy of Inlinked Web Entities. What Does it Imply for Webometric Research? In: Library & Information Science Research 25 (2005) 1. S. 8–27. Egghe, L.: New Informetric Aspects of the Internet. Some Reflections – Many Problems. In: Journal of Information Science 26 (2000) 5. S. 329–335. Harries, G., D. Wilkinson, L. Price, R. Fairclough u. M. Thelwall: Hyperlinks as a Data Source for Science Mapping. In: Journal of Information Science 30 (2004) 5. S. 436–447. Höchstötter, N.: Suchverhalten im Web. Erhebung, Analyse und Möglichkeiten. In: Information – Wissenschaft & Praxis 58 (2007) 3. S. 135–140. Ingwersen, P.: The Calculation of Web Impact Factors. In: Journal of Documentation 54 (1998) 2. S. 236–243. Jansen, B. J.: Search Log Analysis. What it is, What’s Been Done, How to Do it. In: Library & Information Science Research 28 (2006). S. 407–432. Jansen, B. J. u. A. Spink: How are we Searching the World Wide Web? A Comparison of Nine Search Engine Transaction Logs. In: Information Processing and Management 42 (2006). S. 248–264. Jansen, B. J., I. Taksa u. A. Spink: Research and Methodological Foundations of Transaction Log Analysis. In: Handbook of Research on Web Log Analysis. Hrsg. von B. J. Jansen, A. Spink u. I. Taksa. Hershey, PA [u.a.]: IGI Global 2009. S. 1–16. Knapp, F.: Online-Erhebungen jenseits der Befragung. In: Online-Erhebungen. Bonn: Informationszentrum Sozialwissenschaften 2003 (Sozialwissenschaftlicher Tagungsbericht 7). S. 143–148. Liu, B.: Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data. Berlin [u.a.]: Springer 2007. Mandl, T., J. M. Schulz, N. Mahrholz u. K. Werner: Benutzerforschung anhand von Log-Dateien. Chancen, Grenzen und aktuelle Trends. In: Information – Wissenschaft & Praxis 62 (2011) 1. S. 29–35. Markov, Z. u. D. T. Larose: Data Mining the Web. Uncovering Patterns in Web Content, Structure, and Usage. New Britain, PA: Wiley 2007. Mayr, P. u. C. Nançoz: Makro- und Mikro-Mining am Beispiel von Webserver Logfiles. In: Knowledge eXtended. Die Kooperation von Wissenschaftlern, Bibliothekaren und IT-Spezialisten. Jülich: Forschungszentrum 2005. S. 199–209. McKiernan, G.: CitedSites(sm). Citation Indexing of Web Resources. 1996. www.public.iastate.edu/ ~CYBERSTACKS/Cited.htm (15.5.2012). Mundt, S.: Aktivierung des DBS-Zählpixels. Teil 1: Organisatorische Hinweise. Stuttgart: Hochschule der Medien [o. J.]. Noruzi, A.: The Web Impact Factor. A Critical Review. In: The Electronic Library 24 (2006) 4. S. 490–500. Pernik, V. u. C. Schlögl: Möglichkeiten und Grenzen von Web Structure Mining am Beispiel von informationswissenschaftlichen Hochschulinstituten im deutschsprachigen Raum. In: Information – Wissenschaft & Praxis 57 (2006) 8. S. 407–414. Plaza, B.: Monitoring Web Traffic Source Effectiveness with Google Analytic. An Experiment with Time Series. In: Aslib Proceedings 61 (2009) 5. S. 474–482.
202
Schlögl
Reips, U.-D.: Online-Erhebungen in der wissenschaftlichen Sozialforschung. In: Online-Erhebungen. Bonn: Informationszentrum Sozialwissenschaften 2003 (Sozialwissenschaftlicher Tagungsbericht 7). S. 21–29. Rousseau, R.: Sitations. An Exploratory Study. In: Cybermetrics 1 (1997) 1. http://cybermetrics. cindoc.csic.es/articles/v1i1p1.pdf (15.5.2012). Schlögl, C.: Bestandsaufnahme Informationsmanagement. Eine szientometrische, qualitative und empirische Analyse. Wiesbaden: Dt. Universitätsverl. 2001. Schlögl, C. u. J. Gorraiz: Comparison of Citation and Usage Indicators. The Case of Oncology Journals. In: Scientometrics 82 (2010). S. 567–580. Schlögl, C. u. J. Gorraiz: Global Usage versus Global Citation Metrics. The Case of Pharmacology Journals. In: Journal of the American Society for Information Science and Technology 62 (2011) 1. S. 161–170. Thelwall, M.: Introduction to Webometrics. Quantitative Web Research for the Social Sciences. San Rafael, CA: Morgan & Claypool 2009. Thelwall, M. u. T. Ruschenberg: Grundlagen und Forschungsfelder der Webometrie. In: Information – Wissenschaft & Praxis 57 (2006) 8. S. 401–406. Varian, H. R. u. H. Choi: Predicting the Present with Google Trends. 2009. http://papers.ssrn.com/ sol3/papers.cfm?abstract_id=1659302 (16.5.2012). Vaughan, L. u. J. You: Mapping Business Competitive Positions Using Web Co-link Analysis. In: Proceedings of the ISSI 2005 Conference. Hrsg. von P. Ingwersen u. B. Larsen. Stockholm: Karolinska Univ. Press 2005. S. 534–543. Wang, P., M. W. Berry u. Y. Yang: Mining Longitudinal Web Queries. Trends and Patterns. In: Journal of the American Society for Information Science and Technology 54 (2003) 8. S. 743–758.
Web-Quellen Counter (2012a). COUNTER: Counting Online Usage of NeTworked Electronic Resources. www. projectCounter.org (19.4.2012). Counter (2012b). www.projectcounter.org/r4/COPR4.pdf (19.4.2012). Google Insights for Search. www.google.com/insights/search/(19.4.2012). Google Trends. www.google.at/trends/(19.4.2012). Webometrics Ranking of World Universities. www.webometrics.info/(19.4.2012).
Gerd Richter
Methoden der Usability-Forschung 1 Definition und Problemfelder 1.1 Was ist Usability? Die Usability-Forschung hat sich in der Erforschung der Mensch-Computer-Kommunikation zu einem eigenständigen Arbeitsfeld entwickelt.¹ Der Terminus technicus Usability lässt sich nur schwer ins Deutsche übersetzen. Er umfasst die Bedeutungen der Nutzbarkeit, Brauchbarkeit, Gebrauchstauglichkeit, (Be-)Nutzerfreundlichkeit und Benutzungsfreundlichkeit. Usability ist aber nicht mit Utility zu verwechseln oder gar gleichzusetzen. Utility steht für die Nützlichkeit eines Systems und ‚misst‘, ob ein System im Prinzip die zur Lösung einer bestimmten Aufgabe notwendige Funktionalität aufweist. Utility ist somit ein technisches Kriterium. Usability hingegen rückt den Benutzer in den Fokus der Untersuchung, indem empirisch getestet wird, wie (gut oder schlecht) die Funktionalität des Systems genutzt werden kann. Usability ist keine eindimensionale Eigenschaft z.B. von einer grafischen Bedienoberfläche eines Computer-Programms. Usability umfasst mehrere Aspekte: Gebrauchstauglichkeit – wie es die DIN EN ISO 9241-11 Anforderungen an die Gebrauchstauglichkeit bezeichnet – ist definiert als „das Ausmaß, in dem ein Produkt durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen“.² Die DIN EN ISO 9241-110 beschreibt die sieben Grundsätze der Dialoggestaltung: Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Lernförderlichkeit, Steuerbarkeit, Fehlertoleranz und Individualisierbarkeit. Usability ist als ein dreidimensionales Konzept zu verstehen.³ Ein ComputerProgramm X ist für eine spezifische Person Y im Hinblick auf den Aspekt Z nützlich. Somit sind im Wesentlichen drei Perspektiven zu unterscheiden: die Perspektive des (technischen) Objekts, des Benutzers und die des Gebrauchs. Einen umfassenderen Ansatz vertritt Ben Shneiderman mit der Universal Usability. Mit ihr führt er den Aspekt der Benutzerorientierung nicht nur konsequent weiter, sondern erweitert ihn um eine praktische Komponente:
1 Vgl. im Folgenden Richter 2002. 2 DIN EN ISO 9241–11, zit. nach Sarodnick u. Brau 2006: 37. 3 Vgl. Bucher 2002: 444.
204
Richter
We can define universal usability as more than 90 percent of all households being successful users of information and communication technologies at least once a week.⁴
Drei wesentliche Bedingungen müssen nach Shneiderman erfüllt sein, um Universal Usability von webbasierten und anderen Services erreichen zu können⁵: –
–
–
Technisch: Die technischen Hürden müssen so niedrig wie möglich sein, d.h. die Anwendung unterstützt eine möglichst große Bandbreite und Vielfalt von Hardware- und Softwareausstattungen und unterschiedliche Internetzugänge. Verschiedenheit der Nutzer: Alle Nutzer, ungeachtet ihrer Fähigkeiten, ihres Wissens, Alters, Geschlechts, ihrer Nutzungssituation und -umstände, kulturellen Herkunft etc., müssen berücksichtigt werden. Wissenslücken überbrücken: “Bridging the gap between what users know and what they need to know.”⁶
Auch wenn Shneidermans grundsätzliche Überlegungen wie eine Vision anmuten, führen sie in die richtige Richtung und verdeutlichen, dass das oberste Prinzip von Usability ist, den Erwartungen und Wünschen des Nutzers zu dienen. Somit ist Universal Usability Prinzip und Vision zugleich: The old computing was about what computers could do; the new computing is about what users can do. Successful technologies are those that are in harmony with users’ experiences.⁷
1.2 Was ist Web-Usability? Während die Analyse der Usability sich allgemein mit der Nutzbarkeit und Brauchbarkeit von Produkten (bspw. eines technischen Geräts) beschäftigt, widmet sich die Web-Usability speziell der Gebrauchstauglichkeit und Benutzungsfreundlichkeit von Web Sites.⁸ Das World Wide Web ist auch heute noch ein in erster Linie textbasiertes Medium. Die vorausgehende und grundlegende Untersuchung des Untersuchungsgegenstandes muss demnach eine Textanalyse sein, die sich textlinguistischer Kategorien und Instrumentarien zu bedienen hat. Ergebnisse aus der Hypertextlinguistik können für die Web-Usability nutzbar gemacht werden – nicht nur bei der Analyse, sondern auch
4 Shneiderman 2003: 36. 5 Vgl. Shneiderman 2000: 85f. 6 Ebd.: 86. 7 Shneiderman 2003: 2. 8 Pearrow 2007: 15.
Methoden der Usability-Forschung
205
bei der Erarbeitung von Empfehlungen zur Gestaltung und Verständlichkeitsoptimierung von Online-Texten. Die Analyse von komplexen Web-Informationsseiten – wie sie z.B. von Bibliotheken zur Nutzung angeboten werden – muss dabei systematisch und empirisch sein. Die bereits erwähnte DIN EN ISO-Norm 9241-11 Definition rückt die Benutzerorientierung ins Zentrum. Der Benutzer soll sein Ziel erfolgreich erreichen können, dies soll für ihn mit angemessenem Aufwand verbunden sein, und es sollen ihm bei der Arbeit Frustrationserlebnisse möglichst erspart bleiben. Die Definition zeigt weiter: Usability ist gradiert, man kann sie verbessern. Was unter Web-Usability zu verstehen ist, wird deutlich, wenn man sich typische Usability-Probleme bei Online-Angeboten vor Augen führt, z.B.⁹: – – – – – –
Der Benutzer weiß nicht, wie er anfangen soll. Der Benutzer weiß nicht, welche Möglichkeiten ihm das Angebot eröffnet. Der Benutzer sucht nach Möglichkeiten, von denen er irrig annimmt, dass das betreffende Angebot sie bietet. Der Benutzer weiß nicht, wie er an einer bestimmten Stelle in seinem Benutzerpfad weiterverfahren soll. Der Benutzer sieht wichtige Elemente auf einer bestimmten Seite nicht. Der Benutzer weiß nicht, wo er sich im Angebot gerade befindet.
Derartige Probleme haben oft charakteristische Ursachen, z.B. die fehlende Berücksichtigung des (fehlenden) Wissens der Benutzer und deren Nutzungsstrategien oder die ungünstige Platzierung und unauffällige oder missverständliche Kennzeichnung von Links. Daneben gibt es Ursachen, die schon aus der Verständlichkeitsforschung bekannt sind, wie etwa nicht erklärter Fachwortschatz, zu komplexe Sätze in Hilfetexten oder die unzureichende thematische Gliederung von Seiten. Häufig werden Usability-Probleme durch das Zusammenwirken mehrer Faktoren erzeugt, z.B. die Unübersichtlichkeit einer Seite in Verbindung mit dem an dieser Stelle nicht gesicherten Benutzerwissen und der Verwendung von Fachtermini. Bei komplexen Informationsangeboten wie denen von Wissenschaftlichen Bibliotheken liegt eine zentrale Ursache vieler Usability-Probleme darin, dass Bibliothekare eine Innensicht der Bibliothekswelt haben, die sich in der Struktur des OnlineAngebots spiegelt und die dem Bibliotheksbenutzer oft verschlossen ist und bleibt¹⁰; sei es der alltägliche bibliothekarische Wortschatz oder die Organisationsstruktur der Bibliothek, die sich im Aufbau des Online-Angebots wiederfindet. Bei der Benutzung des Online-Angebots prallen schließlich die Spezialistenwelt (der Bibliothekare) und die Laienwelt (der User) aufeinander.
9 Vgl. hierzu ausführlich Dynkowska 2010: 274–284. 10 Anderson u. Marshall 2007: 60.
206
Richter
Usability-Prüfungen helfen, den Blick von Bibliotheksbenutzern, (potenziellen) Nutzern von bibliothekarischen Web-Angeboten, Nutzern bestimmter Zielgruppen einzunehmen und mit ihren Augen das Angebot kritisch zu durchleuchten. Vielen Benutzern fehlt bspw. nicht nur Wissen über die Organisation einer Bibliothek, ihnen bleibt auch verborgen, dass Bibliotheksmitarbeiter unterschiedliche Rollen und Aufgaben haben, die an ihre Qualifikation und Ausbildung gebunden sind und die zugleich ihre sachliche und fachliche Zuständigkeit definieren.¹¹ Empirische Untersuchungen der (potenziellen) Nutzer einer Bibliothek und deren (physische wie virtuelle) Angebote, der Erwartungen der Nutzer, ihrer Wünsche etc. fördern nicht selten für die Bibliotheksmitarbeiter überraschende Ergebnisse zutage. Usability-Prüfungen sind Diagnoseinstrumente: Mit ihrer Hilfe können Probleme bei der Nutzung des bibliothekarischen Web-Angebots diagnostiziert, beschrieben und auf Ursachen zurückgeführt werden. Usability-Prüfungen sind – genauso wie etwa die Untersuchungen des Radiologen – keine Heilmittel. Sie identifizieren und beschreiben Nutzungsprobleme und führen diese auf (mögliche) Ursachen zurück. Und nicht selten werfen sie mehr (und neue) Fragen auf als sie beantworten.
2 Usability-Prüfungen im Bibliothekswesen¹² Eine Situation, wie sie sich wohl in den meisten Hochschulen darstellt, ist folgende: Ein Studienanfänger bekommt den Auftrag, im Online-Angebot einer Universitätsbibliothek Literatur zu einem bestimmten Thema zu suchen. Eine Woche später kommt er frustriert zurück und sagt, er habe nichts gefunden. Dieser unerfreuliche Verlauf mag an den mangelnden Kompetenzen des Studierenden liegen, es mag aber auch daran liegen, dass für ihn oder gar für die Benutzergruppe, zu der er gehört, das Online-Angebot der Bibliothek tatsächlich ein Buch mit sieben Siegeln ist. Vielleicht fehlt es auch dem Angebot an bestimmten Aspekten der Usability. Wer ein Online-Angebot für eine Bibliothek konzipiert und realisiert, wird oft nicht im einzelnen überblicken, was die Benutzer mit dem Angebot machen wollen, wie sie konkret bei der Benutzung vorgehen und mit welchem Wissen und mit welchen Fähigkeiten sie ihre Ziele verfolgen. Es werden beim Aufbau eines außerordentlich komplexen Systems auch manche Probleme übersehen, die für den Benutzer sehr unangenehm sein können. So können bspw. Linkkennzeichnungen im jeweiligen Nutzungskontext und aufgrund unterschiedlicher Nutzungsgewohnheiten ‚falsch‘ gedeutet werden und zu Irrwegen führen (s. das Beispiel Problemanalyse in Abschnitt
11 Vgl. Foster 2007: 76. 12 Die folgenden Ausführungen und Erfahrungen sind teilweise Ergebnisse aus der Durchführung des DFG-Projekts Web-Usability des Informations- und Interaktionsangebots von Hochschulbibliotheken 2004–2005.
Methoden der Usability-Forschung
207
4.2). In dieser Situation eröffnen Usability-Prüfungen die Chance, die Nutzung eines Web-Angebots aus der Perspektive realer Benutzer zu beobachten und zu analysieren.
2.1 Diagnose: Web-Angebote von Bibliotheken sind bei der Informationsrecherche nicht mehr die erste Wahl Viele Studien zur Nutzung des Internets als Informationsquelle haben in den letzten Jahren eine ähnliche Entwicklung festgestellt: Die Bibliothek als Ort der qualitativ hochwertigen Informationen ist nicht mehr die erste Anlaufstelle bei der Informationssuche.¹³ Diese Erkenntnis mag die Allgemeinheit wenig überraschen, aus Bibliothekssicht dürfte sie jedoch alarmierend und mit weit reichenden Konsequenzen verbunden sein. Zum einen bestätigt sie die Vermutung, dass Bibliotheken mit ihren Angeboten im Internetzeitalter nicht mehr die erste Adresse bei der Informationsrecherche sind, andererseits spielen sie noch eine wichtige Rolle. Für gut die Hälfte der Wissenschaftler ist der OPAC – immer noch – das Werkzeug, um nach (garantiert) qualitativ hochwertigen Informationen zu suchen, nämlich nach Publikationen im Bestand ihrer Hochschulbibliothek.¹⁴ Andere Untersuchungen, wie z.B. die SteFi-Studie¹⁵ und die Studie der Electronic Publishing Initiative at Columbia¹⁶, kommen zu ganz ähnlichen Ergebnissen: Für Studierende spielen also bibliothekarische Web-Angebote und -Dienste bei der Literatur- und Informationsrecherche nur eine untergeordnete Rolle, fanden auch McCleneghan Smith und Clark in ihrer Studie heraus.¹⁷
2.2 Anamnese: Das Internet hat das Informationsrechercheverhalten grundlegend verändert Die Arbeitsweise und das Verhalten bei der Informationsrecherche von vielen Wissenschaftlern haben sich erheblich verändert. Das Internet ist Kommunikations-, Distributions- und Publikationsmedium in einem. Es bietet eine schier unfassbare Informationsmenge an – der Zugriff ist unabhängig von Ort und Zeit, unmittelbar und prinzipiell ohne Barrieren (sieht man von gewissen technischen Voraussetzungen ab). Das Informationsangebot des Internets wächst weiter exponentiell, von einer Stagnation ist bislang nichts zu spüren.
13 Vgl. Lewandowski 2006: 71; OCLC 2005; OCLC 2010; VifaSys 2007: 30f. 14 VifaSys 2007: 30f. 15 Klatt [u.a.] 2001. 16 EPIC 2004. 17 Vgl. McCleneghan Smith u. Clark 2007: 38.
208
Richter
Vor allem für jene Wissenschaftsfächer und -disziplinen, die einen kurzen Innovationszyklus aufweisen, deren (empirische) Datengrundlage schneller Veränderung unterliegt, hat das Internet die Bibliothek als den traditionellen Ort der Informationsrecherche abgelöst. Das Internet und die Art und Weise seiner Nutzung stehen in enger wechselseitiger Beziehung: So wie Nutzer die Struktur der Web-Angebote prägen, so beeinflussen umgekehrt bestimmte Konventionen und Quasi-Standards (etwa der Nutzerführung und Navigation) im Netz das Arbeits- und Informationsverhalten der Nutzer. Das Netz ‚generiert‘ neuartige Recherche- und Suchstrategien, Erwartungen und Wünsche bezüglich des Inhalts, aber auch hinsichtlich der Bedienung der Web-Angebote.¹⁸ Nicht selten werden diese auf das Web-Angebot der Bibliotheken übertragen, an ihr Web-Angebot zurückgespiegelt.¹⁹ Während die Bibliothek als der (virtuelle) ‚Ort‘ der Informationsrecherche zu verschwinden droht, ist sie als physischer Ort, als Ort des Arbeitens und Lernens, als Ort der Kommunikation und der Begegnung gefragter denn je.²⁰ Die Ergebnisse der jüngeren soziologischen Generations-Studien lassen den Schluss zu, dass die beschriebenen aktuellen Entwicklungen auf die Mediensozialisation, vor allem der heutigen Generation, zurückzuführen sind.²¹ Foster²² führt drei für die Net-Generation charakteristische Eigenschaften auf: 1. 2. 3.
Was Studierende über das Web-Angebot der Bibliothek nicht finden, hat die Bibliothek schlichtweg nicht. Die Net-Generation ist mit dem in alle Lebensbereiche hinein reichenden Konzept der Selbstbedienung aufgewachsen. Studierende wünschen sich einen Rundum-Service (Mommy-Model of Service) von der Bibliothek.
Bibliothekarische Web-Angebote werden von ihren designierten Nutzern in den meisten Fällen nicht genutzt, weil sie nicht wahrgenommen oder für die Recherche als nicht relevant eingeschätzt werden. Dies ist in erster Linie auf den Umstand zurückzuführen, dass qualitativ hochwertige Informationen wie Fachdatenbanken zu tief im Web-Angebot liegen und daher nur über lange Pfade mit vielen Stolpersteinen zu erreichen sind.²³ Ob bibliothekarische Web-Angebote überhaupt gefunden werden und ob diese dann erfolgreich genutzt werden, hängt in erster Linie von der Usability des Web-Angebots ab. Usability-Prüfungen können darüber hinaus Erkenntnisse
18 Wong [u.a.] 2010. 19 Vgl. Richter 2002; Dynkowska 2010: 291f. 20 Bell u. Unsworth 2007: 16. 21 Vgl. George 2007; Howe u. Strauss 2000 u. Howe u. Strauss 2003. 22 Foster 2007. 23 Vgl. Richter 2002; Dynkowska 2010; Rettig 2003: 20.
Methoden der Usability-Forschung
209
bringen, ob das, was die Bibliotheken als elektronische Dienste und Services anbieten, auch das ist, was Nutzer tatsächlich brauchen und/oder wünschen.²⁴
2.3 Therapie: Usability-Prüfungen des Web-Angebots und konsequentes User-Centered-(Re-)Design Die Untersuchung der Usability von Web-Angeboten mit geeigneten Methoden, vor allem mit Benutzertests, kann zeit-, personal- und finanzaufwändig sein. Die notwendigen Investitionen zahlen sich aber aus, denn Usability-Prüfungen erbringen Ergebnisse, die für die Produzentenseite von hohem Erkenntniswert sind und so letztlich signifikant die Benutzerfreundlichkeit des Web-Angebots verbessern helfen. Benutzertests ermöglichen es, die Insiderperspektive des Produzenten zu verlassen und die benutzerorientierte Perspektive einzunehmen. Usability-Prüfungen sind somit Bestandteil eines benutzerorientierten Produktionsprozesses (User-Centered Design), der den Benutzer, seine Erwartungen und Wünsche an das Angebot in den Fokus rückt. Mit Usability-Prüfungen kann man mit geeigneten Methoden herausfinden, – – – – –
wie etwa Studierende oder Wissenschaftler Informationen in Web-Angeboten finden, welche Angebote genutzt werden, welche nicht und warum nicht, welche Erwartungen an Inhalt und Benutzbarkeit von Web-Angeboten gestellt werden, welche konkurrierenden Angebote genutzt werden, wo die Benutzer auf Barrieren stoßen, die ihren Nutzungserfolg hemmen.
Der ideale Pfad eines informationssuchenden Nutzers ähnelt dabei in vielen Aspekten einem Auskunftsgespräch zwischen Nutzer und Bibliothekar: –
–
Die Informationssuche ist eingebettet in einen größeren Zusammenhang, etwa der Bearbeitung eines Forschungfeldes, der Anfertigung einer wissenschaftlichen Arbeit. Sie ist also kontextuell gebunden und als solche zu verstehen. Auskunftsgespräch und selbstgesteuerte Informationssuche versuchen gleichermaßen, einen Pfad durch den Informationsdschungel zu schlagen mit dem Ziel, Informationen zu finden, die für die Fragestellung im konkreten Kontext relevant sind.
24 Carr 2007: 47–48.
210
–
Richter
Der Pfad durch ein Web-Angebot ist konzeptionell quasi-dialogisch und interaktiv²⁵ und gleicht damit strukturell und prozedural dem Auskunftsgespräch.
Für die Analyse von Benutzerpfaden durch ein Web-Angebot ist es somit hilfreich, sie auf der Folie eines Auskunftsgesprächs zu untersuchen. Im Kern handelt es sich bei einem Auskunftsgespräch um einen Aushandlungsprozess, das geschickt als Interview getarnt wird. Strukturell ähnlich stellt sich der Rezeptionsvorgang des WebAngebots dar, wenngleich sich gerade die für den Fortgang wichtige Phase des Einstiegs in heutigen bibliothekarischen Web-Angeboten noch stark produkt- und (zu) wenig kontextorientiert präsentiert. Der Bibliothekar nimmt im Auskunftsgespräch die Rolle des Moderators und Vermittlers ein, erbringt eine Transferleistung: Er erfragt den Kontext, den Gegenstand und das Ziel der Informationsrecherche, operationalisiert und übersetzt die natürlichsprachliche Informationsanfrage in die Sprache der Suchwerkzeuge.
2.4 Was bedeutet das für die Durchführung von Usability-Prüfungen? Wenn man Usability-Prüfungen durchführt, sollte man sich stets der zuvor genannten Aspekte der Informationsrecherche erinnern. Usability-Prüfungen müssen mehr als den Prozess der Interaktion mit dem bibliothekarischen Web-Angebot umfassen, wie er sich im Benutzertest darstellt. Es sollten auch die Rahmenbedingungen der Informationsrecherche untersucht werden. Wünsche und Erwartungen des Nutzers an ein Web-Angebot im Allgemeinen und Besonderen oder auch Arbeitsweisen und Informationsrecherchestrategien können im Rahmen des Benutzertest, beispielsweise durch vorgeschaltete Fragebögen (s. Abschnitt 3.3) und ein problemzentriertes Interview (Abschnitt 4.2) ‚abgefragt‘ werden. Ergänzende Methoden wie die Protokollierung der Auskunftsanfragen (Abschnitt 3.3) können darüber hinaus interessante Erkenntnisse über die Arbeitsweisen, Strategien und Kontexte der Informationsrecherche unterschiedlicher Zielgruppen zutage fördern.²⁶ Der Kontext, in dem eine Suchanfrage gestartet wird, ist bei der Nutzung des Web-Angebots wie beim Auskunftsgespräch von zentraler Bedeutung. Die Intention und Motivation des Nutzers, der Kontext der Nutzung etc. stellen somit zentrale Faktoren dar, mit deren Hilfe man Usability-Probleme erklären, Nutzungsstrategien entdecken und Benutzer und ihr Nutzerverhalten kennenlernen kann. Usability-Probleme sind nur selten auf eine Ursache zurückzuführen, sie sind zumeist multifaktoriell verursacht. Usability-Prüfungen eröffnen die Möglichkeit, die
25 Vgl. Bucher 2001; Bucher 2004. 26 Wilson 2000.
Methoden der Usability-Forschung
211
(potenziellen) Benutzer unserer Web-Angebote (besser) kennenzulernen; nur qualitative bzw. anthropologische Methoden werden diesem Untersuchungsziel gerecht²⁷: Usability-Prüfungen bieten die Chance, – –
–
mit den (potenziellen) Benutzern in Kontakt zu kommen, gemeinsam mit ihnen ein Verständnis darüber zu finden, welche Leistungen von der Bibliothek gewünscht und erwartet werden können und welche (bspw. technisch bedingt noch) nicht verfügbar sind, in einem intensiven Austausch sich auf eine gemeinsame Sprache zu verständigen, die so eindeutig wie möglich Dienste und Leistungen bezeichnet, voneinander abgrenzt und ihre Funktionen definiert.
Usability-Prüfungen führen in vielen Fällen auch zu intensiven Diskussionen innerhalb der Bibliothek; beispielsweise darüber, welche Leistungen und Dienste in welcher Form angeboten, wie diese in die Geschäftsgänge (prozessual) integriert werden sollen u.v.m. Usability-Prüfungen reichen – zuweilen mittelbar – tief in die Abläufe, den Aufbau und das Selbstverständnis der Organisation Bibliothek hinein. Usability-Prüfungen sind somit nicht nur (ein zunehmend wichtiger) Teil eines systematischen Qualitätsmanagements, sondern können auch einen Innovationsimpuls für eine weiterführende und umfassende Organisationsentwicklung sein. Nebenbei geben Usability-Prüfungen häufig auch Anlass, ins Gespräch zu kommen. Bei diesen internen Gesprächen und Diskussionen wird nicht selten deutlich, dass innerhalb der Organisation unterschiedliche Sichten auf ein und denselben Gegenstand und Sachverhalt vorherrschen, dass die Sprache nur scheinbar eine gemeinsame ist, sich oftmals hinter einem Begriff, einem Wort unterschiedliche Leistungen, Funktionen und Konzepte verbergen.²⁸ Wenngleich der eine oder andere beteiligte Mitarbeiter diesen internen Aushandlungsprozess als mühsam, zeitaufwändig und mitunter persönlich sehr aufreibend wahrnimmt, ist er nicht nur eine unabdingbare Voraussetzung für eine zielführende und erfolgreiche Evaluation des Web-Angebots, sondern kann auch katalysierend wirken: Man diskutiert und verständigt sich auf gemeinsame Ziele, zukünftige (interne und externe) Strategien, definiert Handlungsfelder, legt Produkte und Services fest und findet eine gemeinsame Sprache, die eine reibungslose (Fach-)Kommunikation ermöglicht, sowohl intern als auch nach außen gerichtet. Der Aufwand für diesen, der eigentlichen Evaluation vorgeschalteten Aushandlungsprozess ist hoch – das Ergebnis rechtfertigt den Aufwand jedoch in jedem Fall.²⁹
27 Greifeneder u. Seadle 2007; Blomberg u. Burrell 2008. 28 Seadle 2000: 384. 29 Ebd.
212
Richter
Usability-Prüfungen sind, genau wie der Aus- und Umbau des Web-Angebots, keine einmalige Aufgabe. Vielmehr sollten sie kontinuierlich und wiederholt eingesetzt werden, um – – – –
die Nutzung des Web-Angebots realitätsnah beobachten zu können, den Erfolg von Neuerungen im Design der Website zu überprüfen, veränderte oder neue Trends in der Nutzung aufzuspüren, veränderte oder neue Nutzungserwartungen und -strategien feststellen zu können.
Web-Design und Usability-Prüfungen sind somit als ein kontinuierlicher Prozess zu betrachten, bestehend aus einer Folge von Entwicklung (Design), Benutzertest, Überarbeitung des Angebots, neuem Test usw. In diesem Sinne sind Usability-Prüfungen Teil eines nachhaltigen Qualitätsmanagements.
3 Organisation von Usability-Prüfungen 3.1 Ziele und Fragestellungen der Usability-Prüfung Die primäre Aufgabe einer Usability-Prüfung besteht darin, mögliche Schwachstellen des Online-Angebots zu lokalisieren und die Ursachen für Usability-Probleme zu identifizieren. Sie ist eine Art Detektivarbeit und kann und sollte deshalb in einem gewissen Sinne pragmatisch sein. Prinzipiell gilt: Nützlich ist, was bei der Entdeckung von Problemen hilft, ohne jedoch den Fokus der Prüfung, das Ziel aus den Augen zu verlieren. Zur Evaluation von Websites bzw. Online-Angeboten können unterschiedliche quantitative und qualitative, reaktive wie non-reaktive Methoden der empirischen Forschung eingesetzt werden. Gängige Praxis ist es, mehrere verschiedene Methoden zu kombinieren, um Schwächen einzelner Methoden mit den Stärken anderer Methoden auszugleichen. Die Anzahl der eingesetzten Methoden sollte dabei so klein wie möglich und so groß wie nötig sein. In Abbildung 1 sind die wichtigsten quantitativen und qualitativen Methoden und Verfahren dargestellt, die zur Evaluation von Websites eingesetzt werden können: Die kursiv dargestellten Methoden und Verfahren werden in diesem Kapitel vorgestellt, freilich unterschiedlich detailliert. Sofern Methoden in anderen Kapiteln vorgestellt werden, wird auf diese Kapitel verwiesen.
Methoden der Usability-Forschung
Auskunftsprotokolle Logfiles ( Kap. 5 und 6) standardisierte Online-/Offline-Fragebogen ( Kap. 10)
213
Produktanalyse als Expertenanalyse
USABILITY-PROBLEME
Lautes Denken Nachträgliches Lautes Denken
Bildschirmaktivitäten , Blickbewegungen
problemzentriertes Interview
Abbildung 1: Quantitative und qualitative Methoden und Verfahren für Usability-Untersuchungen.
Eine Usability-Prüfung unterscheidet sich also von einer umfassenden empirischen Studie zur Usability einer Website u.a. darin, dass es nicht um die Verifizierung oder Falsifizierung einer empirischen Theorie geht. Dies hat wiederum Konsequenzen für die notwendige Anzahl von Versuchspersonen. Sie kann und sollte bei einer Usability-Prüfung viel niedriger liegen als bei einer empirischen Untersuchung. Andererseits können vor allem umfangreiche empirische Untersuchungen als Modelle für den Aufbau der Usability-Prüfung und für die Abfolge von nötigen Arbeitsschritten genutzt werden. Am Anfang einer Usability-Prüfung steht also die Festlegung des Untersuchungsgegenstands. Dieser Gegenstand kann der gesamte Web-Auftritt einer Bibliothek oder auch nur ein klar definierter Teilbereich sein, bspw. ein digitaler Service wie der Online-Katalog. Es folgt die Formulierung der zentralen Ziele der Prüfung, z.B. – – – –
herauszufinden, welche Erwartungen Benutzer an das Web-Angebot stellen, herauszufinden, welche Probleme unterschiedliche Benutzergruppen bei der Nutzung des Web-Angebots haben, Ursachen für Detailprobleme bei der Nutzung des Web-Angebots festzustellen und Maßnahmen zu erarbeiten, die diese Probleme beseitigen, das Web-Angebot der Bibliothek insgesamt hinsichtlich seiner Benutzerfreundlichkeit zu verbessern.
214
Richter
Aus den zentralen Zielen können dann Unterziele und Fragestellungen abgeleitet werden. Beispiele für einschlägige Fragestellungen sind: – – – – – – –
Wer nutzt das Web-Angebot der Bibliothek? (Frage nach den Zielgruppen) Welche Aufgaben versuchen Nutzer mit dem Web-Angebot zu bearbeiten? Welche Erwartungen haben die (potenziellen) Nutzer an das Web-Angebot? Welche Nutzungsgewohnheiten und Strategien werden bei der Nutzung des WebAngebots sichtbar? Gibt es besondere Problembereiche im Angebot (die Nutzung des Katalogs, der Datenbanken)? Welche sind im Einzelnen die Ursachen für eine erfolglose oder unbefriedigende Nutzung an einer bestimmten Stelle des Angebots? Bietet das Web-Angebot eine geeignete Einstiegsseite und erkennbare Pfade durch das Angebot, die den heterogenen Ansprüchen und Erwartungen ihrer Nutzer angemessen sind?
3.2 Einzelaufgaben und Entwurf eines Untersuchungsdesigns Das Untersuchungsdesign wird in Einzelaufgaben (auch Aufgabenpakete) umgesetzt: – – – – – –
Einsatz von explorativen Verfahren, Bereitstellung der Technik, Formulierung von Aufgaben für den Benutzertest, die Dokumentation der Daten des Benutzertests, Analyse der Daten des Benutzertests, Beschreibung der identifizierten Benutzerprobleme und Problemursachen, Entwicklung von Optimierungsvorschlägen.
Nachdem die grundlegenden Ziele und Detailfragen der Usability-Prüfung festgelegt worden sind, sollte man sich einen Überblick über das geplante Design der Prüfung verschaffen und die Bereiche identifizieren, die man bearbeiten muss. Abbildung 2 zeigt das Design einer Usability-Studie, das aus einem Verbund mehrerer Methoden besteht, die auch für eine kleinere Usability-Prüfung eingesetzt werden können.
Methoden der Usability-Forschung
215
Produktorientierte Methoden
Benutzerorientierte Methoden
Produktanalyse durch Experten (Heuristische Analyse oder Walkthrough)
Fragebogen zu Benutzergewohnheiten, Benutzerproblemen, Benutzerwünschen Benutzertest mit Dokumentation und Analyse von Bildschirmaktivitäten (Übergang von Seite zu Seite, Cursor-Bewegungen) Dokumentation und Analyse von Benutzeräußerungen im Zusammenhang des Benutzertests (sog. Lautes Denken oder Thinking Aloud) Problemzentriertes Interview nach dem Benutzertest (sog. Nachträgliches Lautes Denken)
Abbildung 2: Ausgewählte Methoden der Usability-Prüfung.
3.3 Vorbereitung der Usability-Prüfung: Explorative Methoden und Pretest Der Kern einer Usability-Prüfung ist der Benutzertest (s. Abschnitt 3). Im Vorfeld dieses Tests kann es hilfreich sein, Methoden einzusetzen, die entdeckenden, explorativen Charakter haben. Diese geben erste Hinweise auf Problembereiche, die dann im Benutzertest genauer untersucht werden sollten. Als explorative Methoden eignen sich beispielsweise – – – – – –
problemorientierte Diskussionen (sog. Focus Groups; s. Abschnitt 7) von Benutzern oder Bibliotheksmitarbeitern (z.B. Auskunftspersonen), Einzelinterviews mit potenziellen Nutzern oder mit Experten (s. Abschnitt 7), (Online-)Umfragen mittels Fragebogen (s. Abschnitt 5 und 6), die Bearbeitung von einschlägigen Benutzeraufgaben durch Experten (Expert Walkthrough), Auswertung der Server-Logfiles (Logfile-Analyse; s. Abschnitt 10), Protokollieren und Auswerten von Auskunftsanfragen (Auskunftsprotokolle).
Im Vorfeld der Hauptuntersuchung einer Usability-Prüfung wird mit einem oder zwei Benutzern (Testern) ein Benutzertest unter realen Bedingungen durchgeführt. Dabei wird geprüft, ob der Ablauf des Tests problemlos verläuft (z.B. im Bereich der Technik oder bei der Leitung des Tests), ob die für die Benutzer geplanten Aufgaben für die gewünschten Fragestellungen aussagekräftig sind, ob die Aufgabenstellungen verständlich sind, ob die Vorgaben für den Leiter des Tests und die Beobachter (z.B. Protokollbogen) für die intendierten Aufgaben brauchbar sind. Mit dem Vortest und der Analyse ihrer Ergebnisse können also systematische und technische Probleme entdeckt und vor dem Haupttest ausgeräumt werden. Zugleich dient er auch zu Trainingszwecken: So sollten beispielsweise in dieser Phase das Verhalten des Testlei-
216
Richter
ters (Moderators) aufgezeichnet, analysiert und diskutiert (s. Abschnitt 4.2) und die Bereitstellung und der Betrieb der Technik getestet und geübt werden. Bei umfangreicheren Usability-Studien mit acht oder mehr Benutzertests sollten auch in regelmäßigen Abständen Zwischentests und -auswertungen stattfinden. So können fehllaufende Abläufe korrigiert und bspw. mit Supervisionen das Verhalten des Moderators im Benutzertest optimiert werden. Zwischentests haben eine wichtige qualitätssichernde Wirkung.
3.3.1 (Online-)Benutzerbefragung Benutzerbefragungen mit standardisierten Fragebögen werden im Bibliotheksbereich seit langem und häufig, in den letzten Jahren auch zur Online-Befragung eingesetzt (ausführlich s. Abschnitt 5 und 6). Benutzerbefragungen zielen dabei zumeist auf die Zufriedenheit der Nutzer mit den Dienstleistungen einer Bibliothek im Allgemeinen oder mit einem bestimmten, zumeist vor Kurzem neu eingerichteten Dienstleistungsangebot. Gelegentlich wird versucht, mit Befragungen Bedarfe, Wünsche und Erwartungen der Nutzer abzufragen. Benutzerbefragungen sind eine gute Ergänzung zu Usability-Prüfungen.³⁰ Man kann mit ihnen u.a. zu folgenden Aspekten Informationen gewinnen: –
–
– – – – –
zu charakteristischen Nutzergruppen und deren Nutzungsprofilen (z.B. Geisteswissenschaftler vs. Mediziner, Studierende vs. Wissenschaftler, unterschiedliche Altersgruppen), zu typischen Wissens- und Fähigkeitsprofilen von Benutzern (Computernovizen vs. Computerkenner, Bibliotheksnovizen vs. Bibliothekskenner, absolute Novizen in Bezug auf ein bibliothekarisches Online-Angebot), zu subjektiven Einschätzungen der Qualität (von Teilen) des Angebots durch die Benutzer, zu subjektiven Wahrnehmungen von Usability-Problemen durch die Benutzer, zu Annahmen der Benutzer über die Nutzungsmöglichkeiten des Angebots, zu allgemeinen Erwartungen an die Dienste und Leistungen einer Bibliothek, zu Wünschen der Benutzer hinsichtlich des (physischen und digitalen) Angebots.
Zu bedenken ist, dass Nutzerbefragungen mittels standardisierter Fragebögen in Bezug auf die Usability eines Web-Angebots nur eine geringe Erklärungskraft haben. Im Idealfall weisen sie auf Problembereiche des befragten Web-Angebots hin, können aber weder Erklärungen noch Ursachen nennen, woran sich bspw. die Unstrukturiertheit und Unübersichtlichkeit des Web-Angebots festmachen lässt. Gleichwohl sind
30 Campbell 2001b: 7.
Methoden der Usability-Forschung
217
sie sowohl bei der Vorbereitung als auch der späteren Analyse der Benutzertests eine nützliche und hilfreiche Ergänzung.
3.3.2 Logfile-Analyse Bei der Analyse von Webserver-Logfiles (ausführlich s. Abschnitt 10) kann es im Vorfeld einer Usability-Prüfung hilfreich sein, sich bspw. einen Überblick zu verschaffen, welche Bereiche des Web-Angebots stark, wenig oder gar nicht genutzt werden, wie hoch die Abbrecherquote ist, wie lange die Verweildauer auf einzelnen Seiten ist usw. Die drei wichtigsten Vorzüge von Logfiles sind: – – –
Sie werden ohne Zutun des Nutzers automatisiert aufgezeichnet. Sie liegen in einem strukturierten, dem sog. Common Log Format (CLF) vor, sodass sie computergestützt weiterverarbeitet und ausgewertet werden können. Logfiles sind rein quantitativ und nicht-reaktiv erhobene Daten, die sich für eine quantitative, die Komplexität des Prozesses reduzierende Analyse anbieten.
Logfiles können – was die Prüfung der Web-Usability angeht – als ergänzendes Verfahren von Nutzen sein; ihre Erklärungskraft ist als rein quantitative Methode naturgemäß beschränkt. Logfiles können Aussagen geben, wie häufig eine bestimmte Seite aufgerufen worden ist. Wie lange eine Seite vermutlich betrachtet worden ist, lässt sich nur indirekt aus den Abrufzeiten der zuvor und anschließend aufgerufenen Seiten bzw. ausgelösten Aktionen ablesen; ob der Nutzer die Seite in der errechneten Zeit tatsächlich rezipiert hat, bleibt unklar. Rezeptionspfade lassen sich zwar mit Hilfe von Zählpixeln und Techniken aus dem Data bzw. Web Mining rekonstruieren.³¹ Gänzlich im Dunkeln bleiben Ziele, Motivationen und einzelne Handlungen der Nutzer; sie sind mit LogfileAnalysen nicht herauszufinden.³² Ebenso bleiben z.B. Fragen unbeantwortet, ob der Besuch des Web-Angebots erfolgreich war, die Erwartungen erfüllt worden sind, ob es Probleme bei der Nutzung gab und wenn ja, welche Ursachen dafür verantwortlich sind.
3.3.3 Auskunftsprotokolle In den Auskunftsstellen einer Bibliothek laufen alle Anfragen zusammen. Häufig haben Bibliotheken nicht nur eine zentrale Informationsstelle, wo alle Auskunftsan-
31 Vgl. Spiliopoulou 2000; Waterson [u.a.] 2002; Hong [u.a.] 2001. 32 Vgl. Campbell 2001b: 8; Covey 2002: 34.
218
Richter
fragen zentral beantwortet werden. Vielmehr ist die Auskunftstätigkeit nach (fachlicher) Zuständigkeit organisiert. Fachliche, bspw. bibliografische Anfragen werden an der Zentralen Information, Fragen, die die Benutzung des Lesesaals betreffen, an der Lesesaaltheke entgegengenommen und bearbeitet. Bei Fragen, die sich auf die Ortsund Fernleihe beziehen, wird an die Ausleihtheke verwiesen. Zudem laufen schriftliche Anfragen per Post, per E-Mail, Chat oder Telefonanfragen bei Mitarbeitern in Back-Offices auf. Auskunftsanfragen können implizit oder explizit Hinweise auf mögliche Problembereiche im Web-Angebot geben. Es ist daher für Usability-Prüfungen im Vorfeld (und auch im Nachgang) lohnenswert und mit verhältnismäßig wenig Aufwand verbunden, Anfragen an die unterschiedlichen Auskunftsstellen zu protokollieren und auszuwerten. Zum Beispiel können Fragen nach den Öffnungszeiten der Bibliothek, die wiederkehrend von außen (telefonisch, per E-Mail oder Chat) an das Auskunftspersonal gestellt werden, u.a. ein Hinweis darauf sein, dass die Informationen zu den (aktuellen) Öffnungszeiten im Web-Angebot nicht oder nur umständlich gefunden werden. Ebenso könnte die Auswertung der Anfrageprotokolle, die an der Zentralen Information – der Fachinformation einer Wissenschaftlichen Bibliothek – geführt wurden, bspw. ergeben, dass die Mehrzahl der Anfragen auf Probleme bei der Bedienung des Online-Katalogs zurückzuführen ist. Erkundigen sich Benutzer vor Ort beim Auskunftspersonal auffällig häufig z.B. nach den Toiletten oder werden Benutzer nicht selten an andere Auskunftsstellen weiterverwiesen, sind dies Indizien dafür, dass das Leit- und Orientierungssystem vom Benutzer nicht wie beabsichtigt verstanden wird. Wie die kleine Auswahl an Beispielen deutlich macht, ist im Vorlauf einer Usability-Prüfung von großem Gewinn, Anfragen an die unterschiedlichen Informationsstellen systematisch zu protokollieren und auszuwerten. Man bekommt so erste Hinweise auf mögliche Problembereiche im Web-Angebot. Darüber hinaus können sie ganz nebenbei Auslöser sein, andere Bereiche, etwa das Leit- und Orientierungssystem, einer genaueren Prüfung zu unterziehen. Die Optimierung des Web-Angebots (und des Leit- und Orientierungssystems) entlastet langfristig die Auskunftstätigkeit von profanen Anfragen und schafft Freiräume für zeitintensive (fachliche) Auskunftstätigkeiten. Die Protokollierung der Anfragen sollte kontrolliert und schriftlich mit einem Protokollbogen erfolgen (s. A 1 und A 2 im Anhang): – –
Grundsätzlich sollten so viele Daten zur Einzel-Anfrage erhoben werden wie möglich. Der Kontext der Anfrage ist umso wichtiger, je komplexer die Anfrage und je zeitaufwändiger die Beantwortung derselben ist. Es gilt die grundsätzliche Regel zum Führen von Auskunftsinterviews: Je genauer der Kontext der Anfrage ermittelt werden muss (um eine dem Benutzer zufriedenstellende Antwort geben zu können), desto genauer sollte dieser protokolliert werden, ggf. handschriftlich in
Methoden der Usability-Forschung
–
– –
219
einem freien Formularfeld. Erfahrungsgemäß kommen ausführliche Beratungsgespräche, deren Kontext genauer zu protokollieren wäre, weit weniger häufig vor als schnelle Auskünfte. Um den Aufwand bei der Erfassung dieser (Kontext-)Daten zu minimieren, sollte der Protokollbogen wie ein Formular gestaltet sein, in dem z.B. die häufig vorkommenden Anfragekategorien vorgegeben sind und nur noch angekreuzt werden müssen. Ideal ist es, die Protokollierung ausschließlich elektronisch über ein webbasiertes Formular zu führen, um Zeit und Kosten zu sparen. Der gesamte Zeitraum der Protokollierung sollte in mehreren, zeitlich voneinander entfernten Perioden erfolgen. So wäre es für eine Wissenschaftliche Bibliothek denkbar, zwei Erhebungszeiträume mit einer Dauer von einer Kalenderwoche festzulegen, wobei der eine die Vorlesungszeit und der andere die vorlesungsfreie Zeit abdecken sollte.
Mit Auskunftsprotokollen kann man mit relativ wenig Aufwand mögliche Defizite des bibliothekarischen Web-Angebots indirekt entdecken; sie liefern Indizien, ihnen müssen weitere Untersuchungsschritte folgen.
4 Produktanalyse und Benutzertest 4.1 Die Expertenanalyse als Produktanalyse Der erste größere Schritt der Usability-Prüfung sollte eine Expertenanalyse der Website bzw. des gewählten Ausschnitts der Website sein (sog. Walkthrough). Bei dieser Form der Analyse treten Experten in einer Doppelfunktion auf, als Produktkenner und als Ersatz-Benutzer. Unter Experten werden Bibliothekskenner und Kenner von OnlineAngeboten, insbesondere Personen mit Erfahrung in der Erstellung und Bewertung von bibliothekarischen Online-Angeboten, verstanden, z.B. einschlägig qualifizierte auswärtige Bibliotheksmitarbeiter.
4.1.1 Aspekte und Eigenschaften der Expertenanalyse Als Expertenanalyse ist der sog. Heuristische Walkthrough zu favorisieren. Er ist ein Surrogat aus den beiden produktorientierten Inspektionsmethoden Heuristische Analyse und Walkthrough. Die Heuristische Analyse ist eine regelgeleitete Expertenanalyse einer Website oder eines definierten Ausschnitts. Die Analyse des Web-Angebots erfolgt anhand einer Liste von Usability-Prinzipien, die sich allgemein auf das Design einer Benutzerschnittstelle (hier also des Web-Angebots) beziehen. Grundlage
220
Richter
bilden zumeist die zehn Usability-Prinzipien von Nielsen³³, die in der Usability-Literatur auch als Heuristiken bezeichnet werden. Weitere Heuristiken stellen Schweibenz und Thissen³⁴ vor. Eine deutsche Übersetzung der originär in der Zeitschrift Technical Communication (August 2000) erschienenen Heuristics for Web Communication findet sich bei Schweibenz.³⁵ Ein Auszug aus einem heuristischen Analyseraster für bibliothekarische Web-Angebote findet sich im Anhang (A 3). Beim Walkthrough bearbeiten mehrere Experten (als Ersatz für reale Benutzer) dieselben Aufgaben mit Hilfe des zu untersuchenden Web-Angebots. Während der Bearbeitung notieren sie die Probleme, auf die sie gestoßen sind. Abschließend werden die Ergebnisse der einzelnen Walkthroughs miteinander verglichen und (mögliche) Problembereiche festgehalten. Beide Analysemethoden – heuristische Analyse und Walkthrough – haben Vorund Nachteile. Die Kombination beider Analysemethoden nutzt ihre Vorzüge und mindert ihre Schwächen.³⁶ Bei der Planung des Heuristischen Walkthrough ist streng darauf zu achten, dass der Experte während der Bearbeitung der Aufgabe nicht mit zu berücksichtigenden Aspekten überlastet wird. Die Liste der zu bearbeitenden Aufgaben sollte zum einen aus häufigen und kritischen Aufgaben bestehen, bei denen die Lösung der Aufgabe im Vordergrund steht. Zum anderen sollten Aufgaben enthalten sein, bei denen das Browsen durch das Web-Angebot im Fokus steht. Ergänzt wird diese erste Phase durch eine zweite, in der der Experte sich frei und entdeckend durch das Web-Angebot bewegt. Die Expertenanalyse sollte – wie bereits angesprochen – aufgabenorientiert und aspektgeleitet sein, d.h., die Experten bearbeiten charakteristische Benutzeraufgaben und achten dabei gleichzeitig auf eine vorgegebene Liste von Aspekten. Dass sie dabei auch generell ihre Augen offen halten und unerwartete Entdeckungen machen, ist eine erwünschte Nebenwirkung. Charakteristische Benutzeraufgaben, die Experten bearbeiten können, sind die Suche nach den Öffnungszeiten, einen Buchtitel im Katalog zu suchen, ein ausgeliehenes Buch vorzubestellen, Informationen zu einem bestimmten Thema in Katalogen und Datenbanken zu suchen, den Abstract zu einem digital verfügbaren Zeitschriftenaufsatz herunterzuladen u.a.m. Typische Aspekte der Expertenanalyse lassen sich in folgenden Fragen zusammenfassen, die sich in den oben erwähnten Heuristiken wiederfinden:
33 Vgl. Nielsen 1994: 30; Nielsen 2006. 34 Schweibenz u. Thissen 2003: 105f. 35 Schweibenz 2001. 36 Sears 1997: 213.
Methoden der Usability-Forschung
– – – – – – – – –
221
Ist das Gesamtangebot übersichtlich? Gibt es differenzierte Angebote für erfahrene Nutzer (z.B. Abkürzungspfade) und Novizen (z.B. assistentengeleitete Pfade)? Sind die einzelnen Seiten übersichtlich (Seiten-Design), insbesondere die Einstiegsseiten zu einzelnen Teilen des Angebots? Sind die einzelnen Elemente der Seiten gut erkennbar/lesbar? Ist das Navigationssystem intuitiv einsichtig/einheitlich aufgebaut? Sind die einzelnen Links verständlich/einheitlich/kontextangemessen gekennzeichnet? Sind alle Verlinkungen korrekt und frei von Zirkelstrukturen? Gibt es an kritischen Stellen Hilfeangebote? Sind die Hilfeangebote gut strukturiert/übersichtlich/für die angenommenen Benutzer verständlich?
Der heuristische Walkthrough als Form der Expertenanalyse ist besonders nützlich, um offensichtliche Schwachstellen zu entdecken (falsche Linkkennzeichnungen, fehlende Systemantworten etc.), allgemeine Problembereiche zu identifizieren und die optimalen Pfade zu identifizieren, die die Benutzer idealiter finden sollten (Idealpfadanalyse; vgl. Abschnitt 4.2). Gleichzeitig wirft diese Methode Fragen auf und generiert Fragestellungen für den Benutzertest. Die Expertenanalyse ist u.a. deshalb eine sehr wertvolle Methode, weil sie es mit relativ geringem Zeitaufwand ermöglicht, bereits manche Problemursachen zu lokalisieren, Problemdiagnosen zu geben und ggf. Vorschläge zur Optimierung zu machen. In der Usability-Forschung geht man davon aus, dass man mit fünf Experten mehr als zwei Drittel der Usability-Probleme eines Produkts entdecken kann. Diese Methode ist primär produktorientiert. Da die Experten nur partiell die Benutzerperspektive einnehmen können, ersetzt sie nicht die Erprobung des Angebots durch normale Benutzer. Gründlich konzipiert und vorbereitet, ist der heuristische Walkthrough eine notwendige Vorarbeit für Benutzertests und ein wichtiger Bestandteil für die gesamte Usability-Prüfung.³⁷
4.1.2 Dokumentation der gefundenen Probleme Um eine systematische Auswertung der Analyseergebnisse zu ermöglichen, sollte den Experten ein Protokollbogen zur Verfügung stehen, in dem sie ihre Ergebnisse dokumentieren können.³⁸ Im Protokollbogen soll der Experte die entdeckten Problemstellen identifizieren (bei welcher Aufgabe, auf welcher Seite des Angebots) und
37 Pearrow 2007: 226. 38 Siehe Schweibenz u. Thissen 2003: 112; Schulz 2007; Usability Toolkit in STC 2010.
222
Richter
eine kurze Beschreibung des Problems geben. Beide Angaben müssen so explizit sein, dass bei der späteren Auswertung die Problemstellen wieder auffindbar sind und der Problemtyp für den Auswerter erkennbar ist. Im Anschluss an die Detailbeobachtungen sollte der Experte einen kurzen, zusammenfassenden Evaluationsbericht schreiben, in dem ggf. auch Optimierungsvorschläge gemacht werden können. Wenn man die aufzuwendende Zeit für einen Experten bei einem Durchgang mit ca. fünf bis sieben Aufgaben (einschließlich Dokumentation) in der Größenordnung von zwei Stunden veranschlagt und für den Evaluationsbericht nochmals zwei bis drei Stunden ansetzt, kann für eine Expertenanalyse eine Arbeitszeit von ca. fünf Stunden angenommen werden. Dies ist natürlich nur ein Richtwert.
4.1.3 Auswertung der Evaluationsberichte Eine wichtige Aufgabe ist die Auswertung der Expertenberichte durch ein Mitglied des Usability-Teams. Bei der Auswertung sind folgende Ergebnisse anzustreben: 1. 2. 3. 4.
die Ordnung der gefundenen Probleme nach Problemtypen bzw. Ursachentypen,³⁹ die Beurteilung der Mängel nach Schweregrad und Dringlichkeit der Abhilfe,⁴⁰ die Sammlung von Vorschlägen für die Verbesserung der Usability,⁴¹ die Formulierung von Fragestellungen für die Benutzertests, die von den Expertenergebnissen nahegelegt werden.
Die Erarbeitung der Punkte 1–3 bietet eine Übersicht über auffällige Probleme und kann von sich aus schon wertvolle Hinweise auf Möglichkeiten der Usability-Optimierung geben. Mit Punkt 4 wird die Expertenanalyse als ein Teil der Vorbereitung der Benutzeranalyse genutzt.
4.2 Der Benutzertest 4.2.1 Vorteile und Nachteile von Benutzertests Der Benutzertest ist der Königsweg der Usability-Prüfung. Erst wenn man weiß, wie reale Benutzer aus unterschiedlichen Benutzergruppen tatsächlich mit dem jeweiligen Online-Angebot arbeiten, kann man ein zutreffendes Bild von den Usability-Problemen gewinnen, um deren Beseitigung es geht. Die Versuchspersonen der Tests
39 Vgl. Dynkowska 2006. 40 Vgl. Nielsen 1993: 102–105; Nielsen 1994: 47–49; Pearrow 2007: 219–225. 41 Vgl. z.B. Aitta [u.a.] 2008: 34–38.
Methoden der Usability-Forschung
223
werden im Folgenden daher als Tester bezeichnet, um damit deutlich zu machen, dass nicht der Benutzer geprüft wird, sondern das Angebot. Ergebnisse, die sich aus der Analyse von Benutzertests ergeben, sind mit anderen Methoden nicht zu erreichen.⁴² Das macht den Benutzertest zur Methode der Wahl bei Usability-Prüfungen und rechtfertigt den vergleichsweise hohen zeitlichen, personellen und materiellen Aufwand. Die Nachteile eines Benutzertests liegen darin, dass er in einer ausgebauten Version relativ zeitaufwändig ist, dass die Datenanalyse relativ schwierig sein kann und dass die Durchführung streng genommen trainiertes Personal voraussetzt. In der Praxis können jedoch auch noch nicht trainierte Teammitglieder notwendige methodische Kompetenz bei einer ersten Usability-Prüfung on the job erwerben. Dabei spielt der Vortest eine wichtige Rolle. Wenngleich der zeitliche und personelle Aufwand – v.a. im Vergleich zu den weiter oben erwähnten Inspektionsmethoden – für Benutzertests verhältnismäßig hoch ist, ihr Aufwand lohnt sich in jedem Fall: „In case study after case study, usability is providing its worth.“⁴³
4.2.2 Planung und Arbeitspakete eines Benutzertests Die Arbeitspakete und Aspekte eines Benutzertests sind: 1. 2. 3. 4. 5. 6. 7. 8.
Gewinnung und Auswahl von Testern, Entwicklung von Aufgabentypen und die Formulierung der Benutzeraufgaben, Bereitstellung der Aufzeichnungstechnik, Testraum und Testpersonal, Aufgaben des Moderators, Protokolle lauten Denkens als Methode, strukturierte Beobachtung während der Durchführung des Tests, Auswertung der Tests.
Um einen Anhaltspunkt zu bekommen, wie hoch der zeitliche Aufwand für Vorbereitung, Durchführung und Analyse der Benutzertests veranschlagt werden muss, kann die Faustregel 2:1:4 angesetzt werden. Das heißt, für eine Stunde Benutzertest müssen etwa zwei Stunden Vorbereitung und vier Stunden nachbereitende Analyse geplant werden. Die Analyse kann durch eine strukturierte Beobachtung und Protokollierung während des Tests (s. weiter unten) erheblich (vor-)entlastet und somit ihr zeitlicher Aufwand verringert werden.
42 Schulz 2002: 224. 43 Williams [u.a.] 2008: 1267.
224
Richter
4.2.3 Gewinnung und Auswahl von Testern Die Gewinnung und Auswahl der Tester gehört neben der Entwicklung der Test-Aufgaben zu den wichtigsten Schritten in der Vorbereitung der Usability-Prüfung.⁴⁴ Drei Fragen sind zu beantworten: Wie viele Tester braucht man, wie gewinnt man sie und wie wählt man sie aus? Der Benutzertest ist eine explorative Methode: Mit jedem Benutzertest steigt die Chance, einzelne Probleme zu lokalisieren und zu entscheiden, ob ein bestimmtes Problem mehrfach oder häufig auftritt. Andererseits erhöht sich mit jedem Test die aufzuwendende Analysezeit. Nach gängiger Auffassung ist mit einer Zahl von fünf bis sechs Testern schon eine große Breite von Problemen abzudecken.⁴⁵ Für eine kleine Usability-Prüfung mit Benutzertests sollten also minimal fünf bis sechs Tester ausgewählt werden. Diese Tester sollten dabei alle (potenziellen) Benutzergruppen abdecken und unterschiedliche Bibliotheks-, Computer- und InternetErfahrung aufweisen. Für einen Test des Web-Angebots einer Hochschulbibliothek bietet es sich z.B. an, zwei Bibliotheks-Novizen (z.B. Studienanfänger) aus unterschiedlichen Fachbereichen, zwei Studierende aus höheren Semestern, einen jüngeren Wissenschaftler mit viel Erfahrung in der Nutzung des Online-Angebots und einen älteren Wissenschaftler mit geringerer Online-Erfahrung als Tester auszuwählen. Virzi⁴⁶ konnte zeigen, dass 80 % der Usability-Probleme mit nur fünf Testern gefunden werden können.⁴⁷ Wie viele Tester man tatsächlich benötigt, um etwa 80 % der Usability-Probleme zu entdecken, hängt von vielen Faktoren ab, z.B.: – – –
Wie komplex ist das zu testende Web-Angebot? Wurde es mit Hilfe von Usability-Methoden (z.B. mit expertenbasierten Inspektionsmethoden oder Benutzertests) bereits untersucht? Ist die Zielgruppe homogen oder sehr speziell und stark heterogen?
Grundsätzlich ist zu empfehlen, die Anzahl der Nutzer größer und gemischter zu wählen, je komplexer das zu testende Online-Angebot und je heterogener die (vermutete) Zielgruppe ist. Um aber die Auswertungszeit zu begrenzen, die mit der Zahl der Tester anwächst, hat sich in der Praxis ein iteratives Test-Verfahren bewährt, wie es auch Nielsen⁴⁸ vorschlägt:
44 Notess [u.a.] 2005: 306. 45 Nielsen 2000; Covey 2002: 24. 46 Virzi 1992. 47 Vgl. auch Dumas u. Loring 2008: 1140. 48 Nielsen 2000.
Methoden der Usability-Forschung
225
1.
Fünf Tester untersuchen das Web-Angebot. Damit findet man etwa 85 % der Usability-Probleme. 2. Die gefundenen Probleme werden beseitigt. 3. Ein zweiter Durchgang mit weiteren fünf Testern wird durchgeführt. Dabei werden besonders die Problembereiche getestet, die im ersten Durchgang entdeckt worden sind. Damit wird sichergestellt, dass die Probleme auch tatsächlich beseitigt sind. Möglicherweise treten aber auch neue Probleme hinzu. 4. Sowohl die alten als auch die neu aufgetretenen Probleme werden behoben. 5. Ein dritter Durchgang mit fünf anderen Testern wird durchgeführt. 6. Die aus dem dritten Durchgang hervorgegangenen Probleme werden eliminiert. Mit insgesamt 15 unterschiedlichen Testern können somit im Idealfall nahezu alle Usability-Probleme entdeckt werden, die Analyse wird zwangsläufig zeitaufwändiger, aber auch mit jeder Auswertung routinierter und geht schneller von der Hand. Wer dennoch den Aufwand scheut, dem sei empfohlen, mit fünf bis sechs Testern eine kleine Usability-Prüfung durchzuführen. Die Tester sollten dabei möglichst weit über die o. g. Kriterien gestreut werden.⁴⁹ Die geringe Anzahl an Testern sollte mit dem Einsatz von zusätzlichen explorativen und expertenorientierten Methoden ausgeglichen werden. Es ist damit zu rechnen, dass etwa 10–15 % der Tester unerwartet ausfallen. Eine systematische Auswahl der an einem Benutzertest interessierten Tester erfolgt mit einem sog. Screening-Fragebogen. So ist gewährleistet, dass Tester ausgewählt werden, die die besprochenen Kriterien (Computer-, Internet-, Bibliothekserfahrung etc.) erfüllen. In der Praxis hat es sich bewährt, von Beginn an das Screening computerbasiert bspw. mit einem Formular in einer Tabellenkalkulation zu organisieren.⁵⁰ Es dient neben der Auswahl der Tester auch zur Organisation (Korrespondenz mit den Testern, Terminorganisation etc.) und Dokumentation der gesamten Usability-Prüfung (s. A 4 im Anhang). Darüber hinaus kann es auch dazu genutzt werden, eine erste quantitative Auswertung der Benutzertests durchzuführen. Um eine möglichst breite Streuung der Tester über die Zielgruppen und unterschiedlichen Fähigkeiten zu erhalten, erfolgt das Screening anhand von soziodemografischen Daten und weiteren, zuvor festgelegten Kriterien. Interessierte Tester werden bspw. danach befragt, wie lange und wie häufig sie das Internet bereits nutzen, wie sie ihre Fähigkeiten im Umgang mit dem Internet, der zu testenden Bibliothek und ihrem Web-Angebot einschätzen. Sofern es möglich ist, sollte man bei der Auswahl der Tester auch berücksichtigen, dass lebhafte, kommunikationsfreudige Versuchspersonen, für die der laufende Kommentar eine natürliche Form der Äußerung ist, besonders geeignete Tester sind, die den Auswertern der Daten die Arbeit sehr erleichtern.
49 Campbell 2001a: 13. 50 Courage u. Baxter 2005: 705–712.
226
Richter
Interessierte Tester auszuwählen, ist weit weniger schwierig, als diese überhaupt erst für eine mögliche Teilnahme zu gewinnen. Zur Gewinnung von Testern kann man verschiedene Mittel einsetzen, bspw. gezielte Rundmails an unterschiedliche Zielgruppen, einen werbenden Hinweis auf der Website der Bibliothek, Anschläge oder Auslage von Handzetteln an geeigneten Stellen der Bibliothek oder des Finanzträgers (Universität, Kommunalverwaltung etc.), einen Flyer, der dem Ausweis neu angemeldeter Benutzer beigelegt wird usw. Dabei kann man auf den Nutzen eines solchen Tests für alle Benutzer der Bibliothek hinweisen und betonen, dass die Testteilnehmer die Chance haben, das Web-Angebot mit ihrer Testteilnahme direkt zu beeinflussen. Dies erhöht bei vielen Nutzern die Motivation zur Teilnahme. Im Umgang mit Testteilnehmern, ihren persönlichen Daten und den Daten, die im Rahmen ihrer Teilnahme am Test entstehen, ist es dringend geboten, einige ethische und rechtliche Aspekte zu beachten: –
– –
–
–
–
Informieren Sie den Tester ausführlich über den Rahmen der Usability-Prüfung/ -Studie, seine Aktivitäten als Beitrag zu dieser Usability-Prüfung, die erwartete Dauer und den Ablauf des Tests. Stellen Sie dar, welche Informationen gesammelt bzw. erhoben werden und wie bzw. zu welchem Zweck und mit welchem Ziel diese verwendet werden. Weisen Sie den Tester daraufhin, dass er jederzeit und ohne dies begründen zu müssen, den Test abbrechen kann. Klären Sie den Tester über mögliche Risiken und sonstige Nachteile auf, die er durch die Teilnahme am Test erfahren könnte. Lassen Sie sich die Aufklärung über die Risiken vom Tester quittieren. Tester, die noch nicht volljährig sind, dürfen nur dann an einem Benutzertest teilnehmen, wenn die Erziehungsberechtigten zuvor schriftlich zugestimmt haben. Bei Minderjährigen bestehen eine besondere Fürsorgepflicht und ein erhöhter Datenschutz. Oberstes Gebot ist es, die Anonymität des Testteilnehmers zu wahren. Schreiben Sie daher keine Namen auf Zettel, verwenden Sie stattdessen Codes. Der Moderator sollte dennoch den Tester auch während des Benutzertests mit seinem Namen ansprechen. Dies macht eine nachträglich durchzuführende Anonymisierung schwieriger, schafft aber eine natürlichere (Gesprächs-)Atmosphäre. Holen Sie vor Beginn des Benutzertests beim Tester die schriftliche Erlaubnis ein, Daten aufzuzeichnen. Eine Erklärung zum Datenschutz und zur absoluten Vertraulichkeit Ihrer Angaben findet sich im Anhang (A 5). Mit einzelnen Testern kann man verabreden, dass ihr Test zu Demonstrations- und Lehrzwecken innerhalb der Bibliothek genutzt werden darf. Dies muss gesondert erklärt und vom Tester unterschrieben werden.
Methoden der Usability-Forschung
227
Die Praxis zeigt, dass manche Tester mit Skepsis und Misstrauen auf eine Datenschutzerklärung reagieren, möglicherweise sogar der Test nicht stattfinden kann, weil der Tester nicht bereit ist, die Erklärung zu unterzeichnen. Dies wäre für beide Seiten unerfreulich. Versuchen Sie, die ‚heikle‘ Situation zu entspannen, indem Sie folgende Aspekte berücksichtigen: –
–
Formulieren Sie die Datenschutzerklärung so präzise wie nötig, aber so kurz und verständlich wie möglich. Mit einmaligem Durchlesen muss jeder Tester den Inhalt verstanden haben. Senden Sie vorab gemeinsam mit der Einladung und Bestätigung des Testtermins auch die Datenschutzerklärung dem Tester zu. Machen Sie im Begleitschreiben deutlich, dass Sie für Rückfragen gerne zur Verfügung stehen. Unmittelbar vor dem Test muss der Tester das ihm bereits bekannte Formular dann nur noch unterschreiben.
Eine angenehme Atmosphäre ist der Schlüssel zu einem erfolgreichen Testverlauf. Eine komfortable Einrichtung (Pflanzen, bequemer Stuhl für den Tester etc.), Getränke und kleine Snacks und eine der Situation und dem Gesprächspartner angemessene Sprache sind ebenso wichtig wie hilfreich, die Atmosphäre so angenehm wie möglich zu gestalten. Um die Motivation zu erhöhen, an einem Test teilzunehmen, sollte ein kleines Testhonorar in Aussicht gestellt werden. Gewöhnlich werden Gutscheine, ein Buchgeschenk, Gutschriften für Fernleihen oder ähnliches an die Tester ausgeteilt. Für Studierende ist oft ein kleines Testerhonorar attraktiver als ein Gutschein.
4.2.4 Entwicklung von Aufgabentypen und Formulierung der Testaufgaben Durch die Anwendung der verschiedenen explorativen Methoden bekommt man u.a. Hinweise, welche Aufgaben Benutzer häufig zu bewältigen haben, in welchen Bereichen des Web-Angebots Probleme zu erwarten sind und welche Bereiche und Angebote die Benutzer generell zu wenig nutzen (z.B. Fach-Datenbanken). Die so identifizierten Untersuchungsbereiche und Fragestellungen müssen nun in möglichst natürliche Aufgabenstellungen umgesetzt werden, die Aufschluss über gängige Benutzerstrategien, Benutzerprobleme und Gründe für Nutzungslücken geben. Insgesamt können einem Tester in der reinen Testzeit von ca. 60 Minuten 5–10 Aufgaben zur Bearbeitung vorgelegt werden. Zusammen mit der Einführungsphase und dem Abschlussgespräch sollte die Gesamtdauer des Einzeltests 90 Minuten nicht überschreiten, insgesamt sollte je Benutzertest ein Zeitfenster von zwei Stunden angesetzt werden. Die zu erwartende Bearbeitungsdauer einer Aufgabe durch einen Durchschnittstester entspricht der drei- bis zehnfachen Zeit, die ein Experte benötigt, um die Aufgabe erfolgreich zu bearbeiten.
228
Richter
Die Aufgaben können ggf. dem Benutzertyp angepasst werden. Beispielsweise liegt es nahe, einer Geisteswissenschaftlerin eine geisteswissenschaftliche Rechercheaufgabe zu stellen. Die Aufgaben müssen eindeutig und verständlich formuliert sein und sollten im Normalfall keine Hinweise auf den Lösungsweg geben. Folgende Aspekte sollten bei der Entwicklung der Aufgaben berücksichtigt werden: –
–
–
–
–
Im Idealfall repräsentieren die Test-Aufgaben tatsächliche Nutzer-Aktivitäten und Problemlagen. In der Praxis muss man versuchen, sich diesem Ideal anzunähern. Die Ergebnisse aus den explorativen Voruntersuchungen sind dabei ebenso hilfreich wie ein sorgfältig durchführter und ausgewerteter Vortest. Authentische Aufgaben sind zumeist sehr komplex. Sehr komplexe Aufgabenstellungen bergen aber das Risiko in sich, dass der Tester die Bearbeitung der Aufgabe frustriert abbricht und die nächste bearbeiten möchte. Zu einfache Aufgaben hingegen spiegeln nur ungenügend die Komplexität der tatsächlichen Nutzungszusammenhänge wieder, sind also zu wenig repräsentativ und in ihren Ergebnissen nur von geringer Aussagekraft. Sog. Szenario-basierte Aufgabenstellungen versuchen einen Mittelweg zwischen Einfachheit einerseits und zu hoher Komplexität andererseits zu finden. Bei der Durchführung des Tests hat es sich bewährt, mit leichteren Aufgaben anzufangen, um die Motivation der Tester zu fördern, und die Schwierigkeit dann zu steigern. Beispielsweise ist die Aufgabe, ein bestimmtes Buch im Katalog zu finden, einfacher als die Aufgabe, Literatur zu einem bestimmten Thema in Datenbanken zu recherchieren. Erfahrungen mit der Formulierung von Aufgaben gewinnt man im Vortest. Er ist für die Aufgabenstellung und -formulierung von zentraler Bedeutung. Zudem prüft man mit dem/n Vortest/s, ob die Aufgaben technisch zu bearbeiten sind, z.B. dynamische Inhalte wie Datenbanken, über spezielle Client-Software zugängliche CD-ROMs zur Verfügung stehen. Die Entwicklung der Aufgaben erfolgt also iterativ.⁵¹ Bei problematischen Teilen des Angebots, zu deren Untersuchung die Tester nicht ‚naturwüchsig‘ auf ihrem Benutzerpfad beitragen (z.B. bei der Frage nach der Benutzerfreundlichkeit bestimmter Datenbanken oder Hilfeangebote, auf die die Benutzer nicht von sich aus zurückgreifen), kann man die Aufgabe direkt auf die Benutzung des jeweiligen Online-Elements zuschneiden. Beispielsweise könnte man folgende Aufgabe stellen: „Nehmen wir an, Sie wissen nicht, wie Sie Zugang zu der Datenbank bekommen, wie können Sie das online herausfinden?“
51 Notess [u.a.] 2005: 301, 304.
Methoden der Usability-Forschung
–
229
Es empfiehlt sich, den Testern die Aufgaben nicht nur mündlich zu geben, sondern sie auch auf einem Aufgabenzettel vorzulegen, sodass die Tester bei der Suche nach Buch- oder Zeitschriftentiteln nicht immer nach den genauen Angaben zurückfragen müssen.
4.2.5 Durchführung des Tests – Aufgaben des Moderators Der Benutzertest muss nach einem zuvor festgelegten Schema ablaufen. Es gilt für alle Benutzertests und sollte für alle Tests so genau wie möglich eingehalten werden. Abbildung 3 stellt die wesentlichen Phasen eines Benutzertests grafisch dar. Im Anhang (A 6) findet sich ein ausführlicher Ablaufplan, der zugleich als Skript für den Moderator zur Durchführung der Tests dient. Der Moderator übernimmt im Verlauf des Tests im Wesentlichen drei Aufgabenbereiche:⁵² (1) Während des Einführungsgesprächs des Tests: Er begrüßt den Tester, stellt die anwesenden Personen vor, weist dem Tester seinen Platz an, erläutert ihm kurz die Ziele des Tests und die Rolle des Testers, versucht zur Entspannung des Testers beizutragen, erläutert die Funktion des lauten Denkens und ermuntert den Tester zu kontinuierlichen und gut hörbaren Kommentaren. Der Moderator sollte den Text seiner Einführung als eine Art Skript schriftlich vorliegen haben⁵³, damit er keine wichtigen Aspekte vergisst. Weiterhin erhebt der Moderator, wenn man das nicht schon vorher in Form eines Fragebogens getan hat, kurz Informationen über den Tester im Hinblick auf seine Computer-Erfahrung, Erfahrung mit dem Online-Angebot, Benutzungsgewohnheiten etc. Er weist den Tester auf die Anonymisierung der erhobenen Daten hin (Datenschutz), holt das Einverständnis des Testers zur Aufzeichnung der Daten ein und bittet ggf. um Zustimmung zur Verwendung des Datenmaterials zu Demonstrationszwecken innerhalb der Bibliothek. Um die Aufmerksamkeit des Testers auf das zu testende Web-Angebot zu lenken, sollte zu Beginn des Benutzertests im Einführungsgespräch explizit, während des Tests wiederkehrend implizit zum Ausdruck kommen, dass das Web-Angebot und nicht der Tester geprüft wird („Nicht der Tester wird geprüft, sondern das Online-Angebot“.⁵⁴ (2) Während des Tests: Der Moderator legt dem Tester jeweils eine Aufgabe vor und bittet ihn, diese laut vorzulesen, mit der Bearbeitung der Aufgabe zu beginnen und seine Aktivitäten und Probleme dabei laufend zu kommentieren. Gerät der Tester in eine Sackgasse, hilft er ihm als freundlicher Helfer weiter, damit weitere
52 Ausführlicher vgl. Dumas u. Loring 2008. 53 Siehe A 6 im Anhang u. das Skript von Dumas u. Loring 2008: 66. 54 Chisman [u.a.] 1999: 553.
230
Richter
Fragebogen
Bearbeitung der Aufgabe 1
Bearbeitung der Aufgabe 2
Bearbeitung der Aufgabe 3
…
Problemzentriertes Interview Abbildung 3: Ablauf der Benutzertests.
Teile der Aufgabe bearbeitet werden können – aber nicht zu früh, denn die Strategien der Tester, sich aus der Sackgasse zu befreien, sind lehrreich. Er ermuntert den Tester zur Kommentierung, wenn dieser das während der Aufgabenbearbeitung vergisst. Er notiert sich in groben Zügen den Verlauf der Aufgabenbearbeitung mit Hilfe eines Protokollbogens (s. A 7 im Anhang) und markiert Teststellen, die im problemzentrierten Interview angesprochen werden sollen. 3) Nach dem Test: Er dankt dem Tester und bittet ihn, sich zu Problemen, die ihm (dem Tester) aufgefallen sind, zu äußern. Ggf. weist er selbst auf Probleme hin, die ihm (dem Moderator) oder den anderen Beobachtern aufgefallen sind, und bittet den Tester um Erläuterung (problemzentriertes Interview s.u.). Der Moderator erfragt Kommentare zum gesamten Testverlauf. Mit nochmaligem Dank an den Tester schließt er den Test ab, gibt dem Tester sein Honorar und möglicherweise eine kleine Gabe als Anerkennung seiner Leistung und verabschiedet ihn. Die Arbeit des Moderators ist nicht einfach. Sie setzt Konzentration und Einfühlungsvermögen voraus. Beispielsweise muss der Moderator oft spontan entscheiden, ob er helfend eingreift oder dem Tester eine Frage stellt, die für das Verständnis eines
Methoden der Usability-Forschung
231
vorliegenden Problems bei der späteren Auswertung entscheidend sein kann.⁵⁵ Im Zweifelsfall sollte der Moderator lieber länger warten mit der Hilfestellung, denn in vielen Fällen können sich die Tester selber aus der Sackgasse befreien. Diese Sequenzen sind für die spätere Analyse besonders wertvoll und aufschlussreich. Damit der Moderator seine schwierigen Aufgaben erfolgreich meistern kann, sollte er die nötigen Aktivitäten vor dem Test, in internen Vorübungen und im Vortest trainieren. In der Praxis hat es sich sehr bewährt, dass unmittelbar nach dem Test das Testteam (ohne den Tester) in einem kurzen, maximal 15-minütigen Brainstorming seine Eindrücke und Beobachtungen sammelt, grob systematisiert und schriftlich in Form eines Kurz-Protokolls festhält. Schließlich werden die Aufzeichnungen aller Beobachter und Testteilnehmer geordnet und mit den weiteren Unterlagen des Einzeltest abgelegt. Die Kurz-Protokolle aller Benutzertests werden zusammen abgeheftet (getrennt von den Einzeltestunterlagen). Sie erleichtern die spätere Auswertung der Benutzertests, v.a. der Testpassagen, die detaillierter analysiert werden sollen.
4.2.6 Lautes Denken und Benutzerkommentar Die Dokumentation und Analyse des lauten Denkens – auch laufender Kommentar oder Thinking Aloud genannt – ist eine Methode, die seit den 1980er Jahren eingesetzt wird, um Einsichten in die kognitiven Prozesse von Versuchspersonen während der Bearbeitung experimenteller Aufgaben zu gewinnen.⁵⁶ Der laufende Kommentar des Testers kann eine sehr hilfreiche Quelle bei der Analyse der Testaufgaben sein: –
–
Der laufende Kommentar ist eine Verstehens- und Deutungshilfe. Er gibt Hinweise auf das richtige Verständnis der Aktionen des Testers. In vielen Fällen ist uns als Beobachtern nicht spontan klar, was die Intention des Testers bei einer bestimmten Aktivität ist, z.B. bei einer Bewegung des Mauszeigers oder beim Weitergehen auf eine andere Seite. Der laufende Kommentar ermöglicht uns in vielen Fällen ein besseres Verständnis dieser Aktionen, beispielsweise, wenn der Tester sagt: „Ich muss jetzt mal sehen, wie ich hier weiterkomme,“ und gleichzeitig mit dem Mauszeiger herumirrt. Der laufende Kommentar ist in vielen Fällen ein recht spezifischer Problemindikator, spezifischer etwa als eine lange Pause in der Bildschirmaktivität, beispielsweise im Falle von folgenden Äußerungen: „Ich weiß nicht, was ich jetzt machen soll“, oder „Muss ich diese Datei jetzt runterladen oder wie?“ Gleichzeitig gibt der laufende Kommentar oft gute Hinweise auf Problemlösungsstrategien der Tester.
55 Dumas u. Redish 1999: 302. 56 Ericsson 2008.
232
Richter
Streng genommen ist der laufende Kommentar nichts anderes als die systematische Anwendung einer kommunikativen Strategie, die viele Leute naturwüchsig anwenden, nämlich dauernd zu kommentieren, was sie gerade machen. Dementsprechend sollte der Moderator den laufenden Kommentar auch als eine Form der Mitteilung an die Anwesenden einführen: „Sagen Sie uns immer, was Sie gerade machen, und sagen Sie auch, wenn Sie irgendein Problem haben.“ Es kommt allerdings vor, dass einzelne Tester den laufenden Kommentar als etwas unnatürlich oder auch als störend für die Lösung ihrer eigentlichen Aufgaben empfinden. Im Verlauf des Tests kann es daher auch nötig sein, dass der Moderator den Tester ab und zu an seine Kommentaraufgabe erinnert oder ihn durch Fragen zu Kommentaren ermuntert. Erfahrungen bei der Durchführung von Usability-Tests haben gezeigt, dass die Qualität des lauten Denkens nicht signifikant besser wird, wenn es der Moderator vor dem Test mit dem Tester übt. Es empfiehlt sich hingegen, dass der Moderator vor dem Test (s.o.) dem Tester das Verfahren des Lauten Denkens erläutert und demonstriert, indem er bspw. die Bedienung eines Lochers vorführt und gleichzeitig laut kommentiert.⁵⁷ Weit schwieriger ist die Frage zu beantworten, ob und wann der Moderator den Tester daran erinnern sollte, sein Handeln und Denken zu kommentieren, wenn der laufende Kommentar abbricht. Diese Entscheidung erfordert Fingergefühl und Erfahrung des Moderators, denn nicht selten vergessen die Tester den Kommentar gerade in jenen Situationen, die als Problemsituation besonders aufschlussreich wären und in denen der laufende Kommentar für die Analyse sehr hilfreich wäre. Scheinbar sind die Tester in solchen Situationen besonders konzentriert und angestrengt.⁵⁸ Empfehlenswert ist es, in diesem Moment den Tester nicht sofort an den laufenden Kommentar zu erinnern, sondern ihn zunächst ‚in Ruhe‘ die Situation abarbeiten zu lassen und erst später ggf. wieder anzuregen, laut zu denken.⁵⁹ Solche Momente sind zumeist Schlüsselsituationen in Usability-Tests, die sehr viele Erkenntnisse bringen können und daher nur mit Bedacht gestört werden sollten. Um den Erkenntniswert optimal auszuschöpfen, notiert sich der Moderator solche (scheinbaren) Problemstellen und spricht diese gezielt im problemzentrierten Interview (sog. nachträgliches lautes Denken) an.
4.2.7 Problemzentriertes Interview nach dem Test Eine sehr gute Gelegenheit, zusätzliche Informationen vom Benutzer über seine Erfahrungen beim Testen zu gewinnen, ist ein kurzes problemzentriertes Interview
57 Vgl. Dumas u. Loring 2008: 67. 58 Ericsson 2008. 59 Siehe Ramey 2006.
Methoden der Usability-Forschung
233
nach dem Test. Sofern der Benutzertest mit Video aufgezeichnet worden ist, sollte auch das problemzentrierte Interview aufgezeichnet werden. Hier kann der Moderator zunächst einmal den Benutzer fragen, an welchen Stellen er Probleme hatte, welcher Art diese Probleme waren und welche Ursachen nach Auffassung des Testers für die Probleme verantwortlich sind. In manchen Fällen gelingen den Benutzern sehr einleuchtende Diagnosen, die für die Usability-Bewertung äußerst hilfreich sind. In einem zweiten Arbeitsgang kann der Moderator selbst auf bisher noch nicht erwähnte Probleme hinweisen, die er und die anderen Beobachter während des Tests notiert haben, und den Tester dazu befragen. In diesem Zusammenhang kann es nützlich sein, nochmals an die Stelle in der Bildschirmaufnahme zurückzufahren, an der das Problem auftrat, und den Benutzer dann zu bitten, den Vorgang zu erläutern. Dieses Verfahren – auch als nachträgliches lautes Denken bekannt – ist besonders dann hilfreich, wenn der Benutzer an kritischen Stellen in seinem laufenden Kommentar nicht ausreichend explizit war. Natürlich stellen die jetzt gemachten Äußerungen des Benutzers eine nachträgliche Deutung seiner Aktivitäten und Probleme dar, aber auch diese kann wertvolle Hinweise zu Art und Ursache von Usability-Schwierigkeiten geben.
4.2.8 Strukturierte Beobachtung während der Durchführung der Tests Damit die spätere Auswertung schneller und leichter von der Hand geht, ist es wichtig, dass schon während der Durchführung des Tests strukturierte Beobachtungen in einem Protokollbogen festgehalten werden. Die Protokollbögen (s. A 7 im Anhang) geben den Auswertern für ihre Detailanalysen eine erste Orientierung. Notiert werden sollten die Aufgabe, zu der die Beobachtung gemacht wird, der Zeitpunkt und der auffällige Sachverhalt (bspw. eine auffällige Reaktion des Testers oder ein erkennbares Problem). Wenn die verwendete Aufzeichnungssoftware die Möglichkeit bietet, Problemstellen bereits während der Aufzeichnung zu markieren, so können diese bei der späteren Auswertung direkt angesteuert werden. Der Moderator sollte während des Tests auch einen Protokollbogen führen. Soweit der Personalbestand es erlaubt, kann auch noch ein zweiter Beobachter eingesetzt werden, der sich ganz auf das Notieren von einschlägigen Beobachtungen konzentriert. Der Moderator ist normalerweise mit seinen Aufgaben stark beschäftigt. Trotzdem sollte auch er einen Protokollbogen bekommen, in den er Beobachtungen eintragen kann. Nicht nur der Moderator, sondern auch die Beobachter müssen geschult werden. Sie sollten einerseits mit typischen Problemen und Problemursachen vertraut gemacht werden und andererseits auch schon das Notieren von relevanten Beobachtungen üben. Letzteres geschieht am besten durch die Teilnahme am Vortest.
234
Richter
4.2.9 Die Auswertung der Tests Das Ziel einer Usability-Prüfung ist die Optimierung des getesteten Web-Angebots. Ihre wesentliche Aufgabe ist es, potenzielle Problem(bereich)e zu lokalisieren und Ursachen für die Usability-Probleme zu identifizieren. Die Ergebnisse der UsabilityPrüfungen münden in Empfehlungen zur (Um-)Gestaltung des betreffenden WebAngebots im Ganzen (Makrostruktur), einzelner Seiten oder Seitenelemente (Mikrostruktur). Das Ziel der Auswertung muss es also sein, die Komplexität und Fülle der erhobenen Daten so zu organisieren, aggregieren, analysieren und präsentieren, dass am Ende eine Liste von Usability-Problemen vorliegt (mitsamt den Problemursachen, auf denen die Probleme beruhen). Um mögliche Usability-Probleme zu identifizieren, werden alle zur Verfügung stehenden Datenquellen genutzt und aufeinander bezogen. Die Triangulation ist eine Methode, die in der qualitativen Sozialforschung seit langem eingesetzt wird.⁶⁰ Abbildung 4 verdeutlicht das Zusammenspiel der unterschiedlichen Datenquellen (vgl. hierzu auch Abbildung 1). Die aus der Auswertung der Benutzertests entstandene Liste mit Usability-Problemen stellt die Grundlage dar, um mit weiteren Maßnahmen das Web-Angebot zu optimieren. An der Abfolge der Auswertungs- und Umsetzungsschritte wird deutlich, dass Usability-Prüfungen keine einmaligen Aktionen sind, sondern – wie die (Weiter-) Entwicklung des Web-Angebots – wiederholt und in regelmäßigen Abständen durchgeführt werden müssen. In der Praxis hat sich die Triangulation – quantitative und qualitative Auswertung zu kombinieren – zur Analyse von Benutzertests bewährt.
4.2.10 Quantitative Auswertung Die quantitative Auswertung der Benutzertests dient in erster Linie dazu, einen Gesamt-Überblick über die durchgeführten Benutzertests zu erhalten. Zudem kann sie auf mögliche kritische Phänomene hinweisen, die in der qualitativen Auswertung geprüft werden sollten. Denkbares Ergebnis einer quantitativen Auswertung könnte sein, dass die Bearbeitungsdauer einer einzelnen Aufgabe zwischen den Testern stark schwankt. Zudem könnte die Auswertung ergeben, dass diejenigen Tester, die sich selbst als erfahren im Umgang mit der Bibliothek und ihrem Web-Angebot eingestuft haben, die Aufgaben im allgemeinen deutlich schneller bearbeitet haben als jene mit weniger Erfahrungen. Möglicherweise finden die Bibliotheks-Novizen über die Startseite keinen geeigneten Einstieg, was so gedeutet werden kann, dass das WebAngebot insgesamt und die Startseite im Besonderen ein bestimmtes Wissen über den Aufbau und Ablauf einer Bibliothek voraussetzen. Mit diesem ersten Befund (und den
60 Dumas u. Redish 1999: 310f.; Schweibenz u. Thissen 2003: 150–153.
Methoden der Usability-Forschung
235
daraus abgeleiteten Vermutungen) wäre in der folgenden qualitativen Auswertung zu prüfen, worin die Probleme liegen und wie diese verursacht werden. Liste mit Usability-Problemen
UsabilityProblem
Quantitative Daten aus Benutzertests und Fragebögen
(Qualitative) Daten aus dem laufenden Kommentar (auch Gestik und Mimik), problemzentrierten Interview, den Notizen des Moderators und Beobachtern
Abbildung 4: Triangulation von Usability-Problemen.⁶¹
Für eine quantitative Analyse der Benutzertests errechnet man ausgewählte ‚Kennzahlen‘, die auch als Usability-Metriken bekannt sind. Sie stammen aus der klassischen Usability-Forschung und orientieren sich an den Usability-Dimensionen der Effizienz, Effektivität und Zufriedenheit.⁶² Für Usability-Prüfungen in Bibliotheken genügt es in der Regel, die folgenden Kennzahlen zu berechnen: – – –
Anzahl der (erfolgreich) bearbeiteten Aufgaben (absolut und relativ, Range mit Min-/Max-Werten, arithmetisches Mittel, ggf. Median und Modalwert), Gesamtdauer des Tests (absolut und relativ, Range mit Min-/Max-Werten, arithmetisches Mittel, ggf. Varianz oder Standardabweichung), Dauer der (erfolgreich) bearbeiteten Aufgaben (absolut und relativ, Range mit Min-/Max-Werten, arithmetisches Mittel, ggf. Varianz oder Standardabweichung).
Im zweiten Schritt sollten die genannten Zahlen zunächst versuchsweise in Beziehung zu den personenbezogenen Daten der Tester, die vor dem Test mit dem Fragebogen erhoben worden sind, gesetzt werden. Durch die Korrelation der beiden Datengruppen können interessante Ergebnisse zutagetreten.
61 Nach Dumas u. Redish 1999. 62 Vgl. Pearrow 2007: 190 u. 287–310.
236
Richter
:LSIZ[LPUZJOp[a\UN)PIPSPV[OLRZ2LUU[UPZ
Ein Beispiel soll dies verdeutlichen: Der Boxplot in Abbildung 9 zeigt einen Zusammenhang zwischen der (selbsteingeschätzten) Kenntnis über die Bibliothek und der Dauer einer von allen Testern bearbeiteten Aufgabe. Es ist deutlich zu erkennen, dass es einen positiven Zusammenhang zwischen den beiden Variablen gibt: Je mehr die Tester über die Bibliothek wussten, desto schneller konnten sie die Aufgabe bearbeiten und umso geringer streuten die Bearbeitungszeiten um den Median bzw. das arithmetische Mittel.
ZLOYN\[
U$
TP[[LS
U$
^LUPN
4P[[LS^LY[.LZHT[HUaHOS ILHYILP[L[LY(\MNHILU U$
+H\LYa\Y)LHYILP[\UNKLY.\SIPUZ(\MNHILPUZ Abbildung 5: Verhältnis von Bibliothekskenntnis (Selbsteinschätzung) und Bearbeitungsdauer einer Aufgabe.
Die berechneten Kennzahlen können nur einen Eindruck, eine Tendenz vermitteln. Sie sind aufgrund der gewöhnlich (und bewusst) geringen Fallzahl nicht stark belastbar und können durch die Zusammensetzung und Auswahl der Stichprobe nicht repräsentativ sein. Die Haupt-Zielrichtung der statistischen Zusammenfassung ist es, einen quantitativen Überblick über die durchgeführten Tests zu liefern.⁶³
63 Rubin 1994: 260.
Methoden der Usability-Forschung
237
4.2.11 Qualitative Auswertung Die qualitative Auswertung bildet den Kern der Analyse und ist zweifelsohne der aufwändigste Teil der Usability-Prüfung, sowohl was den zeitlichen als auch was den personellen Aspekt betrifft. Bei der Auswertung der Tests geht es in erster Linie darum, die schon erkannten kritischen Daten zu dokumentieren, in einem nochmaligen Durchgang durch das gesamte Aufzeichnungsmaterial weitere, bisher noch nicht entdeckte Problemstellen zu identifizieren und in einem letzten Schritt die erkannten Probleme zu beschreiben und auf Problemursachen zurückzuführen. Für zentrale kritische Stellen kann es nützlich sein, eine Transkription des laufenden Kommentars zu machen (s. Abbildung 6) und den transkribierten Text nochmals genau mit den Bildschirmaufzeichnungen abzugleichen. Für diese Transkriptionen ist kein ausgefeiltes linguistisches Transkriptionssystem erforderlich, eine alltagssprachliche Wiedergabe genügt. Bei der Analyse der Daten ist es empfehlenswert, Stellen, die im Hinblick auf ihre Interpretation unklar oder mehrdeutig erscheinen, von mehreren Personen untersuchen zu lassen und die verschiedenen Interpretationen der Daten zu vergleichen. Dies ermöglicht, die Einschränkungen des Deutungshorizonts einer Einzelperson auszugleichen.
Beispiel einer Transkription Aufgabe: Suche des Artikels zu Schiller in Kindlers Neues Literaturlexikon T = Tester, M = Moderator T befindet sich auf der Web-Seite „Anleitung zur Recherche“ Die Zahlen in Klammern geben Pausen in Sekunden an. T (scannt die Seite, liest): Kindlers Neues Literaturlexikon. Jetzt hab ich erstmal das. (43) (scrollt die Seite hinunter) M: Was lesen Sie gerade? T: Ich les gerade Aufruf der Datenbank (liest) Durch Anklicken des Links CD-ROM. (Fährt mit Maus auf CD-ROM) Jetzt weiß ich nicht, wo der ist (8.5) (dreht sich zum M um) M: Diesen Link CD-ROM, ne? T: Ja M: Ja, hm = m. Da ist beschrieben wie, wie es eigentlich geht, ne. Wie man die Datenbank starten kann. T: Ja, also wenn ich diesen Link hätte und da drauf klicke, dann komm ich da rein. Dann, dass ich auch zu Schiller komme. M: Vielleicht gehn wir mal ne Seite zurück, wo Sie herkamen T: (nickt) Ach, hier ist er
Abbildung 6: Auszug aus einer Transkription des laufenden Kommentars.
Für eine detaillierte Analyse einzelner Passagen ist es hilfreich, ein differenzierteres Transkriptionsformular (s. A 8 im Anhang) zu verwenden, in dem die gerade geöffnete Webseite, die Bildschirmaktivitäten und die Äußerungen beim laufenden Kommentar jeweils in eine eigene Spalte eingetragen und durch Problembeschreibungen in einer weiteren Spalte ergänzt werden. Der Analyseweg geht dabei von den Problemindikatoren über die Probleme (Diagnose) zu den Problemursachen (Abbildung 7).
238
Richter
Problemindikator 1 Gestaltung der Makrostruktur
Problemstelle
Problemindikator 2
Problem
Problemursachen
(=Diagnose)
‚Therapie‘
Gestaltung der Mikrostruktur Seitengestaltung
Problemindikator 3
Teilproblem 1
…
Teilproblem n
Abbildung 7: Analyseweg der (qualitativen) Auswertung.
4.2.12 Problemindikatoren, Probleme und Problemursachen Bei der Analyse der erhobenen Daten ist es wichtig, Problemindikatoren als solche zu erkennen. Die expliziten Äußerungen des Testers selbst sind meist leicht zu erkennen und weisen direkt auf eine Problemstelle hin. Dazu gehören die Feststellung, dass er etwas nicht weiß oder nicht tun kann („Was ‚FH‘ bedeutet, weiß ich nicht,“ oder „Jetzt komme ich hier nicht weiter“), Fragen wie: „Muss ich das jetzt runterladen oder wie?“ oder Äußerungen der Unzufriedenheit wie: „Das ist jetzt aber blöd, da war ich doch schon mal.“ Die zweite Hauptgruppe von Indikatoren sind Verhaltensindikatoren, die man auf dem Bildschirm erkennen kann: Der Tester zögert lange, irrt mit dem Cursor auf der Seite herum oder wandert von Seite zu Seite im Kreis herum. Irrwege des Testers erkennt der Beobachter manchmal unmittelbar, manchmal sieht man erst durch genaue Analyse, was das Ziel des Testers an dieser Stelle war und wie er in die Irre geraten ist. Relativ unspezifische, aber doch oft wichtige Indikatoren sind Verhaltensindikatoren wie Kopfschütteln oder Stirnrunzeln (s. Abbildung 8). Wenn man einen Problemindikator entdeckt hat, notiert man ihn und nimmt ihn zum Ausgangspunkt der Problem- und Ursachenanalyse.
Methoden der Usability-Forschung
239
Abbildung 8: Analysevideo eines Benutzertests.
Das typische Usability-Problem kann man in allgemeiner Form folgendermaßen beschreiben: Der Benutzer kann ein bestimmtes Ziel nicht oder nur auf Umwegen oder nur mit Hilfe erreichen. Beispiele sind: Er hat die Orientierung verloren, er weiß nicht, wie er weitermachen soll, er weiß nicht, wie er den ICA-Client installieren soll. Die Einsicht in das jeweilige Benutzerproblem ist die Voraussetzung für die Analyse der Problemursachen. Das wichtigste Ziel der Analyse der gewonnenen Daten ist die Identifizierung und Beschreibung von Problemursachen und ihren Zusammenhängen. Um dieses Ziel zu erreichen, muss man Geduld und analytische Fähigkeiten aufwenden. Beispielsweise kann die Tatsache, dass ein Tester an einer bestimmten Stelle nicht weiterkommt, damit zusammenhängen, dass er falsche Erwartungen hinsichtlich der Möglichkeiten des Angebots hat, dass er nicht weiß, was ein bibliotheksspezifischer Terminus bedeutet, oder dass er den Aufbau einer Seite nicht überblickt. Häufig wirken mehrere Faktoren zusammen, um ein Problem zu erzeugen, wie das folgende Beispiel zeigt.
4.2.13 Problemanalyse – ein Beispiel An einem einfachen Beispiel sollen der kontextuelle Charakter eines Problems und das Zusammenwirken mehrerer Faktoren erläutert werden. Ein Benutzer sucht im Test ein Buch von Jürgen Gulbins mit dem Titel Desktop Publishing und möchte dieses
240
Richter
ausleihen. Er arbeitet sich auf folgendem Pfad durch das Angebot: Startseite – Katalogportal – Katalogsuchmaske – Trefferliste – Seite mit Titeldaten. Dort findet er die Angabe „FH kyb Ex 8.41“ und daneben einen kleinen Button mit der Kennzeichnung „weiter“ (vgl. Abbildung 9). Er klickt auf „weiter“ und gelangt zu seiner Überraschung wieder auf eine Seite mit Titeldaten und nimmt (irrtümlich) an, dass er wieder zurück auf derselben Seite ist. Deshalb probiert er es nochmals mit „weiter“. Das kann eine ganze Weile so weitergehen, ohne dass der Benutzer zu dem Schluss kommt, dass hier online nichts mehr zu machen ist und dass er sich jetzt das Buch selbst aus dem Regal holen muss. Die Analyse des Problems, gestützt auf das problemorientierte Interview nach dem Test, kommt zu folgendem Ergebnis: Dem Benutzer fehlen an der problematischen Stelle in seinem Pfad einige wichtige Wissenselemente, er macht eine unzutreffende Annahme über den Bestellvorgang, und der „weiter“-Link ist an dieser Stelle (kontextuell) nicht explizit genug: 1.
Der Benutzer weiß nicht, dass FH ‚Freihandbereich‘ bedeutet. (Er nimmt an, dass es ‚Fachhochschule‘ bedeutet, was aber in diesem Zusammenhang nicht sinnvoll erscheint.) 2. Er weiß auch nicht, dass man Bücher aus dem Freihandbereich selbst aus dem Regal holen und an der Ausleihtheke vorlegen muss. Das heißt, man kann sie – im Gegensatz zu Büchern aus dem Magazin – nicht online bestellen. 3. Er weiß nicht, was der elliptische Ausdruck „weiter“ in diesem Kontext bedeutet und damit auch nicht, welche Funktion der „weiter“-Button in diesem Kontext hat, nämlich die, den nächsten Treffer in der Trefferliste anzuzeigen. 4. Er nimmt stattdessen an, dass ähnlich wie bei Online-Shops der „weiter“-Button weiter im Bestellvorgang führt. Aufgrund dieser Konstellation von Problemursachen kommt er an dieser Stelle nicht weiter und irrt im Kreise herum. Dieser Fall ist sehr charakteristisch: Probleme treten oft in Clustern auf und werden durch bestimmte Konstellationen von Faktoren verursacht, die teils auf der Seite der Benutzerkompetenz, teils auf der Seite der Systemeigenschaften liegen.
4.2.14 Benutzerpfade: Idealpfad und abweichender Pfad Ein entscheidender Teil der Analyse besteht darin, die Benutzerpfade der Tester genau Schritt für Schritt nachzuvollziehen. Die meisten Probleme sind kontextuell zu erklären, d.h. aufgrund des spezifischen Wissens und der Erwartungen, die ein Benutzer an einer bestimmten Stelle im Pfad aufgebaut hat. In manchen Fällen kann man dem Idealpfad für die Lösung einer Aufgabe, die man in der Expertenanalyse festgestellt hat, charakteristische Irrwege gegenüberstellen (vgl. Abbildung 10).
Methoden der Usability-Forschung
241
Abbildung 9: Screenshot der Titeldatenseite aus der Beispielanalyse.
Startseite
Zielseite
Abbildung 10: Pfadanalyse: Idealpfad (durchgehende Linie) und abweichender Pfad (gestrichelte Linie)
242
Richter
4.2.15 Zusammenfassung der Auswertung und Anwendung der Ergebnisse Das Ziel der Auswertung der Testdaten ist eine übersichtliche Darstellung der beschriebenen Probleme und der ihnen zugeordneten Problemursachen. Zunächst einmal sollten alle gefundenen Problemstellen mit den analysierten Problemursachen aufgelistet werden. In einem zweiten Schritt gehört zu der übersichtlichen Darstellung auch der Versuch, die Problemstellen nach Typen zu ordnen und damit eine Bedingung für die systematische Optimierung der betreffenden Website zu schaffen. Bei der Beschreibung von Benutzerproblemen kann man unterscheiden zwischen punktuellen Problemen und generellen Problemen. Ein punktuelles Problem kann durch eine Überarbeitung einer bestimmten Stelle im Benutzerpfad gelöst werden, für generelle Probleme müssen oft auch generelle Problemlösungen gefunden werden, beispielsweise eine Korrektur der Makrostruktur des Angebots, eine grundlegende Überarbeitung der Startseite, eine Systematisierung der Hilfeangebote oder die Einrichtung eines (Online-)Schulungssystems für Novizen.
4.2.16 Umsetzung der Analyseergebnisse: Optimierung des Web-Angebots Die Umsetzung der Ergebnisse ist einer der wichtigsten Schritte, gestaltet sich mitunter aber auch zu einer der schwierigsten Phasen einer Usability-Prüfung.⁶⁴ Da sich die Gepflogenheiten, Arbeitsabläufe etc. von Bibliothek zu Bibliothek mitunter stark unterscheiden, können an dieser Stelle nur allgemeine Empfehlungen gegeben werden, die die Umsetzung der Analyseergebnisse erleichtern helfen: –
–
–
Von Beginn an sollten sowohl Mitarbeiter aus dem Web-Team als auch (fachliche) Entscheidungsträger (aus Bereichen, die mittelbar als auch unmittelbar betroffen sind) in das ‚Projekt Usability-Prüfung‘ eingebunden sein. Die aktive Partizipation von Mitgliedern aus der Bibliotheksleitung fördert die Akzeptanz der Ergebnisse und ihre motivierte Umsetzung und verhilft somit dem Projekt zu einem erfolgreichen Abschluss. Nicht selten werden von einzelnen Personen die Ergebnisse einer Usability-Prüfung als nicht valide, zufällig, wenig aussagefähig u.ä.m. bewertet. Eine Präsentation, die mit Beispielen aus den Benutzertests typische und einleuchtende Usability-Probleme vorführt (‚Highlight-Video‘), nimmt potenziellen Kritikern schon im Vorfeld den Wind aus den Segeln.⁶⁵ Achten Sie im Projektmanagement darauf, dass der Projektstrukturplan von Beginn an für die Teilaufgabe „Umsetzung der Ergebnisse (Redesign des Web-
64 Campbell 2001a: 14. 65 Courage u. Baxter 2005: 644–652.
Methoden der Usability-Forschung
–
243
Angebots)“ die Aufgabe „Aktions- und Zeitplan Redesign“ vorsieht und der Projektstrukturplan auch in dieser Form (von den zuständigen Entscheidungsträgern) beschlossen wird. Der Zeit- und Aktionsplan legt genau fest, welche Maßnahmen von wem bis zu welchem Termin durchgeführt werden und wie eine daran anschließende Evaluation der Maßnahmen auszusehen hat. Der Zeit- und Aktionsplan schafft klare, verbindliche und überprüfbare Verantwortlichkeiten.
5 Resümee Die Usability von Web-Angeboten ist ein Qualitäts- und Gütekriterium. Die Nutzer von bibliothekarischen Web-Angeboten erwarten, dass diese intuitiv zu nutzen sind, sich an inzwischen etablierten Nutzergewohnheiten und -verhalten orientieren, Hilfestellungen (kontextuell gebunden) anbieten und die allgemeinen Usability-Kriterien erfüllen. Dabei hat das Web-Angebot von Bibliotheken sich den stets verändernden Nutzungs- und Informationsrecherchestrategien anzupassen. Strukturell orientiert sich auch heute noch das Web-Angebot vieler Bibliotheken an ihrem organisatorischen Aufbau, ihrer inneren Struktur; es spiegelt im Web-Angebot ihre Organisationsstruktur wider und setzt somit für eine erfolgreiche Nutzung ein bestimmtes Wissen über die ‚Organisation Bibliothek‘ voraus – Wissen, das bei vielen, gerade jungen Wissenschaftlern und vor allem Studierenden der sog. jüngeren Generation nicht mehr vorhanden ist: „[…] we can observe how the Libraries’ website is structured around the library and not around students’ far-reaching needs.“⁶⁶ Die Web-Angebote von Bibliotheken sind über viele Jahre gewachsen, haben einen technischen Wandel durchlaufen, wurden stetig inhaltlich erweitert und verändert. Bestimmte, für den Nutzer zentrale Services, wie der alphabetische Zettelkatalog und in seiner Nachfolge der OPAC, waren ursprünglich konzeptionell und funktional bibliothekarische Instrumente und nicht für Benutzer gedacht. Der OPAC wird vielerorts mit ein und derselben Suchoberfläche dem bibliothekarischen Experten wie dem (bibliothekarisch unbelasteten) Endnutzer angeboten: Dieser wird mit Informationen konfrontiert, die ihn nicht interessieren, die er aufgrund des Fachwortschatzes nicht versteht, nicht in seinen Nutzungskontext einordnen kann, ihn letztlich von den für seinen Nutzungszusammenhang zentralen Informationen ablenken, verwirren und zu falschen Deutungen führen. Uns Bibliothekaren muss stets allgegenwärtig sein, dass bei der Rezeption von bibliothekarischen Web-Angeboten auf dem Benutzerpfad die Nutzerwelt auf die bibliothekarische Welt trifft: Es kommt zu Reibungen, kommu-
66 Briden [u.a.] 2007: 7.
244
Richter
nikativen Problemen und in nicht wenigen (im Verborgenen bleibenden) Fällen zum Rezeptionsabbruch. Bedürfnisse und Bedarfe der Benutzer sind durch technologische Innovationen, neue Inhalte und Möglichkeiten des Zugriffs usw. einem ständigen Wandel unterlegen. Dies erzeugt neue und verändert alte Erwartungen an die Services und Angebote von Bibliotheken. Diese werden zunehmend mehr über das Web-Angebot dem Bibliotheksbenutzer offeriert. Das Web-Angebot muss sich den verändernden Verhältnissen stellen und sich ihnen anpassen, auf sie reagieren. Usability-Prüfungen spielen dabei eine zentrale Rolle; sie sind die Methode der Wahl, wenn es darum geht, Probleme bei der Nutzung eines bibliothekarischen Web-Angebots zu entdecken und zu beseitigen. Das Web-Angebot bedarf also unserer intensiven und ständigen Beobachtung und Aufmerksamkeit – jetzt und in Zukunft.
6 Literatur- und Quellenverzeichnis Aitta, M.-R., S. Kalevau u. T. Kortelainen: Heuristic Evaluation Applied to Library Web Services. In: New Library World 109 (2008) 1–2. S. 25–45. Anderson, H. u. A. Marshall: What an Experience. Library Staff Participation in Ethnographic Reserarch. In: Studying Students. The Undergraduate Research Project at the University of Rochester. Hrsg. von N. F. Foster u. S. Gibbons. Chicago, IL: Association of College and Research Libraries 2007. S. 55–62. Bell, S. u. A. Unsworth: Night Owl Librarians. Shifting the Reference Clock. In: Studying Students. The Undergraduate Research Project at the University of Rochester. Hrsg. von N. F. Foster u. S. Gibbons. Chicago, IL: Association of College and Research Libraries 2007. S. 16–19. Blomberg, J. u. M. Burrell: An Ethnographic Approach to Design. In: The Human-Computer Interaction Handbook. Fundamentals Envolving Technologies and Emerging Applications. Hrsg. von A. Sears u. J. A. Jacko. 2. Aufl. New York, NY: Lawrence Erlbaum Associates 2008. S. 965–988. Briden, J., V. Burns u. A. Marshall: Knowing Our Students: Undergraduates in Context. [Paper] presented at the Association of College and Research Libraries, 13th National Conference, March 29th–April 1st, 2007, Baltimore Maryland. (2007): 2007. http://docushare.lib.rochester. edu/docushare/dsweb/Get/Document-25072/Knowing _our_students_URochester.pdf. (28.11.2012) Bucher, H.-J.: Wie interaktiv sind die neuen Medien? Grundlagen einer Theorie der Rezeption nicht-linearer Medien. In: Die Zeitung zwischen Print und Digitalisierung. Hrsg. von H.-J. Bucher u. U. Püschel. Wiesbaden: Westdt. Verl. 2001. S. 139–171. Bucher, H.-J.: Usability – Core Feature of Interactivity. Empirical Results of Audience Research on Internet- and E-Business-Communication. In: Proceedings of the 6th International Scientific Conference on Work With Display Units WWDU 2002 – World Wide Work, Berchtesgaden, May 22–25, 2002. Hrsg. von H. Luczak, A. E. Çakir u. G. Çakir. Berlin: ERGONOMIC 2002. S. 444–446. www.ergonomic-institute.eu/files/wwdu_2002_proceedings.pdf (3.12.2012). Bucher, H.-J.: Online-Interaktivität. Ein hybrider Begriff für eine hybride Kommunikationsform. In: Interaktivität. Ein transdisziplinärer Schlüsselbegriff. Hrsg. von C. Bieber u. C. Leggewie. Frankfurt a.M. [u.a.]: Campus-Verl. 2004 (Interaktiva 1). S. 132–167.
Methoden der Usability-Forschung
245
Campbell, N.: Conducting a Usability Study. In: Usability Assessment of Library-Related Web Sites. Methods and Case Studies. Hrsg. von N. Campbell. Chicago, IL: American Library Association 2001 (LITA Guide 7). S. 11–15 [zit. als Campbell 2001a]. Campbell, N.: Usability Methods. In: Usability Assessment of Library-Related Web Sites. Methods and Case Studies. Hrsg. von N. Campbell. Chicago, IL: American Library Association 2001 (LITA Guide 7). S. 1–10 [zit. als Campbell 2001b]. Carr, R.: The Academic Research Library in a Decade of Change. Oxford: Chandos 2007. Chisman, J., K. Diller u. S. Walbridge: Usability Testing: A Case Study. In: College & Research Libraries 60 (1999) 6. S. 552–569. Courage, C. u. K. Baxter: Understanding Your Users. A Practical Guide to User Requirements, Methods, Tools, and Techniques. Amsterdam: Elsevier/Morgan Kaufmann 2005. Covey, D. T.: Usage and Usability Assessment. Library Practices and Concerns. Washington, DC: Digital Library Federation 2002. www.clir.org/pubs/reports/pub105/pub105.pdf (28.11.2012). Dumas, J. S. u. B. A. Loring: Moderating Usability Tests. Principles and Practice for Interacting. Boston: Morgan Kaufmann/Elsevier 2008. Dumas, J. S. u. J. C. Redish: A Practical Guide to Usability Testing. Rev. ed. Exeter: Intellect 1999. Dynkowska, M.: Ursachen für Probleme bei der Nutzung bibliothekarischer Webangebote. DFG-Projekt „Web-Usability des Informations- und Interaktionsangebots von Hochschulbibliotheken“. Gießen: Universitätsbibl. 2006. www.uni-giessen.de/usability/ downloads/Ursachenbereiche_.pdf (27.11.2012). Dynkowska, M.: Web-Usability aus linguistischer Sicht. Gießen 2010 (Gießener Elektronische Bibliothek 2010. Linguistische Untersuchungen 2). Zugl.: Gießen, Univ., Diss., 2009. http:// nbn-resolving.de/urn:nbn:de:hebis:26-opus-79100 (28.11.2012). EPIC. The Electronic Publishing Initiative at Columbia: Online Survey of College Students. Executive Summary. 2004. www.epic.columbia.edu/eval/find09/find09.html (28.11.2012). Ericsson, K. A.: Protocol Analysis. Methods for Eliciting and Analyzing Valid Verbal Reports on Thinking. 2008. www.psy.fsu.edu/faculty/ericsson/ericsson.proto.thnk.html (28.11.2012). Foster, N. F.: The Mommy Model of Service. In: Studying Students. The Undergraduate Research Project at the University of Rochester. Hrsg. von N. F. Foster u. S. Gibbons. Chicago, IL: Association of College and Research Libraries 2007. S. 72–78. George, S.: Then and Now. How Today’s Students Differ. In: Studying Students. The Undergraduate Research Project at the University of Rochester. Hrsg. von N. F. Foster u. S. Gibbons. Chicago, IL: Association of College and Research Libraries 2007. S. 63–71. Greifeneder, E. u. M. Seadle: Die Kunst des Beobachtens. Wie man Digitale Bibliotheken mit ethnografischen Methoden evaluiert. In: BuB, Forum für Bibliothek und Information 59 (2007) 11/12. S. 836–839. Hong, J. I., J. Heer, S. J. Waterson u. J. A. Landay: WebQuilt. A Proxy-Based Approach to Remote Web Usability Testing. In: ACM Transactions on Information Systems 19 (2001) 3. S. 263–285. Howe, N. u. W. Strauss: Millennials Rising. The Next Great Generation. New York, NY: Vintage Books 2000. Howe, N. u. W. Strauss: Millennials Go to College. Strategies for a New Generation on Campus. Recruiting and Admissions Campus Life and the Classroom. Great Falls, VA: Life Course Assoc. 2003. Klatt, R., K. Gavriilidis, K. Kleinsimlinghaus u. M. Feldmann [u.a.]: Nutzung elektronischer wissenschaftlicher Information in der Hochschulausbildung. Barrieren und Potenziale in der innovativen Mediennutzung im Lernalltag der Hochschulen. Endbericht, Kurzfassung, Fragebögen und Tabellenband. Dortmund: Sozialforschungsstelle Dortmund [u.a.] 2001. http:// opus.bsz-bw.de/hdms/volltexte/2004/334/(28.11.2012).
246
Richter
Lewandowski, D.: Suchmaschinen als Konkurrenten der Bibliothekskataloge. In: Zeitschrift für Bibliothekswesen und Bibliographie 53 (2006) 2. S. 71–78. McCleneghan Smith, J. u. K. Clark: Dream Catcher Capturing Student-Inspired Ideas for the Libraries’ Web site. In: Studying Students. The Undergraduate Research Project at the University of Rochester. Hrsg. von N. F. Foster u. S. Gibbons. Chicago, IL: Association of College and Research Libraries 2007. S. 30–39. Nielsen, J.: Usability Engineering. Boston, MA [u.a.]: Academic Press 1993. Nielsen, J.: Heuristic Evaluation. In: Usability Inspection Methods. Hrsg. von J. Nielsen u. R. L. Mack. New York [u.a.]: Wiley 1994. S. 25–62. Nielsen, J.: Why You Only Need to Test With 5 Users. 2000. www.useit.com/alertbox/20000319.html (28.11.2012). Nielsen, J.: Ten Usability Heuristics. 2006. www.useit.com/papers/heuristic/heuristic_list.html (28.11.2012). Notess, M., I. Kouper u. M. B. Swan: Designing Effective Tasks for Digital Library User Tests. Lessons Learned. In: Online Computer Library Center 21 (2005) 4. 300–310. OCLC: Perceptions of Libraries and Information Resources. 2005. www.oclc.org/ reports/2005perceptions.htm (30.11.2012). OCLC: Perceptions of Libraries, 2010: Context and Community. 2010. www.oclc.org/de/de/reports/ 2010perceptions/2010perceptions_all.pdf (28.11.2012). Pearrow, M.: Web Usability Handbook. 2. Aufl. Boston, MA: Charles River Media 2007. Ramey, J.: Methods for Successful „Thinking Out Loud“ Procedure. 2006. www.stcsig.org/usability/ topics/articles/tt-think_outloud_proc.html (28.11.2012). Rettig, J.: Technology, Cluelessness, Anthropology, and the Memex. The Future of Academic Reference Service. In: Reference Services Review 31 (2003) 1. S. 17–21. Richter, G.: Web-Usability. Oder: Wie man die Benutzbarkeit von Web-Seiten untersuchen kann. In: Spiegel der Forschung 19 (2002) 2. S. 75–78. Richter, G. u. G. Fritz: Leitfaden für die Usability-Prüfung von Web-Angeboten von Hochschulbibliotheken. 2005. www.uni-giessen.de/usability/downloads/Leitfaden.pdf (28.11.2012). Rubin, J.: Handbook of Usability Testing. How to Plan, Design, and Conduct Effective Tests. New York, NY [u.a.]: Wiley 1994. Sarodnick, F. u. H. Brau: Methoden der Usability Evaluation. Wissenschaftliche Grundlagen und praktische Anwendung. Bern: Huber 2006 [zuletzt: 2., überarb. u. aktual. Aufl. 2011]. Schulz, U.: „Das stiehlt meine Zeit“. Über die Nutzungsqualität von Bibliothekswebsites. In: BuB, Forum für Bibliothek und Information 54 (2002) 4. S. 224–229. Schulz, U.: Arbeitsbogen für einen Cognitive Walkthrough durch eine Website. 2007. www. bui.haw-hamburg.de/pers/ursula.schulz/use/beispiele-a-moll/Arbeitsbogen_CognitiveWalkthrough.pdf (28.11.2012). Schweibenz, W. Heuristiken für Web-Kommunikation. [o. J.] www.tekom.de/index_neu.jsp?url=/ servlet/ControllerGUI?action=voll&id=289# (28.11.2012). Schweibenz, W. u. F. Thissen: Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. Berlin [u.a.]: Springer 2003. Seadle, M.: Project Ethnography. An Anthropological Approach to Assessing Digital Library Services. In: Library Trends 49 (2000) 2. S. 370–385. Sears, A.: Heuristic Walkthroughs: Finding the Problems Without the Noise. In: International Journal of Human Computer Interaction 9 (1997) 3. S. 213–234. Shneiderman, B.: Universal Usability. In: Communications of the ACM 43 (2000) 5. S. 84–91. Shneiderman, B.: Leonardo‘s Laptop. Human Needs and the New Computing Technologies. Cambridge, MA: MIT Press 2003.
Methoden der Usability-Forschung
247
Spiliopoulou, M.: Web Usage Mining for Web Site Evaluation. In: Communications of the ACM 43 (2000) 8. S. 127–134. STC, Society for Technical Communication: Usability Toolkit. 2010. www.stcsig.org/usability/ resources/toolkit/toolkit.html (2.11.2012). VifaSys: Virtuelle Fachbibliotheken im System der überregionalen Literatur- und Informationsversorgung. Studie zu Angebot und Nutzung der Virtuellen Fachbibliotheken. 2007. www.zbw.eu/ueber_uns/projekte/vifasys/gutachten_vifasys_2007_3_5.pdf (28.11.2012). Virzi, R. A.: Refining the Test Phase of Usability Evaluation. How Many Subjects Is Enough? In: Human Factors 34 (1992) 4. S. 457–468. Waterson, S. J., J. I. Hong, T. Sohn, J. A. Landay, J. Heer u. T. Matthews: What Did They Do? Understanding Clickstreams with the Webquilt Visualization System. Proceedings of the ACM International Working Conference on Advanced Visual Interfaces. Trento, Italy, May 2002. 2002. http://guir.berkeley.edu/projects/webquilt/pubs/avi2002webquilt-final.pdf (28.11.2012). Williams, J. P., R. G. Bias u. D. J. Mayhew: Cost Justification. In: The Human-Computer Interaction Handbook. Fundamentals Envolving Technologies and Emerging Applications. 2. Aufl. Hrsg. von A. Sears u. J. A. Jacko. New York, NY: Lawrence Erlbaum Associates 2008. S. 1267–1277. Wilson, T. D.: Recent Trends in User Studies. Action Research and Qualitative Methods. 2000. http:// informationr.net/ir/5-3/paper76.html (28.11.2012). Wong, W., H. Stelmaszewska u. B. Barn: JISC User Behaviour Observational Study. User Behaviour in Resource Discovery. Final Report. 2010. www.jisc.ac.uk/media/documents/publications/ programme/2010/ubirdfinalreport.pdf (28.11.2012).
248
Richter
7 Anhang A 1: Auskunftsprotokoll aus einer Wissenschaftlichen Bibliothek. (UMYHNLU]VU)PISPV[OLRZU\[aLYPUULU\UKU\[aLYU )PISPV[OLRZZ`Z[LTKLY13