266 36 26MB
German Pages 418 [420] Year 2015
Mensch & Computer
2010
10. fach übergreifende Konferenz für interaktive und kooperative Medien Interaktive Kulturen herausgegeben von Prof. Dr.-Ing. Jürgen Ziegler und Prof. Dr. Albrecht Schmidt
Oldenbourg Verlag München
Prof. Dr.-Ing. Jürgen Ziegler ist Hochschullehrer für das Gebiet Interaktive Systeme und Interaktionsdesign an der Universität Duisburg-Essen (Campus Duisburg). Seine Forschungsschwerpunkte liegen in den Bereichen Intelligente User Interfaces, Informationsvisualisierung, Nutzerschnittstellen für semantische Daten sowie in der Gestaltung interaktiver Anwendungssysteme. Prof. Dr. Albrecht Schmidt hat an der Universität Duisburg-Essen (Campus Essen) eine Professur für Pervasive Computing und User Interface Engineering. Er forscht und lehrt im Bereich der Interaktion mit allgegenwärtigen Rechnersystemen. Schwerpunkte seiner Arbeit sind die Entwicklung interaktiver Systeme, Interaktion mit mobilen Geräten und Benutzungsschnittstellen im Automobilbereich.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2010 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Kathrin Mönch Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: grafik + druck digital К. P. GmbH, München ISBN 978-3-486-70408-2
Programmkomiteevorsitz Jürgen Ziegler (Universität Duisburg-Essen) Albrecht Schmidt (Universität Duisburg-Essen) Programmkomiteemitglieder Richard Atterer (Google Zürich) Mathias Bauer (mineway GmbH) Astrid Beck (FHT Esslingen) Wolfgang Beinhauer (Fraunhofer IAO) Udo Bleimann (Hochschule Darmstadt) Susanne Boll (Universität Oldenburg) Birgit Bomsdorf (Hochschule Fulda) Verena Broy (BMW Forschung) Raimund Dachselt (Universität Magdeburg) Markus Dahm (FH Düsseldorf) Jochen Denzinger (ma ma Interactive System Design) Anke Dittmar (Universität Rostock) Maximilian Eibl (TU Chemnitz) Markus Eisenhauer (Fraunhofer FIT) Peter Forbrig (Universität Rostock) Thomas Geis (ProContext GmbH) Stefan Göbel (Zentrum für Graphische Datenverarbeitung) Tom Gross (Bauhaus-Universität Weimar) Kai-Christoph Hamborg (Universität Osnabrück) Marc Hassenzahl (Volkwang Hochschule Essen) Rainer Heers (Visteon Deutschland GmbH) Frank Heidmann (FH Potsdam) Andreas M. Heinecke (FH Gelsenkirchen) Michael Herczeg (Universität zu Lübeck) Thomas Herrmann (Universität Bochum) Paul Holleis (Docomo Eurolabs) Andreas Holzinger (Universität Graz) Tim Hussein (Universität Duisburg-Essen) Reinhard Keil (Universität Paderborn) Martin Christof Kindsmüller (Universität zu Lübeck) Michael Koch (Universität der Bundeswehr München) Nicole Krämer (Universität Duisburg-Essen) Matthias Kranz (TU München) Heidi Krömker (TU Ilmenau) Marc Langheinrich (Universität Lugano) Ulrich Leiner (Fraunhofer Institut für Telekommunikation) Urbas Leon (TU Dresden) Sandra Leuchter (IOSB)
VI Steffen Lohmann (Universidad Carlos III, Madrid) Stephan Lukosch (Delft University of Technology) Susanne Maaß (Universität Bremen) Rainer Malaka (Universität Bremen) Peter Mambrey (Fraunhofer FIT) Florian Michahelles (ΕΤΗ Zürich) Sebastian Möller (Deutsche Telekom Laboratories, TU Berlin) Kathrin Möslein (Universität Erlangen-Nürnberg) Jörg Müller (Universität Münster/T-Labs) Karsten Nebe (C-Lab) Jörg Niesenhaus (Universität Duisburg-Essen) Jasminko Novak (Universität Zürich) Horst Oberquelle (Universität Hamburg) Reinhard Oppermann (Fraunhofer FIT) Hansjürgen Paul (Institut Arbeit und Technik) Stephan Peter (Hochschule für Medien Köln) Volkmar Pipek (Universität Siegen) Bernhard Preim (Universität Magdeburg) Wolfgang Prinz (Fraunhofer FIT) Jochen Prümper (FH Technik und Wirtschaft Berlin) Harald Reiterer (Universität Konstanz) Andreas Riener (Universität Linz) Michael Rohs (T-Labs) Enrico Rukzio (Lancaster University) Herbert Rüsseler (Fraunhofer Institut FIRST) Gabriele Schade (FH Erfurt) Heidi Schelhow (Universität Bremen) Johann Schlichter (TU München) Andreas Schräder (ISNM) Christian Stary (Universität Linz) Markus Stolze (HSR Hochschule für Technik Rapperswil) Friedrich Strauß (sd&m AG) Gerd Szwillus (Universität Paderborn) Manfred Thüring (TU Berlin) Manfred Tscheligi (Universität Salzburg) Rainer Unland (Universität Duisburg-Essen) Kristof Van Laerhoven (TU Darmstadt) Hartmut Wandke (Freie Universität zu Berlin) Michael Weber (Universität Ulm) Christa Womser-Hacker (Universität Hildesheim) Volker Wulf (Universität Siegen)
Programmkomiteemitglieder
Organisation
Veranstalter Die Konferenz Mensch & Computer 2010 findet unter dem Motto „Interaktive Kulturen" gemeinsam mit der Fachtagung DeLFI 2010 und einem Track der German UPA sowie einem Thementrack „Entertainment Interfaces" statt. Veranstalter der Konferenz sind die Gesellschaft für Informatik (Gl) sowie das German Chapter of the ACM. Lokaler Ausrichter ist die Universität Duisburg-Essen am Campus Duisburg. Lokales Organisationskomitee Ralf Berger Tanja Döring Tilman Göhnert Anne-Marie Niemeyer (Koordination) Jörg Niesenhaus Nadine Ojstersek Astrid von der Pütten Stefan Schlenkhoff Jürgen Ziegler (Leitung) (alle Universität Duisburg-Essen)
Kontakt Universität Duisburg-Essen Lehrstuhl Interaktive Systeme und Interaktionsdesign Prof. Dr.-Ing. Jürgen Ziegler Forsthausweg 2 47057 Duisburg Tel.: +49 (0203) 3 7 9 - 2 2 7 0 [email protected] http ://interaktive -kulturen. de
Inhaltsverzeichnis Vorwort
XIII
Keynote Ed H. Chi Model-Driven Research in Human-Computer Interaction
3
Beiträge Neue Interaktionstechnologien Sophie Stellmach, Thomas Brücher, Ronny Franke, Raimund Dachselt Digitale Stift- und Papierinteraktion in Virtuellen Umgebungen
7
Thomas Bader, Astrid Heck Lift-and-Drop: Lückenlose Interaktion über Displaygrenzen hinweg
17
Marcus Specht, Andrea Söter, Jens Gerken, Hans-Christian Jetter, Lorenz Bohrer, Harald Reiterer Dynamic Force Fields zur Präzisionserhöhung von Zeigegeräten
27
Kooperation in der Unternehmenspraxis Claudia Müller, Volkmar Pipek, Christian Reuter Globale Infrastruktur - lokales Arbeiten: Praxis IT-gestützter Wartung bei einem Energieversorger
37
Philipp Nussbaumer, Gerhard Schwabe Gemeinsam statt einsam: Kooperative Bankberatung
47
Sascha Bingenheimer, Tom Gross Towards Flexible Support for Dynamic and Interwoven Small Companies
57
Schnittstellengestaltung im Web Ekaterina Karavaeva, Susanne Maaß Benutzerorientierte Revision einer Informationsarchitektur
63
Dirk Lewandowski, Eva Nesbach, Nina Mikley Lokale Suchmaschinen: Evaluierung und Gestaltungsempfehlungen
73
Tim Hussein, Werner Gaulke, Anabell Hartmann, Jürgen Ziegler Wahrnehmung, Nutzung und Akzeptanz von systemgenerierten Produktempfehlungen
83
χ
Inhaltsverzeichnis
Sicherheit & Gesundheit Tobias Schwarz, Flavius Kehr, Holger Oortmann, Harald Reiterer Die Leitwarte von heute verstehen - die Leitwarte von morgen gestalten!
93
Britta Hennecken, Oliver Witt, Jessica Schwarz Makro-Ergonomische Unterstützung in Operationszentralen der Deutschen Marine
103
Steven Birr, Volker Dicken, Bernhard Preim Webbasierte Planungsunterstützimg von Lungenoperationen
113
Menschen interagieren mit Menschen Mirko Fetter, Julian Seifert, Tom Gross Vorhersagbarkeit von Selektiver Verfügbarkeit im Instant Messaging
119
Stefanie Pötzsch Einfluss wahrgenommener Privatsphäre imd Anonymität auf Forennutzer
129
Simone Braun, Andreas Schmidt, Valentin Zacharias People Tagging - Aspekte und Möglichkeiten zur Gestaltung
139
Perspektiven der MCI Peter Brödner, Markus Rohde, Gunnar Stevens, Volker Wulf Perspektivwechsel auf IS: Von der Systemgestaltung zur Strukturation sozialer Praxis
149
Joel E. Fischer Interrupting the Here and Now: Implications and Opportunities
159
Rüdiger Heimgärtner Auf dem Weg zu einem_Erklärimgsmodell kulturabhängiger Mensch-Maschine Interaktion
169
Anreize & Veränderungspotenziale Stefan Seifert, Jan Krämer, Athanasios Mazarakis Anreize zur Nutzung von Wikis in der Hochschullehre: Ergebnisse eines Pilotprojekts
179
Matthias Laschke, Sarah Diefenbach, Stephanie Heidecker, Marc Hassenzahl Transformationale Produkte: Acht Konzepte zum schonenden Umgang mit Ressourcen... 189 Stephanie Heidecker, Sarah Diefenbach, Philip Creutz, Matthias Laschke, Marc Hassenzahl Transformationale Produkte: Erleben imd wahrgenommene Veränderungspotentiale 195 Modellbasierte Entwicklung und Adaption Anke Dittmar, Peter Forbrig Repräsentation von Arbeit im modellgetriebenen versus -geleiteten Design
205
Marcel Dausend, Mark Poguntke Spezifikation multimodaler Interaktionsanwendungen mit UML
215
Inhaltsverzeichnis Dirk Veiel, Jörg M. Haake, Stephan Lukosch Kontext-basierte Adaption von gemeinsamen Arbeitsbereichen
XI
225
Einfache Interaktion für Alle Raphael Gfeller, Pascal Hauser Rotated Lines: A Heatmap representation method for people affected by any kind of color blindness
235
Alexander Mertens, Bernhard Kausch, Nicole Jochems, Christopher Schlick Selection Technique for Small Objects on Touch Screens for People with Muscle Tremor
241
Daniel Ullrich, Sarah Diefenbach INTUI. Exploring the Facets of Intuitive Interaction
251
Usability-Evaluation Julia Jürgens, Thomas Mandl, Christa Womser-Hacker Das Potenzial von Web Analytics für Usability-Evaluierungen
261
Martin Schmettow, Cedric Bach, Dominique Scapin Effizientere Usability Evaluationen mit gemischten Prozessen
271
MCI Mobil Knut Polkehn, Hartmut Wandke, Marcus Dahm Usability-Evaluation interaktiver Geräte: Online vs. Labor?
281
Martin Pielot, Benjamin Poppinga, Björn Vester, Anastasia Kazakova, Lennard Brammer, Susanne Boll Natch: A Watch-like Display for Less Distracting Pedestrian Navigation 291 Julia Niemann, Jessika Reissland, Anja Neumann Mobile Dienste im Fahrzeug: Gestaltung von Sprachausgaben zur Reduzierung visueller Ablenkung 301 Be-Greifen Mathias Heilig, Mischa Demarmels, Katrin Allmendinger, Jens Gerken, Harald Reiterer Fördern realitätsbasierte UIs kollaborative Rechercheaktivitäten? 311 Jens Heydekorn, Mathias Frisch, Raimund Dachselt Eine Architektur zum flexiblen Einsatz von gestischer Interaktion
321
Philipp Heim, Thomas Schlegel, Thomas Ertl Starke Kopplung: Interaktion als Schlüssel für das Semantic Web
331
XII
Inhaltsverzeichnis
Methoden der MCI Steffi Beckhaus, Senana Lucia Brugger, Katharina Wolter Die Artefaktkarte
341
Martin Schrepp, Theo Held Anwendung von GOMS-Analysen und CogTool in der Design-Praxis
351
Gregor Buchhob, Peter Forbrig Analyse von Handlimgsprotokollen zur Modellbildimg
361
Systemdemonstrationen Matthias Rath, Ina Wechsung, Anja Naumann Das SlidingWheel: Eine neue Interaktionsmetapher zur Navigation in großen Datenmengen
373
Tanja Döring, Axel Sylvester, Albrecht Schmidt Das „Soap Bubble Interface" - eine ephemere Benutzimgsschnittstelle
377
Rainer Blum, Birgit Börnsdorf Karim Khakzar, Dominik Virtuelle Anprobe im Internet
381
Rupprecht
Workshops Jürgen Steimle, Johann Habakuk Israel, Bernard Robben Be-greifbare Interaktionen in gemischten Wirklichkeiten
387
David Ehweiler, Heiko Haller, Martin C. Kindsmüller, Richard Pircher PKM 2010 - Workshop on_Personal Knowledge Management
389
Michael Herczeg Workshop Basismodule und Basiscurricula für die Medieninformatik
391
Daniel Munter, Kyrill Meyer Workshop „Human-Service-Interaction"
393
Alexander Nolte, Kai-Uwe Loser, Michael Koch, Nils Jeners, Florian Nutzung interaktiver Displays im Kontext kollaborativer Arbeit
Klompmaker 395
Alexander Richter, Angelika C. Bullinger, Michael Koch, Alexander Stocker Soziotechnische Integration? Bottom Up? Simplicity? Was sind die Erfolgstreiber von Enterprise 2.0?
397
Jörg M. Haake, Tim Hussein, Volkmar Pipek, Stephan Lukosch Workshop „Evaluation Adaptiver Systeme (EASYS)"
399
Autoren
403
Vorwort Interaktive Medien und Systeme verändern in tiefgreifender Weise unsere Arbeits- und Lebensweisen und damit auch unseren sozialen Kontext und unser Selbstverständnis. Unter dem Motto „Interaktive Kulturen" geht die zehnte Konferenz Mensch & Computer gemeinsam mit Deutschen e-Learning Fachtagung Informatik (DeLFI) 2010 und einem Track der German UPA zur Usability-Praxis den vielschichtigen Fragen der Mensch-TechnikInteraktion, des Lernens mit digitalen Medien und der digitalen Vernetzung in Gruppen und Gemeinschaften nach. Die Konferenz findet im Kontext der Europäischen Kulturhauptstadt Ruhr. 2010 statt und lädt dazu ein, die vielfältigen Bezüge zwischen digitalen Medien und Kultur zu explorieren. Dieser Bezug wird auch durch den speziellen Thementrack „Entertainment Interfaces" betont, in dem interaktive Aspekte von unterhaltungsbezogenen Medien und speziell von Computerspielen Gegenstand der wissenschaftlichen Diskussion sind. Die seit 2001 stattfindende Konferenz Mensch & Computer kann in diesem Jahr ihre zehnte Auflage feiern. Konnte eine jährliche deutschsprachige Veranstaltung zum Thema MenschComputer-Interaktion von ihren Ausrichtern, dem Fachbereich Mensch-ComputerInteraktion und dem German Chapter of the ACM, anfangs noch als Wagnis angesehen werden, so hat sie sich in dieser Zeit zur größten regionalen MCI-Konferenz in Europa entwickelt. Auf diese Entwicklung, die ohne die Bündelung der Kräfte mit der German Usability Professionals Association und der DeLFI -Gruppe nicht möglich gewesen wäre, kann unsere Community mit einigem Stolz zurückblicken. Thematisch hat sich das Feld in dieser Zeit erheblich weiterentwickelt und an Breite gewonnen. Der rasante Aufstieg der sozialen Netze, das Interaktiv-Werden von Objekten unserer physischen Umgebung und die fortlaufende Erweiterung unseres Portfolios an Interaktionsmöglichkeiten wie Multitouch, Gesten als Eingaben oder die Auswertung von Biosignalen sind Beispiele dafür. Diese thematische Raumgewinnung ist erfreulich und bietet neue Innovationschancen. Er kann aber auch zu einer Fragmentierung der Community und zur Themendiffusion in angrenzende Forschungsfelder führen. Umso wichtiger ist es, dass die Mensch & Computer einen Fokuspunkt und ein interdisziplinäres Forum für alle Perspektiven der MCI bietet. Die Konferenz lebt von den vielfältigen und spannenden Beiträgen, welche die Community zur Konferenz einreicht und während der Veranstaltung präsentiert und diskutiert. Autoren waren aufgerufen, ihre Arbeiten in verschiedenen Beitragsformen zur Konferenz einzureichen. Wir haben uns über die zahlreichen Einreichungen und über die herausragende Qualität der Beiträge sehr gefreut. Wir erhielten 89 Langbreiträge, 25 Kurzbeiträge und 5 Systemdemonstrationen, welche das gesamte Themenspektrum der Mensch-Computer Interaktion abdecken. Von diesen insgesamt 119 Beiträgen wurden 41 zur Veröffentlichung in diesem
XIV
Vorwort
Konferenzband angenommen. Dies entspricht einer Annahmequote von 34%. Um diesem sehr selektiven Auswahlprozess Rechnung zu tragen, wurde jeder Beitrag von mindestens drei Experten begutachtet. Zusätzlich wurden Beiträge und Gutachten noch von MetaGutachtern gelesen. In unklaren Fällen wurde weitere Gutachten eingeholt, um eine objektive Entscheidung treffen zu können. Die Sitzung des Programmkomitees musste dieses Jahr leider wegen höherer Gewalt ausfallen. Viele Mitglieder des Programmkomitees waren auf der CHI-Konferenz in Atlanta und konnten wegen des Ausbruchs des Vulkans Eyjaijallajökull in Island nicht rechtzeitig nach Europa zurückfliegen. Wir glauben, dass diese der Entscheidungsfindung nicht geschadet hat, da trotzdem eine umfassende Diskussion stattfand - teilweise elektronisch und teilweise in Atlanta. Wir wünschen Ihnen und uns eine interessante Konferenz, viele neue Anregungen und Gespräche. Albrecht Schmidt und Jürgen Ziegler
Keynote
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 3-4
Model-Driven Research in HumanComputer Interaction Ed Η. Chi Augmented Social Cognition Area Palo Alto Research Center Abstract How can we build systems that enable users to mix and match tools together? How can people share the results of their explorations with each other, and for innovative tools to be remixed? Widely-used tools such as Web Browsers, Wikis, spreadsheets, and analytics environments like R all contain models of how people mix and combine operators and functionalities. In my own research, system developments are very much informed by models such as information scent, sensemaking, information theory, probabilistic models, and more recently, evolutionary dynamic models. These models have been used to understand a wide-variety of user behaviors in human-computer interaction (HCl), from individuals interacting with a search system like MrTaggy.com to groups of people working on articles in Wikipedia. These models range in complexity from a simple set of assumptions to complex equations describing human and group behavior. In this talk, I will illustrate how a model-driven approach to answering the above questions should help to illuminate the path forward for HCl research.
Synopsis of A Position on Research in HCl Looking back on the history of Human-Computer Interaction (HCl) as a field, we see fundamental contributions mainly from two groups of researchers: (1) computing scientists interested in how technology would change the way we all interact with information, and (2) psychologists (especially cognitive psychologists) interested in the implications of those changes. This created a combustible environment for great research, because the computing scientists wanted to create great and interesting tools but did not have a great way to measure its impact, yet many classically trained psychologists were looking beyond classic research in the brain and the understanding of human cognition. One enduring core value in HCl research has been the development of technologies that augment human intelligence. This mission originates with V. Bush, Licklider, and Engelbart, who inspired many researchers at PARC to develop the graphical user interface. Researchers were excited by the possibilities of the computing machinery in producing systems that augmented human intellect. Researcher believed computers were great tools for modeling and understanding human cognition.
4
Chi
During the formation of the field, the need to establish HCl as a science had pushed us to adopt models and methods from psychology, because the models/methods fit the needs. The metaphor of the desktop, files, windows, and the graphical icons on bitmapped displays arrived naturally. The study of how users would respond to icons flashing on the screen, or how users would move a pointing device, paralleled some of the psychological experiments on stimulus and human response that psychologists were already routinely measuring. For example, Fitts' law, models of human memory, cognitive and behavioral modeling methods like GOMS enabled HCl researchers and practitioners to model a single user interacting with a single computer. But of course, computing has changed. In many cases, we can no longer assume users with only a single display, performing only knowledge work, isolated working by themselves, stationary, and conducting short tasks. As a field, HCl researchers have slowly broken out of the mold in which we were constrained. Instead, we need to build models for not just a single user working in front of a personal computer, but also models for mobile smartphones, location-based services, collaborative work, social media consumption. Model-driven research should seek to predict and to explain the how users are able to reason, combine operations, and generally how they behave in these systems. For example, the drive to do models and theories for social computing research should further our understanding of how network science, behavioral economics, and evolutionary theories could explain how social systems evolve. In this talk, as examples, I will illustrate how model-driven research have taken me and my research collaborators from modeling users searching for information in websites and eBooks to understanding how users learn using social annotations, and how complex knowledge systems like Wikipedia evolve. I will illustrate model-driven research in social computing. Our research in Augmented Social Cognition is aimed at enhancing the ability of a group of people to remember, think, and reason; to augment their speed and capacity to acquire, produce, communicate, and use knowledge; and to advance collective and individual intelligence in socially mediated information environments. In particular, we have found that (1) analyses of conflicts and coordination in Wikipedia demonstrate the need to understand evolution of social collaborative environments; and (2) information theoretic analyses of social tagging behavior in delicious.com demonstrate the need to understand human vocabulary systems. Model-driven research is a fruitful path forward not just to establish a scientific foundation for our field, but, I argue, also a way to invent and engineer systems for end-users. Acknowledgements I wish to thank the many collaborators over the years at the Palo Alto Research Center, particularly Stuart Card and current Augmented Social Cognition members: Peter Pirolli, Lichan Hong, Bongwon Suh, Gregorio Convertino, Les Nelson, and Rowan Nairn. Contact information Ed H. Chi (Palo Alto Research Center) Telefon: +1-650-812-4312
E-Mail: [email protected]
Beiträge
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 7-16
Digitale Stift- und Papierinteraktion in Virtuellen Umgebungen 1
1
2
Sophie Stellmach , Thomas Brücher , Ronny Franke , Raimund Dachselt
1
AG User Interface & Software Engineering, Otto-von-Guericke-Universität Magdeburg1; Fraunhofer Institut für Fabrikbetrieb und -automatisierang IFF2 Zusammenfassung Die Interaktion mit digitalen Stiften und Papier stellt ein vertrautes und preisgünstiges Medium für den Umgang mit Computersystemen dar. Die gewohnte Handhabung mit Stift und Papier unterstützt eine natürliche Interaktion auch in virtuellen Welten. So kann die Navigation und Systemkontrolle in virtuellen dreidimensionalen Umgebungen über papierbasierte Paletten erfolgen. Für diesen Zweck stellen wir in diesem Artikel verschiedene Prototypen für diese Aufgaben vor, die auf der Anoto Technologie basieren. Dabei wurden einfache haptische Hilfselemente wie Führungshilfen und Aussparungen verwendet, um eine Benutzung zu unterstützen, für die Benutzer nicht notwendigerweise auf die Palette schauen müssen, um damit zu interagieren. Eine qualitative Benutzerstudie bestätigte den Nutzen solcher Hilfselemente, zeigte aber auch Verbesserungspotential für die Navigation in virtuellen Umgebungen mittels papierbasierten Interfaces auf.
1
Einleitung
Virtuelle dreidimensionale (3D) Umgebungen bieten ein großes Potential für verschiedene Anwendungsbereiche, wie z.B. für virtuelles Prototyping, virtuelles interaktives Training, zum Design-Review und zu Präsentationszwecken von 3D Szenen (z.B. Stadtszenarien). So kann beispielsweise ein virtuelles Modell einer Stadt zur Evaluierung und Präsentation von städtischen Umbaumaßnahmen verwendet werden. Typische Interaktionen beinhalten dabei im Allgemeinen u.a. die Navigation durch diese Szenen und die Anwendungskontrolle mittels Buttons, Menüs und anderen Interfaceelementen. Die Szene kann zum einen klassisch am Desktop mit Maus, Tastatur und Graphical User Interfaces (GUIs), zum anderen aber auch in Kombination mit Großprojektionen und reduzierter GUI gesteuert werden. Dabei unterscheiden sich auch die verwendeten Eingabegeräte für solche Umgebungen, die neben Spezialgeräten für Experten (z.B. Flysticks) weiterhin Maus, Tastatur und Gamepads umfassen. Die Navigation mit solchen Spezialgeräten kann durchaus effizient erfolgen, erfordert aber zumeist einen gewissen Lernaufwand. Da solche Geräte bei einer wachsenden Anzahl an Funktionen schnell an ihre Grenzen stoßen, werden sie häufig durch GUIs er-
8
Stellmach, Brücher, Franke & Dachselt
gänzt. Diese können für Präsentationszwecke jedoch störend sein, weil sie den eigentlich darzustellenden Inhalt überlagern. Daraus folgen zwei wesentliche Problemstellungen. Zum einen soll eine einheitliche Nutzung von virtuellen Szenarien für unterschiedliche Ausgabemedien ermöglicht werden. Zum anderen sollen störende GUI-Elemente reduziert werden. Eine flexible Lösung stellt die Repräsentation von Funktionen auf externen Displays dar. Dabei wurde die Interaktion in einer Virtual Reality (VR) Umgebung mit Stift und digitaler Palette von Benutzern besser bewertet als getrackte Hand- und Armbewegungen (Bowman & Hodges, 1999). Die konstante physische Präsenz der mit der Hand gehaltenen Palette und die Vertrautheit der Nutzer mit dieser Metapher sind dabei zwei Hauptvorteile. Pen-and-Paper User Interfaces (PPUIs) (Steimle, 2009) bieten dabei diverse Vorteile gegenüber aktiven Displays, wie z.B. eine preiswerte Herstellung, einfache Vervielfältigung, hohe Flexibilität und Handlichkeit, sowie die Unabhängigkeit von der Bildschirmgröße und Nutzungsumgebung (z.B. Desktopbildschirme, CAVE-Systeme und 360°-Projektionen). Der Fokus unserer Arbeit liegt auf der Entwicklung neuartiger Interaktionstechniken mit digitalen Stiften und Papierpaletten für die Arbeit in virtuellen Welten, wobei wir uns vorläufig auf Navigations- und Systemkontrollaufgaben konzentrieren. Dieser Artikel ist wie folgt gegliedert. In Abschnitt 2 werden verwandte Arbeiten vorgestellt, die sich mit digitaler Stiftund Papierinteraktion beschäftigen. Konzepte für die Erweiterung der Interaktion mit PPUIs für virtuelle Umgebungen werden in Abschnitt 3 beschrieben, und in Abschnitt 4 werden zusätzliche Implementierungsdetails präsentiert. In Abschnitt 5 stellen wir eine formative Benutzerstudie vor, die wichtige Indizien für die Weiterentwicklung des vorgestellten Systems geliefert hat. Schließlich folgen in Abschnitt 6 eine Zusammenfassung der präsentierten Ergebnisse und ein Ausblick auf zukünftige Arbeiten in diesem Gebiet.
2
Verwandte Arbeiten
Im Bereich der Interaktion mit VR-Systemen gibt es diverse Ansätze, in denen stift- oder palettenartige Eingabegeräte genutzt werden. So beschreiben Bowman et al. (2004) physical tools: reale physische Objekte mit darauf bezogenen virtuellen Repräsentationen. Die Position der Objekte wird getrackt, und ein 3D Interface wird auf dessen virtueller Repräsentation angezeigt. Grundlegende erste Arbeiten dazu waren der Virtual Tricorder (Wloka, 1995), mit dem sich sowohl Bewegung als auch Objektmanipulation durchführen lassen und der über ein eingeblendetes Kommandomenü verfügt. Eine ähnliche Herangehensweise verfolgen Angus und Sowizral (1995), die die Metapher eines Bedientabletts mit Stift in eine VRUmgebung übertragen. Billinghurst et al. (1997) stellen die 3D Palette vor, ein im Raum getracktes Grafiktablett mit Stift. In der virtuellen Welt wird die Palette durch eine SDDarstellung repräsentiert, die mit verschiedenen Widgets belegt werden kann, um z.B. Objekte zu erstellen oder farblich zu verändern. Ein ähnlicher Ansatz ist das Virtual Notepad (Poupyrev, Tomokazu, & Weghorst, 1998), das die Eingabe von Schrift auf einer digitalen Palette ermöglicht. Mit der steigenden Leistungsfähigkeit von Handheld Geräten wurden auch diese als Interaktionsgerät für VR-Systeme eingesetzt. Ein Beispiel ist die Anbindung
Digitale Stift- und Papierinteraktion in Virtuellen Umgebimgen
9
eines PalmPilot PDAs an ein VR-System, der die Einbindung eines 2D-Interfaces in 3D ermöglicht (Watsen, Darken, & Capps, 1999), ohne dabei tendenziell unpassend wirkende 2D Menüs in der 3D Szene einzublenden. Im Bereich der Interaktion mit PPUIs in VR-Systemen ist bisher wenig bekannt. Voraussetzimg von PPUIs ist häufig die Anototechnologie 1 . Grundlage dafür sind ein aufgedrucktes Anotomuster und ein digitaler Stift, der mit einer Infrarot-Kamera und Bildverarbeitungssoftware ausgestattet ist, die es ihm ermöglichen, Aufnahmen vom zugrundeliegenden Anotomuster zu machen. Auf Grund der besonderen Struktur des Musters ist es möglich, die absolute Position des Stifts auf dem Papier zu bestimmen. Eine direkte Konvertierung von Bildschirm-GUIs zu einem papierbasierten Interface ist nur bedingt empfehlenswert (Steimle, Brdiczka, & Mühlhäuser, 2009). Der Einsatz von PPUIs für Systemkontrollaufgaben ist relativ losgelöst von der zugrundeliegenden Dimension der Umgebung. So stellen Signer und Norrie (2007) PaperPoint vor, um Powerpoint-Präsentationen mittels digitalem Stift und Papier zu steuern. Die mit dem Anoto-Punktmuster auf Papier ausgedruckten Präsentationsfolien können dazu genutzt werden, um bspw. Folien mit dem Stift auszuwählen und Funktionen zu starten. Nach einem ähnlichen Prinzip können auch Papierpaletten für die Auswahl von verschiedenen Diagrammelementen für die Software-Modellierung genutzt werden (Dachselt, Frisch, & Decker, 2008). Alles in allem gibt es diverse Ansätze für die Kombination von Stift- und Palettenvarianten im Kontext von VR-Umgebungen. Allerdings sind diese größtenteils kostspielig und verwenden getrackte elektronische Geräte. Die Verwendimg von Papier-Interfaces für SDInteraktion wurde bisher noch nicht vorgestellt. Zudem wurde wenig über haptische Hilfselemente berichtet, die die Interaktion mit in der Hand gehaltenen Paletten vereinfachen könnten. Somit bietet dies einen Ansatzpunkt für weitere Untersuchungen.
3
Konzept
Unser Konzept konzentriert sich auf die Entwicklung eines handlichen und robusten PPUIs, das benutzt werden kann, um sich in virtuellen 3D Umgebungen zu bewegen und um Kontrollaufgaben (wie z.B. den Start von Rundflügen, die Einnahme von bestimmten Ansichten, und den Abruf von Informationen) auszulösen. Nachdem die mögliche Interaktion mit dem PPUI in Abschnitt 3.1. spezifiziert wird, konzentrieren sich die weiteren Ausführungen auf folgende Annahmen bzw. Herausforderungen: • • •
1
PPUIs sind für intuitive Interaktionen geeignet (geringer Lernaufwand) PPUIs können mehrere Interaktionsaufgaben integrieren PPUIs ermöglichen die Interaktion mit VR-Szenarien unabhängig von konkreten Nutzungsumgebungen
Anoto Group AB, http ://www.anoto.com/
10
3.1
Stellmach, Brücher, Franke & Dachselt
Interaktion mit dem PPUI
Das PPUI soll sowohl zur Navigation durch die virtuelle Szene als auch zur Anwendungskontrolle genutzt werden. Für die Anwendungskontrolle sollen diskrete Bereiche (Buttons) auf dem Papier verwendet werden, die es ermöglichen, ähnlich wie bei virtuellen Buttons, diese durch Berührung zu aktivieren oder zu deaktivieren. Bei der Navigation in VR-Szenen unterscheiden wir zwei Hauptkategorien: die direkte und die indirekte Navigation. Bei der indirekten Navigation kann man mittels digitalen Stifts einen Start- und Endpunkt bzw. eine Route auf einer ausgedruckten Übersichtskarte der Szene einzeichnen. Für die direkte Navigation durch die Szene gehen wir von einer vereinfachten Variante aus: der Benutzer kann die virtuelle Kamera frei in einer horizontalen Ebene (vorgegebene Höhe; Springen oder Fliegen ist nicht möglich) bewegen, wobei sich die Kamera immer in Blickrichtung bewegt. Somit genügt es, zwei Aufgaben für die Navigation zu unterscheiden: die Rotation und die Beschleunigung der Kamera. Für beide Aufgaben können kontinuierliche Bereiche auf der Papierpalette definiert werden, auf denen der Benutzer den Stift bewegen kann. Wird der Stift also bspw. auf diesem Bereich nach links bewegt, soll dies zu einer Linksdrehung der Kamera führen. Sobald der Stift den Navigationsbereich verlässt, stoppt die Kamerabewegung, um zu vermeiden, dass die Kamera sich zu weit bewegt.
3.2
Zusammenführung verschiedener Eingabemodalitäten
PPUIs stellen eine flexible Möglichkeit dar, Funktionen von verschiedenen Quellen zu vereinen, so z.B. von GUIs, aber auch anderen Eingabegeräten wie Maus und Keyboard. Tasten-Kombinationen, die ein Benutzer lernen muss und somit einen höheren mentalen Aufwand bedeuten, könnten so übersichtlich auf einer Palette positioniert werden, um ihren Wiedererkennungswert zu erhöhen und einen Wechsel zwischen verschiedenen Eingabemodalitäten zu vermeiden.
3.3
Interaktions-Feedback
Für haptisches Feedback können Führungshilfen, wie z.B. Aussparungen und Halterungen, eingesetzt werden, um die Interaktion zu erleichtern. Hachet und Kulik (2008) nutzen bspw. einfache Gummibänder für elastisches Feedback für die Stiftinteraktion mit einem PDA. Für die kontinuierliche Bewegung sind solche Führungsunterstützungen hilfreich, da der Blick auf der VR-Projektion verweilen kann, ohne die visuelle Aufmerksamkeit zwischen beiden Modalitäten wechseln zu brauchen. Dieser Vorteil soll insbesondere für die verbesserte Navigation genutzt werden, indem Aussparungen und elastisches Feedback bspw. besseren Aufschluss über die Stiftposition zur Anpassung der Kamerabewegung geben sollen.
3.4
Erstellung und Gestaltung des PPUI
Unser Konzept für das Design eines PPUI basiert auf dem Ansatz, dem Benutzer eine feste Unterlage zur Verfügung zu stellen, in die die mit verschiedenen Menüelementen bedruckten
Digitale Stift- und Papierinteraktion in Virtuellen Umgebimgen
11
Papierbögen flexibel und nach Bedarf eingespannt werden können. Zusätzlich sollen Haltegriffe imd Befestigimgen für den Stift berücksichtigt werden. Neben der Erstellung einer robusten Interaktionsunterlage müssen auch Aspekte hinsichtlich des Interfacedesigns beachtet werden. So muss Rücksicht darauf genommen werden, dass Menüelemente groß genug entworfen werden, damit die Positionserkennung des digitalen Stifts nicht beeinträchtigt wird. Die Gestaltung der Papierbögen soll auf einem modularen Ansatz basieren. Jedes Modul kann dabei aus einer Reihe von Interfaceelementen bestehen, die in ihren Wechselwirkungen abgeschlossen sein sollten. Die Module sollen ähnlich wie beim Aufbau von Webseiten (Stapelkamp, 2007) frei positionierbar an einem Rastergitter ausgerichtet werden.
4
Umsetzung
Die softwaretechnische Umsetzimg des Konzeptes erfolgte auf Basis der VDT-Plattform des Fraimhofer IFF. Mit Microsoft Visual Studio 2005 wurden verschiedene Plugins in C++ mit der internen Entwicklimgsbibliothek entwickelt, welche auf OpenSG2, einem OpenGL basierten Open Source Szenengraphensystem, aufsetzt. Als digitaler Stift wurde der Anoto ADP-301 Stift verwendet. Das Anwendungsszenario war ein virtuelles Stadtszenario der Lutherstadt Eisleben, die auch für die Benutzerstudie (siehe Abschnitt 5) verwendet wurde. Die Navigation erfolgte in diesem Modell bisher durch Maus, Tastatur und Gamepad. Die Systemkontrolle (Auslösen von Aktionen) erfolgte mittels einer GUI, die über der Szene dargestellt wurde. Diese Interaktionsmethoden wurden nun durch ein PPUI ersetzt, indem geeignete Menüelemente auf das Papierinterface gedruckt wurden (siehe Abb. 1). Dabei haben wir uns vorerst auf die direkte Navigation konzentriert. Neben einer einfach gehaltenen Variante Α (Abb. 2a) wurden auch Aussparungen (Abb. 2b) für eine unterstützte Navigation verwendet. So wurde mittig eine gebogene Aussparung für eine unterstützte Rotation angelegt, während kleinere rechteckige Aussparungen links für zusätzliche Systemkontrollfunktionen erstellt wurden. Die dritte Variante (Abb. 2c) integriert elastische Gummizüge, die ebenfalls als Führungshilfen für eine verbesserte Kamerarotation dienen sollen. Dabei gliedert sich der Navigationsbereich jeweils in zwei Teile, um die Palettenalternativen später besser vergleichen zu können. Die ausgedruckten Interfaceelemente wurden mit Hilfe eines eigens entwickelten Interfacedesignprogramms entworfen, das es ermöglicht, in Bezug zu dem zugrundeliegenden Anotomuster Menüelemente direkt mit Systemfunktionen zu kombinieren. Auf diese Weise ist es möglich, individuelle PPUIs für unterschiedliche Szenarien zu erstellen. Für die Navigation wurden verschiedene Varianten von diskreten und kontinuierlichen Elementen umgesetzt und erprobt. Basierend auf diesem PPUI war das virtuelle Stadtmodell schließlich ebenso funktional wie mit den ursprünglichen Interaktionsmethoden (u.a. GUI und Maus).
1
~ Siehe http://www.opensg.org
12
Stellmach, Brücher, Franke & Dachselt
Abbildungl:
5
Gegenüberstellung vom GUI im Szenario und vom Paletteninterface.
Formative Benutzerstudie
Um die vorgestellten Prototypen hinsichtlich ihrer Benutzbarkeit und Benutzerfreundlichkeit hin zu testen, wurde eine Benutzerstudie durchgeführt. Dabei wurden zum einen die PPUIInteraktion mit traditionellen Eingabegeräte (Gamepad imd Maus) verglichen, da diese bisher für die Benutzung der VDT-Plattform verwendet wurden. Zum anderen wurden verschiedene Designalternativen verglichen. Der experimentelle Aufbau, die Durchführung und Ergebnisse werden im Folgenden beschrieben.
5.1
Teilnehmer
An der Studie nahmen 14 Personen teil, die alle männlich, zwischen 22 und 33 Jahren alt (Mittelwert [M] = 25,8; Standardabweichung [SD] = 3,17) und Rechtshänder waren. Es wurden zwei Eingabegerätekombinationen unterschieden: (1) Gamepad, Maus imd GUI und (2) Stift und Palette. Die Teilnehmer wurden daher gleichmäßig auf zwei Gruppen verteilt, um die Eingabegerätekombination, mit der die Aufgaben zu Beginn bearbeitet wurden, zu variieren. Die Teilnehmer wurden zu ihren Erfahrungen mit virtuellen Welten imd digitalen Stiften befragt. Dabei stellte sich heraus, dass sich die Teilnehmer häufig mit virtuellen 3D Umgebimgen beschäftigen (M = 20 Stunden/Wo che; SD = 9,07), während sie eher weniger Erfahrung mit digitalen Stiften haben (M = 2,36; SD = 1,28 basierend auf einer 5-PunktLikert-Skala mit keine Erfahrung [1] bis umfassende Erfahrung [5]).
а) (b) (c) Abbildung 2: Drei Varianten der entwickelten papierbasierten Eingabepaletten. Die Navigation wird durch Führungsschienen/Aussparungen (Mitte) und durch haptisches Feedback (Rechts) unterstützt.
Digitale Stift- und Papierinteraktion in Virtuellen Umgebungen
5.2
13
Materialien
Die Studie beinhaltete zwei Abschnitte. Im Versuchsteil I sollten die Teilnehmer drei Aufgaben mit den verschiedenen Eingabegerätekombinationen erfüllen. Dabei begann Gruppe A mit Gamepad (für die Navigation in der 3D Szene), Maus (zur Bedienung des GUIs) und GUI, während Gruppe В mit Stift und Palette (Abb. 2a) anfing. Eine kurze Zusammenfassung der Aufgaben ist im Folgenden aufgeführt: 1. 2. 3.
Einfache Navigation: Bewegung zu einem vorgegebenen Zielpunkt Ausführen von Systemkommandos: u.a. das Starten von automatischen Rundflügen und das Einblenden von zusätzlichen Informationen Navigation mit Systemkontrolle: eine Kombination von Aufgabe 1 und 2
Im Versuchsteil II sollten die drei PPUI-Prototypen (siehe Abb. 2) miteinander insbesondere hinsichtlich der Navigation verglichen werden. Daher sollten die Benutzer die Paletten zur freien Bewegung im VR- Szenario nutzen und ihre Eindrücke berichten. Die Datenerhebung hinsichtlich der Benutzbarkeit und Benutzerzufriedenheit erfolgte über Fragebögen. Dazu wurde nach jedem Versuchsteil und am Ende der Studie ein Fragebogen ausgehändigt. Die Zwischenfragebögen hinterfragten u.a. ob ein bestimmtes Eingabegerät für bestimmte Interaktionsaufgaben bevorzugt wurde und ob notwendige Funktionen problemlos gefunden wurden. Im Endfragebogen sollte neben der Einschätzung der getesteten Geräte, zudem eine Beurteilung des Layouts von Palette Α erfolgen.
5.3
Versuchsaufbau
Als Versuchsumgebung diente eine mobile Rückprojektionsanlage mit einer Großleinwand, auf der ein virtuelles Stadtszenario der Lutherstadt Eisleben dargestellt wurde. Da die gestellten Aufgaben im Stehen zu erfüllen waren, wurde weiterhin ein Stehtisch aufgestellt, auf dem die Maus sowie die jeweilige Aufgabenstellung in gedruckter Form für den Probanden in Reichweite lagen (siehe Abb. 3). Nach der Begrüßung durch den Versuchsleiter mussten die Teilnehmer zuerst einen Fragebogen zu ihrem persönlichen Hintergrund ausfüllen. Der Versuchsleiter war während des Ablaufs und bei Beantwortung der Fragen im Raum und stand für Hilfestellungen zur Verfügung. Darauf folgten eine Präsentation des virtuellen Stadtszenarios und eine Beschreibung zum Studienablauf. Ein Versuchsdurchlauf dauerte etwa 40 bis 50 Minuten. Versuchsteil I. Vor dem Start der ersten Aufgabe konnte sich jeder Teilnehmer in einer Aufwärmphase von zwei Minuten mit der zuerst zu nutzenden Eingabegerätekombination (siehe Abschnitt 5.1) und dem Szenario vertraut machen. Der Versuchsleiter erläuterte dazu technische Details der Eingabegeräte (z.B. die Zuordnung von Steuerelementen am Gamepad zu Funktionen), sowie des Szenarios. Daraufhin wurde dem Probanden die Aufgabe vorgelesen und Unklarheiten kurz erläutert. Nach Beendigung der ersten Aufgabe mit der ersten Eingabegerätekombination konnten die Teilnehmer sich zwei Minuten lang mit der zweiten Gerätekombination vertraut machen, um dann die Aufgabe zu wiederholen. Die Durchführung der zweiten und dritten Aufgabe lief nach dem gleichen Schema ab, jeweils aber ohne
14
Stellmach, Brücher, Franke & Dachselt
Abbildimg 3: Der Versuchsaufbau mit einem Testteilnehmer, der mit der Palette vor der Projektion steht.
Aufwärmphase. Nach jeder Aufgabe wurde der gleiche Zwischenfragebogen vorgelegt, um einen Vergleich zwischen den verschiedenen Aufgaben ziehen zu können. Versuchsteil II. Im zweiten Teil der Studie wurden den Teilnehmern zwei alternative Eingabepaletten vorgestellt (siehe Abb. 2). Nach einer kurzen Erläuterung konnten die Teilnehmer die Paletten ausprobieren, indem sie sich frei damit im Szenario bewegen konnten. Im Anschluss darauf folgten ein kurzer Fragebogen zu diesem Testteil imd der Endfragebogen der Studie.
5.4
Ergebnisse & Diskussion
Wie nach Signer und Norrie (2007) bereits zu erwarten war, stellte sich die Eingabemethode mit Stift/Palette als geeignet heraus zum Ausfuhren von Systemfunktionen, auf die sonst über eine GUI-Lösung zugegriffen werden müsste. So würden 71% der Befragten das Stiftund Papiersystem verwenden für das Ausführen von Systemkommandos. Lediglich 14% würden diese jedoch für 3D Navigation nutzen wollen. Somit scheint zumindest in der aktuellen Umsetzung das System noch nicht geeignet für 3D Navigation zu sein. Dies könnte u.a. an zu schnellen Bewegungsänderimgen der Kamera, zum anderen an Problemen mit dem Stifttracking gelegen haben. Eine Hauptfehlerquelle bei der Benutzung war die Verdeckimg der Stiftkamera an den Randbereichen der Halterung. Eine Lösung wäre hier ein höheres Ansetzen der Halterung am Stift, die über der Kamera liegt. Am interessantesten für die weitere Verbesserung der Navigation stellte sich der Palettenprototyp mit elastischer Führungsunterstützung (siehe Abb. 2c) heraus. Die Möglichkeit, durch die beiden mit Hilfselementen versehenen Paletten nicht mehr so oft zur Korrektur auf die Palette schauen zu müssen, wurde von den Teilnehmern erkannt und positiv kommentiert. Obwohl der Blickwechsel zwischen der Palette und der 3D-Szene nicht als störend empfunden wurde (M = 2,5; SD = 1,13 mit [1] nicht störend bis [5] störend), fiel der Wechsel bei Navigationsaufgaben dennoch negativer auf (M = 2,82; SD = 1,30). Dies könnte wieder in Zusammenhang mit zu schnellen Bewegungsabläufen in der Szene stehen.
15
Digitale Stift- und Papierinteraktion in Virtuellen Umgebungen
Die Teilnehmer sollten das UI-Layout der im ersten Versuchsteil genutzten Palette anhand von 5-Punkt-Likert-Skalen mit zwei sich gegenüberstehenden Eigenschaftspaaren beurteilen. Eine deutliche Tendenz zeigte sich bei den Eigenschaftspaaren effizient - überladen und ungeordnet - sortiert. Das gitterartige UI-Layout der Palette wurde dabei als effizient (M = 2,00; SD = 0,96) und sortiert (M = 4,43; SD = 0,85) bewertet. Des Weiteren sollten die Teilnehmer anhand der Eigenschaftspaare präzise - unpräzise, anstrengender
- komfortabler
und
intuitiver - unintuitiver einen Vergleich zwischen der Navigation mit Gamepad und Stift ziehen. Die Navigation mit dem Stift wurde dabei als unpräziser (M = 3,74; SD = 1,2), anstrengender (M = 2,0; SD = 1,04) und unintuitiver (M = 3,43; SD = 0,85) bewertet. Dabei ergaben die qualitativen Antworten, dass vorrangig die Richtungsänderung mit dem Stift dies negativ beeinflusste. Somit ergeben sich verschiedene Verbesserungsmöglichkeiten für das vorgestellte System. Ein Hauptkritikpunkt betraf die Navigation mit dem PPUI. Für diesen Zweck sollten die Maximalgeschwindigkeit und Beschleunigung der Kamerabewegung anpassbar sein, um zu schnelle Bewegungsabläufe zu vermeiden und die Orientierung des Benutzers zu verbessern. Zum anderen sollten die haptischen Palettenelemente hinsichtlich einer guten Anotomustererkennung optimiert werden (Vermeidung von Verdeckungen).
6
Zusammenfassung
In diesem Artikel wurde ein Ansatz vorgestellt, um mit Hilfe eines digitalen Stift- und Papiersystems eine alternative Interaktionsmöglichkeit für virtuelle Umgebungen zu bieten. Dies stellt eine flexible, kostengünstige, handliche und vom Projektionssystem unabhängige Alternative zu traditionellen Eingabegeräten, wie Maus und Gamepad, dar. Zudem lassen sich haptiche Hilfselemente einfach integrieren für eine bessere Führungsunterstützung. Für diesen Zweck wurden verschiedene Prototypen für digitale Pen-and-Paper User Interfaces (PPUIs) vorgestellt, die für die Navigation und Systemkontrolle in VR- Szenarien genutzt werden können. Zusätzliche haptische Hilfselemente, wie Aussparungen und elastische Führungshilfen, wurden berücksichtigt, um die Interaktion zu unterstützen. Neben der Beschreibung der Konzeption und Implementierung unseres papierbasierten Palettensystems wurde dieses in einer formativen Benutzerstudie getestet und mit traditionellen Eingabegeräten (Maus und Gamepad) verglichen. Dabei hat sich gezeigt, dass sich PPUIs sehr gut für das Ausführen von Systemkontrollaufgaben eignen, da die Interaktion als angenehmer als mit GUIs empfunden wurde. Die Navigation mittels der vorgestellten PPUI-Prototypen wurde noch nicht als intuitiv eingeschätzt, aber Verbesserungspotential wurde aufgezeigt (bspw. eine verbesserte Kamerabewegung). Somit bieten die Ergebnisse der Studie einen guten Ausgangspunkt für zukünftige Arbeiten. Literaturverzeichnis Angus, I., & Sowizral, H. (1995). Embedding the 2D interaction metaphor in a real 3D virtual environment. SPIE (Vol. 2409) , S. 282-293. Billinghurst, M., Baldis, S., Matheson, L., & Philips, M. (1997). 3D Palette: A Virtual Reality Content Creation Tool. VRST '97 (S. 155-156). ACM.
16
Stellmach, Brücher, Franke & Dachselt
Bowman, D. Α., & Hodges, L. F. (1999). Formalizing the Design, Evaluation, and Application of Interaction Techniques for Immersive Virtual Environments. Journal of Visual Languages and Computing (Vol. 10) , 37-53. Dachselt, R., Frisch, Μ., & Decker, Ε. (2008). Enhancing UML sketch tools with digital pens and paper. SOFTVIS, (S. 203-204). ACM. Hachet, M., & Kulik, A. (2008). Elastic Control for Navigation Tasks on Pen-based Handheld Computers. 3DUI '08 (S. 91-96). Washington, DC, USA: IEEE Computer Society. Poupyrev, I., Tomokazu, N., & Weghorst, S. (1998). Virtual Notepad: Handwriting in Immersive VR. VRAIS '98 (S. 126). Atlanta: IEEE Computer Society. Signer, В., & Norrie, Μ. (2007). PaperPoint: A Paper-Based Presentation and Interactive Paper Prototyping Tool. ΤΕΓ07. Baton Rouge. Stapelkamp, Т. (2007). Screen- und Interfacedesign Software. Berlin: Springer.
- Gestaltung und Usability für Hard- und
Steimle, J. (2009). Designing Pen-and-Paper User Interfaces for Interaction with Documents. ТЕГ09. Cambridge, UK. Steimle, J., Brdiczka, O., & Mühlhäuser, Μ. (Vol. 2, No. 3. 09 2009). CoScribe: Integrating Paper and Digital Documents for Collaborative Knowledge Work. IEEE Transactions on Learning Technologies , S. 174-188. Watsen, K., Darken, R., & Capps, M. (1999). A Handheld Computer as an Interaction Device to a Virtual Environment. International Projection Technologies Workshop. Stuttgart, Germany. Wloka, Μ. M. (1995). The virtual tricorder: a uniform interface for virtual reality. 8th annual ACM symposium on User interface and software technology (S. 39-40). Pittsburgh: ACM.
Danksagung Die vorliegende Arbeit wurde v o m Deutschen Ministerium für Bildung und Forschung im Rahmen des ViERforES-Projektes (BMBF, Projekt-Nr.: 01IM08003C) finanziert. Kontaktinformationen Dipl.-Ing. Sophie Stellmach (Otto-von-Guericke-Universität Magdeburg) Telefon: (+49-391) 67-12189 E-Mail: [email protected]
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 17-26
Lift-and-Drop: Lückenlose Interaktion über Displaygrenzen hinweg Thomas Bader, Astrid Heck Karlsruher Institut für Technologie, Fraunhofer IOSB Zusammenfassung Heute bestehen viele Arbeitsplätze aus mehreren mobilen und/oder fest installierten Displays. Die Interaktion in solchen Multidisplay-Umgebungen ist häufig geprägt vom PC-Paradigma - ein Benutzer arbeitet an einem Display. In diesem Artikel wird ein videobasiertes Eingabegerät namens Airlift vorgestellt, welches Hände und Fingerspitzen unabhängig von den eingesetzten Displays erfasst. Dies ermöglicht die Umsetzung „interaktiver Luftbrücken" durch lückenlose Interaktion über Displaygrenzen hinweg. Zusätzlich wird eine darauf basierende neue Interaktionstechnik Lift-and-Drop vorgestellt und evaluiert, welche es erlaubt, Objekte zwischen unterschiedlichen Displays mit kontinuierlichem Feedback zu verschieben. Die Ergebnisse der Studie zeigen, dass die neue Technik zum displayübergreifenden Verschieben von Objekten Vorteile gegenüber Techniken bietet, welche auch durch herkömmliche, auf eine Displayoberfläche begrenzte Eingabegeräte realisiert werden können.
1
Einleitung
In den letzten Jahrzehnten wurde die Mensch-Maschine-Interaktion maßgeblich durch das Paradigma des personal computings geprägt, welches hauptsächlich die Interaktion mit einem einzigen Display über eine Maus und eine Tastatur als Eingabegeräte vorsieht. Die Variantenvielfalt kommerziell erhältlicher Displays hat sich zwischenzeitlich ständig erhöht, was den Aufbau komplett neuer Interaktionsumgebungen ermöglicht. Diese können sich beispielsweise aus großflächigen vertikalen Anzeigen, horizontalen Tischdisplays, mobilen Tablett-PCs, Smartphones oder PDAs zusammen setzen. Die Entwicklung neuer Interaktionstechniken für solche Multi-Display Umgebungen steckt noch in den Kinderschuhen und die verwendeten Eingabegeräte und -techniken sind oft noch sehr stark durch den klassischen Aufbau eines PCs geprägt. Für Arbeitsplätze mit nur einem Display wurden in den vergangenen Jahrzehnten viele neue Eingabegeräte und Interaktionstechniken vorgestellt. Vor allem der Entwicklung von Touchund Multitouch-Technologien wurde in den letzten Jahren große Aufmerksamkeit gewidmet. Inzwischen werden diese Displays im alltäglichen Gebrauch sowohl als sehr kleine (z.B.
18
Bader & Heck
Apple iPhone) als auch als große Tisch- und Wanddisplays (z.B. Microsoft Surface, DiamondTouch, Perceptive Pixels) eingesetzt. Allerdings ist die Erfassung von Eingaben bei diesen Technologien nur bei Berührung oder geringfügig oberhalb der Displayoberfläche möglich. Eine kontinuierliche Erfassung über Displaygrenzen hinweg ist hingegen nicht möglich. Einige aktuelle Ansätze, z.B. (Hilliges et al. 2009) und (Hirsch et al. 2009) beschäftigen sich mit der Erfassung von Eingaben auch in größerer Entfernung zur Anzeige über Sensorik, die in oder hinter der entsprechenden Anzeige angebracht ist. Auf der Anzeige liegende Objekte, wie insbesondere bei horizontalen Anzeigen häufig der Fall, führen allerdings zu Verde ckung, wodurch z.B. eine displayübergreifende Erfassung von Eingaben bei übereinander angeordneten Anzeigen (z.B. Tablett-PC auf Tisch) nicht möglich ist. Die Interaktion mit klassischen Doppelmonitorsystemen wird häufig mittels Maus realisiert, welche zwischen den beiden Anzeigen verschoben werden kann. (Johanson et al. 2002) haben diese Art der Interaktion auf eine komplexere Multi-Display Umgebung übertragen. Für Umgebungen mit fester Anordnungen von Displays ist dieser Ansatz eine sinnvolle Erweiterung. Variieren jedoch die Anordnungen der Anzeigen und soll die Interaktion mit mobilen Displays unterstützt werden, ist die Realisierung von sinnvollen Übergängen des Cursors von einem Display auf ein anderes schwierig. Eine weitere Möglichkeit zur displayunabhängigen Erfassung von Benutzereingaben in einer Multi-Display Umgebung ist die Installation von Kameras in der Umgebung. Solche videobasierten Ansätze wurden bereits für die Interaktion mit einzelnen horizontalen und vertikalen Displays realisiert, z.B. in (Agarwal et al. 2007) und (Letessier & Berard 2004). Meist werden hierbei Fingerspitzen detektiert, deren Position dann als Eingabe für die Interaktion mit dem entsprechenden Display dient. Ein weiteres videobasiertes System für die Interaktion in Multi-Display Umgebungen wurde in (Oblong g-speak 2010) vorgestellt. Hier werden Eingaben über spezielle Marker bzw. Handschuhe erkannt. Neben den oben beschriebenen Eingabegeräten finden sich in der Literatur zudem zahlreiche Interaktionstechniken für Multi-Display Umgebungen, welche auf displayabhängigen Eingabegeräten (z.B. Touch oder Stift) basieren. Beispiele sind Hyperdragging (Rekimoto & Seitoh 1999), Push-and-Pop oder Drag-and-Pop (Collomb et al. 2005). Weitere Techniken zum Verschieben von Objekten zwischen zwei Displays wurden in (Nacenta et al. 2005) vorgestellt und evaluiert. In der in diesem Paper vorgestellten Benutzerstudie wird die neu vorgeschlagene Interaktionstechnik Lift-and-Drop mit zwei Techniken aus (Nacenta et al. 2005) verglichen, nämlich mit Pick-and-Drop (Rekimoto 1997) und Slingshot (Hascoet 2003).
2
Lückenlose displayübergreifende Interaktion
Um eine lückenlose displayübergreifende Interaktion mit direkten Interaktionstechniken zu unterstützen wurde ein neues videobasiertes Eingabegerät entwickelt, welches einen kontinuierlichen räumlichen Eingabebereich in einer Multi-Display Umgebung aufspannt. Diese wird im nächsten Abschnitt näher vorgestellt. Um mobile Displays in der Umgebung zu lokalisieren wird ein markenbasiertes Trackingsystem verwendet. Für den displayübergrei-
Lift-and-Drop: Lückenlose Interaktion über Displaygrenzen hinweg
19
fenden Austausch von Informationen wird eine spezielle Kommunikationsinfrastruktur eingesetzt, welche Eingaben in Abhängigkeit von deren räumlichem Bezug zu Displays umleitet und/oder interpretiert. Details hierzu sind in (Bader et al. 2010) zu finden. Stereokameras
Abbildimg 1: Der Versuchsaufbau mit Parametern, die von Airlift erkannt werden können (3D Positionen und Handsvmbole) (links), displayübergreifendes Verschieben von Objekt (mitte) und eine Marke auf der Rückseite eines Tablett-PCs, welche dessen Lokalisierung in einer Multi-Displav Umgebung verwendet wird (rechts)
2.1
Airlift. Ein neues videobasiertes Eingabegerät
Eine Luftbrücke {engl.: Airlift) im klassischen Sinn verbindet zwei geographische Gebiete, die durch schwer überwindbare Grenzen getrennt sind und ermöglicht den Transport von Gütern zwischen diesen Gebieten. Mit dem hier vorgestellten videobasierten Eingabegerät namens Airlift können neue Interaktionstechniken zum "Transport von virtueller Ladung" über Displaygrenzen hinweg realisiert werden. Die Erfassung von Eingaben erfolgt über ein Stereokamerasystem, durch welches ein pyramidenförmiger interaktiver Bereich aufgespannt wird. Dieser wird im nahen Infrarot ausgeleuchtet. In Abbildung 1, links ist ein entsprechender Aufbau schematisch für ein Multi-Display System dargestellt, welches aus einer horizontalen Anzeige mit darauf liegendem Tablett-PC sowie einer vertikalen Anzeige besteht. Die Sensorik kann prinzipiell auch in beliebigen anderen Umgebimg installiert werden, in denen sichergestellt ist, dass die menschliche Haut sich durch ihre Reflektanzeigenschaften im nahen Infrarot vom Hintergrund unterscheiden lässt. Erfasste Bilder werden auf einem handelsüblichen Rechner in Echtzeit (50 Hz) verarbeitet. Das System kann sowohl 3D-Positionen von Händen und Fingerspitzen erkennen, als auch zwischen verschiedenen Handsymbolen unterscheiden. Die Anzahl der Handsymbole, welche erkannt werden, kann durch trainieren des System an die Bedürfnisse der Anwendung angepasst werden. Standardmäßig werden bis zu 16 verschiedene Handsymbole unterschieden. Die zugrundeliegenden Verfahren zur videobasierten Erkennung der Handgesten wurden bereits in (Bader et al. 2009) ausführlich beschrieben. Der Fokus dieses Artikels liegt auf der Darstellung und Evaluierung neuer Interaktionstechniken, welche dadurch ermöglicht werden.
20
Bader & Heck
Ein Vorteil von Airlift gegenüber (Multi-)Touchscreens ist, dass die Eingabe ein oder mehrerer Benutzer nicht über die Oberfläche eines bestimmten Displays erfolgt, sondern kontinuierlich im dreidimensionalen Eingaberaum erfasst wird. Dies ermöglicht eine nahtlose Interaktion im Greifraum über Displaygrenzen hinweg und erlaubt zudem die Interaktion mit entfernten Displays oder Displayregionen. Berührungen von einzelnen Displays werden beim Unterschreiten eines bestimmten Abstands zwischen Fingerspitzen und einer Displayoberfläche detektiert. Durch die Erfassung der gesamten Hand bzw. mehrerer Hände sowie der Unterscheidimg verschiedener Handsymbole ohne künstlich angebrachte Marker unterscheidet sich Airlift von den oben vorgestellten videobasierten Ansätzen aus der Literatur.
2.2
Interaktionstechniken
Ein wichtiger Anwendungsfall in Multi-Display Umgebungen ist das Verschieben von Icons, welche Daten auf einem bestimmten Gerät repräsentieren, von einem Gerät auf ein anderes. Ein Beispiel, welches hier näher betrachtet werden soll, ist das Verschieben von Daten von einem „privaten" mobilen Gerät (z.B. Tablett-PC) auf ein „öffentliches" Display (z.B. TischDisplay). Hierzu werden im Folgenden drei verschiedene Interaktionstechniken zum Verschieben von Objekten über Displaygrenzen hinweg vorgestellt. Während zwei der Techniken auch mit herkömmlichen Eingabegeräten (z.B. Stift oder Touchscreen) implementiert werden können, kann die in diesem Artikel erstmals beschriebene Technik Lift-and-Drop nur mit einem Eingabegerät wie Airlift, welches die Eingabe unabhängig von einem Display im 3-dimensionalen Raum erfasst, umgesetzt werden.
TiSCh
TiSCh
Objektbewegung/ visuelles Feedback
Abbildimg 2: Die unterschiedlichen
•
•
Tisch Handbewegung
Interaktionstechniken fir das Verschieben eines Objekts von einem auf ein darunter liegendes Tisch-Displav
Tablett-PC
Slingshot ist eine indirekte Technik, welche von (Nacenta el al. 2005) vorgestellt imd evaluiert wurde (Abbildung 2, links). Ähnlich der von (Hascoet 2003) vorgestellten Drag-and-Throw-Technik basiert sie auf der Metapher eines Katapults. Das zu manipulierende Objekt wird mit dem Finger berührt und ohne Kontaktverlust zur Displayoberfläche vom Zielpunkt weg bewegt. Das Objekt wird proportional zur Rückwärtsbewegung in die entgegengesetzte Richtung bewegt. Dem Benutzer wird kontinuierlich Feedback (Richtung und Länge der Objektbewegimg) angezeigt. Pick-and-Drop wurde von (Rekimoto 1997; Rekimoto 1998) vorgestellt und ebenfalls von (Nacenta et al. 2005) evaluiert. Im Original können Objekte mit Hilfe eines Stiftes von einem Display aufgenommen und durch Berühren eines anderen Display mit demselben Stift dort abgelegt werden. Unter Verwendimg von Airlift
Lift-and-Drop: Lückenlose Interaktion über Displaygrenzen hinweg
•
21
können die Objekte durch Berührung mit dem Finger aufgenommen und abgelegt werden. Wie im Original wird nur dann visuelles Feedback angezeigt, wenn der Finger sich nahe genug an einem der beiden Displays befindet (Abbildung 2, mitte). Lift-and-Drop ist eine direkte Technik ähnlich zu Pick-and-Drop. Allerdings wird dem Benutzer während der gesamten Bewegung dauerhaft ein Feedback angezeigt (Abbildung 2, rechts). Diese Technik kann nur mit einem Eingabegerät wie Airlift umgesetzt werden, da andere direkte Eingabegeräte wie Stift oder Touchscreen Eingaben nur in unmittelbarer Nähe zur Displayoberfläche erfassen können.
Beim Vergleich der drei oben beschriebenen Techniken in einer Benutzerstudie sollen die Ergebnisse von (Nacenta et al. 2005) für Slingshot und Pick-and-Drop auch unter Verwendung von Airlift anstatt von Stiften reproduzieren werden. Außerdem sollte der Einfluss von kontinuierlichem (Lift-and-Drop) und nicht-kontinuierlichem Feedback (Pick-and-Drop) auf die Leistung des Benutzers analysiert werden.
3
Evaluierung
3.1
Aufgaben, Versuchsumgebung und Durchführung
In der im Folgenden vorgestellten Benutzerstudie mussten die Teilnehmer quadratische Objekte von einem Tablett-PC (Größe: 24,5 χ 18,5 cm, Auflösung: 1024 χ 768 Pixel) in einen rechteckigen Zielbereich auf einem Tisch-Display (Größe: 120 χ 90 cm, Auflösung: 1400 χ 1050 Pixel) verschieben. Die Position des Tablett-PCs auf dem Tisch war für alle Versuchspersonen durchgehend gleich. Jeder Teilnehmer musste mit jeder der drei oben eingeführten Interaktionstechniken 40 Aufgaben durchführen. Die Aufgaben sollten von den Teilnehmern möglichst schnell und präzise (Positionierung innerhalb des Zielfelds) durchgeführt werden. Sowohl die Anfangslage des Objekts auf dem Tablett-PC, als auch die Position des Zielbereichs war bei jeder Aufgabe unterschiedlich. Zusätzlich variierten die Größen der Zielbereiche (100 χ 100, 125 χ 125 und 175 χ 175 Pixel). Damit sollte sowohl der Einfluss der Größe des Zielbereiches als auch dessen Abstand von der initialen Objektposition auf die Leistung untersucht werden. Die Aufgaben waren in zwei Versuchsphasen mit je 20 Aufgaben gegliedert. In der ersten Phase waren die Objekte grau und mussten in genau einen Zielbereich verschoben werden. In der zweiten Phase waren die zu verschiebenden Quadrate bunt (rot, blau und grün). Auf dem Tisch wurden drei Zielfelder in den entsprechenden Farben angezeigt. Die Objekte mussten in das Zielfeld mit korrespondierender Farbe verschoben werden. Im Gegensatz zur ersten Phase blieben dabei Lage und Größe (100 χ 100 Pixel) der drei Zielfelder während der kompletten Phase gleich. Damit sollte untersucht werden, ob die kontinuierliche Darstellung der farbigen Objekte bei Lift-and-Drop und die damit verbundene Entlastung des Arbeitsgedächtnisses zu besseren Ergebnissen führt. Um sich mit dem System vertraut zu machen konnten die Teilnehmer zunächst üben. Dies geschah in einer separaten Anwendung, sodass keinerlei Vorwissen über die Aufgaben und
22
Bader & Heck
Interaktionstechniken gebildet werden konnte. Anschließend wurden die Aufgaben von den Teilnehmern ausgeführt. Nach jeder Interaktionstechnik wurde von jedem Teilnehmer ein NASA-Task Load Index (TLX)-Bogen (Hart & Stavenland 1988) ausgefüllt, um seine subjektive Beanspruchung zu erfassen. Am Ende des Versuches wurden die Teilnehmer nach ihrer bevorzugten Interaktionstechnik und nach sonstigen Bemerkungen zu den Techniken gefragt.
3.2
Versuchsteilnehmer
Der Versuch wurde mit 24 Teilnehmern (5 weiblich, 19 männlich) im Alter zwischen 20 und 63 durchgeführt. Die Teilnehmer wurden in sechs Gruppen eingeteilt, welche jeweils aus vier Personen bestanden. Jede Gruppe führte 40 Aufgaben mit jeder der drei Interaktionstechniken durch. Jede Gruppe verwendete die Techniken in einer anderen Reihenfolge, um später unerwünschte Trainingseffekte zu eliminieren. Keiner der Teilnehmer hatte zuvor mit Airlift gearbeitet und wusste, welche der Interaktionstechniken vom Autor entwickelt und welche aus der Literatur entnommen wurden.
4
Ergebnisse
4.1
Objektive Messungen
Um die drei Techniken zu vergleichen, wurden die Bearbeitungsdauer Τ und die Genauigkeit G für jede Aufgabe gemessen. G beschreibt, ob ein Objekt komplett innerhalb, teilweise innerhalb oder komplett außerhalb des korrekten Zielfelds abgelegt wurde. Eine Aufgabe gilt im Folgenden nur dann als erfolgreich ausgeführt, wenn das Objekt komplett innerhalb des korrekten Zielfelds abgelegt wurde. Für eine Menge von Aufgaben definiert sich das Leistungsmaß Ρ wie folgt:
wobei Α die Anzahl erfolgreich ausgeführter Aufgaben und Tkum die Summe der Bearbeitungsdauer aller durchgeführten Aufgaben beschreibt. Zur Untersuchung statistischer Signifikanz der Ergebnisse wurden ANOVAs mit einem Signifikanzniveau von 5% durchgeführt. Abbildung 3 (links) stellt die mittlere Leistung und die Standardabweichung über alle Versuchsteilnehmer für alle drei Interaktionstechniken dar. Bei Lift-and-Drop und Pick-andDrop war die Leistung signifikant besser als bei Slingshot (i 7 (l,46)=94.223, /> 1 ) . Instead of the expected five factors, at first, six factors emerged. However, on two of them there were items with similar loadings on other factors as well. Thus, items which could not be definitely assigned to one factor were excluded. More precisely, we kept only items which showed high loadings (min .65) on only one of the factors and only low loadings (max .30) on all other factors at the same time. In another main components analysis with the remaining twenty items only four factors emerged. While Gut Feeling, Verbalizability and Magical Experience each built a separate factor the items representing the components Effortlessness and Attention all loaded on the same factor. Obviously, these two concepts are too similar to be distinguished in one's impression of interaction. And indeed, there is a high conceptual proximity: If using a prod-
256
Ullrich & Diefenbach
uct requires little attention, usage also appears effortless. Hence, we combined the two components into one scale (which we named Effortlessness). As we still wanted to reduce the number of items for the next version of the questionnaire, we only kept the items with the highest loadings. In the end, the four components were represented by a set of sixteen items. A final main components analysis with the remaining items showed a clear four-factor structure with 79% explained variance and also the internal scale consistency was satisfying (Cronbachs Alpha: Effortlessness: .96; Gut Feeling: 85; Verbalizability: .84; Magical Experience: .81). Thus, further analyses were based on these remaining sixteen items. In order to analyze the components' correlations to other measures, scale values were computed for each component by averaging the respective items. Regarding the AttrakDiff scales, pragmatic quality was related to Effortlessness (r=.70**) and hedonic quality to Gut Feeling (r=.26*). Regarding the overall intuitiveness rating, a linear regression with the four scales as predictors revealed Gut Feeling to be the most relevant predictor (Beta=.45; p=.001), followed by Effortlessness (Beta=.25; p=.027). This order supports our initial notion that intuitiveness should be regarded as more than another usability component. Even though the pragmatic-related component Effortlessness is definitely important, the most relevant intuitiveness predictor is rather related to hedonic quality. The other two components, Verbalizability and Magical Experience, could not significantly improve the amount of variance explained by the first two components (R Square=.25). Anyway, it was not our stated aim to find items with the highest possible correlation to an overall intuitiveness rating. Such "overall items" are good to reveal which product is perceived as "better", but they do not give information about room for improvement. However, we believe the differentiation of components of intuition to be a chance to reveal which critical issues are relevant for differences in overall evaluation. For example, regarding the two players it could be revealed that the significant difference between the two in the bad-good rating (M=5.52 vs. 4.43; t=3.12; p=.003) might be traced back to the fact that using player 1 was more effortless than using player 2 (M=4.98 vs. 4.06; t=2.42; p=.018), the correlation between Effortlessness and the bad-good rating is r=.46**. Finally, we studied the inter-correlations between the four components. As the four components represent four factors, it was not surprising that most correlations were quite low and not significant. The only component that was correlated to the others was Verbalizability. Interestingly, there was a positive correlation to Effortlessness (r=.29*) and a negative correlation to Magical Experience (r=-.39**). This is consistent with our notion in the introductory section: In contrast to intuitive decisions in general, which appear effortless without being explainable, effortless "usage decisions" are not necessarily impossible to verbalize. However, the negative correlation to Magical Experience reveals, that a high degree of verbalizability may also reduce the "magic of intuitive interaction". Probably, this ambivalence points out one of the main challenges of designing for intuitive interaction: One the one hand, operational elements have to be unambiguous, on the other hand, explicit hints on how to perform a certain function contradict the magic feeling of knowing what to do without being told.
INTUI. Exploring the Facets of Intuitive Interaction.
3.2
257
Further Applications
In order to test the stability of our scales we conducted further studies with a wide variety of products. Our second study dealt with two kinds of typical interactive products, software and websites. More specifically, these were two types of photo editing software (Photoshop Elements, Paint.NET) and three hotel booking websites (hotel.de, hrs.de, trivago.de). Again, participants had to perform specific tasks (editing a photo in a certain way, finding a hotel for a specific date) and describe their experience of using the product afterwards. Each of the 37 participants (31 female, mean age=24 years) worked with all three websites and one photo editing software. So altogether, there were 148 (4*37) cases aggregated over products. A principal components analysis with varimax rotation revealed again four factors with 78% explained variance. Hereof, a relatively large part (30%) was explained by the Effortlessness component, the other components each explained about 16%. All in all, the factorial structure remained stable, only one Gut Feeling item also showed negative loadings on the Effortlessness- and Verbalizability factor. Table 2 shows the factor loadings >.30 based on the aggregated data set (principal components analyses for the single products showed the same relations). Component Item
Effortlessness
Effortlessness 1 Effortlessness 2 Effortlessness 3 Effortlessness 4 Effortlessness 5 Gut Feeling 1 Gut Feeling 2 Gut Feeling 3 Gut Feeling 4 Verbalizability 1 Verbalizability 2 Verbalizability 3 Magical Experience Magical Experience Magical Experience Magical Experience
.908 .859 .902 .928 .918
-.536
Gut Feeling
.900 .837 .866 .500
Verbalizability
Magical ence
Experi-
-.417 .860 .789 .810
1 2 3 4
.783 .798 .841 .759 Table 2: Factor loadings of the 16 final Items
Having assured the stability and reliability of scales in a controlled setting, we decided to broaden our scope on all kinds of interactive products. Our third study was performed as online-study with 233 participants (178 female, mean age=38 years). These were asked to describe a current situation where they had used a technical product for the first time without the help of a manual. The description of events reached from using a public ticket machine to using a vacuum cleaner. All in all, four categories of frequently named products could be
258
Ullrich & Diefenbach
identified: computer software and computer accessories, mobile phones, fun products (video games consoles etc.) and home appliances (coffee machines, washing machines etc.). After the description of the event, participants were asked to rate their usage experience with the INTUI questionnaire and a global intuitiveness rating. Again, the principal components analysis revealed four factors according to our four components. Also, the high cross-loadings of the critical Gut Feeling scale item vanished and the Cronbachs Alpha values were also satisfying (Effortlessness: .94; Gut Feeling: .68; Verbalizability: .72; Magical Experience: .79). Besides this further validation of the INTUI scales, we were interested in whether there would be differences in the relevance of the single components depending on the product category. To avoid that the product category is confounded with the number of intuitive and non-intuitive events, we simply excluded those events which were rated as rather not intuitive. Luckily, these were only 12%, so the large part of the cases remained for further analysis. Based on the categorization of products we calculated an analysis of variance with the product type as independent variable and the four INTUI scales as dependent variables. Here, significant differences between the product types were revealed for all the four scales, table 3 gives an overview over the mean values and the statistical data (Note: F-, df-, and p-values relate to between-subjects-effects. Means in the same row that do not share subscripts differ at p < 0 5 using Scheffe-Test.). Though all events were perceived as overall intuitive, the specification of the different components differed depending on product type. For example, Gut Feeling is more pronounced for fun products than for home appliances. On the contrary, using fun products is perceived as less effortless than using mobile phones or home appliances, which nevertheless does not seem to affect the overall impression of fun products as intuitive. For home appliances, the experience of (intuitive) interaction as magical is less pronounced than for the other products, however, using home appliances goes along with the highest values on the Verbalizability component. Computers
Mobile phones
Fun products
Home appliances
F
df
Ρ
Effortlessness
5.6(1.3),
5.3(1,3)*
4.6 (1.5)b
5.9(1.3),
4,33
3
.001
Gut Feeling
3.0(1.3)*
3.3(1.1)*
3.4(1.3),
2.6 (1.2)b
2,95
3
.034
Verbalizability
5.4(1.3)*
5.3(1.2),
5.0(1.3),
6.1 (1.3)ь
3,91
3
.010
Magical Experience
4.0(1.4),
3.7(1.5),
4.1(1.2),
2.8 (1.4)b
5,4
3
.001
Table 3: Mean values and standard deviations of components for the different product types and statistical data
4
Discussion
All in all, the application of the INTUI questionnaire showed promising results. The four components of intuitive interaction identified in the pilot application could be replicated in two further studies, and scale reliability values were satisfying as well. Moreover, it was also possible to reveal differences between products of the same category as well as between
INTUI. Exploring the Facets of Intuitive Interaction.
259
product categories with regard to particular components. Regarding the differences between product categories we could identify specific patterns of the relative specification of the components for each category, which, however, resulted in intuitiveness ratings of the same level. While using fun products, Gut Feeling was more prominent than for the other categories, while using home appliances it was Effortlessness. These individual characteristics show how user expectations may vary depending on product type or usage situation. With its multi-dimensional approach the INTUI questionnaire allows for a differentiated interpretation of evaluation results. Besides finding out which of two products appears more intuitive to users, the scoring on the respective scales also reveals the crucial component. For researchers, this information is of theoretical interest, as it helps to clarify the concept of intuitive interaction. For product designers and vendors this information is of practical relevance, as it shows up the room for improvement. In the next studies, amongst others, we want to find out whether the relevance of the different components does not only vary depending on product type, but also depending on the degree of proximity between the actual operational concept and prior experiences. Existing knowledge that is utilized in the present product interaction can be acquired in the same or in a different domain of interaction. We assume that the former case might provide the best ground for intuitive interaction in the sense of effortless interaction, as a known concept simply has to be applied in a slightly different use case. But the latter might lead to a stronger feeling of intuitiveness in the sense of being guided by one's gut feeling and a more intense experience. Following this line of thought, it also would be interesting to reveal whether there is an optimal level of proximity, a good balance between similarity and dissimilarity between the actual domain and the domain of knowledge acquisition. Studies with varying degrees of proximity may also help to clarify the ambivalence of Verbalizability, which we discussed in our first study. In the end, this will reveal whether perceived intuitiveness is simply the "conformity with user expectations", which should profit from high domain proximity, or if perceived intuitiveness depends on more than expectation conformity. This might even - up to a certain degree - rise with domain dissimilarity.
5
Literature
Adobe Systems (2010). Adobe Photoshop CS4 Extended: Graphic and web designers using 3D and motion. Retrieved 01.03.2010, from http://www.adobe.com/products/photoshop/ photoshopextended/graphicdesign/ Agor, W. H. (1986). The logic of intuition: How top executives make important decisions. Organizational Dynamics, 14, 5-18. Apple Inc. (2010). Apple Launches iPad. http://www.apple.com/pr/library/2010/01/27ipad.html
Retrieved
01.03.2010,
from
Bastick, T. (2003). Intuition. Evaluating the construct and its impact on creative thinking. Kingston: Stoneman and Lang. Blackler, A. (2008). Intuitive Interaction with Complex Artefacts. Saarbrücken: VDM.
260
Ullrich & Diefenbach
Burmester, Μ., Hassenzahl, Μ., & Koller, F. (2002). Beyond usability - Appeal of interactive products. i-com, 1(1), 32-40. DIN EN ISO 9241-11 (1998). Ergonomie requirements for office work with display terminals (VDTs) Part 11, Guidance on usability. Genf: International Organization for Standardization. Fischbein, Ε. (1987). Intuition in science and mathematics: An educational approach. Dordrecht, Netherlands: Reidel. Gigerenzer, G. (2007). Gut feelings: The intelligence of the unconscious. New York: Viking. Hammond, K. R. (1996). Human judgment and social policy: Irreducible uncertainty, inevitable error, unavoidable injustice. New York: Oxford University Press. Hassenzahl, M., Burmester, M. & Koller, F. (2003). AttrakDiff: Ein Fragebogen zur Messiuig wahrgenommener hedonischer und pragmatischer Qualität. In J. Ziegler & G. Szwillus (Eds.), Mensch & Computer 2003. Interaktion in Bewegung. Stuttgart, Leipzip: B. G. Teubner. Hassenzahl, M., & Tractinsky, N. (2006). User Experience - a research agenda. Behavior & Information Technology, 25(2), 91-97. Hogarth, R. M. (2001). Educating intuition. Chicago: University of Chicago Press. Hurtienne, J., & Israel, J. H. (2007). Image schemas and their metaphorical extensions - intuitive patterns for tangible interaction. In B. Ullmer, A. Schmidt, E. Hornecker, С. Hümmels, R. J. К. Jacob & Ε. v. d. Hoven (Eds.), Proceedings of ΤΕΓ07. First International Conference on Tangible and Embedded Interaction. New York. Kyd, C. (2007). Excel 2007's Ribbon Hurts Productivity, Survey Shows. Retrieved 20.05.2010, from http://www.exceluser.com/explore/surveys/ribbon/ribbon-survey-results.htm Meyer, Η. Α., & Kindsmüller, Μ. С. (2009). Intuitive Benutzbarkeit als Usability-Ziel. In H. Brau, S. Diefenbach, M. Hassenzahl, K. Kohler, F. Koller, M. Peissner, K. Petrovic, M. Thielsch, D. Ullrich & D. Zimmermann (Eds.), Usability Professionals 2009. Stuttgart: Fraunhofer. Microsoft (2010). Introducing the Windows Ribbon Framework. Retrieved 01.03.2010, from http://msdn.microsoft.com/en-us/library/dd316910(VS.85).aspx Naumann, Α., Wechsimg, I., & Hurtienne, J. (2009). Multimodality, Inclusive Design, and Intuitive Use. In HCl 2009 Electronic Proceedings: WS4 - Prior Experience. Cambridge: British Computer Society. Priimper, J. (1997). Der Benutzungsfragebogen ISONORM 9241/10: Ergebnisse zur Reliabilität und Validität. In: R. Liskowsky, B.M. Velichkovsky & W. Wünschmann (Eds.), Software-Ergonomie '97. Teubner.
Kontaktinformationen Daniel Ullrich TU Darmstadt Alexanderstraße 10 64283 Darmstadt ullrich@,psvchologie.tu-darmstadt.de
Sarah Diefenbach Folkwang Universität Universitätsstraße 12 45141 Essen [email protected]
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 261-270
Das Potenzial von Web Analytics für Usability-Evaluierungen Julia Jürgens, Thomas Mandl, Christa Womser-Hacker Zusammenfassung Im Usability-Bereich gibt es eine Vielzahl an Evaluierungsmethoden. Obwohl auf dem Gebiet von Web Analytics in den letzten Jahren viele Fortschritte zu verzeichnen sind, wurde dessen Potenzial für die Verbesserung der Gebrauchstauglichkeit noch nicht ausreichend untersucht. Eine Befragung unter Usability-Experten gab erste Hinweise auf mögliche Einsatzgebiete. Im Rahmen einer empirischen Untersuchung einer Website mit über 200.000 Zugriffen pro Monat konnten mit Hilfe eines Web Analytics-Tools konkrete Verbesserungsmöglichkeiten aufgedeckt werden. Das Ziel der Untersuchung bestand darin, allgemein geltende Empfehlungen zu entwickeln, die in Zukunft beim Einsatz von Web Analytics-Systemen für Usability-Zwecke als Orientierung dienen können.
1
Einleitung
Die Evaluierung der Usability von Produkten ist in den letzten Jahren immer wichtiger geworden. Es gibt viele Methoden, die sich in diesem Feld etabliert haben und deren Potenzial bereits intensiv erforscht und daher bekannt ist. Parallel zu diesen Entwicklungen ist der Bereich Web Analytics immer populärer geworden. Web Analytics beschäftigt sich mit der Messung, der Erfassung, der Analyse und der Interpretation verschiedener Internet-Daten zum Zweck der Optimierung von Websites. Es gibt eine Vielzahl an Systemen, in denen die bisher genutzten Informationen aus Server Logfiles durch den Einsatz von Cookies um zahlreiche Daten ergänzt werden. Auch haben sich die Systeme in Bezug auf ihre Gebrauchstauglichkeit weiterentwickelt, da sie die verfügbaren Informationen grafisch für die Nutzer aufbereiten und so die Bedienung erleichtern.
1.1
Studien
Auch wenn es bereits verschiedene Studien zum Einsatz von Logfile-Analysen für UsabilityZwecke gegeben hat und Forscher verschiedene Systeme auf wissenschaftlicher Ebene implementiert haben, so wurde das Potenzial der heute umfassenderen Daten von Web Analytics-Systemen noch nicht ausreichend erforscht.
262
Jürgens, Mandl & Womser-Hacker
Burton & Walther (2001) nahmen sich die Informationen aus Logfiles zu Hilfe, um bereits vorhandene Usability-Guidelines zu testen. Diese seien zwar als Orientierung beim Entwerfen von Websites sehr nützlich, jedoch sei die Mehrzahl dieser Empfehlungen nie in ausreichend großen empirischen Tests geprüft worden. In ihrer Untersuchung, in der sie eine Guideline42 aus Nielsen's Alertbox43 nur mit Daten aus Logfiles überprüften, zeigten sie, dass die Empfehlung, Frames nicht zu verwenden, empirisch nicht belegt werden kann. Einige Forscher bedienten sich des Page Tagging-Ansatzes und entwickelten Systeme, die sich auf das Erheben von detaillierten Interaktionen zwischen Nutzer und Computer konzentrieren. Hier sind die Systeme Listener, Web Event-logging Tool (WET), UsaProxy und CleverTracker zu nennen. Die Programme Listener von Ellis et al. (1998) und WET von Etgen & Cantor (1999) wurden hauptsächlich entwickelt, um Usability-Experten die Protokollierung der Nutzeraktionen während Usability-Tests abzunehmen. Beide Gruppen sahen die Informationen aus Server Logs für diesen Zweck als nicht ausreichend an und setzten ihre Systeme daher in AppleScript bzw. JavaScript um. Während es bei Listener nur um die Erfassung der Daten ging, konnten die Informationen des WET-Systems mit einem vorher erstellten idealen Vorgehensmodell für die gestellten Aufgaben verglichen und so Abweichungen (ζ. B. bei der benötigten Zeit) aufgedeckt werden. So war es möglich, Usability-Probleme zu identifizieren. Atterer et al. (2006) führten diese frühen Entwicklungen fort und entwickelten ein System namens UsaProxy (für UsabilityProxy). Es basiert auf einem Proxy, der zwischen Server und Client geschaltet ist und automatisch einen kurzen JavaScript-Code in die Webseiten einfügt, bevor er sie an den Client weiterleitet. Die Forscher sehen den Hauptverwendungszweck in Usability-Tests der Website, können sich aber auch einen Einsatz bei der WebsiteEntwicklung, während Beta Tests oder kontinuierlicher Evaluation der Site vorstellen. Da die Nutzer von UsaProxy durch das automatische Einfügen des Tracking-Codes weder Veränderungen auf ihrem Computer vornehmen müssen, noch etwas von der Ergänzung und der Aufzeichnung mitbekommen, wird ihr natürliches Surf-Verhalten nicht beeinflusst. Unter ethischen Aspekten lässt sich hier kritisieren, dass die Nutzer nichts vom Aufzeichnen ihres Verhaltens erfahren und daher ihre Privatsphäre nicht respektiert wird. Ignatova & Brinkman (2007) griffen diesen heiklen Punkt auf und entwickelten das Open Source Framework CleverTracker44, das die Möglichkeit bietet, Nutzer entscheiden zu lassen, wann die RemoteTracking Software etwas speichert. Anders als in vergleichbaren Studien können die Nutzer durch ein Menü bestimmen, wann Daten gesammelt werden, ob sie aus der Studie austreten wollen und können die gesammelten Daten jederzeit einsehen. Stimmen sie dem Aufzeichnen zu, werden die Daten in einer Client-Library gespeichert und verweilen so lange auf ihrem Computer, bis eine Verbindung zum Internet die Datenübertragung an den Server 42 43 44
Die Guideline besagt, dass der Einsatz von Frames verwirrend für die Nutzer ist und daher unterbleiben sollte. http ://www.useit.com/ alertbox/ http ://clevertracker. sourceforge.net/
Das Potenzial von Web Analytics für Usability-Evaluierungen
263
ermöglicht. Nach Ansicht der Autoren ist das System gut für (Remote) Usability-Tests geeignet. Claypool, Le, Wased und Brown verfolgten einen anderen Ansatz. Sie untersuchten, mit welchen impliziten Nutzerdaten sich Aussagen zum Interesse der Nutzer an einer Webseite treffen lassen. Mit einem eigens dafür entwickelten Browser („The Curious Browser") erhoben sie diverse Nutzeraktionen und ließen die Nutzer gleichzeitig durch ein Pop-up-Fenster explizit zu ihrem Interesse an der Seite Stellung nehmen. Auf Basis dieser beiden Datenquellen versuchten sie herauszufinden, welche Aktionen das Nutzerinteresse widerspiegelten. Das Ergebnis zeigte, dass sowohl die Zeit, die der Nutzer auf der Seite verbracht hat, als auch die Zeit, in der die Testpersonen die Scrolling-Funktion benutzt haben, gute Indikatoren für das Interesse der Nutzer sind. Weischedel & Huizingh (2006) stellen fest, dass Webmetriken in Unternehmen noch nicht optimal genutzt werden, obwohl sie den Firmen bei der Optimierung ihrer Website helfen können. Gründe hierfür sind laut der Autoren „the lack of industry standards, the volume of data, and the need to supplement clickstream data with qualitative information". Auch wenn deutlich ist, dass die Daten aus Web Analytics-Systemen nur teilweise die Effektivität einer Website widerspiegeln können, so würden sie im Vergleich zu anderen Methoden das „wahre" Benutzerverhalten erfassen. Um herauszufinden, wie Metriken bisher verwendet wurden, befragten die Forscher acht Manager eines IT-Unternehmens. Diese sehen großen Nutzen in quantitativen Daten, insbesondere bzgl. der aufgerufenen Inhalte, der verwendeten Browser und Informationen zur Nutzung der internen Suchmaschine.
1.2
Methodik
Obwohl die Studien bereits einen Einblick in die Verwendung von Web Analytics-Daten für Usability-Zwecke geben, liegt der Fokus oft eher auf Usability-Tests als auf der kontinuierlichen Evaluierung von Websites. Die Fortschritte im Web Analytics-Bereich stellen dem Interessierten heutzutage aber genau für diesen Zweck eine Vielzahl an Systemen zur Verfügung. Dies bietet die Chance, anknüpfend an Weischedel & Huizingh (2006) das Potenzial von Informationen aus Web Analytics-Systemen, insbesondere im Hinblick auf die Eignung der Daten für Usability-Evaluationen von Websites, zu erforschen. Daher wurden UsabilityExperten bezüglich ihrer Meinung und Erfahrung mit Web Analytics befragt. Anschließend diente eine Open Source-Lösung dazu, Nutzerdaten einer Website zu sammeln. Diese wurden in einer empirischen Untersuchung analysiert und in Bezug auf ihre Bedeutung für Usability-Fragen bewertet. Es konnten konkrete Schwachstellen aufgedeckt und Verbesserungen vorgeschlagen werden. Auf Basis dieser exemplarischen Untersuchung wurde versucht, allgemein geltende Empfehlungen zu entwickeln, die in Zukunft beim Einsatz von Web Analytics-Systemen als Orientierung dienen können. Hierzu wurden die Werte aller im System verfügbaren Metriken und die qualitativen Informationen auf ihre Aussagekraft und ihre Bedeutung analysiert. Da es sich um eine generelle Einschätzung der Informationen für Usability-Zwecke handelt und die Untersuchung nur exemplarisch durchgeführt wurde, konnten die Empfehlungen nur vage gehalten werden.
264
2
Jürgens, Mandl & Womser-Hacker
Befragung von Usability-Experten
Auf der Tagung Usability Professionals 2009 wurden elf Usability-Experten, die seit durchschnittlich sieben Jahren Web Analytics nutzten, bezüglich ihrer Erfahrungen befragt. Die Interviews zeigten, dass Web Analytics in Form vieler verschiedener Systeme heute weit verbreitet ist und dass zehn von elf Experten durchaus Potenzial in Web Analytics sehen. Der Nutzen bestehe darin, dass die Website mit Hilfe der Systeme keine „Black Box" mehr sei und den Betreibern daher besser zeigen könne, wie die Besucher ihren Webauftritt nutzen. Die Informationen aus den Systemen seien daher eine Voraussetzung, um eine Website erfolgreich zu betreiben. Auch praktische Gründe wie die Bereitstellung ausreichender Ressourcen würden für die Nutzung sprechen. Welche Metriken generell besonders wichtig sind, konnte von den Experten nicht eindeutig beantwortet werden. Zu sehr seien sie abhängig vom Kontext der Website und von den Zielen der Betreiber. Auch bei der Unterteilung von Websites in bestimmte Kategorien (ECommerce, Lead Generation, Customer Service, Content Sites, Branding Sites45) sei es schwierig, besonders relevante Metriken festzulegen, weil auf vielen Websites eine Kombination mehrerer Typen (ζ. B. Content- und E-Commerce-Bereiche) zu finden sei. Acht der elf Experten sind der Meinung, dass man mittels Web Analytics-Daten eine Aussage bezüglich der Usability einer Website treffen kann. Trotzdem konnten keine konkreten Usability-Metriken identifiziert werden. Web Analytics-Daten seien nur ein wichtiger Teilaspekt vom Ganzen und isoliert betrachtet kein ausschlaggebendes Instrument. Basierend auf dieser Feststellung wurde ein dreistufiger Prozess vorgeschlagen. Als erstes sollten die Daten der Web Analytics-Systeme dazu genutzt werden, mögliche Schwachstellen der Website aufzudecken. Seien solche Bereiche bekannt, könnten die Daten sehr gut zur Weiterverfolgung dieser Probleme benutzt werden. Da die meist quantitativen Daten der Systeme durch das fehlende Feedback der Nutzer nicht alle Fragen beantworten können, bieten sich hier ergänzende qualitative Methoden an. Der dritte Schritt bezieht wieder die Web AnalyticsErgebnisse mit ein, mit deren Hilfe abschließend geprüft werden könne, ob Änderungen an der Website erfolgreich waren und ob sie einen Einfluss auf andere Bereiche hatten.
3
Analyse der Website
Die Daten für die empirische Untersuchung wurden mit Hilfe des Web Analytics-Systems Piwik46 erhoben. Obwohl die Open Source-Lösung noch nicht ausgereift ist, bietet sie eine Reihe grafisch aufbereiteter Grundinformationen und ergänzende Daten in der dazugehörigen MySQL-Datenbank. Das System wurde bewusst gewählt, weil die Daten auf einem eigenen Server gespeichert werden und somit keine Datenschutzbedenken nötig sind. 45 46
Diese Website-Kategorien stammen von Burby & Atchison (2007) und McFadden (2005). http://piwik.org
Das Potenzial von Web Analytics für Usability-Evaluierungen
265
Die analysierte Mobilfunk-Website beinhaltet Informationen zu Handys und Tarifen, diverse kleine Applikationen (ζ. B. Handyfinder) und einen umfangreichen News-Bereich. Sie umfasst ca. 20.000 Seiten und finanziert sich als Content Site über Werbung. Bei den Experten-Interviews stellte sich bereits die Frage, wie die Usability einer Website gemessen werden sollte. Hierbei wurde auf die klassische Definition von Usability und die drei Kriterien Effektivität, Effizienz und Zufriedenheit zurückgegriffen. Bei allen Auswertungen wurde versucht eine Aussage in Bezug auf diese drei Größen zu treffen. Insgesamt standen zum Auswertungszeitpunkt die Daten von mindestens zwei Monaten zur Verfügung. Bei den Analysen wurde darauf geachtet, dass der Zeitraum (Tag, Woche, Monat) angemessen gewählt war, je nachdem, ob spezifische oder aggregierte Daten in jenem Fall mehr Aussagekraft hatten. Durch die überschaubare Anzahl von Metriken und Informationen in Piwik konnte explorativ vorgegangen und alle Daten ausführlich analysiert und bewertet werden. Die Auswertung kann in drei verschiedene Bereiche gegliedert werden: Besuchereigenschaften und -verhalten, Referrer und Suchbegriffe, Inhaltsnutzung und Navigationsverhalten. Bevor die wichtigsten Ergebnisse bzw. Empfehlungen vorgestellt werden, soll das Potenzial von Web Analytics anhand drei konkreter Beispiele aufgezeigt werden. Die externen Suchbegriffe zeigten u.a., dass Nutzer eine Liste von „Touchscreen Handys" suchten. Da es diese auf der Website nicht gab, wurde vorgeschlagen, die Option „Touchscreen" in den Handyfinder aufzunehmen, um so die gewünschte Information bereitstellen zu können (Effektivität). Die Analyse der Bounce Rate (Prozentzahl der Nutzer, die die Website nach einem Seitenaufruf wieder verlassen) und der Seitenaufrufe machte deutlich, dass relativ viele Besucher den Prozess zur Kündigung eines Handyvertrages nicht zu Ende führten, obwohl sie explizit nach diesen Stichwörtern gesucht hatten. Insbesondere die internen Suchbegriffe veranschaulichten, wie oft fehlerhafte Suchanfragen (Zahlendreher, Rechtschreibung) gestellt wurden, die zu keinen relevanten Ergebnissen führten. Eine Google-ähnliche, jedoch stark vereinfachte„Meinten Sie"-Funktion würde hier zur Usability der Website beitragen.
3.1
Besuchereigenschaften und -verhalten
Die Standardmetrik Visits ergab, dass pro Tag zwischen 5.500 und 8.500 Personen die Website aufsuchten. Die Auswertung der ersten elf aufgezeichneten Wochen zeigt, dass sich die Besucherzahl fast jede Woche erhöhte, so dass insgesamt ein Anstieg von 37% zu verzeichnen war. Diese Werte sprechen für ein steigendes Interesse an der Website. Unter UsabilityAspekten ist die steigende Besucheranzahl ein positives Zeichen, auch wenn nicht beurteilt werden kann, welche der Usability-Kriterien auf Seiten der Nutzer erfüllt werden. Auch andere Besuchermetriken sind für die Usability von Interesse, so ζ. B. die Return Visits. Nach Hassler (2009, 147) ist die absolute Anzahl der Return Visits nicht aussagekräftig, daher ist es sinnvoll, den prozentualen Anteil der wiederkehrenden Besucher an den Gesamtbesuchern zu errechnen. Das Ergebnis für die Website zeigt, dass dieser Anteil sich mit einem leicht steigenden Trend zwischen 18,80% und 23,65% der Gesamtbesucher einpendelte. Bei der Analyse dieser Zahlen muss bedacht werden, dass es aufgrund von gelöschten oder nicht akzeptierten Cookies zu ungenauen Werten kommen kann. Da aber immerhin 92,74% der Internetnutzer auf deutschen Sites Third-Party-Cookies zulassen (WebTrekk 2009),
266
Jürgens, Mandl & Womser-Hacker
stimmt die Tendenz der neuen und wiederkehrenden Besucher sicherlich. Laut Hassler (2009, 148) sagt ein hoher Anteil von neuen Besuchern aus, dass die Website neue Benutzergruppen erreicht und ein großes Potenzial hat, neue zu gewinnen. Viele wiederkehrende Nutzer sprechen dafür, dass die Site interessante Inhalte und Dienste bietet. Dies ist unter Usability-Gesichtspunkten also ebenfalls als positives Zeichen zu werten. Möchte man mehr über seine Besucher erfahren, spielen Daten zu Geschlecht, Alter, Land imd Sprache eine Rolle. Im Gegensatz zu anderen Systemen liefert Piwik über die Spracheinstellungen der benutzten Browser nur eine indirekte Ermittlung der Herkunftsländer. Kritisch an diesem Ansatz ist, dass die Spracheinstellung des Browsers nicht den Aufenthaltsort des Besuchers repräsentiert. Im Untersuchimgszeitraum erfasste Piwik 72-87 Länder, 95% der Besucher stammten aus Deutschland, Österreich imd der Schweiz. Für Usability-Zwecke ist eine solche Auswertung sinnvoll, da man sein Angebot bei einer großen Anzahl an Besuchern aus anderen Ländern entsprechend anpassen sollte. Auch Hasslers Forderung, dass 80% des Traffics die Website in ihrer Muttersprache sehen sollen, ist aus Usability-Sicht angemessen (Hassler 2009, 163). Da der Benutzer Informationen meistens am besten in seiner Muttersprache aufnehmen kann, sind Aufgaben somit effektiver und effizienter zu erfüllen, was zumindest zu einer grundsätzlichen Zufriedenheit der Besucher führt. Die Rolle von Alter und Geschlecht ist für die Usability insofern relevant, als dass die Website für bestimmte Benutzergruppen optimiert sein sollte. Ältere Nutzer haben andere Bedürfnisse als die mit Computern aufgewachsene Jugend. Da weder Piwik noch andere Web Analytics-Systeme üblicherweise Angaben zu diesen Größen machen, sind hier keine Ergebnisse aus erster Hand verfügbar. Falls die Daten erfassbar sind, sollte man sie laut Hassler (2009, 166f) gelegentlich mit denen seiner Zielgruppe vergleichen. Entsprechende Anpassungen auf der Website können einen positiven Einfluss auf die Usability haben. Mit Hilfe der erfassten technischen Eigenschaften Betriebssystem, Browser und Bildschirmauflösung lässt sich überprüfen, ob die Website für alle Besucher korrekt dargestellt wird und ohne technische Probleme genutzt werden kann. Dies ist in Bezug auf die Usability einer Website von großer Wichtigkeit. Zunächst kann mittels Piwik festgestellt werden, welche die häufigsten Kombinationen der drei Parameter bei der Nutzerschaft sind. Auf dieser Grundlage können Screenshots der häufigsten Kombinationen generiert werden, hier ist ζ. B. der Online-Dienst browsershots.org zu nennen.47 Die Analyse der Screenshots förderte einige interessante Ergebnisse, insbesondere bei der Darstellung der Videos, zu Tage. Aufgrund fehlender Informationen und einiger Einschränkungen von browsershots.org konnten weder die Gründe für die abweichenden Darstellungen noch alle häufigsten Konfigurationen getestet werden. Zusätzlich ist es sinnvoll, eine differenzierte Analyse der Betriebssysteme, Browser und Auflösungen durchzuführen, um grobe Abweichimgen bei bestimmten Metriken (ζ. B. Boimce Rate, Verweildauer) aufdecken zu können. Diese können Aufschluss über Usability-Probleme bestimmter Nutzer geben, beispielsweise bezüglich nicht funktionierender Elemente der Site (ζ. B. Videos). Gerade in diesem Zusammenhang scheint es wichtig, auch die Akzeptanz von Plugins (ζ. B. Cookies, Flash, JavaScript) zu betrachten. Mit Hilfe 47
Es gibt auch Systeme, die die Darstellung entsprechend der technischen Eigenschaften live simulieren. Ein solcher Dienst ist unter http://www.browserpool.org verfügbar.
Das Potenzial von Web Analytics für Usability-Evaluierungen
267
dieser Informationen lässt sich also sowohl die Darstellung als auch die Funktionalität der Website für die meisten Nutzer sicherstellen. Die Kontrolle ist wichtig, Verbesserungen beeinflussen die drei Usability-Merkmale Effektivität, Effizienz und Zufriedenheit positiv. Weiterhin können technische Daten Aufschluss über die Nutzerschaft der Website geben. So lassen sich mit Hilfe entsprechender Studien (z.B. WebTrekk 2009) Vergleiche zwischen der durchschnittlichen Verteilung von deutschen Internetnutzern und den Besuchern der eigenen Site ziehen. Größere Abweichungen können die eigenen Besucher näher charakterisieren, ζ. B. würde ein hoher Anteil an Linux-Nutzern bei der Betrachtung der Betriebssysteme etwas über die Technikaffinität der Nutzer aussagen. Über die Verwendung von Browsern lässt sich prinzipiell auch etwas über die Nutzer erfahren. Vor einigen Jahren, als der Internet Explorer (IE) den Marktanteil noch deutlich für sich entscheiden konnte, hätte eine überdurchschnittliche Nutzung des Browsers Firefox sicher eine andere Aussagekraft gehabt. Ein Messen der Metrik „Conversion Rate" ist bei Content Sites nicht sehr praktikabel, außerdem stand sie bei Piwik nicht zur Verfügung.
3.2
Referrer und Suchbegriffe
Referrer sind die Seiten, von denen die Nutzer auf eine andere Website gelangen. Sie eignen sich dazu, Besucherwege zurückzuverfolgen und dadurch etwas über den Kontext des Besuchs zu erfahren. Auch die Experten wiesen auf die bedeutende Rolle der Referrer hin. Laut Piwik nahmen ca. 70-75% der Nutzer den Weg über die Eingabe von Suchbegriffen bei Suchmaschinen, 22-26% riefen die Website mittels eines Lesezeichens auf oder gaben die URL direkt im Browser ein. Den geringsten Anteil machten die 2,5% der Besucher aus, die über andere Websites auf die untersuchte Site gelangten. Zu diesen Zahlen muss angemerkt werden, dass Programme oder Sicherheitseinstellungen dazu führen können, dass der Referrer nicht übermittelt wird und daher meist mehr Direktzugriffe angezeigt werden, als es tatsächlich der Fall ist (Kaushik 2007, 147). Dass der meiste Traffic über Suchmaschinen kommt, scheint laut Avinash Kaushik üblich zu sein (Kaushik 2007, 165) Laut Hassler (2009, 108) sprechen Direktzugriffe und Lesezeichen „ein gewichtiges Lob an eine Website aus". Wenn sich Besucher eine Website als Adresse im Kopf oder als Lesezeichen im Computer merken, zeugt das von „hohem Engagement eines Besuchers für eine Site sowie für hohe Qualität des Angebots". Der Trend zeigt bei der Mobilfunk-Website in den untersuchten Wochen stetig nach oben. Aus einem Usability-Blickwinkel sprechen steigende Direktzugriffe für die Qualität der Website, vorausgesetzt sie beziehen sich wirklich auf gesetzte Lesezeichen und URLs, die die Nutzer sich gemerkt haben. Bei Unikatswebsites wie www.bahn.de trifft diese Aussage ebenfalls nicht zu. Referrer von Suchmaschinen und Websites zeigen, wo die Besucher herkommen und was sie wahrscheinlich suchen. Wird die eigene Website von Drittseiten verlinkt, kann dies als positives Qualitätsmerkmal interpretiert werden, da es Personen oder Unternehmen gibt, die das Angebot ansprechend finden oder einen Nutzen aus ihm ziehen können (Hassler 2009, 113). Die Analyse zeigte, dass sich einige Websites gruppieren ließen. Die Gruppen ermöglichten es, etwas über den Nutzungskontext und damit die Erwartungshaltung der Besucher zu erfah-
268
Jürgens, Mandl & Womser-Hacker
ren. Dies ist aus Usability-Sicht sehr hilfreich, da sich vor diesem Hintergrund eine Aussage darüber treffen lässt, ob die Besucher die gewünschten Informationen finden (Effektivität) imd ob die verweisenden Links sie auf die richtigen Seiten führen (Effizienz). Da einige Referrer Foren sind, lassen sich dort eventuell Kommentare zur Zufriedenheit der Besucher ablesen. Auch die Interpretation der verfügbaren Metriken gibt Aufschluss darüber, wie gut die Inhalte angenommen werden und ob sie gegebenenfalls angepasst werden sollten. v
St к hw· -ri
Bcsueher
samsung 03050
701
4,4
3 min 22Ξ
32,4«
•
Aktionen μιο ; Besuch
:
Durchschnittszeit auf der Seite
:
Absprungsrate:
419
11
9 min 55s
7,6*
handyfinder
311
6,6
5 min 34s
38,
lg g m 75°
2 78
2,5
1 min 46s
48,296
156
12,7
14 min lös
7,196
samsung hl
152
4,2
2 min 6s
25«
samsung gt-ss2go
140
3,9
3 min 7S
37,1*
samsung с 3050 test
139
4,4
2 min
38,8SB
handyvertrag kündigen
130
2,4
2 min 53Ξ
30Ξ
58,5«
Abbildung 1: Wochenübersicht der häufigsten externen Suchbegriffe
48
Neben den Referrern helfen insbesondere die Suchbegriffe dabei, die Ziele und Erwartungen der Besucher zu erkennen. Sowohl die Analyse der externen (s. Abbildung 1) als auch der internen Suchbegriffe lieferte interessante Ergebnisse. Sie dienten als Denkanstöße für weitere Optimierungsmöglichkeiten auf der Website. Auf der Grundlage dieser Informationen lässt sich prüfen, ob die Besucher die in ihren Suchanfragen gewünschten Informationen auf der Website finden können (Effektivität), ob sie direkt auf die entsprechende Unterseite geleitet werden (Effizienz) und wie genau die Website Antworten auf die Suchanfragen liefert (Zufriedenheit). Die Bounce Rate und die Verweildauer kann in Kombination mit den Suchanfragen auch auf die Zufriedenheit hindeuten, da hohe Bounce Rates oder niedrige Verweildauern oft auch ein Zeichen dafür sein können, dass die Nutzer mit dem Angebot nicht zufrieden waren und daher die Site verließen. Externe Suchbegriffe sollten daher auf jeden Fall berücksichtigt werden. Interne Suchbegriffe sind im Hinblick auf die Usability einer Website aber mindestens genauso wichtig. Sie demonstrieren, was sich die Besucher auf der Website erhoffen imd bieten dem Website-Betreiber so die Möglichkeit, herauszufinden, ob die Nutzer die Antworten auf ihre Fragen finden können. Gerade bei der internen Suchmaschine ist es wichtig, relevante Suchergebnisse anzuzeigen (Effektivität) und sie möglichst 48
Hinter den Einträgen, die mit einem * markiert sind, versteckt sich die Suche nach dem Firmennamen und damit der konkreten Website.
Das Potenzial von Web Analytics für Usability-Evaluierungen
269
weit oben auf der Ergebnisliste zu positionieren (Effizienz). Auch andere Metriken können hier von Interesse sein. Die Ausstiegsrate auf der Suchergebnisseite kann Aufschluss über die Zufriedenheit der Nutzer bezüglich der gelieferten Ergebnisse geben und der Anteil der Nutzer der internen Suchmaschine über die Akzeptanz des Navigationsmenüs.
3.3
Inhaltsnutzung und Navigationsverhalten
Pfadanalysen und Browser Overlays können Informationen zum Klick- und Navigationsverhalten der Besucher liefern. Da Piwik keine dieser beiden Statistiken anbietet, wurde ein eigenes Java-Programm entwickelt, das auf die Piwik-Datenbank Zugriff und SQL-Abfragen durchführte. Dadurch konnten die häufigsten Schritte auf der Website, die häufigsten Entry und Exit Pages und die meist genutzten Inhalte identifiziert werden. Die häufigsten Schritte haben ebenso wie Pfadanalysen auf Seitenebene aufgrund der vielen Kombinationsmöglichkeiten wenig Aussagekraft (Hassler 2009, 190). Gruppiert man die einzelnen Seiten in Oberkategorien können aus Usability-Perspektive eventuell interessante Verbindungen von Teilbereichen aufgedeckt und beispielsweise Shortcuts eingefügt werden. Entry Pages können unter Usability-Gesichtspunkten dazu genutzt werden, zu schauen, ob der erste Eindruck der Website zufriedenstellend für die Nutzer ist. Anhand der durchschnittlichen Aktionen bekommt der Betreiber einen Eindruck vom Engagement der Nutzer und kann im spezifischen Kontext entscheiden, ob die Anzahl der Seitenaufrufe angemessen ist. Falls beispielsweise Landing Pages nur zu wenigen Aktionen führen, spricht dies für eine niedrige Akzeptanz und damit eventuell für ein notwendiges Redesign dieser Seiten. Exit Pages können bspw. dann etwas zur Usability der Website aussagen, wenn die Seiten Benutzer von einer bestimmten Aktion überzeugen sollen. Springen viele Besucher ab, könnte eine Schwachstelle vorliegen. Auch gibt es Seiten, die nicht unter den häufigsten Ausstiegsseiten zu finden sein sollten, ζ. B. die Suchergebnis- oder die Fehlermeldungsseite. Solche Einträge haben ein Potenzial, Problembereiche der Website aufzudecken. Ausstiegsraten (Exit Rates) helfen einzuschätzen, wie hoch bzw. gravierend die Menge der Abbrecher ist und sollten daher stets in Kombination mit den Ausstiegsseiten betrachtet werden. Die am häufigsten aufgerufenen Seiten helfen dabei, die wichtigsten Interessensbereiche der Nutzer zu identifizieren und zu überprüfen, wie gut die Angebote der Website aufgenommen werden und ob die geplante Zielgruppe die Website benutzt.
4
Fazit
Der Bereich Web Analytics ist in den letzten Jahren stark gewachsen. Es gibt eine Vielzahl an Systemen, welche die Aktionen von Internetnutzern erfassen. Diese Daten eignen sich u.a. auch für Usability-Evaluierungen von Websites. Anhand von Interviews mit Experten und einer empirischen Untersuchung wurden die Potenziale dieses Ansatzes für die UsabilityForschung erarbeitet. Es ließ sich zeigen, dass die verfügbaren Daten dabei helfen können, die Ziele und Bedürfnisse der Nutzer zu identifizieren, die Güte der Website zu beurteilen,
270
Jürgens, Mandl & Womser-Hacker
Informationen über die reale Nutzerschaft im Vergleich zur Zielgruppe zu bekommen und etwas über die technische Arbeitsumgebung der Besucher zu erfahren. Das Vorgehen und die Ergebnisse bilden einen Leitfaden für andere, ähnliche Untersuchungen. Literaturverzeichnis Atterer, R., Wnuk, M. & Schmidt, A. (2006). Knowing the user's every move: user activity tracking for website usability evaluation and implicit interaction. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW Ό6. ACM Press, New York, NY, 203-212. Burby, J. & Atchison, S. (2007). Actionable Web Analytics: Using data to make smart business decisions. Indianapolis, Indiana: Wiley Publishing Inc. Burton, M. C. & Walther, J. B. (2001). The value of web log data in use-based design and testing. Journal of Computer-Mediated Communication 6(3). Claypool, M., Le, P., Wased, M. & Brown, D. (2001). Implicit interest indicators. In: IUI '01: Proceedings of the 6th international conference on Intelligent user interfaces (Santa Fe, New Mexico, January 14 - 17, 2001) ACM Press, N e w York, NY, 33-40. Ellis, R. D., Jankowski, Т. В., Jasper, J. E. & Tharuvai, B. S.(1998). Listener: A tool for client-side investigation of hypermedia navigation behavior. Behavior Research Methods, Instruments, & Computers 30 (4), 573-582. Etgen, M. & Cantor, J. (1999). What does getting WET (Web Event-logging Tool) mean for Web Usability? In: NIST (Hrsg.): Proceedings of the 5th Conference on Human Factors and the Web at NIST (Gaithersburg, Maryland, June 3, 1999). Hassler, Μ. (2009). Web Analytics: Metriken auswerten, Besucherverhalten verstehen, Website optimieren. Heidelberg: mitp. Ignatova, E. D. & Brinkman, W. (2007). Clever tracking user behaviour over the web: enabling researchers to respect the user. In: BCS-HCI '07: Proceedings of the 21st British HCl Group Annual Conference on HCl 2008, British Computer Society, 179-182. Kaushik, A. (2007). Web Analytics: An hour a day. Indianapolis, Indiana: Wiley Publishing Inc. McFadden, C. (2005). Optimizing the online http://www.webanalyticsassociation.org/en/art/79
business
channel
with
Web
Analytics.
WebTrekk GmbH (2009). Neue WebTrekk Kunden-Langzeitstudie für das 3. Quartal 2009 über Browser- und Suchmaschinennutzung in Deutschland. http://www.webtrekk.de/fileadmin/pdf/pm/2009/PM_langzeitstudie_3_Quartal_09.pdf. Weischedel, В. & Huizingh, Ε. Κ. R. Ε. (2006). Website optimization with web metrics: a case study. In: ICEC '06: Proceedings of the 8th international conference on Electronic commerce, ACM Press, N e w York, NY, 4 6 3 ^ 7 0 Kontaktinformationen {]jue0068, mandl, womser} @uni-hildesheim.de
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 271-280
Effizientere Usability Evaluationen mit gemischten Prozessen Martin Schmettow, Cedric Bach, Dominique Scapin Zusammenfassung Viele Arbeiten im Usability Engineering befassen sich damit, neue Methoden zur Aufdeckung von Usability Schwachstellen zu entwickeln und ihre Effizienz mit etablierten Methoden zu vergleichen. Hier wird die Perspektive eingenommen, dass Evaluationsmethoden grundsätzlich selektiv in Bezug auf Typen von Schwachstellen sind. Diese Selektivität ist teilweise dafür verantwortlich, dass es bisher nicht gelungen ist die Effizienz von Usability Evaluationen nennenswert zu steigern. Wir zeigen einen einfachen Ausweg auf, der darin besteht, in einem Evaluationsprozess Methoden mit komplementären Profilen zu mischen. Am Fall der Evaluation von Virtual Environment Anwendungen wird gezeigt, dass auf diese Weise Effizienzsteigerungen von 20% bzw. Kostensenkungen von 30% möglich sind.
1
Einleitung
Ein wesentlicher Beitrag der Usability Forschung zur Förderung benutzerorientierter Softwareentwicklung ist die Bereitstellung effizienter Methoden zur Aufdeckung von Usability Schwachstellen. Zwei Meilensteine in dieser Forschungslinie sind der Usability Test (UT), der auf direkter Verhaltensbeobachtung beruht, und die Heuristische Evaluation (HE) als expertenbasierte Inspektionsmethode (Nielsen, 1994). Beide Methoden haben in der industriellen Praxis weite Verbreitung gefunden. Die Effizienz dieser und weiterer Usability Methoden ist Gegenstand vieler Studien, wobei im Allgemeinen zwei unterschiedliche Perspektiven eingenommen werden: die quantitative Steuerung des Evaluationsprozesses und der Vergleich der Effizienz von Evaluationsmethoden. In zahlreichen Studien wurden neue Prozeduren vorgestellt, um die Effizienz der Schwachstellenentdeckung zu steigern. Typischerweise werden diese vorgeschlagenen Prozeduren mit etablierten Methoden (meistens HE oder UT) in experimentellen Studien verglichen. Einen Überblick über diese Studien im Bereich der Inspektionsmethoden geben Cockton et. al. (2003). Gray & Salzman (1998) kritisierten jedoch viele der frühen (und einflussreichen) Studien wegen ihrer erheblichen methodischen Mängel, was die sogenannte „Damaged Merchandise" Debatte auslöste. Schmettow & Vietze (2008) wiesen zudem auf die unzureichende statistische Behandlung der Effizienzvergleiche hin, da die meisten dieser Studien die Effizienz in einer einzelnen Statistik zusammenfassen: der mittleren Rate erfolg-
272
Schmettow, Bach & Scapin
reich aufgedeckter Schwachstellen. Sie heben hervor, dass dieses Maß die Varianz in der Entdeckbarkeit von Schwachstellen und der Entdeckungsfähigkeit der Experten vernachlässigt. Nur sehr wenige Studien sind über den Ansatz der mittleren Entdeckungsrate hinausgegangen und haben qualitative Unterschiede zwischen Evaluationsmethoden betrachtet. So stellen Frokjaer & Hornbaek (2008) eine neue Inspektionsmethode vor, die auf psychologischen Metaphern beruht, der Heuristischen Evaluation in prozeduraler Hinsicht jedoch stark ähnelt. Allerdings konnten diese Autoren im direkten Vergleich zur HE auf der Ebene reiner Mittelwerte keine nennenswerten Vorteile nachweisen. Möglicherweise in Anbetracht dessen wurde eine tiefer gehender Vergleich durchgeführt. Dabei wurden die Schwachstellen in mehrerer Hinsicht klassifiziert und die Effizienz innerhalb dieser Klassen verglichen. Dabei traten tatsächlich qualitative Unterschiede zu Tage: Bestimmte Schwachstellen ließen sich mit der neuen Methode effizienter aufdecken, andere mit der HE. In ähnlicher Weise haben Fu et. al. (2002) qualitative Unterschiede zwischen dem empirischen Usability Test und der expertenbasierten HE nachgewiesen, und zwar - bemerkenswerterweise - in einer theoriegeleiteten Studie: Auf Basis des Handlungssteuerungsmodells von Rasmussen (1986) argumentieren sie, dass expertenbasierte Evaluationsmethoden sich eher zur Aufdeckung von skillund гм/e-basierten Schwachstellen eignen, während knowledge-basierte Schwachstellen besser in empirischen Usability Tests entdeckt werden. Diese Vorhersage erwies sich als zutreffend und ist ein klares Argument für derartig qualitative Vergleiche von Evaluationsmethoden. Letzlich ziehen Frokjaer & Hornbaek (2008) aus den Ergebnissen des qualitativen Vergleichs den Schluss, ihre neue Methode sei vorteilhaft, weil damit zwar nicht mehr, aber gravierendere Schwachstellen aufgedeckt würden. Anbetracht des unzureichend verstandenen und operationalisierten Konzepts des Schweregrades von Schwachstellen ist das eher fragwürdig (Hertzum & Jacobsen, 2001). Insbesondere ist die Annahme nicht zulässig, Schwachstellen auf niedrigeren Ebenen der Handlungssteuerung seien weniger schwerwiegend. Dies sei an folgendem Beispiel veranschaulicht: Bei PCs mit deutscher Tastenbelegung liegt das Zeichen auf ALT GR - Q. Dieses Zeichen ist vor allem für die Eingabe von Emailadressen relevant und dürfte bei den meisten Benutzern hoch überlernt sein; das heißt, es liegt eine Handlungssteuerung auf skill-Ebene vor. Auf Rechnern der Marke Apple hingegen führt diese Tastenkombination zum sofortigen Schließen der Anwendung ohne Rückfrage. Für Umsteiger von anderen Betriebssystemen führt dies unweigerlich zu Fehlbedienungen mit schweren Konsequenzen. Wegen der Unbewussheit der Handlungsteuerung auf skill-Ebene sind diese Fehlbedienungen für den Benutzer besonders schwer zu vermeiden oder zu „verlernen". Im Gegensatz dazu betonen Fu et. al. (2002), dass die Stärke beider Methoden gerade in ihrer Unterschiedlichkeit liegt, indem sie den Nutzen in unterschiedlichen Phasen des Entwicklungsprozesses herausstellen. Sie argumentieren, dass sich expertenbasierte Methoden gut zur Evaluation früher Prototypen im Designprozess eignen, um in anschließenden Usability Tests die Schwachstellen auf höheren Ebenen der Handlungssteuerung aufzudecken. Die Autoren kommen jedoch auch zu dem Schluss, dass ein derartiges Vorgehen höhere Kosten nach sich zieht und deswegen in der Praxis wenig Verbreitung finden könnte.
Effizientere Usability Evaluationen mit gemischten Prozessen
2
273
Forschungsfragen
Wir stimmen mit der Ansicht von Fu et. al. (2002) überein, dass die Stärke von Evaluationsmethoden in ihren unterschiedlichen Profilen liegt. Jedoch werden wir im Folgenden nachweisen, dass die Mischung von Methoden im Evaluationsprozess zu einer erheblichen Kostenersparnis führen kann. Dazu dienen die Daten einer jüngeren Studie, in der die Effizienz von drei Evaluationsmethoden im Bereich der Virtual Environments Anwendungen verglichen wurde (Bach & Scapin, 2010). Eine Voraussetzung für die hier aufgestellten Forschungsfragen ist, dass sich Schwachstellen grundsätzlich darin unterscheiden, wie gut sie (mit einer bestimmten Methode) aufgedeckt werden können. Dieser Sachverhalt wurde bereits in zwei früheren Studien nachgegangen: Schmettow (2008) wies anhand von Zähldatenmodellen nach, dass die Sichtbarkeit von Schwachstellen in der Regel deutlich variiert (Schwachstellenheterogenität). In einer Folgestudie konnte außerdem gezeigt werden, dass Schwachstellenheterogenität Auswirkungen auf die Performanz des Evaluationsprozesses hat (Schmettow, 2009). Schwachstellenheterogenität kann auch als Selektivität der eingesetzten Evaluationsmethode interpretiert werden: Zunächst werden sehr schnell diejenigen Schwachstellen aufgedeckt für die die Methode besonders sensitiv ist; das erschöpft sich jedoch mit zunehmender Anzahl der unabhängigen Testdurchläufe (im folgenden als Prozessgröße bezeichnet). Es werden dann um so mehr Durchläufe benötigt, um solche Schwachstellen zu finden, für die die Methode eigentlich nicht geeignet ist. In letztgenannter Studie wurde Schwachstellenheterogenität für die hier betrachteten Datensätze bereits nachgewiesen, weshalb hier auf diesen Schritt verzichtet werden kann. Zunächst gehen wir der Frage nach, ob sich eine spezifische Selektivität von Evaluationsmethoden nachweisen lässt. Dazu bedienen wir uns eines grafischen Verfahrens und eines eigens entwickelten statistischen Tests. Es wird sich zeigen, dass insbesondere der Usability Test ein deutlich anderes Profil aufweist als expertenbasierte Methoden. Dann gehen wir von der Annahme aus, dass sich selektive Methoden erschöpfen bevor alle Schwachstellen aufgedeckt wurden. Es wird untersucht, ob sich ein Effizienzgewinn erzielen lässt, indem man von vorne herein zwei Methoden mit komplementärer Selektivität zur Evaluation verwendet. Dazu zeigen wir, dass derart „gemischte" Prozessen stets zu einer höheren Rate neu entdeckter Schwachstellen führen als „reine" Prozesse.
3
Studiendesign und Datensätze
Im Folgenden soll kurz das empirische Design der Studie vorgestellt werden, das dem typischen Aufbau vergleichender Experimente an Usability Evaluationsmethoden folgt. Eine detaillierte Beschreibung der Studie und eine elaborierte Diskussion des Anwendungsbereiches virtueller Umgebungen finden sich bei Bach & Scapin (2010).
274
Schmettow, Bach & Scapin
Drei Evaluationsmethoden wurden in unabhängigen Bedingungen verglichen: empirisches Usability Testing (UT), eine dokumentenbasierte Inspektionsmethode (DI) und eine Experteninspektion (EI). In der Bedingung DI lasen und benutzten die Probanden einen umfassenden Katalog ergonomischer Kriterien für virtuelle Umgebungen, während sie in der EI Bedingung allein auf ihr Vorwissen in Softwareergonomie angewiesen blieben (s.u.). Gegenstand der Evaluation waren zwei virtuelle Umgebungen: eine Lernsoftware zu einem 3D Videospiel (EDU) und eine dreidimensionale virtuelle Karte des Chamonix Tal in den französischen Alpen (MAP). EDU folgt einem klar strukturierten Benutzungsszenario, indem der Benutzer nacheinander 35 Lernaufgaben auf unterschiedlichem Schwierigkeitsniveau löst. In MAP kann der Benutzer relativ frei die Umgebung des Chamonix Tales erkunden und auf touristische Informationen zugreifen. An dem Usability Test nahmen zehn Personen im Alter zwischen 19 und 24 Jahren teil. Die Teilnehmer verfügten über normale Seh- und Hörfähigkeit, hatten normale Kenntnisse im Umgang mit Computern, jedoch keine ausgewiesenen Vorerfahrungen mit virtuellen Umgebungen. An den beiden Inspektionsbedingungen nahmen 19 Studenten des Faches Arbeitspsychologie im fünften Jahr ihres Studiums teil. Diese hatten wenigstens einen Kurs in Softwareergonomie absolviert, jedoch keine praktische Erfahrung in der Evaluation von virtuellen Umgebungen. Die Zuordnung zu den beiden Inspektionsbedingungen erfolgte randomisiert. Jeder Teilnehmer wurde mit beiden Anwendungen konfrontiert, wobei jede Evaluation pro Anwendung genau 30 Minuten dauerte. Jeder Durchlauf wurde auf Video aufgezeichnet, zusätzlich wurden die Teilnehmer an den Inspektionsbedingungen aufgefordert, die gefundenen Schwachstellen schriftlich zu dokumentieren. Tabelle 1: Überblick experimentelle
Methode
N
Bedinungen
Anzahl Schwachstellen EDU
DI - Dokumenteninspektion EI - Experteninspektion UT - Usability Test Gesamt
MAP
10
79
88
9
39
52
10
76
84
29
127
147
Auf Basis dieses Materials wurden anschließend die einzelnen Schwachstellenberichte validiert und normalisiert. Dabei identifizierten mehrere Experten durch Konsensbildung mögliche falsche Alarme und fassten die validen Schwachstellenereignisse zu Schwachstellen zusammen. Diese Vereinheitlichung (Matching) folgte den Empfehlungen von Cockton & Lavery (1999). Tabelle 1 gibt einen Überblick über die Anzahl der vereinheitlichten Schwachstellen in den sechs experimentellen Bedingungen.
Effizientere Usability Evaluationen mit gemischten Prozessen
4
275
Selektivität der Evaluationsmethoden
Im Folgenden wird untersucht, inwieweit man bei den drei Evaluationsmethoden von einer Selektivität gegenüber bestimmten Schwachstellen ausgehen kann. Einen deutlichen Hinweis auf Methodenselektivität gibt jedoch schon Tabelle 1, indem ersichtlich wird, dass jede der drei Methoden zwischen ein und zwei Drittel aller bekannten Schwachstellen völlig „übersieht". Ebenfalls bemerkenswert ist, dass die beiden Methoden UT und DI bei einer Prozessgröße von jeweils zehn Durchläufen in etwa gleich viele Schwachstellen aufdecken. Die Methode EI hingegen erscheint deutlich weniger effizient. Für eine genauere Bestimmung der Selektivität wird im Folgenden die Effizienz je zweier Methoden auf der Ebene individueller Schwachstellen verglichen. Die Frage ist jeweils, wieviele der Schwachstellen signifikant häufiger mit einer der beiden Evaluationsmethoden aufgedeckt werden. Dazu haben wir einen Test entwickelt, der dem Binomialtest ähnelt, jedoch anders als dieser nicht gegen eine a priori festgesetzte Erfolgswahrscheinlichkeit prüft. Stattdessen wird geprüft, wie hoch die Wahrscheinlichkeit ist, dass in zwei Ziehungsreihen dieselbe Grundwahrscheinlichkeit gegeben ist. Mit diesem Test lässt sich für jede Schwachstelle bestimmen, ob sie eine signifikante „Präferenz" für eine der beiden Methoden hat oder indifferent ist. In Abbildung 1 ist der paarweise Vergleich als flower plot dargestellt, wobei die Anzahl der Blätter der Anzahl der Schwachstellen auf der Koordinate entspricht. Da diese Analyse einem vornehmlich explorativen Zweck dient, wurde ein großzügiges Konfidenzintervall von 90% (zweiseitig) gewählt. Damit ist zu erwarten, dass 10% aller signifikanten Ergebnisse rein zufällig zustande gekommen ist. In beiden Vergleichen von DI und EI (links) wird eine nahezu zusammenhängende Punktwolke sichtbar, die sich jedoch deutlich zur X-Achse neigt. Nur für relative wenige Schwachstellen wird der Unterschied signifikant. Darin wird deutlich, dass die beiden Inspektionsmethoden ein sehr ähnliches Entdeckungsprofil bieten, wobei DI eindeutig effizienter ist. Ein anderes Bild ergibt der Vergleich zwischen DI und UT (Mitte): Die Punktwolke ist wesentlich breiter; in der EDU Bedingung lassen sich sogar visuell drei Partitionen ausmachen, wobei etwa ein Drittel aller Schwachstellen eine signifikante Präferenz aufweist; in der MAP Bedingung sind dies immerhin noch etwa ein Viertel aller Schwachstellen. Eine ähnliche Anzahl signifikanter Präferenzen wird auch im Vergleich von EI und UT beobachtet, wobei erneut die geringe Effizienz von EI deutlich wird. Es sei nur am Rande angemerkt, dass der Effizienzunterschied zwischen EI und DI nicht weiter verwunderlich ist, hatten doch die Probanden in der DI Bedingung einen (offenbar sinnvollen) Kriterienkatalog zur Verfügung. Diese Ergebnisse illustrieren deutlich den qualitativen Unterschied zwischen dem Usability Test einerseits und den Inspektionsmethoden andererseits. Das lässt sich wie folgt zusammenfassen: Die Dokumenteninspektion evaluiert dasselbe wie die Experteninspektion, nur besser. Der Usability Test evaluiert genauso effizient wie die Dokumenteninspektion, aber etwas anderes.
276
Schmettow, Bach & Scapin
CI90. 42 total· 127
CI90 19 total 127
CI90 46 total: 127
Л .J- I * *
I I • I
ίX • X X ~r
~~г 10 Entdeckungshäutigk. DI
CI90 10 total. 147
Entdeckungshäutigk. DI
Entdeckungshäutigk. El
CI90 34 totäl. T47
CI90 34 total: 147
*
A
i
Entdeckungshäutigk. DI
Entdeckungshäutigk, DI
Entdeckungshäutigk. E l
Abb. 1: Bivariater Vergleich der Methodeneffizienz auf Ebene einzelner Schwachstellen
5
Effizienz gemischter Evaluationsprozesse
Ähnlich wie in der Studie von Fu et. al. (2002) sind also Usability Test und Inspektion komplementär, d.h. sie unterscheiden sich in ihren Stärken und Schwächen. Damit ist die Voraussetzung für die zweite Forschungsfrage erfüllt: Welcher Nutzen ergibt sich aus einem Evaluationsprozess, in dem zwei komplementäre Methoden in einem optimalen Verhältnis gemischt werden? Dieser Frage wird im Folgenden nachgegangen, wobei die wenig empfehlenswerte Methode EI keine weitere Berücksichtigung finden soll. Außerdem werden die Bedingungen MAP imd EDU der Einfachheit halber vereinigt. Das ist möglich, da auf diesem Faktor ein within-subject Design vorliegt. Um das optimale Mischungsverhältnis von DI und UT imd den Zusatznutzen gegenüber den jeweils reinen Prozessen zu ermitteln, wird auf das Verfahren des Monte-Carlo Samplings zurückgegriffen, das in ähnlicher Weise bereits von Schmettow & Niebuhr (2007) verwendet wurde. Dazu werden für eine betrachtete Prozessgröße UT-Durchläufe und DI- Durchläufe
Effizientere Usability Evaluationen mit gemischten Prozessen
277
in einem bestimmten Mischungsverhältnisses zufällig gezogen und dann die Anzahl mindestens einmal entdeckter Schwachstellen bestimmt. Für jede betrachtete Prozessgröße und jedes mögliche Mischungsverhältnis wird diese Ziehimg 1000 Male wiederholt, um eine Verteilung der Effizienz zu ermitteln. Anhand dieser Verteilungen kann die Effizienz der Mischungsverhältnisse, einschließlich der reinen Prozesse, verglichen werden. Die Ergebnisse für die Prozessgrößen 6,8 und 10 sind in Abbildung 2 dargestellt. Es wird deutlich, dass das Mischen von Methoden in einem Evaluationsprozess die Effektivität der Schwachstellenerkennimg erhöht. Zum Beispiel genügt bereits ein einziger UT Durchlauf, um in mehr als 50% der Fälle eine höhere Effektivität zu erzielen als mit einem reinen DI Prozess derselben Größe jemals möglich erschien. Bei jeder der drei Prozessgrößen werden im optimalen Mischungsverhältnis etwa 20% mehr Schwachstellen aufgedeckt, als mit dem effizienteren der beiden reinen Prozesse. Dieser Zusatznutzen lässt sich im Vergleich zwischen den Prozessgrößen auch als Kostenersparnis ausdrücken: So entdeckt man mit einem optimal gemischten Prozess der Größe 6 deutlich mehr Schwachstellen als mit einem reinen DI Prozess der Größe 8 imd praktisch genauso viele wie mit einem reinen UT Prozess der Größe 10.
Τ 1 1 1 г 0/8 UT/DI Durchläufe
2/6
4/4
UT/DI Durchläufe
"Ί—ι—ι—I—I—I—I—I—I—I—Γ 0/10
2/8
4/6
6/4
8/2
10/0
UT/DI Durchläufe
Abb. 2: Ergebnis des Monte-Carlo Samplings. Verteilung der Effizienz in variierenden Mischungsverhältnissen Prozessgrößen 6. 8 und 10.
bei
Einen Überblick über die Ergebnisse bei den Prozessgrößen 2 bis 10 gibt die Tabelle 2. So ist ein merklicher Zusatznutzen von Mischimgen bereits bei sehr kleinen Prozessgrößen gegeben, imd steigt dann auf über 20% an. Mit sechs gemischten Durchläufen wird bereits ein besseres Ergebnis erzielt als mit neun DI Durchläufen, was einer Ersparnis von einem Drittel entspricht. Aufgrund der limitierenden Stichprobengröße von 10 konnten wir die tatsächliche Ersparnis bei den Prozessgrößen 7-10 nicht ermitteln. Nach unserer Einschätzimg dürfte sie sich aber in Anbetracht des asymptotischen Verhaltens auch für größere Prozesse im Bereich von 30% und möglicherweise mehr bewegen.
278
Schmettow, Bach & Scapin Tabelle 2: Mittlere Effizienz sowie Zusatznutzen und Kostenersparnis von optimal gemischten Prozessen
Prozessgröße Mean(DI) Mean(UT) Optimaler Mix DI/UT Mean(Optim. Mix) Zusatznutzen (% Schwächst.) Ersparnis (Anz. Durchläufe)
2
3
4
5
6
7
8
9
10
78 83
98 101 1/2 115
114 114 2/2 135
127 125 2/3 150
138 133 3/3 164
147 141 3/4 176
154 148 4/4 186
161 154 4/5 195
167 160 5/5 202
1/1 91
9,6% 13,9% 18,4% 18,1% 18,8% 19,7% 20,8% 21,1% 21,0% 0
1
1
2
3
>3
>2
>1
Weiterhin fällt auf, dass die optimale Mischung unabhängig von der Prozessgröße in einem Gleichverhältnis zu liegen scheint. Das ist hier durch die ähnliche Effektivität der beiden Methoden gegeben und muss keineswegs immer der Fall sein. So zeigte eine Analyse der Mischung von UT und EI, dass ein Verhältnis von 5/1 ebenfalls einen (zugegeben geringen) Zusatznutzen von 2,3% gegenüber einem reinen UT Prozess ergibt. Demzufolge kann auch eine vergleichsweise ineffiziente Methode einen gewissen Nutzen entfalten, sofern sie ein komplementäres Profil aufweist, also bestimmte Schwächen der effizienteren Methode ausgleicht.
6
Diskussion und Fazit
Es gibt Situationen, in denen Usability eine derart geschäftskritische Rolle spielt (etwa im ECommerce), dass eine möglichst umfassende Usability Evaluation notwendig ist. In diesem Falle schlagen wir den Einsatz gemischter Evaluationsprozesse vor. Dabei wird das spezifische Profil einzelner Methoden ausgeglichen, so dass sich der Evaluationsprozess weniger schnell „erschöpft". Unsere Ergebnisse zeigen, dass dadurch mehr Schwachstellen mit erheblich weniger Aufwand aufgedeckt werden können. Der Nutzen ist in unserer Studie deutlich größer als bei den meisten Versuchen, die Effizienz von Inspektionsmethoden durch Modifikationen zu steigern. Dazu gilt es jedoch ebenfalls, die spezifischen Stärken und Schwächen von gängigen Methoden zu ermitteln, da der Effizienzgewinn von der Komplementarität der Methoden abhängt. Einen einfachen Ansatz dazu haben wir hier bereits vorgestellt: Die bivariaten Plots eignen sich zunächst dazu, das Ausmaß von Komplementarität zu bestimmen; sie können jedoch auch als Ausgangsbasis zur inhaltlichen Klassifikation von Schwachstellen dienen, was eine Voraussetzung für die inhaltlichen Bestimmung von Methodenprofilen ist. Mächtigere statistische Verfahren sind möglicherweise in der probabilistischen Testtheorie zu suchen, wie in einer früheren Arbeit bereits vorgeschlagen wurde (Schmettow & Vietze, 2008). Anzumerken sei noch, dass sich derartige Analysen ohne weiteres mit bestehenden Datensätzen durchführen lassen. Das Paradigma der experimentell vergleichenden Evaluationsstudie bleibt von unseren Vorschlägen unberührt.
Effizientere Usability Evaluationen mit gemischten Prozessen
279
Für eine realistische Kosten-Nutzen-Beurteilung ist unter anderem auch der Schweregrad der Schwachstellen von Bedeutung. Schweregradeinschätzungen lagen in dieser Studie nicht vor. Es könnte also durchaus sein, dass etwa der Usability Test die schwerwiegenderen Probleme aufdeckt und aus diesem Grunde die bevorzugte Methode sein müsste. Diese Frage lässt sich jedoch ausschließlich mit einem validen Konzept zur Schweregradeinschätzung beantworten, das derzeit nicht verfügbar ist (Hertzum & Jacobsen, 2001). Und, wie wir oben an einem Beispiel gezeigt haben, ein einfacher Zusammenhang zwischen psychologischen Modellen und der Relevanz einer Schwachstelle besteht nicht. Das Augenmerk sollte in Zukunft in der Frage liegen, welche der existierenden Methoden sich wie und wann effizient in den Entwicklungsprozess integrieren lässt. Dazu muss zunächst untersucht werden, was eine Evaluationsmethode eigentlich genau leistet, anstatt zu messen wie gut sie irgendetwas tut. Der Ansatz von Fu et. al. (2002) ist nicht nur wissenschaftlich fundiert, er zeigt auch praktisch diese Richtung auf. Allerdings ist deren Schlussfolgerung nicht ganz eindeutig, dass man ifo'/Z-basierte Schwachstellen erst durch Inspektionen ausmerzen müsse, bevor man sich den knowledge-basierten in Usability Tests zuwende. Ebenso ist in einem konkreten Entwicklungsprojekt von Belang, welche Art von Schwachstellen man in der anstehenden Iteration zu beseitigen gewillt ist. Unter anderem kommt hier die Erkenntnis des Software Engineerings zum Tragen, dass früh eingeführte Schwachstellen die höchsten Kosten in der Beseitigung nach sich ziehen (Boehm & Basiii, 2001). Beispielsweise ist denkbar, dass gerade die knowledge-basierten Schwachstellen mit grundlegenden Benutzeranforderungen im Zusammenhang stehen, etwa dem Ablauf von Arbeitsprozessen. Diese sind oft tief in der Architektur des Systems verankert (und damit teuer in der Schwachstellenbeseitigung), was dann für einen frühen Einsatz empirischer Evaluationsmethoden spräche. Abschließend sei noch angemerkt, dass die Inspektionsforschung im Software Engineering das verwandte Prinzip der perspektivenbasierten Inspektion entwickelt und positiv evaluiert hat. Es wurde außerdem von Zhang, et. al. (1998) mit Erfolg auf Usability Inspektionen übertragen, was aber wenig Beachtung gefunden hat. Kontaktinformationen Martin Schmettow [email protected]
Cedric Bach cedric ,bach@irit. fr
Dominique Scapin dominique. scapin@inria. fr
University of Twente 7500AE Enschede, Niederlande
University of Toulouse 31062 Toulouse Frankreich
INRIA 78153 Le Chesnay Frankreich
Literatur Bach, C. & Scapin, D.L. (2010). Comparing inspections and user testing for the evaluation of virtual environments. Intern. Journal of Human-Computer Interaction, In press.
280
Schmettow, Bach & Scapin
Boehm, B.W. & Basili, V.R. (2001). Software defect reduction top 10 list. IEEE Computer 34(1): 135-137. Cockton, G. & Lavery, D. (1999). A framework for usability problem extraction. In: Proceedings of Interact 99. IOS Press: Amsterdam, 344-352. Cockton, G., Lavery, D & Woolrych, A. (2003). Inspection-based evaluations. In: The human-computer interaction handbook: fundamentals, evolving technologies and emerging applications. Lawrence Erlbaum Associates, 1118-1138. Frokjasr, E. & Hornbask, K. (2008). Metaphors of human thinking for usability inspection and design. ACM Transactions on Computer-Human Interaction, 14(A), ACM Press, 1-33. Fu, L. Salvendy, G. & Turley, L. (2002). Effectiveness of user testing and heuristic evaluation as a function of performance classification. Behaviour & Information Technology, 21(2), 137-143. Gray, W.D. & Salzman, M.C. (1998). Damaged merchandise? A review of experiments that compare usability evaluation methods. Human-Computer Interaction, 13(3), 203-261. Hertzum, M. (2006). Problem prioritization in usability evaluation: From severity assessments toward impact on design. International Journal of Human-Computer Interaction, 21(2), 125-146. Nielsen, J. (1994). Enhancing the explanatory power of usability heuristics. In CHI '94: Proceedings of the SIGCHI conference on Human factors in computing systems, ACM Press: New York, 152-158. Schmettow, M. (2008). Heterogeneity in the usability evaluation process. In David England & Russell Beale: Proceedings of the HCl 2008, Band 1. British Computing Society, 89-98. Schmettow, M. (2009). Controlling the usability evaluation process under varying defect visibility. In Blackwell, A.F.: Proceedings of the HCl 2009. British Computing Society, 188197. Schmettow, M. & Niebuhr, S. (2007). A pattern-based usability inspection method: First empirical performance measures and future issues. In Ramduny-Ellis, D. & Rachovides, D.: Proceedings of the HCl 2007, Band 2. British Computing Society, 99-102. Schmettow, M. & Vietze, W. (2008). Introducing Item Response Theory for measuring usability inspection processes. In: Proceeding of SIGCHI conference on Human factors in computing systems. ACM Press: New York, 893-902. Zhijun Zhang, Victor Basili, and Ben Shneiderman (1999). Perspective-based usability inspection: An empirical validation of efficacy. Empirical Softw. Engineering 4( 1), 43-69.
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 281-290
Usability-Evaluation interaktiver Geräte: Online vs. Labor? 1 Knut Polkehn 1, Hartmut Wandke , Marcus Dahm2 1
Institut für Psychologie, Humboldt-Universität zu Berlin
2
FB Medien, Fachhochschule Düsseldorf
Zusammenfassung Kommen aufwändige Usability-Tests von interaktiven Geräten im Labor zu denselben Ergebnissen wie Online-Tests mit browserbasierten Simulationen? In einem Vergleich der beiden methodischen Ansätze kann gezeigt werden, dass die Ergebnisse unterschiedlich ausfallen: Online wird die Effektivität überund der Aufwand unterschätzt, während das Benutzererleben durchaus vergleichbar ausfallt. Für komparative Usability-Evaluationen sind beide Ansätze gleichermaßen geeignet. Defizite von Simulationen durch das Fehlen von taktilen und haptischen Affordances können durch minimale Instruktionen ausgeglichen werden.
1
Problemstellung und Stand der Forschung
Die vorliegende Studie geht der Frage nach, unter welchen Bedingungen es möglich ist, auch Hardwareaspekte der Mensch-Technik-Interaktion in Online-Experimenten auf Usability zu prüfen. Im Rahmen von Prototyping werden interaktive Geräte oft durch Software (mit dem Vorteil der Erfassung von Logfile-Potokollen) simuliert. Solche Simulationen können dann auch einem Online Usability-Tests unterzogen werden, wie sie ζ. B. bei Websites erfolgreich unter der Bezeichnung Remote Usability Testing (Lorenzen-Schmidt und Nufer, 2008) praktiziert werden. In einer ersten Studie konnten Dahm et al. (2004) den Nachweis führen, dass die Simulation von Mobiltelefonen sehr gut in browserbasierten Online-Experimenten möglich ist und dass auf diese Weise sehr schnell aussagkräftige Daten zur Usability gewonnen werden konnten. Allerdings waren sämtliche Interaktionen mit den simulierten Telefonen diskret (Tastendrücke per Maus). Schwierig ist die Simulation von Geräten mit analogen Bedienelementen, wie sie von Dahm et al. 2007 durchgeführt wurde. Gegenstand der Untersuchung waren MP3Player, bei denen ζ. T. gleitende und rotierende Bewegungen auf einer Touch-Oberfläche erforderlich waren. Die Autoren bildeten diese Interaktion mit einer rotierenden Mausbewegung nach, wobei die linke Maustaste gedrückt zu halten war und der Cursor als Hand mit
282
Polkehn, Wandke & Dahm
ausgestrecktem Zeigefinger zu sehen war. Im Gegensatz zum realen Finger gab der Cursor jedoch keinerlei Rückmeldung, wenn sich die tastbaren Oberflächeneigenschaften des Gerätes änderten. Damit fehlten in der Simulation die taktilen Affordances (Norman, 1999), die auf die erforderliche Interaktion hinweisen konnten. Es überraschte daher nicht, dass der iPod-Player von Apple, dem der Ruf vorauseilte, auf besonders intuitive Weise bedienbar zu sein, eher schlecht im Vergleich von drei Playern abgeschnitten hat. Aber vielleicht war dies auch nur ein Artefakt, zurückzuführen auf die Online-Simulation, bei der man den Player nicht in der Hand halten und mit den Fingern die Oberfläche berühren konnte?
2
Untersuchung
2.1
Fragestellungen und Hypothesen 1.
Wenn browserbasierte Software-Simulationen online einsetzt und mit den OriginalGeräten in einem Labor verglichen werden, kommen dann die beiden Methoden zu vergleichbaren Ergebnissen? Üblicherweise wird Labortests wegen der besseren Bedingungskontrolle eine höhere Reliabilität zugeschrieben. Andererseits bildet das Online-Experiment besser die Kontextfaktoren der Nutzung ab. 2. Hardware bietet oft Affordances für die Ausführung von Interaktionen, insbesondere haptischer und taktiler Natur. Kann man ihr Fehlen in der Simulation dadurch kompensieren, in dem man minimale symbolische Instruktionen einbaut? Diese Frage wird am Beispiel des IClickWheel des iPod untersucht. Ausgehend von den beiden Fragestellungen wurden Forschungshypothesen entwickelt: 1.
2.
3.
Die Usability von Original-Geräten und Online-Simulationen unterscheidet sich, was die absolute Ausprägung von gängigen Usability-Kriterien (Effektivität, Effizienz und Zufriedenstellung) betrifft. Wir nehmen an, dass die Richtung der Unterschiede geräte- bzw. simulationsspezifisch ist. Auch wenn wir annehmen, dass die absolute Ausprägung von Usability-Maßen bei realen Geräten und Online-Simulationen verschieden sein wird, so erwarten wir doch, dass die Relationen zwischen den Usability-Maßen verschiedener Systeme identisch sein sollten. Es sollte also keine Interaktion zwischen den zu evaluierenden Systemen und der Evaluationsmethode geben: so wie ein Laptop-Bildschirm größer ist als das Display eines Handys und zwar unabhängig davon, ob die Größe beim Anblick in Zoll geschätzt oder in Millimeter gemessen wird. Es wird angenommen, dass eine zusätzliche visuell-anschauliche Instruktion (Anreicherung der Simulation mit visuellen Affordances) beim iPod zu einer Verbesserung der Interaktion führt, weniger Fehler und Abbrüche auftreten, die Zeit für die Aufgabenlösung kürzer ist und das Gerät besser bewertet wird.
Usability-Evaluation interaktiver Geräte: Online vs. Labor?
2.2
283
Untersuchungsdesign
Es wurde ein erweitertes 2 χ 2-Untersuchungsdesign verwendet: Die Usability von zwei MP3-Playern wurde unter zwei Bedingimgen - im Labor und online - untersucht, so dass der Bezug zur vorhergehenden Studie von Dahm et al. (2007) erhalten blieb. Beim iPod wurde online eine zusätzliche Version mit animierter Hilfe (sich drehender Pfeil) eingeführt, deren Start und Ende in der Abbildung 1 zu sehen ist.
Abbildung 1:links Samsung Touch & Click / rechts iPod ClickWheel (animierte Hilfe) a) klicken und halten b)drehen
Diese Hilfe wurde nur bei den ersten zwei mittels IClickWheel zu lösenden Aufgaben präsentiert. Tabelle 1 gibt einen Überblick über das Untersuchungsdesign mit unabhängigen Parallelstichproben: Jede Vp testete nur einen Player, entweder im Labor oder online. Labor Originalgerät iPod Originalgerät Samsung
online simuliert iPod ohne Hilfe iPod mit Hilfe Vereinfachter Samsung ohne Hilfe
Tabelle 1: 5 parallele Stichproben (2 im Labor / 3 online)
2.3
Aufgaben
Es wurden Aufgaben ausgewählt, bei denen sowohl die in der Online-Simulation schwer zu erkennenden analogen Bedienoperationen (Drehbewegung auf dem IClickWheel) erforderlich waren, als auch die am realen Gerät schwer zu erkennenden Doppelfunktionen eines Bedienelements (leichtes Antippen vs. kräftiges Drücken). Es handelte sich um genau dieselben Aufgaben, die auch von Dahm et al. (2007) verwendet wurden. 1. Player einschalten 2. Tastentöne ausschalten 3. Musiktitel auswählen 4. Lautstärke regulieren
5. Vorspulen 6. Zeit einstellen 7. Klangeinstellung auf Klassik umstellen 8. Player ausschalten
Die oben beschriebene animierte Hilfe für den iPod wurde in der Aufgabe 2 „Tastentöne ausstellen" eingesetzt, welche als erste das Nutzen des IClickWheels erforderte. In der Aufgabe 3 „Einen Titel auswählen" erschien die Hilfe zusätzlich im Untermenü Musik, wo die
284
Polkehn, Wandke & D a h m
Scroll-Funktion nötig war, u m durch die Wahl der Kategorien (Titel, Alben etc.) zum gewünschten Titel zu gelangen.
2.4
Abhängige Variablen
Folgende Usability-Indikatoren wurden als abhängige Variablen verwendet: Usability-Indikator Effektivität Effizienz: Bearbeitungszeit
Effizienz: relative Zahl von Schritten in Menüs
Effizienz: relative Anzahl von Hardware-Aktionen
User Experience: Zufriedenstellung
User Experience: AttrakDiffZ
Beschreibung des Indikators Anzahl der gelösten Aufgaben über alle Versuchspersonen dargestellt als Prozentsatz, bezogen auf die Gesamtanzahl der zu lösenden Aufgaben Zeit von Aufgabendarbietung bis Zielerreichung je Aufgabe Anzahl aller Menü-Bewegungen, inklusive der Abweichungen vom Optimalweg, auch Umwege, Abbräche und Neuanfänge, sowie das „Überschießen" von Menüzielen bei analogen Bewegungen und ihre Korrektur. Zur besseren Vergleichbarkeit der Aufgaben wurde dann das Verhältnis aus der bei der jeweiligen Aufgabe registrierten Anzahl der Menü-Bewegungen und der minimal notwendigen Anzahl gebildet. Es wurde je Aufgabe gezählt, wie viele Mausklicks, Tastenbetätigungen und IClickWheel-Aktionen durchgeführt wurden. Bei den Simulationen wurden auch Klicks auf andere Elemente und Flächen dazugezählt, die keine Bedienelemente waren. Zur besseren Vergleichbarkeit der Aufgaben wurde dann wie beim Menüaufwand das Verhältnis aus der bei der jeweiligen Aufgabe gemessenen und der beim Optimalweg notwendigen Anzahl an HardwareInteraktionen gebildet, analog der Vorgehensweise von Dahm et al. (2007). Durch eine einfache Ratingskala, bei der die Extreme durch ein trauriges bzw. fröhliches Symbol visualisiert waren, wurde unmittelbar nach jeder Aufgabe erfasst, wie zufriedenstellend die Versuchspersonen die gerade abgelaufene Interaktion erlebt hatten. Am Ende des Versuchs wurde ein Gesamteindruck (mit dem AttrakdiffZ von Hassenzahl et al. 2003) der Probanden zu den jeweils untersuchten realen oder simulierten Playern erhoben. Tabelle 2: Usability-Indikatoren als abhängige Variable
Alle Effizienzmaße wurden nur für Aufgaben bestimmt, die auch gelöst wurden. Für die Beantwortung der IClickWheel-spezifischen Effizienz-Hypothese beim iPod wurden die Effizienz-Variablen zusätzlich zur Erfassung für die Gesamtaufgabe für die Zeit bis zum ersten Bedienen des IClickWheel in der Aufgabe separat erfasst.
2.5
Stichprobe
Als Zielpopulation wurden Personen beider Geschlechter unter 40 Jahre (typisch für mobile MP3-Hörer) und ohne Erfahrung in der Bedienung des jeweils in der Teilstichprobe untersuchten MP3-Players festgelegt, da j a gerade das Entdecken von Interaktionsmöglichkeiten interessierte. Für die Labor-Untersuchung wurden die Probanden aus einer Probandendaten-
Usability-Evaluation interaktiver Geräte: Online vs. Labor?
285
bank rekrutiert, in der Studenten aller Jahrgangsstufen und uni-externe Personen verzeichnet sind. Von 67 Personen im Labor testeten 35 Personen den iPod und 32 Personen den Samsung-Player. Für die Rekrutierung von Teilnehmern für die Online- Untersuchung wurde der Untersuchungslink auf einschlägigen Websites veröffentlicht bzw. über unterschiedliche Mailinglisten von Universitäten verschickt. Nach Aussortieren von Teilnehmern mit technisch fehlerhaften Daten und von doppelten Teilnehmern verblieben online 908 Probanden. Weitere Aussortierungen erfolgten aufgrund des Alters (Personen > 40 Jahre) und der Kenntnis des untersuchten Players, so dass 544 Teilnehmer übrig blieben. Während der Aufgabenbearbeitung brachen weitere Teilnehmer die Untersuchung ab. Der Typ des simulierten Players scheint einen Einfluss auf die Abbruchrate gehabt zu haben: Beim Samsung war sie mit 19 % signifikant kleiner als beim iPod (34% ohne Hilfe und 32 % mit Hilfe) (χ 2 =13.918, p0.05, φ = 02).
2.6
Durchführung
Die Untersuchung fand im Sommer 2008 statt. Für die Laboruntersuchung wurden die Interaktionen der Probanden mit dem jeweiligen MP3-Player per Video aufgezeichnet. Die Online-Interaktion mit den simulierten Playern wurde in Logfiles aufgezeichnet.
2.7
Ergebnisse
Über alle Teilnehmer einer Stichprobe hinweg wurden die Anzahl der gelösten Aufgaben aufsummiert und an der Gesamtzahl relativiert („iPod-Labor": 97,4 %; „Samsung-Labor" 98,4%; „iPod-online ohne Hilfe": 90,9%; „iPod-online mit Hilfe": 85,7%; „Samsungonline": 95,5%). Art des Testes Player
Labor Online iPodo. H. iPod Samsung Std. Std. Std. MW MW MW Bearbeitungszeit (sec) 502 230 298 116 300 115 6,0 3,6 2,0 0,5 5,6 rel. Menüschritte 4,5 4,2 2,2 6 rel. HW-Aktionen 4,9 4,4 7,5 Zufriedenstellung 11,7 12,0 13,0 14,7 27,1 7,2 AttrakDiff-ATT 33,6 8,8 33,4 7,2 32,2 7,4 AttrakDiff-HQI 6,2 30,8 5,8 32,7 5,4 31,5 34,5 5,4 23,8 32,8 AttrakDiff-HQS 7,7 5,0 AttrakDiff-PQ 27,5 9,2 32,0 8,2 28,4 8,2 % Clickwheel entdeckt 82 57,5 MW: Mittelwert Std.:Standardabweichung leer: nicht berechenbar
Samsung iPod m. H. Std. Std. MW MW 276 102 56 179 0,3 5,6 4,3 1,5 4,9 3,3 3,6 0,9 20,0 24,8 13,3 16,7 34,3 6,1 31,0 5,6 29,0 31,4 5,8 4,1 31,0 6,5 23,4 6,7 32,3 6,5 6,7 33,7 82 -:nicht erhoben
Tabelle 3: Ergebnisse (Verteilungsparameter)
Tabelle3 zeigt die Ergebnisse für die aufgrund der Bedingungsvariation (UV: Testart und Player) resultierenden fünf Stichproben. Aufgrund der Kürze dieses Artikels werden in Tabelle3 nur Mittelwerte (MW) und Standardabweichungen (Std) berichtet. Auch die Ergebnisse der Hypothesen-prüfenden Tests werden im Folgenden nur zusammenfassend dargestellt.
286
Polkehn, Wandke & Dahm
Eine ausführlichere Darstellung der Ergebnisse kann unter http://www2.huberlin.de/psychologie/ingpsycscw/muc2010/MuC2010ergebnisse.pdfabgerufenwerden. Effektivität Die Bedingungen „Labor" und „Online" wurden hinsichtlich der Anzahl der gelösten Aufgaben über alle Versuchspersonen hinweg, bezogen auf die Gesamtanzahl der zu lösenden Aufgaben, verglichen. Im Labor (iPod + Samsung) wurden 98,5% der Aufgaben gelöst, online (iPod + Samsung ohne Hilfe) 94,7%. Dieser Unterschied ist signifikant (χ (1)=13.397, p Samsung online" (U=106, p=0.001). Hinsichtlich der Menüschritte „Samsung Labor > Samsung online" (U=113, p=0.001) und hinsichtlich der HW-Aktionen „iPod Labor > iPod online mit Hilfe" (U=220, p=0.012) bzw. „Samsung Labor > Samsung online" (U=224, p=0.015). User Experience Die MANOVA ergab hinsichtlich der UV „Testart" für keine abhängige UX-Variable signifikante Unterschiede. Für die UV „Player" konnten für die abhängige Variable Zufriedenstellung (F(l,132)=22.06, pO.OOl, ε2=0.14), fiir AttrakDiff-HQI (F(l,132)=4.57, p=0.034, ε2=0.033), fiir AttrakDiff-HQS (F(l,132)=72.08, p=0.001, ε2=0.353), AttrakDiff-PQ (F(l,132)=7.84, p=0.006, ε2=0.056) signifikante Unterschiede gezeigt werden. Folgende Einzelvergleiche erbrachten im Mann-Whitney-U-Test ein signifikantes Ergebnis: hinsichtlich der abhängigen Variablen Zufriedenstellung „IPod Labor > IPod online ohne Hilfe" (U=250, p=0.031 n.s nach α-Fehler-Adjustierung) sowie „IPod online ohne Hilfe < IPod online mit Hilfe" (U=207.5, p=0.004). Hinsichtlich AttrakDiff-HQS gilt das für den Vergleich „IPod Labor > IPod online mit Hilfe" (U=242, p=0.034 n.s nach a-FehlerAdjustierung). Bezüglich der abhängigen Variable AttrakDiff-PQ fanden sich tendenziell signifikante Unterschiede für die Vergleiche „IPod Labor < IPod online mit Hilfe" (U=262, p=0.076) sowie für „IPod online ohne Hilfe < IPod online mit Hilfe" (U=280.5, p=0.1).
Usability-Evaluation interaktiver Geräte: Online vs. Labor?
287
Hypothese 1: Vergleich Labor- und Onlinestudie Die erste Hypothese postulierte Unterschiede zwischen den Usability-Maßen im Vergleich der Labor- und Online-Studie. Wir betrachten zunächst die Effektivität (Anteil der gelösten Aufgaben). Tabelle zeigt die prozentualen Anteile der gelösten Aufgaben für alle fünf Stichproben. Obwohl die Lösungshäufigkeiten an sich sehr hoch sind, unterscheiden sich die beiden Bedingungen: im Labor wurden signifikant mehr Aufgaben gelöst als online, unabhängig davon, ob in die Auswertung die iPod-online-Version mit oder ohne Hilfe einbezogen wurde. In der Online-Studie wird also im Vergleich zu Labor-Tests die Effektivität der Interaktion mit den zu beurteilenden Geräten leicht unterschätzt. Bei der Analyse der Effizienzmaße finden sich im Vergleich zwischen Labor und OnlineStudie lediglich Effekte hinsichtlich der Bearbeitungszeit (Labor>Online) und der HardwareAktionen (Labor>Online). Wie hier aus Platzgründen nicht berichtete Analysen zeigen, scheinen insbesondere für letzteres die auch im Labor erst zu entdeckenden, nicht bekannten Interaktionsmöglichkeiten (IClickwheel beim iPod sowie nicht simulierte Doppeltastenbelegung beim Samsung) verantwortlich zu sein. Was die Zufriedenstellung mit der Aufgabenlösung betrifft, die unmittelbar nach jeder Aufgabe mit Hilfe einer einfachen bipolaren Slider-Skala erhoben wurde, so zeigt sich, dass die Mittelwerte im positiven Bereich (Skala von -50 bis +50) angesiedelt sind. Hier kann kein signifikanter Effekt der UV „Testart" gefunden werden. Es zeigten sich playerspezifische Effekte: „iPod Labor > iPod online ohne Hilfe" sowie „iPod online ohne Hilfe < iPod online mit Hilfe". Damit können wir auf die erste und zentrale Hypothese weitere Antworten geben. Offensichtlich ist es so, dass die Aufwandsmaße (Interaktion mit der Hardware sowie Zeit für die Aufgabenbearbeitung) bei der Verwendung originaler Geräte höhere Werte annehmen als bei den simulierten Geräten, während in den Menüschritten sowie bei der Zufriedenstellung mit der Aufgabenbearbeitung die Maße zwischen Laboruntersuchungen und OnlineSimulationen keine Unterschiede aufweisen. Die bisher dargestellten Effektivitäts- und Aufwandsmaße kennzeichnen, ebenso wie das unmittelbare Erleben in der Interaktion, die standardmäßig erhobenen Aspekte von Usability. Aber gerade MP3-Player sind ja dazu gedacht, über den reinen Abspielvorgang hinaus Unterhaltung zu schaffen, zu einem spielerischen Umgang anzuregen und durch ihr Design eine besonders ausgeprägte Form von User Experience zu ermöglichen. Hier zeigen die AttrakDiff-2 Daten, dass das besondere Image des iPod sich auch in den Attraktivitätsurteilen zeigt, obwohl die Interaktionsparameter eher auf Usability-Probleme bei diesem Player hinweisen. Auf der Skala „pragmatische Qualität" schneidet der Samsung-Player (in Übereinstimmung mit den bisherig dargestellten Verhaltensdaten) besser ab als der iPod, aber bei der Skala „Stimulation" ist es genau umgekehrt. Für unsere Fragestellung ist jedoch wichtiger und entscheidend, dass sich die Bewertungen für die realen Geräte und die OnlineSimulationen hinsichtlich aller subjektiven Maße nicht unterscheiden. Hypothese 2: Relationen zwischen den Usability-Maßen verschiedener Systeme Diese Hypothese ist wichtig für die komparative Evaluation verschiedener Systeme. Erwartet wurde eine konsistente ordinale Relation: System Α ist besser als В (real und simuliert).
288
Polkehn, Wandke & Dahm
Tabelle 4 zeigt, dass für traditionelle verhaltensbezogene Usability-Maße (Zeit und relative Menü-Schritte) im Labor und online analoge Unterschiede zwischen den Playern zu finden sind. Für die von der Simulierbarkeit abhängige AV „HW-Aktionen" trifft das nicht zu. Bei den subjektiven Daten lassen sich im Labor und online vergleichbare Ergebnisse für die AVs „Zufriedenstellung", „ATT", „HQS" und „PQ"finden. Vergleich Labor Effizienz Online г Bearbeitungszeit iPod o.H. > Samsung iPod o.H. > Samsung г rel. Menüschritte iPod o.H. > Samsung iPod o.H. > Samsung rel. HW-Aktionen iPod o.H. = Samsung iPod o.H. > Samsung Φ User Experience г Zufriedenstellung iPod o.H. < Samsung iPod o.H. < Samsung г AttraDiff-ATT iPod o.H. = Samsung iPod o.H. = Samsung AttraDiff-HQI iPod o.H. > Samsung iPod o.H. = Samsung Φ г AttraDiff-HQS iPod o.H. > Samsung iPod o.H. > Samsung г AttraDiff-PQ iPod o.H. < Samsung iPod o.H. < Samsung < signifikanter Unterschied zwischen den Systemen = kein signifikanter Unterschied zwischen den Systemen ~ konsistente ordinale Relation zwischen Online und Labor Φ inkonsistente ordinale Relation zwischen Labor und Online Die zugrundeliegenden Signifikanztests sind abrufbar unter http://www2.hu-berlin.de/psychologie/ingpsycscw/muc2010/MuC2010ergebnisse.pdf Tabelle 4: komperative Player-Evaluation: Vergleich der Bedingungen online und Labor
Hypothese 3: Vergleich iPod-Simulation ohne und mit IClickWheel-Hilfe Mit dieser Hypothese wurde angenommen, dass eine zusätzliche visuell-anschauliche Instruktion (Anreichung der Simulation mit visuellen Affordances) zu einer Verbesserung der Interaktion führt, weniger Fehler und Abbrüche auftreten, die Zeit für die Aufgabenlösung kürzer ist und das Gerät besser bewertet wird. Wurde die Funktionsweise des IClickWheels durch Hilfestellung besser entdeckt? Um diese Frage zu beantworten, betrachteten wir die Aufgabe 2, bei der das erste Mal das IClickWheel einzusetzen war (Tabelle4 unten). Hypothesenkonform wurde im Labor die Funktionsweise des IClickWheel am realen Gerät häufiger entdeckt (82%) als in der Online-Simulation (57,5 %). Allerdings hilft die Animation (drehender Pfeil) bei der Online-Simulation erheblich. Die Rate der Vpn, die die Funktionsweise erkennen, steigt auf 82 % und hat damit denselben Wert erreicht, wie er in der Laboruntersuchung auftrat. Der x2-Test zeigt einen signifikanten Einfluss der Bedingung auf das Entdecken des IClickWheel (χ2(2)=17.700; p1
Medium Eingabe
ZP5 Evaluation Bedeutung ist:
Interpretation explizit
0 Semantic W e b Interpretation
Aktion
Erzeugung
Ergebnis
ZP4 Ausgabe
>I
I
Eingabe).
•
Zugriffsproblem 2 (ZP2): Die automatische Interpretation der Anfrage schlägt fehl. Die implizite Bedeutung der Anfrage muss erst automatisch interpretiert werden, bevor entsprechende Aktionen durchgeführt werden können. Natürliche Sprache, Bilder und Gesten sind jedoch oft nicht eindeutig automatisch einer Bedeutung zuordenbar und daher schwierig zu verarbeiten (Abb.l, Übergang: Eingabe-^Interpretation).
•
Zugriffsproblem 3 (ZP3): Die angefragten Daten sind nicht, nur teilweise oder fehlerhaft im Semantic Web vorhanden. Auf Grund der beschriebenen Probleme bei der Erstellung (siehe Abschnitt 2.1) sind viele Inhalte nicht, oder nur unzureichend im Semantic Web repräsentiert. Somit reicht die Qualität auf Grund redundanter, fehlender, falscher oder widersprüchlicher Klassen, Objekte oder Verbindungen nicht aus, um immer verlässliche Ergebnisse zu ermöglichen. Eine automatische Kompensation durch Auswahl geeigneter Ersatzdaten ist schwierig.
•
Zugriffsproblem 4 (ZP4): Die gefundenen semantischen Strukturen werden falsch oder unvollständig dargestellt. Die gefundenen Daten mit expliziter Bedeutung müssen in geeigneter Weise ausgegeben und dargestellt werden. Der Übersetzung in Daten mit implizierter Bedeutung liegen bestimmte Annahmen und Modellen zu Grunde, die von Menschen erdacht wurden. Je nach Alter, Kultur und Erfahrung können die Annahmen und Modelle jedoch stark variieren (Abb.l, Übergang: Erzeugung-> Ausgabe).
•
Zugriffsproblem 5 (ZP5): Die dargestellten Inhalte werden falsch vom Menschen interpretiert. Genau wie bei ZP4 liegen der Interpretation bestimmte Annahmen und Modelle zu Grunde die von Mensch zu Mensch stark unterschiedlich sein können. Damit kann ein und dieselbe Darstellung auf sehr unterschiedliche Weise interpretiert werden (Abb. 1, Übergang: Ausgabe-^Interpretation).
Jedes der angesprochenen Probleme kann dazu führen, dass das Ergebnis nicht mit den Zielvorstellungen, dem Informationsbedürfnis des Menschen, übereinstimmt. Auf Grund der Linearität des Prozesses (vgl. Abb.l) können sich die Probleme unkontrolliert akkumulieren und machen somit ein zufriedenstellendes Ergebnis immer unwahrscheinlicher. Auch kann nicht nachvollzogen werden, welche konkreten Probleme zum falschen Ergebnis beigetragen haben, um entsprechend gegensteuern zu können.
3
Lösungsansatz „starke Kopplung"
Alle analysierten Probleme, sowohl bei der Erstellung von, als auch beim Zugriff auf semantische Strukturen, resultieren direkt oder indirekt aus einer fehlerhaften Überführung von Daten mit impliziter Bedeutung in Daten mit expliziter Bedeutung oder umgekehrt. Dies ist vergleichbar mit den Verständnisproblemen zwischen zwei Menschen. Hier kann es auch vorkommen, dass der Sender einer Nachricht die Bedeutung so unglücklich in Symbole, z.B.
336
Heim, Schlegel & Ertl
Wörter, übersetzt, dass die ursprünglich intendierte Bedeutung verloren geht, oder die Aussage sogar eine andere, naheliegendere Bedeutung bekommt. Auf der anderen Seite können aber auch vom Sender klar und eigentlich eindeutig formulierte Sätze beim Empfänger falsch verstanden werden. Da sich die Menschen dieser Problematik bewusst sind, existieren entsprechende Lösungsstrategien, um Verständnisprobleme so weit wie möglich zu vermeiden. Die entscheidende Strategie hierbei ist die des Dialogs. In einem Dialog werden Inhalte in mehreren Schritten in einem iterativen Prozess ausgetauscht (im Gegensatz zum linearen Prozess in Abb. 1). Für jeden Schritt bekommt der übermittelnde Dialogpartner eine Rückmeldung darüber, ob und auf welche Weise die übermittelten Daten beim Gegenüber interpretiert wurden. Je kürzer die Zyklen sind, desto schneller können Missverständnisse erkannt und aufgeklärt werden. Wir sprechen hierbei von einer „starken Kopplung". In diesem Beitrag schlagen wir das Prinzip der starken Kopplung als allgemeine Lösungsstrategie für die beschriebenen Probleme im Semantic Web vor. Aufbauend auf (Fähnrich & Ziegler 1984) wird in Abb. 2 der dazu passende Prozess dargestellt. Dieser beschreibt, wie das Prinzip der starken Kopplung, sowohl bei der Erstellung von, als auch beim Zugriff auf semantische Strukturen, eingesetzt werden kann, um Probleme zu vermeiden. In kurzen Iterationen werden Daten mit impliziter Bedeutimg gesendet und deren Interpretation beim Empfänger anhand der Rückmeldung kontrolliert (Dialogebene). Die Möglichkeit der Iteration auf konzeptueller Ebene erlaubt einen schrittweisen Zugriff, bzw. Veränderung der Daten und die Anpassung der Zielvorstellimg noch während des Prozesses.
Abbildimg 2: (Iterativer Prozess) Durch kurze Zyklen werden Probleme bei der Interpretation oder Erzeugung von Daten mit implizierter Bedeutung schnell erkannt und können somit noch während des Prozesses behoben werden.
4
Iterative Erstellung semantischer Strukturen
Allgemein lässt sich die Erstellung von Information in die folgenden Phasen unterteilen (Turk 2006): Gewinnimg, Überarbeitung, Speicherimg und Verbreitung. Wir verwenden diese Einteilung, um die Tätigkeiten bei der iterativen Erstellung semantischer Strukturen geeignet zu gliedern. Im Folgenden beschreiben wir die Tätigkeiten in den einzelnen Phasen
Starke Kopplung: Interaktion als Schlüssel für das Semantic Web
337
und leiten Kriterien (Erstellungskriterien, EK) für deren optimale Unterstützung ab. Indem Applikationen diese Kriterien erfüllen, soll es Benutzern ermöglicht werden, die in Abschnitt 2.1 analysierten Probleme zu vermeiden und somit die Erstellung semantischer Strukturen effektiv und effizient gestalten zu können. In der Phase der Gewinnung werden aus Eingabedaten, wie z.B. Textdokumenten, semantische Strukturen extrahiert. Hierfür müssen die Eingabedaten analysiert, gefundene Informationen aggregiert, entsprechende Klassen gebildet und die Informationen zu Objekten und Verbindungen zwischen diesen überführt werden. Kriterien sind: Interaktives Data Mining, wie z.B. Clusterverfahren, statistische oder linguistische Analysen (.EK1.1), eine geeignete Präsentation der Ergebnisse durch Übersichts- und Detailvisualisierungen (.EK1.2), eine Unterstützung bei der Erstellung passender Klassenstrukturen durch kollaborative Ansätze wie im Social Semantic Web (Blumauer & Pellegrini 2009) (ΕΚ 1.3) und eine schnelle und einfache Extraktion und Klassifikation von relevanten Informationen zusammen mit einer Rückverfolgbarkeit bis zu den Fundorten (EK1.4). Durch die Zusammenarbeit von Mensch und Computer, aber auch von Menschen untereinander, lassen sich semantische Strukturen schneller und in höherer Qualität erstellen (vgl. EP1, EP2, EP3). Die nächste Phase, die Überarbeitung, beinhaltet die Aufgaben der Qualitätskontrolle und das Einhalten von Standards. Gewinnung und Überarbeitung können eine innere Schleife bilden. Für die gewonnen semantischen Strukturen muss überprüft werden, ob entsprechende Klassen, Objekte oder Verbindungen im Semantic Web schon existieren. Kriterium ist: Geeignete Möglichkeiten zum Abgleich mit bereits im Semantic Web existierenden semantischen Strukturen (EK2.1). Hierdurch werden redundante und sich widersprechende Daten vermieden (vgl. EP4). Die Phase der Speicherung macht die neuen, noch nicht im Semanitc Web vorhandenen semantischen Strukturen persistent. Kriterien sind: Unterstützung der gängigen Formate, wie RDF und OWL (EK3.1), sowie freier und performanter Zugriff auf die neu erstellten Daten über das Internet, z.B. per SPARQL61 (EK3.2). Die letzte Phase, die Verbreitung, sorgt für die Verteilung der Information an die entsprechenden Stellen. Neu erstellte semantische Strukturen müssen mit bestehenden Strukturen geeignet verknüpft werden. Kriterien sind: Geeignete Unterstützung für die Suche nach passenden Anknüpfungspunkten (EK4.1).
5
Iterativer Zugriff auf semantische Strukturen
Wie bei der Erstellung lassen sich auch beim iterativen Zugriff auf semantische Strukturen verschiedene Phasen unterscheiden. Eine mögliche Unterteilung beinhaltet die folgenden sechs Phasen (Kuhlthau 1988): Initiierung, Selektion, Exploration, Fokussierung, Zusammenstellung und Präsentation. Wieder nutzen wir diese Einteilung, um die Tätigkeiten wäh-
SPARQL (SPARQL Protocol and RDF Query Language): http://www.w3.org/TR/rdf-sparql-query/
338
Heim, Schlegel & Ertl
rend des iterativen Zugriffs auf semantische Strukturen geeignet zu gliedern (vgl. Abb. 3) imd leiten aus den Tätigkeiten Zugriffskriterien (ZK) ab, um die in Abschnitt 2.2 analysierten Probleme zu vermeiden. Die erste Phase, die Initiierung, beginnt mit der Wahrnehmimg eines Informationsbedürfnisses imd fuhrt zu einer konkreten Definition des Problems im Bezug zu bereits vorhandenen Informationen und früheren Erfahrungen. Kriterien sind: Eine kontinuierliche Unterstützung schon bei der Problemdefinition (ZK1.1) und, ausgehend davon, Vorschläge, wie das Informationsbedürfnis am besten gestillt werden kann anhand von bereits früher durchgeführten Zugriffen (ZK 1.2). Durch die Auflistung bereits früher erfolgreich gestellter Informationszugriffe, bzw. der entsprechend gestellten Anfragen, können sich Nutzer daran orientieren und vermeiden somit möglicherweise Probleme bei der Anfrageformulierimg (vgl. ZP1). с о +J та Ε i— О ч— С
Abbildung 3: Die starke Kopplung beim iterativen Zugriff auf semantische Strukturen erzeugt viele Dialogzvklen (rotierende Pfeile auf Zeit-Achse; vgl. Pfeile in Abb. 2). Diese lassen sich in sechs Phasen untergliedern.
Die nächste Phase, die Selektion, beinhaltet die Aufgaben, das zu untersuchende Thema zu finden und auszuwählen. Kriterien sind: Ein Überblick über alle im Semantic Web verfügbaren Themen (ZK2.1), zum Beispiel in Form einer Karte in die hinein und wieder heraus gezoomt werden kann, zusammen mit automatisch generierten Vorschlägen für geeignete Themen anhand der eingegebenen Problembeschreibung, von Schlüsselwörtern oder sonstigen Anhaltspunkten, die vom Nutzer zur Verfügung gestellt werden (ZK2.2). Durch einen ständigen Abgleich von Nutzereingaben imd entsprechenden Themenvorschlägen von Seiten des Computers, wird eine falsche Interpretation der Anfrage schnell bemerkt und kann daher frühzeitig korrigiert werden (vgl. ZP2). Die Selektion wird gefolgt von der Explorationsphase. Diese beinhaltet die Untersuchung des gesamten Themenspektrums, die Begutachtung der vorhandenen Informationen und das in Bezug setzen zu bereits Bekanntem. Kriterien sind: Eine grafische Repräsentation der Information, die vom Nutzer verstanden werden kann (ZK3.1), intuitive und einfache Interaktionsmöglichkeiten (ZK3.2), die Möglichkeit Details bei Bedarf ein- und ausblenden zu können (ZK3.3), Sortier- und Blätterfunktionen für die Handhabung großer Datenmengen (ZK3.4) imd Zoomfunktionen in Kombination mit Fokus- und Kontext-Techniken (ZK3.5). Durch eine interaktive Exploration können die, im Semantic Web falschen und fehlenden Inhalte möglicherweise bemerkt und durch andere Informationen ersetzt werden (vgl. ZP3).
Starke Kopplung: Interaktion als Schlüssel für das Semantic Web
339
Die Fokussierung beinhaltet Aufgaben wie die Formulierung von Hypothesen, die zur Anwendung bestimmter Filter führen und den Zielbereich damit immer weiter einschränken kann. Dies ist ein iterativer Prozess und benötigt daher mehrere Interaktionsschritte. Kriterien sind: Die Möglichkeit Filter interaktiv und intuitiv formulieren und ändern zu können (ZK4.1), die direkte Sichtbarkeit der Filterwirkung (ZK4.2), die Kombinationsmöglichkeit unterschiedlicher Filter (ZK4.3), die Unterstützung hierarchischer Filter (ZK4.4), die Rückverfolgbarkeit von Effekten auf die sie hervorrufenden Filter (ZK4.5) und die Möglichkeit, zu jeder Zeit den Zielbereich zu ändern (ZK4.6). Hierfür eignet sich insbesondere das Konzept der facettierten Suche (Hearst et al. 2002), bei der der Nutzer immer alle noch im Semantic Web verbleibenden Optionen zur Erstellung einer Suchanfrage angezeigt bekommt und diese nur noch auswählen muss, um sie seiner Anfrage hinzuzufügen. Somit werden automatisch ausschließlich bereits semantisch eindeutig definierte Klassen, Objekte und Eigenschaften für die Anfrage verwendet und so Mehrdeutigkeit vermieden (vgl. ZP1, ZP2 und ZP3). Nach der Fokussierung findet die Zusammenstellung statt. Aufgaben sind das Selektieren und Zusammensetzen von für das fokussierte Thema relevanten Informationen. Kriterien sind: Einfache Mechanismen zur interaktiven Selektion relevanter Funde und deren Export in standardisierte Formate, sodass sie für eine weitere Nutzung, z.B. in anderen Systemen, zur Verfügung stehen (ZK5.1). Die letzte Phase, die Präsentation, beinhaltet die Aufgabe, die gefundenen Informationen darzustellen. Kriterium ist: Eine breite Palette an Darstellungsmöglichkeiten (ZK6.1). Durch unterschiedliche Formen der Präsentation können Missverständnisse durch Fehlinterpretationen oder Fehler bei der Darstellung mit einzelnen Visualisierungstechniken verhindert werden (vgl. ZP4 und ZP5). Anhand der Tools mSpace (Hearst et al. 2002) und gFacet (Heim et al. 2010) zeigen wir in Tabelle 1 exemplarisch, wie die beschriebenen Zugriffskriterien (ZK) bei der Bewertung bestehender Ansätze verwendet werden können. Beide Tools verwenden das Konzept der facettierten Suche und unterstützen damit die Formulierung eindeutiger Anfragen. Wie in Tabelle 1 zu sehen, findet jedoch insbesondere in den ersten und letzten beiden Phasen keine oder nur eine sehr unzureichende Unterstützung beim Zugriff auf semantische Strukturen statt. Zusammenstellun g
Fokussierung
ZK5.2
+
+
-
-
-
-
-
-
gFacet
-
-
-
+
+ +
+
+
-
+
+
+
+
+
+
-
-
-
ZK6.1
ZK5.1
+
ZK4.5
-
ZK4.4
-
ZK3.5
-
ZK3.4
+ +
ZK3.3
-
ZK3.2
-
\ZK3.l
-
ZK2.1
-
ZK1.2
mSpace
Zugriffskriterien
ZK1.1
ZK4.3
Präsentation
ZK4.2
Exploration
ZK4.6
Selektion
ZK4.1
Initiierung
ZK2.2
Phasen
Tabelle 1: Kriterien für eine optimale Unterstützung der in sechs Phasen ablaufenden Aktivitäten beim Zugriff auf semantische Strukturen und in wie weit diese von den Tools mSpace und gFacet erfüllt werden.
Heim, Schlegel & Ertl
340
6
Zusammenfassung
In diesem Beitrag nehmen wir die bestehenden Probleme im Semantic Web als Ausgangspunkt und zeigen wie diese durch die Zusammenarbeit von Mensch und Computer vermieden werden können. Durch den Ansatz einer starken Kopplung zwischen Nutzer und Semantic Web werden Informationen nicht mehr in einem linearen, sondern in einem iterativen Prozess in kleinen Schritten ausgetauscht. Dabei gibt der Empfänger nach jedem Schritt eine Rückmeldung darüber, auf welche Weise er die Daten mit impliziter Bedeutung, in Daten mit expliziter Bedeutung übersetzt hat. Missverständnisse können dadurch frühzeitig erkannt, entsprechend korrigiert und so dem gewünschten Ergebnis mit jeder Iteration näher gekommen werden. Auch können die Zielvorstellungen noch während des Prozesses angepasst werden, um somit flexibel auf neue Erkenntnisse reagieren zu können. Ausgehend von einer detaillierten Analyse der Probleme, sowohl bei der Erstellung von, als auch beim Zugriff auf semantische Strukturen, schlagen wir verschiedene Kriterien für eine optimale Unterstützung dieser Tätigkeiten vor, die zur Bewertung aber auch zur Verbesserung von bestehenden und neuen Ansätzen eingesetzt werden können. Literaturverzeichnis Battle, L. (2006). Preliminary Inventory of Users and Tasks for the Semantic Web. In: 3rd. Intl. Semantic Web User Interaction Workshop (SWUI 2006). Berners-Lee, T. & Fischetti, M. (1999). Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by its Inventor. Harper, USA. Blumauer, A. & Pellegrini, T. (2009): Social Semantic Web. Springer, Berlin. Fähnrich, K.P. & Ziegler, J. (1984): Workstations using Direct Manipulation as interaction mode aspects of design, application and evaluation. Proc. Interact 1984, Vol. II, S. 203-208. Hearst, M., English, J., Sinha, R., Swearingen, K. & Yee, P. (2002): Finding the Flow in Web Site Search. Communications of the ACM, 45 (9), S. 42-49. Heath, T, Dzbor, M. & Motta, E. (2005): Supporting User Tasks and Context: Challenges for Semantic Web Research. In: Proc. Workshop on End-User Aspects of the Semantic Web (UserSWeb). Heim, P., Ertl, T. & Ziegler, J. (2010): Facet Graphs: Complex Semantic Querying Made Easy. In: Proc. of the 7th Extended Semantic Web Conference (ESWC 2010), Springer. Kuhlthau, C.C. (1988). Developing a model of the library search process: cognitive and affective aspects. Reference Quarterly, S. 232-242. Schraefel, т.е., Smith, D., Owens, Α., Russell, Α., Harris, C. & Wilson, M. (2005). The evolving mSpace platform: leveraging the semantic web on the trail of the memex. In: Proc. of Hypertext 2005, ACM Press, S. 174-183. Turk, Z. (2006). Construction informatics: Definition and ontology. Advanced Engineering Informatics, Volume 20, Issue 2, S. 187-199.
Kontaktinformationen
Dipl.-Inf. Philipp Heim, Email: [email protected]
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 341-350
Die Artefaktkarte Steffi Beckhaus, Senana Lucia Brugger, Katharina Wolter Universität Hamburg interaktive media.virtual environments, Department Informatik Zusammenfassung In diesem Beitrag präsentieren wir die Artefaktkarte, eine Verbindung aus einem angereicherten Glossar und einer Karte der Arbeitsumgebung. Die Artefaktkarte macht den Kontext der Arbeit unabhängig von der tatsächlichen Arbeitsumgebung verfügbar und das in konkreter Form, situiert und nahezu vollständig. Sie ermöglicht, notwendige Erhebungen zügig und strukturiert Weise durchzuführen, und unterstützt das zielgerichtete Erarbeiten komplexer Analysen, sowohl von Arbeitsmitteln und Arbeitsabläufen, als auch von Kommunikation, sozialem Raum und Kooperation. Sie eignet sich insbesondere in komplexen, heterogenen Arbeitsumgebungen, in denen viele und verschiedenartige Arbeitsmittel verwendet werden. Eine Reihe von Einsatzmöglichkeiten der Artefaktkarte in der Anforderungsanalyse und ihr Einsatz im Projektkontext einer Verkehrsleitzentrale wird vorgestellt.
1
Einleitung
Die Artefaktkarte ist im Rahmen eines Forschungsprojektes mit der nautischen Zentrale eines großen deutschen Hafens entstanden. Ziel dieses Projektes ist es, neue Konzepte für eine bessere technische, arbeitsorganisatorische und räumliche Unterstützung der Arbeit dort zu entwerfen. Dazu musste im ersten Schritt diese Arbeit analysiert werden. Im Verlauf des Projektes wurde deutlich, dass das zunächst nach Literatur geplante methodische Vorgehen den Gegebenheiten der Leitzentrale nicht vollständig gerecht wurde. Deshalb haben wir unser methodisches Vorgehen angepasst und in diesem Zusammenhang ein neues Werkzeug für die Anforderungsanalyse entwickelt: die Artefaktkarte. Wir werden zunächst den Projektrahmen kurz vorstellen und die zu unterstützenden Arbeiten skizzieren. Anschließend erläutern wir den methodischen Rahmen unserer Arbeit in Abschnitt 3 und beschreiben die methodische Lücke, die uns zur Entwicklung der Artefaktkarte inspiriert hat. Die Artefaktkarte als Analysewerkzeug in der Anforderungsermittlung wird im Abschnitt 4 eingeführt und in Abschnitt 5 detailliert. Abschnitt 6 beschreibt beispielhaft den Einsatz der Artefaktkarte in dem vorgestellten Projektkontext einer HafenVerkehrsleitzentrale. Dann diskutieren wir verwandte Arbeiten in Abschnitt 7 und schließen mit einem Fazit und Ausblick.
342
2
Beckhaus, Brugger & Wolter
Kontext: Hafen-Verkehrsleitzentrale
Die Nautische Zentrale ist eine Verkehrsleitzentrale, in der jeweils mehrere Nautiker gemeinsam den Schiffsverkehr im Hafen regeln. Ihr Ziel ist es, sicherzustellen, dass sich der Schiffverkehrs im Revier des Hafens leicht, sicher und umweltverträglich bewegen kann. Hierfür ist die Nautische Zentrale ständig im Schichtbetrieb mit festen Wachen besetzt. Die Arbeit ist geprägt von einer hohen Komplexität. Eine große Menge von Informationen muss kontinuierlich eingeholt und verarbeitet werden, um ein mentales Modell der momentanen Lage im Hafen zu erstellen und aktuell zu halten. Die Arbeit ist in hohem Maße fremdgesteuert: die Nautiker reagieren auf einkommende Kommunikation verschiedener Stakeholder im Hafen und müssen dann schnell die richtigen Entscheidungen treffen. Die dafür nötige Information beziehen sie aus einer Vielzahl unterschiedlicher Quellen. Neben vier speziellen IT-Systemen und üblichen Office-Anwendungen wird eine Menge papierener Arbeitsmittel genutzt. Die Nautiker besitzen ein großes Expertenwissen, einen reichen Erfahrungsschatz und ein großes Geschick darin, viele Informationen gleichzeitig aufzunehmen und in Hinblick auf Wichtiges zu filtern. Ein wesentlicher Aspekt dabei ist auch, dass die Nautiker in hohem Maße im Team arbeiten. Sie sind gut aufeinander eingespielt, erledigen viele Aufgaben gemeinsam und pflegen ein geteiltes Lagebild. Dies ermöglicht es ihnen, auf jede aktuelle Situation schnell und kompetent zu reagieren.
3
Methodischer Rahmen
Um Konzepte zur Unterstützung der Arbeit entwerfen zu können, muss im ersten Schritt diese Arbeit mit allen Akteuren, Aufgaben, Räumen, Prozessen und eingesetzten Arbeitsmitteln analysiert werden. Im Bereich der benutzerzentrierten Software-Entwicklung gibt es eine ganze Reihe von Methoden, die auch Analyseverfahren zur Anforderungsermittlung beschreiben (Rosson&Carroll 2002, Beyer&Holtzblatt 1998, Holtzblatt et al. 2005, Mayhew 1999, Bodker et al. 2004). Wir haben uns methodisch vor allem an Participatory IT Design (Bodker et al. 2004) orientiert, ergänzt um die Modellierung von exemplarischen Geschäftsprozessmodellen (eGPM) (Breitling 2006)). Diese Modelle bewährten sich, um zu Beginn der Arbeit einen groben Überblick über die Hauptaufgaben der Arbeit und ihre typischen Verläufe zu bekommen. Daneben führten wir eine Reihe von Interviews mit Personen in verschiedenen Rollen. Wir setzen eine sogenannte Weihnachtswunsch-Aktion ein, um allen „Betroffenen" eine Möglichkeit zu geben, sich mit ihren Wünschen, Vorstellungen, Lösungsansätzen oder Visionen einzubringen. Um Empfehlungen für neue Räumlichkeiten zu geben, musste unsere Arbeitsforschung auch die Frage beantworten: Inwieweit unterstützen oder behindern die momentanen räumlichen Gegebenheiten die Arbeit? Dazu kann man Raum nicht nur unter architektonischen Gesichtspunkten betrachten. Wir ließen uns für dieses Forschungsprojekt vom Konzept des sozialen Raums leiten. Dieses kommt aus den Sozialwissenschaften (Hägerstrand 1970; Giddens 1984; Rapoport 1994), und wurde in die Softwareentwicklung und Computer-
Die Artefaktkarte
343
gestützte Kooperation von Harrison und Dourish (1996) eingeführt und später ergänzt durch Dourish (2006). Eine praxisorientierte Weiterentwicklung ist das locale nach Fitzpatrick (2003). Wichtig ist, zwischen dem rein physischen Raum und der geteilten Konstruktion eines sozialen Raums zu unterscheiden. Der physische Raum steht zum sozialen Raum etwa wie ein Ort zu einem Schauplatz, beispielsweise eine Rasenfläche zu einem Spielfeld. Ein Ort ist eine rein materielle Gegebenheit, der Schauplatz ist ein bedeutsamer Ort, in dem bestimmte Handlungen von bestimmten Menschen in definierten Rollen mit Hilfe bestimmter Requisiten durchgeführt werden. Beim sozialen Raum kommen eine Reihe geteilter mentaler Inhalte zum physischen Raum hinzu. Das können sowohl Bedeutungen, Bewertungen oder Geschichten sein, als auch Regeln für passende oder unpassende Handlungen. Ebenso gehört Wissen über Rollen in dem Kontext dazu. Der gleiche physische Ort kann mehrere soziale Räume beinhalten. Etwa kann ein Rasen zu bestimmten Zeiten Schauplatz für Fußball, zu anderen für ein Picknick sein. Wie schon Alexander (1977) herausstellte, muss die Architektur Räume in Hinblick auf soziale Räume, nicht nur auf physische, gestalten, um wirklich „nutzerfreundlich" zu sein. Trotz der Herausstellung der vielseitigen Bedeutung der Raumfrage hinterlässt die Literatur eine Lücke, wenn es um die systematische Erhebung der Daten für einen speziellen sozialen Raum geht. Es werden Beispiele für soziale Räume genannt, jedoch wird keine systematische Erhebungsmethode beschrieben, die über teilnehmende Beobachtung hinausgeht und auch für nichtmateriellen Aspekte geeignet ist. Fitzpatrick (2003) macht zwar sehr genaue Angaben darüber, welche Daten zu erheben sind, beschreibt allerdings nicht wie. Mit dem zunächst geplanten Vorgehen stießen wir daher an Grenzen: •
Um Räumlichkeiten daraufhin zu untersuchen, wie gut sie Arbeitsabläufe und alle Aspekte des sozialen Raums unterstützen, mussten wir die Arbeit konkret, situiert und äußerst detailliert untersuchen. Die bis dahin verwendeten Methoden lieferten diese detaillierten ortsbezogenen Informationen jedoch nicht, die man braucht, um sowohl die physischen als auch die sozialen Anteile des Raums zu erfassen.
•
Die Bedeutung der Vielzahl von Artefakten, die bei der Arbeit eingesetzt werden, lässt sich losgelöst vom Arbeitskontext nur schwer erheben; In-Situ Interviews sind jedoch in einer schon von Störungen geprägten Arbeitsumgebung nur eingeschränkt möglich.
•
Die reine Beobachtung lieferte in bestimmten Bereichen nicht genug Informationen, da einige wesentliche Arbeitsschritte reine Denkprozesse sind. Außerdem wurde die reine Beobachtung von einigen Personen als unangenehm wahrgenommen und nicht toleriert. Dies schloss Videoanalysen aus, wie sie in Arbeiten in Flughafen- und Verkehrsleitstellen angewendet wurden (Suchman 1991). Auch der mit einer Videoanalyse verbundene Aufwand sprach gegen ihren Einsatz.
344
Beckhaus, Brugger & Wolter
4
Die Artefaktkarte als Analysewerkzeug
Die Artefaktkarte schließt die in diesem Fall vorliegende methodische Lücke, indem sie den Kontext der Arbeit imabhängig von der tatsächlichen Arbeitsumgebung verfügbar macht und das in konkreter Form, situiert und nahezu vollständig. Sie ermöglicht das gleichzeitige Erarbeiten unterschiedlicher Modelle (wie Prozesse, Kooperationen, ...), ohne dass man sich auf eines festlegen muss. Hierfür haben wir ein um Fotos angereichertes Glossar aller Artefakte mit einer Verortungskarte verbunden, einem Grundriss der Arbeitsumgebung mit eingezeichneten Arbeitsmitteln. Abbildung 1 zeigt diese beiden Bestandteile der Artefaktkarte. Alle Artefakte, die in der Arbeitsumgebimg vorhanden sind, werden im angereicherten Glossar durch einen Glossareintrag repräsentiert. Eine Vergrößerung eines Eintrags ist in Abbildung 1 links dargestellt. Ein solcher Glossareintrag besteht aus einem Foto des Artefaktes, einer Bezeichnung, einer textuellen Erläuterung und einer laufenden Nummer. Diese Nummer stellt den Bezug zur Verortungskarte im Zentrum dar. Artefakte, auch Arbeitsplätze imd Akteure, sind dort durch einen Kreis oder ein kleines Symbol mit Nummer in ihrer „Normalposition" verortet. In dieser Weise verbindet die Artefaktkarte drei Aspekte: den Überblick über den Arbeitsraum, die Anordnung der Arbeitsmittel im Raum und eine sehr detailreiche Sicht auf die einzelnen Artefakte. Die Karte hilft in Folge bei der Analyse einzelner Arbeitsplätze, Aufgaben und Kooperationen in Interviews mit den Akteuren. Direkt auf der Verortungskarte oder auf darüber gelegten Klarsichtfolien kann man die besprochenen Sachverhalte verorten, Abläufe aufmalen und Kooperationen visualisieren. So entsteht ein gemeinsames Bild und eine gemeinsame Sprache der Arbeitsexperten imd der Interviewenden. Auch kann man so außerhalb des wirklichen Kontextes (Büro, Arbeitsplatz) in einem visuellen, begreifbaren Ersatzkontext praktisch über die Arbeit sprechen. Wir gehen auf die Details im folgenden Abschnitt genauer ein.
\
1
ι 11 1
Verortungskarte Bezeichnung
Ί
I Μ II I I II Μ I I II II I I I I I! I l
I L
J
L
I II II I angereichertes Glossar
Abbildimg 1: Artefaktkarte - Verbindimg aus angereichertem Glossar und Verortungskarte der Arbeitsumgebung
Die Artefaktkarte
5
345
Erstellung und Einsatz der Artefaktkarte
Die Artefaktkarte hat eine Reihe von Einsatzmöglichkeiten. Innerhalb des Projekts haben sich bereits einige als sehr zweckdienlich und praxistauglich erwiesen und es hat sich gezeigt, dass auch schon die Phase der Datenerhebung zum Erstellen von angereichertem Glossar und Karte wertvolle Informationen liefert.
5.1
Erstellung: Beobachtung und In-Situ Interviews
Das angereicherte Glossar wird erstellt, indem man alle Artefakte fotografiert, gegebenenfalls Fragen zu ihrem Einsatz stellt und sie auf einer ersten Kartenskizze verortet. Die Erhebung wird von kleinen In-Situ-Interviews begleitet. Da zu den Artefakten auch erhoben wird, wofür sie eingesetzt werden, bekommt man eine überwiegend vollständige Liste der Arbeitsabläufe, häufig angereichert mit Anekdoten und interessanten Details, etwa unterschiedlichen Arbeitsweisen oder Vorlieben. Gleichzeitig bekommt man als Forscher nebenbei einen guten Einblick in den Arbeitsalltag, da man längere Zeit vor Ort ist und immer wieder beobachtend wartet, bis jemand Zeit hat, auf Fragen zu antworten. Dieser Prozess gibt wertvolle Hinweise auf Forschungsfragen, die anfangs noch nicht als wichtig erkennbar waren und kann daher den ethnographischen Methoden zugeordnet werden. Durch die klare Aufgabe der Forscher wird auch ihre Anwesenheit und ihre Beobachtung der Arbeit als weniger unangenehm empfunden.
5.2
Einsatz: als Interviewtechnik
Die Artefaktkarte bietet besonderen Nutzen als Werkzeug in einem Einzel- oder Gruppeninterview. Dabei wird entweder mit der großen in Abbildungl gezeigten Posterversion gearbeitet, die den Vorteil hat, dass alles auf einem Blick zu sehen ist. Oder man arbeitet mit einer kleinen Variante. Diese besteht nur aus der möglichst groß ausgedruckten Verortungskarte und wird ergänzt durch ein bebildertes Glossar in Buchform und eine listenförmige Zuordnung von Nummern und Artefakten (Legende). Mit diesem „papierenen Ersatzkontext" erzeugt man einen doppelten Effekt: Antworten können so konkret und detailreich wie in einem In-Situ-Interview gegeben werden, da man auf jedes Arbeitsmittel verweisen kann. Man hat alles vor Augen und kann mit dem Blick über die Anordnung der Arbeitsmittel schweifen, was für die Fragestellung relevante, detaillierte Assoziationen auslösen kann. Gleichzeitig ermöglicht es diese Form der Darstellung, sich gedanklich vom eigenen Arbeitskontext zu lösen und eine Vogelperspektive einzunehmen. Dies ist insbesondere für Menschen hilfreich, die schon lange im dargestellten Kontext arbeiten.
346
•
Häufig
Beckhaus, Brugger & Wolter
© € О О Nie
Artefaktweg
й
Ext. Akteur 1
йй
Ext, Akteure 2
Abbildung 2: von links nach rechts: Häufigkeiten-, Wege- und Kooperationsdiagramme auf der Verortungskarte
5.3
Einsatz: als Visualisierungs- und Modellierungstool
Über die Funktion des papierenen Ersatzkontextes hinaus, haben wir die Artefaktkarte zur Erarbeitung imd Visualisierung von Interviewinhalten genutzt. Drei mögliche Diagrammtypen werden wir im Folgenden erläutern: Häufigkeiten-, Wege- und Kooperationsdiagramme. Alle nutzen die Verortungskarte als Darstellungshintergrund. 5.3.1
Häufigkeitendiagramm
Das Häufigkeitendiagramm gibt wieder, wie häufig die verorteten Artefakte von einer bestimmten Person in einer bestimmten Rolle verwendet werden. Die Erhebung ist gleichzeitig eine besondere Interviewform. Mit einem Interviewpartner geht man für seine Rolle jedes Artefakt durch und erfragt die subjektiv geschätzte Nutzungshäufigkeit nach einer festgelegen imd sichtbaren Legende. Dies wird entsprechend auf der Verortungskarte vermerkt, wie in Abbildung 2 Links. Auch die Kooperationshäufigkeit mit Arbeitskollegen kann in dieser Weise dokumentiert werden. Neben der Erhebimg von „gefühlten Nutzungshäufigkeiten" dient das Interview dazu, Anmerkungen und Korrekturen zum Glossar selbst zu erhalten. Auch subjektive Bewertungen von Artefakten und persönliche Arbeitsweisen werden in diesem Zusammenhang oft von den Interviewten genannt. Erfasste Häufigkeitendiagramme lassen sich für verschiedene Analysen nutzen. Sie sind ein Indikator für die Wichtigkeit verschiedener Arbeitsmittel und für häufig gegangene Wege. Mit ihnen können Rückschlüsse auf Stärken imd Schwächen der momentanen Positionierimg von Arbeitsmitteln gezogen werden, imd daraufhin differenzierte Empfehlungen für bessere Plazierung von Arbeitsmitteln gegeben werden. Sie können auch ein Indikator für unterschiedliche Arbeitsweisen verschiedener Personen sein, wenn Häufigkeitendiagramme mit mehreren Mitarbeiter einer Rolle erhoben werden.
Die Artefaktkarte 5.3.2
347
Wegediagramm
Die Verortungskarte eignet sich gut dazu, Wege sowohl von Personen als auch von Artefakten innerhalb von Arbeitsabläufen oder Zeiteinheiten darzustellen. Das entspricht einer Visualisierung von „Interaction Trajectories" nach Fitzpatrick (2003, S.121ff), und befindet sich im weitesten Sinne in der Tradition von Raum-Zeit-Karten nach Hägerstrand (1970), die Wege im Raum veranschaulichen. Wir haben beispielsweise den Weg einzelner Artefakte durch die Arbeitsräume in Form von Pfeilen markiert, wie Abbildung2 Mitte zeigt. Während des Interviews wird so eine sehr konkrete Schilderung von Arbeitsabläufen möglich. Analysen mehrerer solcher Wegdiagramme lassen beispielsweise Rückschlüsse auf schlecht piazierte Arbeitsmittel oder optimierbare Arbeitsabläufe zu. Wird ein Gegenstand von mehreren Rollen genutzt, können die Diagramme Hinweise auf geeignete Positionierung des Artefakts geben. 5.3.3
Kooperationsdiagramm
Für Kooperationen und Arbeitsprozesse haben wir angelehnt an die exemplarische Geschäftsprozessmodellierung (eGPMs) (Breitling et al. 2006) gearbeitet. eGPMs geben einen Überblick über Arbeitsabläufe, jedoch ohne Bezug auf die Arbeitsumgebung. Auch werden nicht alle genutzten Artefakte modelliert. Diese Details haben wir festgehalten, indem wir die eGPMs sozusagen auf die Verortungskarte „gelegt" haben. Im Mittelpunkt unserer hier exemplarisch vorgestellten Kooperationsdiagramme (Abbildung2 Rechts) stehen dabei die Akteure. Ihre Kooperation und verschiedene Arten der Nutzung von Artefakten können mit verschiedenen Linien dargestellt werden z.B.: •
physische Bewegung, wie „geht zum Drucker" ,
•
haptische Nutzung eines Arbeitsmittels, z.B. „benutzt die Tastatur",
•
visuelle Nutzung, wie etwa „wirft einen Blick auf die Pinnwand" ,
•
akustische Nutzung, beispielsweise „hört Summer",
•
direkte Kooperation, z.B. „spricht mit Arbeitskollegen",
•
mediengestützte Kooperation, wie Telefonieren oder Faxen.
Diese Verortung von Kooperationen und Arbeitsabläufen mit besonderem Blick auf genutzte Artefakte gibt Aufschlüsse darüber, wie Artefakte besser piaziert werden können und lässt mögliche Lücken in der Unterstützung der Arbeit sichtbar werden.
6
Die Artefaktkarte in der Verkehrsleitzentrale
Im Rahmen unseres Forschungsprojektes haben wir in der oben beschriebenen HafenVerkehrsleitzentrale eine Artefaktkarte für zwei zentrale Büros erstellt, in denen zwei kleine Teams mit einer Vielzahl von Arbeitsmitteln arbeiten. Die finale Artefaktkarte umfasst insgesamt 123 erweiterte Glossareinträge, die diese Arbeitsmittel beschreiben. Die in Abbildung 3 gezeigte Posterversion ist ca. 3,5 Meter breit und etwa 1,5 Meter hoch.
348
Beckhaus, Brugger & Wolter Ш • В
&
V
η •ч τΜ i JU
А
= Ät у rt J Л я и ш
w ш г· Я Η т в
а зшв ϋ
Ё. η о
Ei
и ν Χ m m
8
Η ·
lit F l f f,
V ы
Ή
J'fct' 1
El Ш
α га л
Abbildimg 3: Die Artefaktkarte der Hafen-Verkehrsleitzentrale
Г!
ίβ 1 L
а
ш • щ т
Η ϊ
m
U В
и й я.
г
л W1
1
(Posten'ersion, 3,50m breit)
Die Erhebung der Daten für diese Artefaktkarte wurde in den beiden Büros parallel durch jeweils eine Person durchgeführt. Je Büro wurden zwei Arbeitstage für die Datenerhebung aufgewendet. In dieser Zeit wurden alle Arbeitsmittel fotografiert, in einer Skizze verortet, Erläuterungen notiert und vor allem auch die Verwendung der Arbeitsmittel beobachtet. Anschließend wurden die Daten mit den Projektpartnern überprüft, ergänzt, aufbereitet und die Posterversion erstellt. Diese wurde in einem Workshop vorgestellt und führte bereits dort spontan zu einer gemeinsamen Diskussion über einzelne Arbeitsmittel und ihre Verwendung. Korrekturen und Ergänzungen wurden, wie in Abbildung3 links zu sehen ist, sofort mit Haftnotizzetteln der Übersicht zugefügt. Die Artefaktkarte wurde direkt nach dem Workshop in der Verkehrsleitzentrale aufgehängt, um auch Mitarbeiter mit einzubeziehen, die nicht bei der Präsentation dabei sein konnten. Ausgelegte Haftnotizblöcke und Stifte motivierten dort die weitere Annotation der Karte. Mit der aktualisierten Artefaktkarte wurden dann Häufigkeitendiagramme für verschiedene Rollen erstellt, sowie Wege- und Kooperationsdiagramme für verschiedene Fragestellungen erarbeitet. Diese haben sich teils sogar erst während der Datenerhebimg als bedeutend herausgestellt. Dabei haben wir für die ersten Erhebungen die Posterversion der Karte im Raum als Referenz zu den Arbeitsmitteln aufgestellt. Später haben wir nur noch die Legende in Kombination mit dem erweiterten Glossar in Buchform verwendet, da die Diskussion über die Arbeitsmittel nach einigen Terminen abgeschlossen, die Methode allen Teilnehmern bekannt und eine Referenz auf die Details der Arbeitsmittel nur noch selten nötig war. Die Diagramme wurden auf einer ungefähr DIN A3 großen Verortungskarte am Tisch in einer Interview-ähnlichen Situation erarbeitet. Sie wurden von Hand auf Folien aufgemalt, die über der Verortungskarte lagen. Dieses Vorgehen ermöglicht es, später sehr einfach verschiedene Diagramme miteinander zu kombinieren. Das Vorgehen, die Diagramme von Hand in einem gemeinsamen papierenen Kontext zu zeichnen, hat sich als sehr hilfreich erwiesen. So war jedes Arbeitsmittel bereits (als Kreis mit Nummer) vorhanden und im Arbeitsraum an seiner Normalposition verortet. Alle Teilnehmer wussten durch einfaches Zeigen auf Arbeitmittel, Rollen oder Räume, ohne weitere Erläuterungen, worüber geredet wurde. Deshalb konnten wir uns im Interview zielgerichtet und konzentriert mit dem eigentlichen Thema befassen. Da alle Ergebnisse des Interviews gleich in Form von Symbolen, Pfeilen oder Abläufen auf der Karte festgehalten wurde, ent-
Die Artefaktkarte
349
stand so auch ein gemeinsamer Antwortkontext, den alle Beteiligten gleich überprüfen und durch einfaches Zeigen wieder in Erinnerung rufen konnten.
7
Diskussion, Fazit und Ausblick
Mit der Artefaktkarte haben wir ein Werkzeug entwickelt, das die in Abschnitt 3 beschriebene methodische Lücke von Anforderungsanalysen schließt, die sowohl physischen als auch sozialen Raum und alle Arbeitsmittel berücksichtigen wollen. Einige der oben genannten Methoden klammern den Raum, in dem die zu unterstützende Arbeit stattfindet, fast ganz aus oder geben kaum Hinweise, wie detaillierte raumbezogene Ergebnisse erarbeitet und dokumentiert werden können (z.B. Bodker et al. 2004, Mayhew 1999, Breitling et al. 2006). Beyer & Holtzblatt (1998) beschreiben fünf Modelltypen, mit deren Hilfe zentrale Aspekte der Arbeit festgehalten werden können. Das „artefact model" dient der Beschreibung einzelner dinglicher Artefakte aus der Arbeitswelt. Das „physical model" dokumentiert die räumlichen Gegebenheiten inklusive darin enthaltener Arbeitsmittel. Zusammen kommen diese beiden Modelltypen unserer Artefaktkarte am nächsten, ignorieren jedoch nicht-dingliche Arbeitsmittel wie z.B. Programme und beschränken sich auf ausgewählte zentrale Arbeitsmittel. Das alles kann dann ein Problem darstellen, wenn sehr viele Arbeitsmittel eingesetzt werden, deren Verwendung und Bedeutung für die Arbeit zunächst verstanden werden muss, wenn Interviews nicht in der eigentlichen Arbeitsumgebung stattfinden können (Karte macht den Arbeitskontext „mobil"), wenn durch Abstraktion (Skizzen statt Fotos) wichtige Details verloren gehen würden, wenn der Kontext bei der Analyse außer Acht gelassen wird oder wenn Vollständigkeit nötig ist, um das Aufdecken von Problemen zu ermöglichen, die nicht offensichtlich sind. Für diesen Fall haben wir mit der Artefaktkarte ein Werkzeug vorgestellt, das die Analyse hervorragend unterstützt und uns in kurzer Zeit die umfangreiche und detailgenaue Analyse des Kontextes ermöglicht hat, sogar unabhängig von der realen Arbeitsumgebung. Sie zeigt in einer sehr übersichtlichen Weise alle bei der Arbeit genutzten Artefakte. Die auf Basis der Artefaktkarte entwickelten Diagramme geben ein übersichtliches Bild über wesentliche Aspekte des physischen und sozialen Raumes, sowie wesentlicher Arbeitsvorgänge wieder. Die Artefaktkarte unterstützt darüber hinaus das zielgerichtete Erarbeiten komplexer Analysen sowie das einfachere Kommunizieren der Ergebnisse an Externe. In diesem letzten Punkt bietet die Artefaktkarte auch einen Beitrag zu der vielbeschworenen „gemeinsamen Sprache" zwischen Forschern und Entwicklern (u.a.: Fitzpatrick 2003). Die annotierten Diagramme bieten die Möglichkeit, detaillierte, situierte Forschungsergebnisse beispielsweise Entwicklern in einem verständlichen, portablen Format zu präsentieren. Wir werden in Zukunft diese Arbeit erweitern und das Potential der Artefaktkarte insbesondere auch in der Designphase testen. Dann werden wir gemeinsam mit den Nautikern Lösungsvorschläge für einige offenbar gewordene Schwächen erarbeiten und diese gleich im Sinne eines papierenen Prototyps für alle genannten Aspekte durchspielen.
Beckhaus, Brugger & Wolter
350
8
Literaturverzeichnis
Alexander, C. (1977). A Pattern Language. Towns, Buildings, Construction. New York: Oxford University Press. Beyer, H. & Holtzblatt, K. (1998). Contextual design: defining customer-centered systems. San Francisco: Morgan Kaufmann. Bodker, K. & Kensing, F. & Simonsen, J. (2004). Participatory IT Design: Designing for Business and Workplace Realities. Cambridge: MIT Press. Breitling, Η., Kornstädt, Α. & Sauer, J. (2006): "Design Rationale in Exemplary Business Process Modeling", In: Dutoit, A. H., McCall, R., Mistrik, I. & Paech, B. (Hrsg.): Rationale Management in Software Engineering, Heidelberg: Springer, [S. 191-208]. Dourish, P. (2006). Re-Space-ing Place: "Place" and "Space" Ten Years On. Computer Supported Cooperative Work; Proceedings ofCSCW'06. Alberta: Banff. [S. 299-308]. Fitzpatrick, G. (2003). The Locales Framework - Understanding and Designing for Wicked Problems. Dordrecht: Kluwer Academisch Publishers. Giddens, A. (1984). The Constitution of Society: Outline of the Theory of Structuration. Cambridge: Polity Press. Harrison, S. & Dourish, P. (1996). Re-Plac-ing Space: The Roles of Place and Space in Collaborative Systems. Proceedings of CSCW'96. Cambridge MA. [S. 67-76]. Hägerstrand, Т. (1970). What about People in Regional Science, Regional Science Association Papers, Vol. XXIV, S. 7-21. Holtzblatt, K. & Wendell, J. B. & Wood, S. (2005): Rapid Contextual Design. Amsterdam: Elsevier. Mayhew, D. J. (1999): Usability Engineering Lifecycle. San Francisco: Morgan Kaufmann. Rapoport, A. (1994). Spatial Organization and the Built Environment. In: Ingold, T. (Hrsg): Companion Encyclopedia of Anthropology. London: Routledge. [S. 460-502]. Rosson, M. B. & Carroll, J. (2002): Usability Engineering: Scenario-based Development of HumanComputer Interaction. San Francisco: Morgan-Kaufmann. Suchman, L. (1991). Centers of Coordination: A Case and Some Themes. In: Resnik, L. В., Säljö, R., Pontecorvo, C. & Bürge, В. (Hrsg.): Discourse, Tools and Reasoning - Essays on Situated Cognition. Berlin: Springer. [S. 41-62].
Danksagung Wir danken unseren Projektpartnern in der Hafen-Verkehrsleitzentrale für die sehr offene und kooperative Zusammenarbeit und ebenso allen in unserem Projektteam, insbesondere Arne Scharping und Horst Oberquelle, für ihre wertvollen Beiträge zu dem Projekt.
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 351-360
Anwendung von GOMS-Analysen und CogTool in der Design-Praxis Martin Schrepp, Theo Held SAP AG Walldorf Zusammenfassung Kognitive Modellierung ist eine kostengünstige Methode betriebswirtschaftliche Anwendungen hinsichtlich ihrer Effizienz zu evaluieren und das Design solcher Anwendungen weiter zu optimieren. Wir untersuchen in diesem Beitrag mit KLMGOMS und CogTool zwei etablierte Methoden der kognitiven Modellierung in Bezug auf ihre Fähigkeit die Bearbeitungszeiten betriebswirtschaftlicher Arbeitsabläufe korrekt vorherzusagen. Die Ergebnisse zeigen, dass die mit Hilfe von CogTool generierten Vorhersagen genauer sind, als die aus einer GOMS-Analyse resultierenden Vorhersagen. Allerdings erfordert die Modellierung mit CogTool schon deutlich detailierter ausgearbeitetere Entwürfe als dies für eine GOMS-Analyse notwendig ist. Aus diesen Ergebnissen können Empfehlungen für den Einsatz und die Einschränkungen beider Methoden abgeleitet werden.
1
Einleitung
Effizienz ist ein wesentliches Qualitätsmerkmal interaktiver Produkte. Speziell bei betriebswirtschaftlich genutzten Anwendungen hat die Effizienz der Benutzerschnittstelle einen starken Einfluss auf die erfolgreiche Einführung eines Produkts in einem Unternehmen. Solche Anwendungen werden in der Regel zur Erledigung betriebswirtschaftlicher Standardprozesse (z.B. Erstellen eines Angebots oder Erfassen eines neuen Auftrags) eingesetzt, die ein einzelner Benutzer während eines typischen Arbeitstages sehr häufig durchführt. Selbst kleinere Zeitverluste, die durch eine ineffiziente Gestaltung der Benutzerschnittstelle entstehen, können dadurch zu ernstzunehmenden Produktivitätsverlusten führen. Designer betriebswirtschaftlicher Anwendungen haben daher in der Regel ein starkes Interesse daran, die Effizienz einer Benutzerschnittstelle zu messen. Als Effizienzmaß wird typischerweise die Zeit verwendet, die ein erfahrener Benutzer zur Erledigung von typischen Standardaufgaben mit der Benutzerschnittstelle benötigt. Eine solche zeitliche Schätzung kann zum einen dafür verwendet werden, die Eignung der Benutzerschnittstelle in Bezug auf vorgegebene maximale Bearbeitungszeiten in einem Kundenszenario zu überprüfen. Zum Beispiel gibt es in Call Centern oft klare Vorgaben, wie
352
Schrepp & Held
lange die Erfassung eines telefonisch eingegangenen Auftrags dauern darf. Vor Einführung einer neuen Call Center Software in einem Unternehmen ist es also notwendig zu prüfen, ob diese Vorgaben erreicht werden können. Zum anderen ist eine solche Quantifizierung der Effizienz notwendig, um schon in der Design-Phase einer Anwendung alternative Entwürfe einer Benutzerschnittstelle vergleichen zu können bzw. einen bestehenden Entwurf hinsichtlich seiner Effizienz weiter zu optimieren. Wie kommt man nun zu einer solchen quantitativen Beurteilung der Effizienz einer Benutzerschnittstelle? Eine Möglichkeit sind natürlich Benutzertests. Allerdings benötigt man für ausreichend genaue Zeitmessungen bereits ein lauffähiges System. Für die Evaluation während der Design-Phase ist diese Methode daher nicht geeignet. Für die Beurteilung der Effizienz ist man in der Regel nicht an den Zeiten interessiert, die ungeübte Benutzer für die Aufgabenbearbeitung benötigen. Man muss daher sicherstellen, dass die Teilnehmer sich schon hinreichend mit dem System vertraut gemacht haben, bevor man die Zeiten misst. Dies erfordert natürlich eine längerfristige Interaktion der Teilnehmer mit der Anwendung und treibt daher den Aufwand und die Kosten eines solchen Tests in die Höhe. Kognitive Modellierung erlaubt es, den zeitlichen Aufwand vorgegebener Arbeitsabläufe in einer Benutzerschnittstelle zu schätzen ohne Testpersonen einzubeziehen. Diese Methode kann auch schon ausgehend von groben Entwürfen in der frühen Design-Phase eines Projekts verwendet werden. Es gibt verschiedene Methoden der kognitiven Modellierung, die sich bzgl. ihrer Komplexität stark unterscheiden. Gemeinsam ist diesen Methoden, dass ihnen ein theoretisches Modell menschlicher Informationsverarbeitung zugrunde liegt. Dieses Modell wird verwendet, um die bei der Abarbeitung einer Aufgabe erforderlichen kognitiven und physischen Schritte zu beschreiben und daraus dann eine Zeitdauer für die Bearbeitung einer Aufgabe abzuleiten. Wir untersuchen in diesem Beitrag mit dem Keystroke Level Model GOMS (Card et al. 1983) und CogTool (John et al. 2004) zwei etablierte Methoden der kognitiven Modellierung. Das Keystroke Level Model GOMS (kurz KLMGOMS) ist die sowohl bzgl. der theoretischen Fundierung als auch bzgl. der konkreten Durchführung einfachste Methode der kognitiven Modellierung. Dagegen ist die dem CogTool zugrundeliegende ACT-R Theorie (Anderson & Lebiere 1998) der im Moment am besten theoretisch ausgearbeitete, aber auch komplexeste kognitive Modellierungsansatz. Wir werden diese beiden Methoden anhand konkreter betriebswirtschaftlicher Szenarien in Bezug auf ihre Fähigkeit vergleichen, genaue Vorhersagen der benötigten Bearbeitungszeiten zu generieren. Weiterhin werden wir Empfehlungen ableiten, in welchen Situationen diese Methoden sinnvoll eingesetzt werden sollten.
2
Kognitive Modellierung mit GOMS
Eine GOMS-Analyse (Card et al. 1983) erlaubt vorherzusagen, wie lange ein erfahrener Benutzer für die Bearbeitung einer vorgegebenen Aufgabe in einer Benutzerschnittstelle benötigt. Das Akronym GOMS steht für Goals, Operators, Methods und Selection Rules:
Anwendung von GOMS-Analysen und CogTool in der Design-Praxis
353
•
Ein Ziel (Goal) beschreibt, was der Benutzer erreichen möchte.
•
Operatoren sind grundlegende physische (z.B. Drücken einer Taste oder Positionieren des Mauszeigers) oder kognitive Prozesse (z.B. Abruf einer Information aus dem Gedächtnis oder mentale Vorbereitung für den nächsten Schritt in einer Handlungssequenz), die der Benutzer zur Erreichung des Ziels ausführen muss.
•
Methoden repräsentieren erlernte Operator-Sequenzen, die ein Benutzer automatisch ausführt, um ein Ziel oder Teil-Ziel zu erreichen.
•
Verfügt der Benutzer zu einem Zeitpunkt der Aufgabenbearbeitung über mehrere alternative Methoden zur Erreichung eines Ziels, so entscheiden Selektionsregeln, welche dieser Methoden verwendet wird.
Es wurden mehrere Varianten der GOMS-Analyse veröffentlicht, die sich bzgl. der Standardisierung und Komplexität der Modellierung unterscheiden (siehe z.B. John & Kieras 1996). Wir werden uns im Folgenden auf die einfachste Form der GOMS-Analyse beschränken, dass sogenannte Keystroke Level Model (KLMGOMS). Diese Variante verwendet zur Vorhersage der Bearbeitungszeit einer Aufgabe allein die dafür notwendigen Operatoren. Alternative über Selektionsregeln gesteuerte Bearbeitungssequenzen werden hier nicht verwendet. Das führt zu einer erheblichen Vereinfachung des Modellierungsaufwands. Deshalb ist diese Variante für die praktische Anwendung in konkreten Design-Projekten besonders gut geeignet62. Unterschiedliche Personen benötigen natürlich unterschiedliche Zeiten für die grundlegenden physischen oder kognitiven Operationen. Die GOMS Analyse abstrahiert von den Zeiten konkreter Personen durch die Verwendung typischer Durchschnittswerte (z.B. Tastendruck beim Tippen einer Zeichenkette 0,23 Sekunden, Positionieren des Mauszeigers 0,44 Sekunden, Mentale Vorbereitung 1,2 Sekunden, etc.). Diese Durchschnittswerte wurden in experimentellen Studien ermittelt (z.B. John & Kieras 1996; Olson & Olson 1990; Schrepp & Fischer 2007). In KLMGOMS wird zwischen verschiedenen physischen Operatoren unterschieden. Für alle kognitiven Operationen wird im allgemeinen nur ein einziger Operator (typischerweise mit Μ für Mental Operation bezeichnet) verwendet. Bei der Analyse einer Aufgabenstellung mit KLMGOMS geht man wie folgt vor: •
Man ermittelt die Sequenz aller physischen Operatoren, die zur Erledigung der Aufgabe notwendig sind.
•
Man fasst Teilsequenzen physischer Operatoren zu Gruppen zusammen. Eine solche Gruppe repräsentiert dabei eine gelernte Folge von Operatoren, die ohne weiteren kognitiven Aufwand in einer Sequenz ausgeführt wird (z.B. Maus auf ein Ziel positionieren und dieses anklicken).
62
Eine Einschränkung des KLMGOMS ist, dass es dieser Ansatz nicht erlaubt, parallele Prozesse menschlicher Informationsverarbeitung abzubilden. Bei Aufgaben, in denen solche parallelen Denkprozesse eine wichtige Rolle spielen, werden die aus der KLMGOMS Analyse resultierenden Zeiten daher die realen Zeiten zur Aufgabenbearbeitung überschätzen. In solchen Anwendungsszenarien kann die Schätzung mit dem sogenannten Critical Path Method GOMS (John & Kieras 1996) durchgeführt werden.
354 •
Schrepp & Held Man platziert einen kognitiven Operator vor jede Gruppe.
Der Umgang mit kognitiven Operatoren ist der schwierigste Teil einer GOMS Analyse. Um hier die Freiheitsgrade bei der Modellierung einzuschränken, gibt es eine Reihe von Heuristiken dafür, wann ein kognitiver Operator einzufügen ist (siehe z.B. Kieras 2001). Für eine GOMS Analyse reicht es schon aus, eine hinreichend genaue Vorstellung einer Benutzerschnittstelle zu besitzen. Diese Vorstellung muss nur konkret genug sein, um die in der Benutzerschnittstelle durchzuführenden Operationen abzuleiten. Ein Implementierung oder eine gut ausgearbeitete Skizze der Benutzerschnittstelle sind hier für die Modellierung nicht notwendig. Für die konkrete Durchführung einer GOMS-Analyse kann auf frei verfügbare Programme zurückgegriffen werden, z.B. GOMSED (Wandmacher 1997; 2002).
3
Kognitive Modellierung mit ACT/R (CogTool)
CogTool ist ein an der Carnegie-Mellon-University entwickeltes Programm (John et al. 2004; John & Salvucci 2005) zur Unterstützung der kognitiven Modellierung (das Tool ist frei verfügbar unter www.cs.cmu.edu/~bej/cogtool/). CogTool basiert auf der von Anderson & Lebiere (1998) entwickelten kognitiven Architektur ACT-R, die entwickelt wurde, um kognitive, perzeptuelle und motorische Prozesse zu modellieren, die Nutzer einer Software durchlaufen. Eine wesentlicher Vorteil von CogTool beteht darin, dass die teilweise sehr komplexen in ACT-R modellierten Zusammenhänge in das Tool „eingebaut" sind und nicht explizit vom Anwender des Tools angegeben oder berücksichtigt werden müssen. Operationen wie „Betrachten eines Bildschirmbereichs" oder „Vorbereitung einer motorischen (bzw. visuellen) Aktion" werden automatisch verwendet während der Anwender angibt, welche (offensichtlichen) Handlungen ein Nutzer bei der Verwendung einer Softeware durchführt. 63 Ein CogTool-Anwender hat lediglich die folgenden 4 Schritte zu durchlaufen: •
Erzeugen eines Design-Storyboards.
•
Definition einer Menge von Aufgaben.
•
Erzeugen eines Skripts.
•
Modifikation des Designs und Wiederholung der weiteren Schritte.
Ein Design-Storyboard besteht aus einer Menge unterschiedlicher Zustände (die als Frames bezeichnet werden) der Benutzerschnittstelle des modellierten Systems (z.B. Eingabeformulare oder Tabellen). Innerhalb jedes Frames werden interaktive Bereiche durch sogenannte Widgets identifiziert. Diese Widgets repräsentieren Elemente, mit denen der Benutzer während der Bearbeitung einer Aufgabe interagiert (z.B. Eingabefelder, Links, Buttons oder Menüs). Einzelne Frames werden dann mit Hilfe von Übergängen (Transitions) miteinander 63
Die genannten Operatoren sind in KLMGOMS nicht vorhanden. Dort gibt es nur den pauschalen „Think" Operator. Das bedeutet, dass mit CogTool/ACT-R wegen des erweiterten Repertoires an Operatoren auch potenziell differenzierte Modellierungen erzeugt werden können.
355
Anwendung von GOMS-Analysen und CogTool in der Design-Praxis
verbimden, um den Interaktionsfluss beim Bearbeiten einer Aufgabe zu beschreiben. Ein Übergang führt stets von einem Widget eines Frames zu einem anderen Frame. Abbildung 1 zeigt ein Beispiel für ein Design-Storyboard in dem bereits Widgets definiert sind. Die Pfeile stellen die Übergänge dar. Γ * Designs
- α X
t >s2'etiariol t^] - CogTool
File Edit Create Modify Window Help Frame Properlies
01 Home
02 A c c t M g m t W C
'
-Г———7-7»·""
1 MC
06_ßci:t_5earch_mit Resultjefiltert Widgets:
+ adccim iustjook keyboard
; "".
Keyboard 04 Acct Search mit Result
Q3_Acct_Search /
2
Keyboard η if D a n ilt CiltaWWa!
Keyboard
"Ί i-'na
rt*h mit P CI -lllt FIB«»!^ II
Abbildimg 1: Beispiel fir ein CogTool Desgign-Storvboard mit Widgets und Übergängen.
Design-Stoiyboards werden bereits auf der Basis möglicher typischer Interaktionssequenzen zusammengestellt. Aus den einzelnen Schritten einer Aufgabenbearbeitimg (z.B. Öffne ein Menü, Speichere ein Objekt, Navigiere zur Suche) kann nun ein Skript aufgezeichnet werden. Hierzu wird das Design-Storyboard von CogTool in ein kognitives Modell basierend auf ACT-R übersetzt. Der Nutzer des Tools muss die impliziten, nicht unmittelbar beobachtbaren kognitiven, motorischen oder wahrnehmungsbezogenen Operatoren (z.B. visuelle Orientierung, kognitive Operation) weder kennen, noch explizit eingeben - sie werden von CogTool automatisch eingefügt. Dies ist eine der wesentlichen Stärken von CogTool, da hier der Aufwand für die Modellierung massiv verringert wird. Das Script wird nun verwendet, um die für die Aufgabenbearbeitimg notwendigen Zeiten vorherzusagen. Hierfür werden ähnlich wie in GOMS bekannte Zeiten für bestimmte Operationen benutzt, wobei allerdings auch parallele Prozesse der Informationsverarbeitung berücksichtigt werden. Ein wichtiges Hilfsmittel von CogTool ist das ACT-R Visualisierungsfenster, das die gemäß ACT-R angenommenen elementaren Operationen anzeigt. Dadurch bekommt der Anwender einen guten Überblick darüber, welcher Art diese Operationen primär sind (z.B. motorische
356
Schrepp & Held
Aktion, visuelle Orientierung, Nachdenken). Abbildung 2 zeigt ein Beispiel für den Inhalt des Visualisierungsfensters. Einzelne horizontale Balken stehen für die zeitliche Ausdehnung einzelner Arten von Operationen. : : ~ г г
и
·
Μ
и
•cu„,Md«,lu [fjtCTRTh» 30.71 Tri
riMLi itf: tluS^MiM! Ч Й Н 4 ' Mi Mi ι,,Μ
J,
—'
I
51
5
I
5
I
5
h
Ρ
π —
Abbildung 2: ACT-R
Visualisierungsfenster
Ein weiterer interessanter Aspekt ist die Kombination von CogTool-Nutzermodellen mit dem reinen Keystroke Level Model-Ansatz, der die Stärken der jeweiligen Systeme nutzt. Dazu werden Interaktionen auf dem Keystroke-Level detailliert mit CogTool modelliert imd die so gewonnenen Benutzungszeiten als Makrooperatoren in ein höherstufiges System übertragen, mit dem längere InteraktionsSequenzen im Baukastensystem zusammengestellt werden können. Dies verbindet den hohen Auflösungsgrad der CogTool-Modellierung mit einem pragmatischen Vorgehen zur Modellierung komplexer Int eraktions Szenarien.
4
Vergleich der Methoden
Eine kognitive Modellierung betriebswirtschaftlicher Anwendungen kann zur Beantwortung folgender Fragestellungen verwendet werden: •
Ist es möglich vorgegebene Anwendungsszenarien innerhalb bestimmter zeitlicher Vorgaben mit der Anwendung zu erledigen?
Anwendung von GOMS-Analysen und CogTool in der Design-Praxis •
357
Welcher Entwurf der Benutzerschnittstelle erlaubt eine schnellere Abarbeitung der typischen Arbeitsaufgaben?
Für die zweite Fragestellung ist es in der Regel auch sehr interessant das Verhältnis der Zeiten zu betrachten, um abschätzen zu können, wie stark sich Modifikationen an bestehenden Entwürfen auf die Bearbeitungszeiten auswirken, d.h. ob sich solche Modifikationen überhaupt lohnen. CogTool liegt eine detailliertere Modellierung der kognitiven Architektur zugrunde als GOMS. Zum Beispiel berücksichtigt CogTool bei der Zeitschätzung einer Mausbewegung die Distanz zwischen Start und Endpunkt, während in einer GOMS Analyse hierfür stets ein konstanter Zeitfaktor angesetzt wird64. Daher sollten die mit CogTool geschätzten Bearbeitungszeiten näher an der Realität liegen, als die Ergebnisse einer GOMS Analyse. Allerdings ist natürlich bei längeren Szenarien auch zu erwarten, dass sich die Unterschiede evtl. ausmitteln (die in der GOMS-Analyse verwendeten Zeiten für Operatoren sind ja gerade als mittlere Zeiten über ein realistisches Spektrum an verschiedenen Szenarien definiert). Für den Vergleich der beiden Methoden wurden 3 typische Bearbeitungsszenarien eines Web basierten CRM Systems mit KLMGOMS und CogTool analysiert: •
Szenario 1: Kundendaten suchen und ändern,
•
Szenario 2: Daten zu einem neuen Kunden erfassen,
•
Szenario 3: Auftrag mit mehreren Positionen erfassen.
Die Szenarien unterscheiden sich stark in Bezug auf die einzugebenden Daten. Bei Szenario 1 steht die Navigation im Vordergrund (Navigation über 8 Screens bzw. Screen-Zustände), während nur wenige Daten (15 Zeichen in 3 Feldern) eingegeben werden. Szenario 2 beschreibt massive Dateneingabe in ein Formular (Navigation über 3 Screens, Eingabe von 107 Zeichen in 17 Feldern). Szenario 3 beschreibt Dateneingabe in einer Tabelle (2 Screens, Eingabe von 33 Zeichen in 9 Tabellenzellen). Für die Modellierung mit KLMGOMS wurden ausschließlich die in Wandmacher (2002) beschriebenen Operatoren und Operatorzeiten verwendet. Eine Ausnahme bildet die Modellierung von Szenario 2. Hier musste berücksichtigt werden, dass die in das Formular einzutragenden Daten in der Regel vom Benutzer aus einem anderen Medium abgelesen werden (Ausdruck oder auch evtl. eine Visitenkarte). Für eine realistische Zeitschätzung musste hier also auch das Lesen der Daten und der Wechsel der Orientierung vom Bildschirm zum Ausdruck und zurück berücksichtigt werden. Ein solches Nachlesen wurde als Sequenz aus einem mentalen Operator, einem Aufmerksamkeitswechsel (vom Screen zum Ausdruck), einer Leseoperation und einem weiteren Aufmerksamkeitswechsel (vom Ausdruck zum Screen) modelliert. Die für den Aufmerksamkeitswechsel notwendige Zeit wurde auf 0,36 Sek. gesetzt (siehe Holleis et al. 2007). 64
Dies gilt nur für die von uns untersuchte einfachste Form der GOMS Analyse. Die Distanz einer Mausbewegung kann auch in GOMS berücksichtigt werden, z.B. in dem die dafür notwendigen Zeiten über Fitt's Law berechnet werden.
358
Schrepp & Held
In einer kleinen empirischen Untersuchung wurden diese 3 Szenarien in einem Testsystem von 5 Personen durchgeführt. Die Teilnehmer waren mit der Anwendung sehr gut vertraut. Jeder Teilnehmer spielte jedes Szenario dreimal durch. Für den folgenden Vergleich mit den durch die Modellierung vorhergesagten Zeiten wurden die Mittelwerte der jeweils kürzesten Bearbeitungszeit der 5 Teilnehmer verwendet.
Szenario
Zeiten
GOMS
Abw. GOMS
CogTool
Abw. CogTool
1
41,28 (4,39)
50,24
21,7%
39,74
3,73%
2
98,16 (18,91)
102,44
0,04%
96,44
1,75%
3
35,04 (3,81)
39,85
13,73%
36,98
5,54%
Tabelle 1: Vergleich der mittleren Bearbeitungszeiten der Teilnehmer mit den Vorhersagen. Werte in Klammern beschreiben die Standardabweichungen der Zeiten.
Abweichungen zwischen den aus der Modellierung resultierenden Zeiten und realen Zeiten von 5-20% werden in der Regel als gute Passung zwischen Modell und Realität akzeptiert (siehe z.B. Teo & John 2006). Die Vorhersagen mit CogTool sind alle sehr nahe an den realen Zeiten. Die Vorhersagen mit KLMGOMS sind für die Szenarien 2 und 3 ebenfalls relativ gut. Für das Szenario 1 gilt dies nicht. D.h. bei den eher eingabeorientierten Szenarien liefert KLMGOMS gute Voraussagen, bei dem eher durch Navigation mit der Maus gekennzeichneten Szenario ist die Abweichung erheblich. Wodurch kommt dieser Effekt zustande? Wie schon erwähnt, berücksichtigt eine KLMGOMS-Analyse nicht die realen Entfernungen der Mausbewegungen, sondern setzt für jedes Positionieren des Mauszeigers einen konstanten Wert an. Dies ist natürlich vorwiegend bei Szenarien nachteilig, in denen vorwiegend mit der Maus navigiert wird. Bei der Dateneingabe in Formularen hat dieser Fehler in der Schätzung weniger Einfluss. Eines der Hauptanwendungsszenarien der kognitiven Modellierung ist der Vergleich alternativer Entwürfe einer Benutzerschnittstelle. Für diese Art der Anwendung sind genau genommen nicht die absoluten Zeitschätzungen relevant, sondern lediglich die Relation der Zeiten. D.h. betrachten wir zwei Szenarien Si und S2. Nehmen wir an, dass K(Si) und K(S2) die aufgrund der kognitiven Modellierung geschätzten Bearbeitungszeiten für diese Aufgaben sind und T(Si) bzw. T(S2) die real beobachteten Bearbeitungszeiten. Beim Vergleich zweier solcher Szenarien ist es insbesondere interessant, ob die Modellierung eine Aussage erlaubt, um wie viel besser eine der beiden Alternativen ist. Es sollte also gelten K(Si) / K(S2) = T(Si) / T(S2), d.h. es genügt, wenn die aus der Modellierung gewonnenen Zeitschätzungen das Verhältnis der realen Zeiten wiederspiegeln. Die folgende Tabelle 2 zeigt für alle untersuchten Szenarien die Verhältnisse der Zeiten.
Anwendung von GOMS-Analysen und CogTool in der Design-Praxis
359
S1/S2
S1/S3
S2/S1
S2/S3
S3/S1
S3/S2
Zeiten
0,42
1,18
2,38
2,80
0,85
0,36
GOMS
0,49
1,14
2,04
2,33
0,87
0,43
CogTool
0,41
1,07
2,43
2,61
0,93
0,38
Tabelle 2: Vergleich der Verhältnisse der realen Zeiten und geschätzten Zeiten.
Beide Methoden beschreiben also die Verhältnisse der realen Zeiten recht genau. Wenn es also nur um die Entscheidung zwischen alternativen Entwürfen geht, liefert auch eine Analyse mit KLMGOMS schon gute Ergebnisse.
5
Zusammenfassung
Kognitive Modellierung ist eine kostengünstige Methode, um die Effizienz einer Benutzerschnittstelle quantitativ zu erfassen. Einer der Hauptvorteile der kognitiven Modellierung ist es, dass als Grundlage der Schätzung der notwendigen Bearbeitungszeiten schon eine genauere Vorstellung oder eine grob ausgearbeitete Skizze der Benutzerschnittstelle ausreicht. Damit kann diese Methode schon in der frühen Design-Phase eines Projekts wertvolle Erkenntnisse zur Effizienz eines Entwurfs liefern. Wir haben in dieser Arbeit zwei etablierte Methoden der kognitiven Modellierung bzgl. ihrer Eignung im Bereich betriebswirtschaftlicher Anwendungen untersucht. Hierfür wurde für eine Menge betriebswirtschaftlicher Standardabläufe jeweils eine Modellierung mit KLMGOMS und CogTool durchgeführt. Ein Vergleich der aus der Modellierung geschätzten Bearbeitungszeiten mit real gemessenen Bearbeitungszeiten von Experten zeigte, dass die über CogTool ermittelten Schätzungen erwartungsgemäß näher an den real beobachteten Zeiten liegen, als die über eine KLMGOMS-Analyse ermittelten Zeitschätzungen. Falls also eine genaue Schätzung der realen Bearbeitungszeiten notwendig ist, sollte CogTool für die Modellierung verwendet werden. Allerdings ist hier anzumerken, dass unsere Daten auf einer sehr kleinen Stichprobe beruhen. Hier sollten weitere Studien mit größeren Personenzahlen und weiteren Anwendungsszenarien folgen. Andererseits ist eine Modellierung mit KLMGOMS weniger aufwändig und im DesignProzess schon früh einsetzbar, ohne dass eine detailierte Skizze der Benutzerschnittstelle erforderlich ist. Man ist in dieser Phase vorwiegend an der Frage interessiert, welche einer Menge von Design-Alternativen effizienter ist und wie groß die zu erwartenden Unterschiede sind. Genaue Zeitschätzungen sind daher hier in der Regel nicht notwendig. Wie ein Vergleich der relativen Bearbeitungszeiten zeigt, geben auch die aus einer GOMSAnalyse ermittelten Schätzungen schon ein recht gutes Bild der relativen Zeitunterschiede. Falls also in einer sehr frühen Design-Phase noch keine genaueren Skizzen der Benutzer-
360
Schrepp & Held
schnittsteile vorliegen, können auch schon mit einer KLMGOMS-Analyse sehr fundierte Design-Entscheidungen getroffen werden. Literaturverzeichnis Anderson, J.R. & Lebiere, C. (1998). The Atomic Components of Thought. Mahwah: Lawrence Erlbaum Associates. Card, S., Moran T.P. & Newel A. (1983). The Psychology of Human Computer Interaction. Mahwah: Lawrence Erlbaum Associates. Holleis, P., Otto, F., Hußmann, Η. & Schmidt, Α. (2007). Keystroke-Level Model for Advanced Mobile Phone Interaction. In Proceedings of ACM CHI 2007 Conference on Human Factors in Computing Systems. New York: ACM Press. S. 1505-1514. John, B.E. & Kieras, D.E. (1996): The GOMS family of user interface analysis techniques: Comparison and Contrast. ACM Transactions on Computer-Human Interaction 3(4), S. 320-351. John, В., Prevas, K., Salvucci, D. & Koedinger, K. (2004) Predictive Human Performance Modeling Made Easy. In Dykstra-Erickson, E. & Tscheligi, M. (Hrsg.), Proceedings of CHI Conference on Human Factors in Computing Systems. New York: ACM Press. S. 455 - 462. John, В. E. & Salvucci, D. D. (2005) Multi-Purpose Prototypes for Assessing User Interfaces in Pervasive Computing Systems. IEEE Pervasive Computing 4(4), S. 27-34. Kieras, D. (2001). Using the Keystroke-Level Model to Estimate Execution Times, Online handout, ftp://www.eecs.umich.edu/people/kieras/GOMS/KLM.pdf. Olson, J.R. & Olson, G.M. (1990): The growth of cognitive modelling in human-computer interactions since GOMS. Human-Computer Interaction, 5, S. 221-265. Schrepp, M. & Fischer, P. (2007). GOMS models to evaluate the efficiency of keyboard navigation in web units. Eminds - International Journal of Human Computer Interaction 1(2), S. 33-46. Schrepp, M. & Hardt, A. (2007). GOMS models to evaluate the quality of an user interface for disabled users. In Eizmendi, G., Azkoita, J.M. & Craddock, G.M. (Hrsg.), Challenges for Assistive Technology. Amsterdam: IOS Press. S. 646-651. Teo, L. & John, B.E. (2006). Comparisons of Keystroke-Level Model Predictions to Observed Data. In Proceedings of ACM CHI 2007 Conference on Human Factors in Computing Systems. New York: ACM Press. S. 1424- 1426. Wandmacher, J. (2002). GOMS-Analysen mit GOMSED. Online verfügbar unter: http://wwwl.tudarmstadt.de/fb/fb3/psy/kogpsy/indexgoms.htm. Wandmacher, J. (1997). Ein Werkzeug für GOMS-Analysen zur Simulation und Bewertung von Prototypen beim Entwurf. In Szwillus G. (Hrsg.), Prototypen für Benutzungsschnittstellen. Paderborn: Universität Paderborn. Erschienen als Notizen zu Interaktiven Systemen 19, S. 35-42.
Kontaktinformationen: Dr. Martin Schrepp: [email protected] Dr. Theo Held: [email protected]
J. Ziegler & Α. Schmidt (Hrsg.): Mensch & Computer 2010 München: Oldenbourg Verlag, 2010, S. 361-370
Analyse von Handlungsprotokollen zur Modellbildung Gregor Buchholz, Peter Forbrig Universität Rostock Zusammenfassung Dieser Beitrag beschreibt die Konstruktion von hierarchischen Tätigkeitsmodellen mittels der Analyse von protokollierten Handlungssträngen. Ziel ist es, die Erstellung von Ist-Modellen zur weiteren Verwendung im Softwareentwicklungsprozess durch werkzeuggestützte teilautomatisierte Verfahren zu erleichtern.
1
Einleitung
Modelle zur Beschreibung der Nutzertätigkeiten, die ein zu entwickelndes System unterstützen soll, finden im Softwarelebenszyklus vielfältige Verwendung: Neben der Unterstützung der Kommunikation zwischen verschiedenen Stakeholdern kommen Aufgabenmodelle unterschiedlicher Ausprägung in der Softwareentwicklung u.a. zur Abschätzung und Reduzierung der zur Ausführung von Aufgaben benötigten Zeit, zur Simulation des Systemverhaltens sowie zum teilautomatischen und patterngestützten Generieren von Oberflächen zum Einsatz (Limburg et al. 2004) und (Reichart et al. 2008). Die Softwareentwicklung kann vom Einsatz von Modellen also in mehrerer Hinsicht profitieren, doch stellen das Erstellen und iterative Weiterentwickeln der Modelle eine nicht zu unterschätzende Herausforderung dar - dies trifft in gewissem Maße auf informale, textuelle Modelle zu und insbesondere auf formale oder semi-formale Modelle, die zur Erreichung der zuvor genannten Vorteile notwendig sind. (Paris et al. 2004) Während es meist noch nicht sehr schwierig ist, Ziele auf einem hohen Level zu beschreiben, wird es doch mit weiterer Verfeinerung zunehmend schwieriger (Paris et al. 2004). Dieser Beitrag schlägt ein Konzept vor, das die Konstruktion von hierarchischen Modellen unterstützt, indem aufgezeichnete Tätigkeitssequenzen analysiert und aus ihnen Vorschläge für die Hierarchie und die temporalen Abhängigkeiten eines Modells generiert werden. Vielen Methoden zur Gewinnung von Anforderungen (Fragebögen, Umfragen, strukturierten Interviews) haftet der Nachteil an, dass unbewusstes Wissen über die Tätigkeiten nur schwer gesammelt werden kann. Solches unbewusstes Wissen entsteht durch hohe Automatisierung
362
Buchholz & Forbrig
(ehemals explizites Wissen „versickert" ins Unbewusste) oder durch implizites Lernen, bei dem eine Vorstellung von der Gesamtheit der Aufgabe nur durch praktische Beispiele und persönliche Erfahrimg gewonnen wurde, nicht aber durch eine analytische Betrachtimg (Neuweg 2004). Dieses Problem wird durch die Einbeziehung von Protokollen keinesfalls gelöst, doch zumindest reduziert: Durch die Betrachtung zahlreicher tatsächlich durchgeführter Handlungsstränge können auch Variationen, Abweichungen, Alternativen erfasst werden, die in einem Interview nicht oder nur unvollständig ans Tageslicht gekommen wären, wodurch wiederum ein abstrakteres Wissen über die ausgeführten Tätigkeiten gewonnen werden kann. Hilfe bei der Modellierung unterer Ebenen mit hohem Detail- und geringem Abstraktionsgrad kann mittels protokollierter Handlungsstränge der zu unterstützenden Tätigkeiten angeboten werden. Dabei kommen verschiedene Algorithmen zum Einsatz, die aus diesen Ereignissequenzen unter Angabe von Parametern für die Algorithmen Strukturen ableiten, die dann als Bestandteile des Tätigkeitsmodells vorgeschlagen werden. Das Modell wird also zum Teil top-down durch die schrittweise Verfeinerimg der Nutzeraufgaben durch Expertenwissen aus der Domäne erstellt und bottom-up mit synthetisierten Baumfragmenten aus der Analyse der Protokolle ergänzt. Quellen für solche Protokolle können Log-Dateien von Web-Servern oder manuell erstellte Aufzeichnungen sein; ist eine bereits bestehende Software oder ein Prototyp des entwickelten Systems verfügbar, können auch die Interaktionen mit diesem System mittels eines Event-Recorders aufgezeichnet und für die Synthese verwendet werden. Abbildung 1 zeigt auf der linken Seite ein Modell, das die Tätigkeiten beim Benutzen eines einfachen Kontoautomatens beschreibt. Rechts sind drei kurze Protokolle zu sehen, wie sie als Eingabe des hier vorgestellten Konzeptes verwendet werden; die Abbildung beinhaltet mit den beiden rechten Spalten schon Informationen, die während des hier vorgestellten Modellierungsverfahrens erarbeitet werden. Die Protokolle sind hier in einer komprimierten Form wiedergegeben, die nur die Startzeitpunkte der Aktionen beinhaltet. An späterer Stelle wird darauf eingegangen, wie die Start- und Endzeiten der Tätigkeiten in die Synthetisierung einfließen. Q
KV.taskmodel
D
;
0
m
A d d a new nc π primitive actior :; Primitive Action
1
m
Karte einschieben
^
? PIN eingeben
_
^
^
^
•
я
Konto nutzen
irr
Timestamp
KVSynth
Konto nutzen
start
03:05:30
true
false
ί PIN eingeben
start
03:05:32
true
false
1 PIN eingeben
start
03:05:34
true
false
- Kontoauszug drucken
start
03:05:36
true
true
j Karte entnehmen
start
03:05:38
true
false
1 Karte einschieben
start
03:05:51
true
1 PIN eingeben
start
03:05:52
true
! Geld abheben
start
03:05:54
true
) Karte entnehmen
start
03:05:56
true
j Karte einschieben
start
03:06:09
true
Ι PIN eingeben
start
03:06:10
true
ι Kontoauszug drucken
start
03:06:13
true
true
j Karte entnehmen
start
03:06:14
tme
false
Γ
Karte entnehmen
^ ^ J j Q ^ ^ ^ iv :
Delete a i o n primitive actic
Event
Karte einschieben
Konto verwalten
^
•
Edit Annotations | §