412 74 6MB
German Pages XIV, 213 [222] Year 2020
ars digitalis
Samuel Breidenbach Peter Klimczak Christer Petersen Hrsg.
Soziale Medien Interdisziplinäre Zugänge zur Onlinekommunikation
ars digitalis Reihe herausgegeben von Peter Klimczak FG Angewandte Medienwissenschaften Brandenburgische Technische Universität Cottbus, Deutschland
Die Reihe ars digitalis wird herausgegeben von PD Dr. Dr. Peter Klimczak. Sollen technische und kulturelle Dispositionen des Digitalen nicht aus dem Blickfeld der sie Erforschenden, Entwickelnden und Nutzenden geraten, verlangt dies einen Dialog zwischen den IT- und den Kulturwissenschaften. Ausgewählte Themen werden daher jeweils gleichberechtigt aus beiden Blickrichtungen diskutiert. Dieser interdisziplinäre Austausch soll einerseits die Kulturwissenschaften für technische Grundlagen, andererseits Entwickler derselben für kulturwissenschaftliche Perspektiven auf ihre Arbeit sensibilisieren und den Fokus auf gemeinsame Problemfelder schärfen sowie eine gemeinsame ‚Sprache‘ jenseits der Fachbereichsgrenzen fördern. Notwendig ist eine solche interdisziplinäre Auseinandersetzung nicht zuletzt deshalb, um den vielfältigen technischen Herausforderungen an Mensch, Kultur und Gesellschaft ebenso informiert wie reflektiert zu begegnen. In dieser Reihe finden nicht nur Akteure aus Wissenschaft, Forschung und Studierende aktuelle Themen der Digitalisierung fundiert aufbereitet und begutachtet, auch interessierte Personen aus der Praxis werden durch die interdisziplinäre Herangehensweise ange sprochen. Peter Klimczak, Dr. phil. et Dr. rer. nat. habil., ist Privatdozent an der Brandenburgischen Technischen Universität.
Weitere Bände in dieser Reihe http://www.springer.com/series/16465
Peter Klimczak • Christer Petersen Samuel Breidenbach Hrsg.
Soziale Medien Interdisziplinäre Zugänge zur Onlinekommunikation
Hrsg. Peter Klimczak FB Angewandte Medienwissenschaften Brandenburgische Technische Universität Cottbus, Deutschland
Christer Petersen FB Angewandte Medienwissenschaften Brandenburgische Technische Universität Cottbus, Deutschland
Samuel Breidenbach FB Angewandte Medienwissenschaften Brandenburgische Technische Universität Cottbus, Deutschland
ISSN 2662-5970 ISSN 2662-5989 (electronic) ars digitalis ISBN 978-3-658-30701-1 ISBN 978-3-658-30702-8 (eBook) https://doi.org/10.1007/978-3-658-30702-8
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Vieweg © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer Vieweg ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Vorwort
Noch vor wenigen Jahren bildeten die Massenmedien Fernsehen, Presse und Rundfunk den primären Zugang der Gesellschaft zu sich selbst und ihrer Umwelt. Heute sind unsere gesellschaftlichen Debatten in hohem Maße geprägt durch den Einfluss von Onlinekommunikation, in Form gebracht von den Plattformen der großen Social-Media-Anbieter.1 Die Formen und Kommunikationsstrukturen mögen sich zwar ändern, konstant bleibt jedoch, dass die neuen wie die alten Massenmedien niemals nur einfach Information vermitteln, sondern stets auch Realitäten konstruieren, innerhalb der Gesellschaft als kulturelles Gedächtnis fungieren und zur Reflexion der Gesellschaft über Gesellschaft befähigen. Dabei handelt es sich nicht zuletzt auch um eine wissenschaftliche Reflexion, und zwar in zweierlei Hinsicht: Wissenschaft, insbesondere die Sozial-, Medien- und Kulturwissenschaften, reflektieren über den Einfluss neuer Kommunikationstechniken auf Gesellschaft, Medien und Kultur. Zugleich müssen die Wissenschaften vor dem Hintergrund der neuen Struktur und eines bis dahin nicht gekannten Umfangs an Daten über ihre eigenen Methoden der Analyse und Modellbildung reflektieren. Hier spielen die Informations- und Computerwissenschaften die zentrale Rolle, stellen sie doch die automatisierten Verfahren zur Verfügung, welche es überhaupt erst ermöglichen, umfangreiche und komplexe Datenstrukturen der Analyse zugänglich zu machen. Genau danach fragen die Autorinnen und Autoren dieses Bandes: An Fallbeispielen sozialer Medien werden die Methoden geschult, mittels derer man sich in der Verbindung von Geistes- und Sozialwissenschaften mit den Informations- und Computerwissenschaften der Kommunikation und den Kommunikaten einer Onlinekultur – hier vor allem politischen Diskursen auf Twitter und Facebook – analytisch nähern kann. BerlinSamuel Breidenbach April 2020 Peter Klimczak Christer Petersen
Ob wie hier das tradierte generische Maskulinum, das generische Femininum oder andere Formen wie etwa der Gendergap gewählt werden, obliegt den Autorinnen und Autoren. Wir greifen hier editorisch nicht ein, sondern plädieren für Vielfalt, auch dann, wenn dies in einigen der Artikel zu hybriden Verwendungen der Formen führt.
1
V
Inhaltsverzeichnis
1 Wann kommt die Wut?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Christopher Schmitz, Sören Messinger-Zimmer, Wolf J. Schünemann und Stefan Steiger 2 Soziale Medien zwischen Disruption und Synthese. . . . . . . . . . . . . . . . . . . . . . . 25 Dan Verständig 3 Alles Bots?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Florian Muhle 4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How to Catch a Tweeting Bird. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Samuel Breidenbach und Peter Klimczak 5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Cornelia Fedtke und Gregor Wiedemann 6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Gertraud Koch und Lina Franken 7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Adrien Barbaresi und Jens Pohlmann 8 Politisches Gezwitscher in Text und Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Stefan Ziehe und Caroline Sporleder 9 Followings, Retweets, Favs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Samuel Breidenbach, Peter Klimczak und Nicolas Schilling Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
VII
AutorInnen und ReviewerInnen
Über die AutorInnen Adrien Barbaresi Dr., verfasste den Beitrag „Mapping the German Tech Blog Sphere and its Influence on Digital Policy“. Er ist Bereichskoordinator am Zentrum für digitale Lexikographie der deutschen Sprache an der Berlin-Brandenburgischen Akademie der Wissenschaften und arbeitet in den Bereichen Korpuslinguistik, Computerlinguistik und digitale Geisteswissenschaften. Samuel Breidenbach M.A., verfasste die Beiträge „Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How to Catch a Tweeting Bird“ und „Followings, Retweets, Favs. Netzwerke der inhaltlichen Rezeption und Affirmation auf Twitter“. Er ist Projektmitarbeiter am Fachgebiet Angewandte Medienwissenschaften an der Brandenburgischen Technischen Universität und arbeitet in den Bereichen Mediensoziologie und digitale Medienwissenschaft. Cornelia Fedtke B.A., verfasste den Beitrag „Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung“. Sie ist M.A.-Studentin an der Universität Hamburg und verfasst ihre Abschlussarbeit in den Bereichen computergestützte Diskursanalyse und Social Media. Lina Franken Dr., verfasste den Beitrag „Filtern als Prinzip der qualitativen Diskursanalyse“. Sie ist wissenschaftliche Mitarbeiterin am Institut für Volkskunde/Kulturanthropologie der Universität Hamburg und arbeitet in den Bereichen Digitale Methodenentwicklung, Digitalisierung und Bildungskulturen. Gertraud Koch Prof. Dr., verfasste den Beitrag „Filtern als Prinzip der qualitativen Diskursanalyse“. Sie ist Universitätsprofessorin am Institut für Volkskunde/Kulturanthropologie der Universität Hamburg und arbeitet in den Bereichen Digitalisierung, Digital Heritage und urbane Diversität.
IX
X
AutorInnen und ReviewerInnen
Peter Klimczak PD Dr. Dr., verfasste die Beiträge „Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How to Catch a Tweeting Bird“ und „Followings, Retweets, Favs. Netzwerke der inhaltlichen Rezeption und Affirmation auf Twitter“. Er ist stellvertretender Leiter des Fachgebiets Angewandte Medienwissenschaften an der Brandenburgischen Technischen Universität und arbeitet in den Bereichen Digitale Medien, Kognitive Systeme und Medien- und Kulturtheorie. Florian Muhle PD Dr., verfasste den Beitrag „Alles bots? Ein Vorschlag zur Typisierung (teil-)automatisierter politischer Accounts auf Twitter“. Er ist Akademischer Oberrat an der Universität Bielefeld und arbeitet in den Bereichen Online-Forschung, Soziale Robotik und Sozialtheorie. Sören Messinger-Zimmer M.A., verfasste den Beitrag „Wann kommt die Wut? Eine zwischen Facebook-Kommentarbereichen der AfD und Fokusgruppendiskussionen qualitativ vergleichende Studie von Invektivität in politischer Kommunikation im Kontext der Bundestagswahl 2017“. Er ist wissenschaftlicher Mitarbeiter am Göttinger Institut für Demokratieforschung und arbeitet in den Bereichen Demokratiegefährdung im Internet und Protestforschung. Jens Pohlmann Ph.D. verfasste den Beitrag „Mapping the German Tech Blog Sphere and its Influence on Digital Policy“. Er ist Gerda Henkel Postdoctoral Fellow in Digital History am German Historical Institute in Washington, D.C. und arbeitet in den Bereichen Digital Humanities, Transatlantic Internet Policy und Theories of the Public Sphere. Caroline Sporleder Prof. Ph.D., verfasste den Beitrag „Politisches Gezwitscher in Text und Bild Multimodale Sentimentanalyse von Microblogs“. Sie ist Professorin für Digital Humanities am Institut für Informatik der Georg-August-Universität Göttingen und arbeitet in den Bereichen Natural Language Processing und Text Mining mit besonderem Fokus auf Anwendungen aus den Sozial- und Literaturwissenschaften. Christopher Schmitz M.A., verfasste den Beitrag „Wann kommt die Wut? Eine zwischen Facebook-Kommentarbereichen der AfD und Fokusgruppendiskussionen qualitativ vergleichende Studie von Invektivität in politischer Kommunikation im Kontext der Bundestagswahl 2017“. Er ist wissenschaftlicher Mitarbeiter am Göttinger Institut für Demokratieforschung und arbeitet in den Bereichen Demokratiegefährdung im Internet, politische Kulturforschung und Protestforschung. Nicolas Schilling B.A., verfasst den Beitrag „Followings, Retweets, Favs. Netzwerke der inhaltlichen Rezeption und Affirmation auf Twitter“. Er ist Student an der Technischen Universität Dresden und arbeitet in den Bereichen Deep Learning und Software Engineering.
AutorInnen und ReviewerInnen
XI
Stefan Steiger M.A., verfasste den Beitrag „Wann kommt die Wut? Eine zwischen Facebook-Kommentarbereichen der AfD und Fokusgruppendiskussionen qualitativ vergleichende Studie von Invektivität in politischer Kommunikation im Kontext der Bundestagswahl 2017“. Er ist wissenschaftlicher Mitarbeiter an der Universität Hildesheim und arbeitet in den Bereichen Cybersicherheitspolitik und politische Online-Kommunikation. Wolf J. Schünemann Prof. Dr., verfasste den Beitrag „Wann kommt die Wut? Eine zwischen Facebook-Kommentarbereichen der AfD und Fokusgruppendiskussionen qualitativ vergleichende Studie von Invektivität in politischer Kommunikation im Kontext der Bundestagswahl 2017“. Er ist Juniorprofessor für Politikwissenschaft mit dem Schwerpunkt Politik und Internet an der Universität Hildesheim und arbeitet in den Bereichen Governance der Digitalisierung, politische Online-Kommunikation und europäische Integration. Dan Verständig Prof. Dr., verfasste den Beitrag „Soziale Medien zwischen Disruption und Synthese“. Er ist Juniorprofessor für Erziehungswissenschaft mit dem Schwerpunkt Bildung in der digitalen Welt an der Otto-von-Guericke-Universität Magdeburg und arbeitet in den Bereichen Bildungstheorie, Medienbildung und Software Studies. Gregor Wiedemann Dr.-Ing., verfasste den Beitrag „Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung“. Er ist Senior Researcher Computational Social Science am Leibniz-Institut für Medienforschung / Hans-Bredow-Institut (HBI) und arbeitet in den Bereichen Natural Language Processing, Computational Social Science und Digital Humanities. Stefan Ziehe M.Sc., verfasste den Beitrag „Politisches Gezwitscher in Text und Bild. Multimodale Sentimentanalyse von Microblogs“. Er ist Doktorand an der Georg-August- Universität Göttingen und arbeitet in den Bereichen Deep Learning und NLP.
Über die ReviewerInnen Jan-Oliver Decker Prof. Dr., ist Inhaber der Professur für Neuere Deutsche Literaturwissenschaft und Mediensemiotik an der Philosophischen Fakultät der Universität Passau und arbeitet in den Bereichen transmediale Narratologie und Semiotik, Literatur vom 18.–21. Jh. sowie Film, Fernsehen und neue Medien als auch Medienbildung im digitalen Zeitalter. Philipp Dreesen Dr., ist Leiter von Digital Linguistics/Diskursanalyse am Departement Angewandte Linguistik der Zürcher Hochschule für Angewandte Wissenschaften und arbeitet in den Bereichen Diskursanalyse, Korpuslinguistik und Politolinguistik.
XII
AutorInnen und ReviewerInnen
Bernd Freisleben Prof. Dr., ist Professor für Praktische Informatik im Fachbereich Mathematik und Informatik der Philipps-Universität Marburg und arbeitet in den Bereichen Verteilte Systeme, Kommunikationsnetze und Multimedia Computing. Kai Fischbach Prof. Dr., ist Inhaber des Lehrstuhls für Wirtschaftsinformatik, insbesondere Soziale Netzwerke an der Otto-Friedrich-Universität Bamberg und forscht in den Bereichen Computational Social Science, Netzwerkforschung und Crisis Informatics. Kalman Graffi Dr.-Ing., ist Principal Scientist bei Honda Research Institute Europe und arbeitet in den Bereichen Privacy und Sicherheit. Tobias Hoßfeld Prof. Dr., ist Inhaber des Lehrstuhls für Kommunikationsnetze an der Julius-Maximilians-Universität Würzburg und arbeitet in den Bereichen Kommunikationsnetze, 5G Technologie, Quality of Experience und Leistungsbewertung. Stefan Iske Prof. Dr., ist Inhaber des Lehrstuhls Pädagogik und Medienbildung an der Otto-von-Guericke-Universität in Magdeburg und arbeitet in den Bereichen Medienbildung, digitale Medienkulturen und digitale Ungleichheit. Isabel Kusche PD Dr. phil., ist Projektleiterin für Technologiemonitoring am Karlsruher Institut für Technologie und arbeitet in den Bereichen Politische Soziologie, digitale Transformation der Gesellschaft und Soziologische Theorie. Florian Mundhenke PD Dr., ist W3-Vertretungsprofessor für Medienwissenschaft und Medienkultur an der Universität Leipzig und arbeitet in den Bereichen Theorie, Ästhetik und Pragmatik der Medien mit dem Fokus auf Transfer- und Hybridprozesse, Interactive Digital Documentary und Virtual Reality. Jan Müggenburg Prof. Dr., ist Juniorprofessor für Medien- und Wissenschaftsgeschichte am Institut für Kultur und Ästhetik Digitaler Medien der Leuphana Universität Lüneburg und arbeitet in den Bereichen Computergeschichte, Geschichte der Kybernetik und Bionik sowie Dis/Ability Media Studies. Elizabeth Prommer Prof. Dr., ist Professorin für Kommunikations- und Medienwissenschaft sowie Direktorin des Instituts für Medienforschung der Universität Rostock und forscht zum Zusammenspiel von Medien, Medienrezeption und Gesellschaft. Der Schwerpunkt liegt auf audiovisuellen Medien (Kino, Fernsehen, nonlineare/interaktive und alle zukünftigen Formen der Bewegtbild-Medien). Andreas Sudmann PD Dr., ist Medienwissenschaftler und aktuell Leiter des DFG- Projekts „Medien und Infrastrukturen der Künstlichen Intelligenz“ an der Ruhr-Universität
AutorInnen und ReviewerInnen
XIII
Bochum. Er arbeitet in den Bereichen Visuelle und digitale Medien, Künstliche Intelligenz, Medienästhetik, -theorie und -geschichte Jens Schröter Prof. Dr., ist Inhaber des Lehrstuhls für Medienkulturwissenschaft in der Abteilung für Medienwissenschaft an der Rheinischen Friedrich-Wilhelms-Universität Bonn und arbeitet in den Bereichen Theorie und Geschichte digitaler Medien, Kritische Medientheorie und Medienästhetik. Monika Schwarz-Friesel Prof. Dr. Dr. h.c., ist Inhaberin des Lehrstuhls für allgemeine Linguistik und Leiterin des Studiengangs Kognitive Medienlinguistik an der Technischen Universität Berlin. Sie arbeitet in den Bereichen Hasssprache und verbale Gewalt, Antisemitismus im 21. Jahrhundert sowie Sprache und Emotion im digitalen Zeitalter. Sven Stollfuß Prof. Dr., ist Juniorprofessor für Digitale Medienkultur an der Universität Leipzig und arbeitet in den Bereichen Social Media und Social TV, Fernsehen und digitale Medien sowie partizipative Medien- und Produktionskulturen. Carsten Totz Prof. Dr., ist Professor für digitale Kommunikation an der Hochschule für Technik und Wirtschaft Berlin und arbeitet in den Bereichen Customer Experience, digitale Interfaces und Interaktionen sowie digitaler Markenführung. Claudia Wagner Prof. Dr., ist Juniorprofessorin an der Universität Koblenz-Landau und wissenschaftliche Leiterin des Bereichs Computational Social Science beim GESIS – Leibniz-Institut für Sozialwissenschaften. Sie forscht zu Internet und Gesellschaft, Computational Social Science und Data Science. Günther Wirsching Prof. Dr., ist Professor am Fachgebiet Mathematik der Katholischen Universität Eichstätt-Ingolstadt und arbeitet in den Bereichen Logik, Geometrie und industrielle Anwendungen. Karsten Weber Prof. Dr., ist Ko-Leiter des Instituts für Sozialforschung und Technikfolgenabschätzung und Direktor des Regensburg Center of Health Sciences and Technology der Ostbayerische Technische Hochschule Regensburg sowie Honorarprofessor für Kultur und Technik an der Brandenburgischen Technischen Universität Cottbus-Senftenberg. Er arbeitet über die gesellschaftlichen Auswirkungen von Informations- und Kommunikationstechnologie insbesondere in den Bereichen Gesundheit und Mobilität. Katrin Weller Dr., ist Leiterin des Teams Social Analytics and Services im Bereich Computational Social Science bei GESIS – Leibniz-Institut für Sozialwissenschaften und forscht in den Bereichen Computational Social Science, Internet Research und Informa tionswissenschaft.
XIV
AutorInnen und ReviewerInnen
Thomas Zoglauer Prof. Dr., ist Professor am Institut für Philosophie und Sozialwissenschaften der Brandenburgischen Technischen Universität Cottbus-Senftenberg und arbeitet in den Bereichen Wissenschaftstheorie, Technikphilosophie und Ethik.
Wann kommt die Wut? Eine zwischen Facebook-Kommentarbereichen der AfD und Fokusgruppendiskussionen qualitativ vergleichende Studie von Invektivität in politischer Kommunikation im Kontext der Bundestagswahl 2017 Christopher Schmitz, Sören Messinger-Zimmer, Wolf J. Schünemann und Stefan Steiger
Inhaltsverzeichnis 1.1 1.2 1.3 1.4
Einleitung und Fragestellung Zwischen Hoffnung und Ernüchterung: Demokratische Potenziale des Internets Leitende Begriffe und Annahmen: Alokalität, Deliberation und Invektivität Zur Datenerhebung 1.4.1 Facebook-Kommentarverläufe 1.4.2 Fokusgruppen 1.4.3 Vergleich der Datentypen 1.4.4 Zum Sample von Diskussionsinputs 1.5 Auswertungsverfahren 1.6 Ergebnisdarstellung 1.7 Diskussion und Schluss A. Anhang A.1 Ankerbeispiele expliziter Invektiven A.2 Ankerbeispiele impliziter Invektiven A.3 Ankerbeispiele Bezugsproblem ‚multikulturelle Gesellschaft‘ A.4 Ankerbeispiele sprachliche und formale Besonderheiten Literatur
2 4 5 7 7 8 8 10 10 11 15 17 17 18 19 20 20
C. Schmitz (*) · S. Messinger-Zimmer Institut für Demokratieforschung, Universität Göttingen, Göttingen, Deutschland E-Mail: [email protected]; soeren.messsinger@demokratie- goettingen.de W. J. Schünemann · S. Steiger Institut für Sozialwissenschaften, Abt. Politikwissenschaft, Universität Hildesheim, Hildesheim, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_1
1
1
2
C. Schmitz et al. Zusammenfassung
Politische Kommunikation im Internet steht im Verdacht, zu einer Verrohung der politischen Diskurse insgesamt beizutragen. In einem Vergleich von Facebook-Kommen tarverläufen auf der Seite der AfD mit Chat- und studiobasierten Fokusgruppen diskussionen zu denselben Postings aus dem Themengebiet Flucht, Migration und Asyl zeichnet dieser Beitrag die unterschiedliche Nutzung von Invektiven on- wie offline nach. Dabei zeigt sich in der Unterscheidung von impliziten und expliziten Invektiven, dass die Online-Kommunikation zwar mehr zu expliziten Invektiven und Invektiven gegen GesprächspartnerInnen neigt, die zugrunde liegenden impliziten Invektiven aber in allen Medien die Kommunikation prägen und dabei auf Deutungsmuster verweisen, die Anpassungsschwierigkeiten mit einer multikulturellen Gesellschaft insgesamt problematisieren. Schlüsselwörter
Facebook · Soziale Medien · Bundestagswahl · Invektivität · Deutungsmuster · Alokalität
1.1
Einleitung und Fragestellung
Für den deutschsprachigen Raum markiert der Zeitraum im Vorfeld der Bundestagswahl 2017 eine eindrucksvolle Kippphase hinsichtlich der allgemein-öffentlichen Debatte über die Chancen und Risiken politischer Online-Kommunikation: Schlagwörter dieser Periode wie ‚Hate Speech‘, ‚Fake News‘ und ‚Social Bots‘ bringen die Sorge um den demokratischen Diskurs in sozialen Netzwerken zum Ausdruck. Die Debatte wirkte als Treiber für umstrittene regulatorische Maßnahmen wie insbesondere das Netzwerkdurchsetzungsgesetz.1 Dabei setzte sie zweierlei voraus, nämlich a) dass eine Bedrohung des demokratischen Meinungsaustauschs in politischen Kommunikationsprozessen erkennbar sei und b) dass soziale Medien eine wesentliche Wegbereiterrolle in dieser Entwicklung spielten. In der Folge sind diese Wahrnehmungsmuster u. a. in der deutschen Öffentlichkeit weiterhin deutlich geworden, so etwa im Zusammenhang mit dem politischen Mord an dem ehemaligen Kasseler Regierungspräsidenten Walter Lübcke im Sommer 2019.2 Allerdings sind diese grundlegenden Annahmen, einschließlich der unterstellten Wechselwirkungen und Zusammenhänge zwischen den verschiedenen Diskursarenen (online Es verpflichtet Betreiber großer öffentlicher Netzwerke dazu, offensichtlich rechtswidrige Inhalte zu entfernen und zweifelhafte Inhalte nach einem geordneten Verfahren zu prüfen. 2 So warfen führende Mitglieder der CDU wie die Parteivorsitzende Kramp-Karrenbauer der AfD vor, über hetzerische Beiträge im Netz zu einem Klima beigetragen zu haben, das die Ausübung von Gewaltakten begünstige (vgl. Wehner 2019). 1
1 Wann kommt die Wut?
3
und offline), bislang nur unzureichend erforscht und – mit Blick auf Begriffe wie ‚Diskursqualität‘ und ‚Hate Speech‘ – normativ vorgeprägt. In diesem Beitrag beschreiben wir eine Studie aus einem breiter angelegten Forschungsvorhaben,3 das an diesem Stimmungswandel ansetzt. Im Mittelpunkt steht der Vergleich von Mustern und Spezifika sprachlicher Entgrenzungsphänomene in sozialen Netzwerken und Fokusgruppen on- wie offline, die analytisch mithilfe des Invektivitätsbegriffs konzeptualisiert werden. Hierfür wird die Deutungsmusteranalyse auf unterschiedliche Datentypen, die aus differenten Kommunikationskontexten gewonnen wurden, angewandt. Die Datenerhebungen erfolgten im Kontext der Bundestagswahl 2017 zwischen Januar und September 2017.4 Anhand eines fokussierten Vergleichs untersuchen wir die Reaktionen auf ausgewählte Facebook-Postings und sich daraus entwickelnde Kommunikationsdynamiken im Rahmen politischer Wahlkampfkommunikation im Hinblick auf Gemeinsamkeiten und Unterschiede zwischen der ‚natürlichen‘ Kommunikation in sozialen Medien (hier Facebook) und unterschiedlichen Arten beobachteter Gruppendiskussionen (moderierten Online- Chats und Offline-Gruppendiskussionen). Insofern stellen sich zur Überprüfung der skizzierten Zusammenhänge vornehmlich drei Fragen. Erstens: Inwiefern unterscheiden sich diese Diskurse je nach Kommunikationsumgebung? Zweitens: Welchen Einfluss hat dies auf Formen sprachlicher Enthemmung? Drittens: Wie sind, ausgehend von diesen Ergebnissen, politische Kommunikationsprozesse gegebenenfalls neu zu bewerten? Die Materialauswahl stellt eine Vorselektion dar, die das Auftreten von Invektiven wahrscheinlicher macht. Zum einen beschränken wir uns für die Analyse der natürlichen Facebook-Kommunikation ausschließlich auf Kommentarverläufe auf Seiten der Alternative für Deutschland (AfD). Die Partei hat 2017 einen erfolgreichen Bundestagswahlkampf geführt und ist in der Folge zum ersten Mal ins deutsche Parlament eingezogen. Diskursanalytische Vergleiche zwischen den Kommentarbereichen der verschiedenen Parteien zur Bundestagswahl haben eine signifikant hohe Anzahl abfälliger Beiträge auf den Seiten der AfD ergeben (vgl. Schünemann und Marg 2019). Zudem haben wir die Verläufe zu besonders viel und kontrovers diskutierten Meldungen (Posts) ausgewählt, die aus dem im Bundestagswahlkampf salienten und kontrovers diskutierten Themenfeld Flucht und Migration stammen. Gleichzeitig haben weitere Vorarbeiten gezeigt, dass sich Muster sprachlicher Enthemmung jenseits parteipolitischer Kommunikationskontexte subtiler entfalten (vgl. Schenke et al. 2018). Mit einer Setzung des Schwerpunkts auf die qualitative Analyse grenzt sich der Beitrag bewusst von dem derzeit intensiv bearbeiteten Feld automatisierter Analyse von politischer Gemeint ist das Forschungsprojekt ‚Wahlkampf in (a)sozialen Netzwerken‘ (WasNBTW17, siehe www.uni-hildesheim.de/wahlkampfanalyse [letzter Zugriff: 31.01.2020]). An dieser Stelle möchten wir allen beteiligten ProjektpartnerInnen danken, allen voran Prof. Dr. Michael Gertz und Patrick Breithaupt (Universität Heidelberg) für die Erhebung und Bereitstellung des Facebook-Datensatzes und Dr. Stine Marg (Göttinger Institut für Demokratieforschung) für wesentliche Impulse bei der Auswertung und Interpretation der Fokusgruppenmaterialien. 4 In der Studie wird der Wahlkampfzeitraum auf die Periode zwischen dem 29.01.2017 (Ernennung von Martin Schulz zum Kanzlerkandidaten der SPD) und dem 24.09.2017 festgelegt. 3
4
C. Schmitz et al.
Online-Kommunikation und insbesondere auch der Detektion von Hasskommentaren und Hetze im Netz anhand linguistischer Muster in großen Datenbeständen (Natural Language Processing) ab und zeigt Einsatzmöglichkeiten von Ansätzen qualitativer Sozialforschung bei der Analyse von Online-Kommunikation (vgl. Marx 2017; Schünemann und Marg 2019). Das hier eingesetzte qualitative Untersuchungsverfahren führt die Untersuchung über die Betrachtung der sprachlich-formalen Ebene hinaus. Mithilfe einer an die Konzeption von Invektivität angelehnten Deutungsmusteranalyse geraten auch subtile Interaktionsund Konversationsmuster in den Blick. Zugleich erlaubt es diese Konzeption, Verbalisierungen von Deutungsmustern zu identifizieren, die, wenngleich sprachlich unauffällig, doch invektiv aufgeladen sind, während sie zugleich die stark normative Aufladung, die der Begriffstradition rund um Diskursqualität innewohnt, abschwächt. In der Präsentation unseres Forschungsdesigns erweitern wir diesen Vergleichsaspekt um die Dimension der Alokalität. Zudem diskutieren wir Differenzen in den Datentypen und Erhebungsverfahren, die womöglich die ermittelten Unterschiede in den Kommunikationsformaten verstärken. Im Abschn. 1.6 präsentieren wir die Ergebnisse der empirischen Analyse, bevor wir anschließend im Schlussteil (Abschn. 1.7) diese Ergebnisse diskutieren, erste Schlussfolgerungen ziehen und Pfade für die Anschlussforschung skizzieren.
1.2
wischen Hoffnung und Ernüchterung: Demokratische Z Potenziale des Internets
Die Internet-Entwicklung ist von weitreichenden Erwartungen hinsichtlich einer Egalisierung politischer Beteiligungsmöglichkeiten und in der Konsequenz einer Verwirklichungschance der deliberativen Demokratie begleitet worden. Die Rede war von einem neuen „athenischen Zeitalter der Demokratie“ (Buchstein 1996, S. 585). In Spannung zu diesen deliberativen Erwartungen tendieren Online-Foren jeglicher Art nach Auffassung vieler BeobachterInnen zu einem Diskursverhalten, das in hergebrachten Sphären (teil-)öffentlichen Austauschs zumindest als robust, wenn nicht als unhöflich und aggressiv wahrgenommen werden dürfte (vgl. Kneuer 2013; Morozov 2011; Hindman 2009; Buchstein 1996). Vor diesem Hintergrund sind die Chancen und Risiken von Online- Kommunikationsumgebungen, insbesondere Webforen und Chats, im Hinblick auf die Vorstellungen deliberativer Demokratie differenziert und kritisch diskutiert worden (vgl. Janssen und Kies 2005; Kersting 2017; Kies 2010; Kolleck 2017). Mit der zunehmenden Bedeutung sozialer Medien auch für die politische Kommunikation ist die viel diskutierte Krise der Repräsentation berührt. Jenseits klassischer medialer Gatekeeper stellen die sozialen Medien Kanäle bereit, in denen sich Wut, Hass und Hetze ungehemmter verbreiten können. Unter dem Titel The outrage industry behandeln Berry und Sobieraj (2016) diese Tendenz zur „new incivility“ in sozialen Medien. Offenbar bilden die sozialen Netzwerke und Online-Foren aufgrund ihrer strukturellen Eigenschaften besonders geeignete Kanäle, in denen sich die Wut vieler Bürger Bahn bricht (vgl. Castells 2015; Wagner 2019). Populistische Parteien machen sich genau diese Eigenschaften zu-
1 Wann kommt die Wut?
5
nutze, um die Bevölkerung gegen bestehende Institutionen und das herrschende Establishment aufzubringen, und bedienen sich dabei gezielter Provokationen (vgl. Hillje 2017. Hierbei ist hervorzuheben: Auch in Deutschland werden Veränderungen der politischen Öffentlichkeit seit einigen Jahren mit Wut und den sogenannten ‚Wutbürgern‘ assoziiert (vgl. Thimm und Bürger 2015; Vorländer 2011); Cornelia Koppetsch sprach jüngst gar von einer „Gesellschaft des Zorns“ (2019). Wut ist – dies lässt sich als leitende Annahme unserer Untersuchung festhalten – etwas Anderes als Hass. Das Gefühl der Wut lässt sich nicht nur und nicht einfach an sprachlicher Ausdrucksweise ablesen. Vielmehr eröffnet sie tiefer liegende Ausdrucksebenen, die zu rekonstruieren sind. Anders als Hass und Hetze scheinen durch sie in der politischen Kommunikation auch nicht so eindeutig die Grenzen sachlicher Diskussion überschritten. Vielmehr kann Wut ein wesentlicher Treiber politischen Handelns und politischer Kommunikation sein. Ihr Ausdruck kann vollends als legitim gelten. Indem wir den Blick also nicht auf Hass und Hetze verengen, können wir gegebenenfalls bedeutende Variationen zwischen verschiedenen Kommunikationsumgebungen untersuchen und womöglich erklären (vgl. Brown 2018). Anhaltspunkte dafür bieten die im folgenden Abschnitt dargestellten strukturellen Differenzen zwischen verschiedenen Kommunikationsumgebungen.
1.3
eitende Begriffe und Annahmen: Alokalität, Deliberation L und Invektivität
In der allgemeinen öffentlichen Debatte wird dem Faktor der (relativen) Anonymität ein wesentlicher Einfluss auf die Art und Weise der Kommunikation in sozialen Netzwerken zugeschrieben. Demgegenüber zeigt die empirische Forschung differenziertere Positionen und tendiert dazu, den Einfluss der Anonymität auf die Form der Auseinandersetzung in Online-Diskussionen infrage zu stellen, weil Hate Speech quer über verschiedene Anonymitätsgrade hinweg in ähnlicher Häufigkeit vorzufinden sei (vgl. Rost et al. 2016; Miró-Llinares et al. 2018). Insofern differenziert die Debatte bei der Frage nach kommunikativer Enthemmung (vgl. Suler 2004) nach Parametern, die diese Anonymität in verschiedenen Graden variieren. Wichtig sind für die vorliegende Studie vor allem die Faktoren der Sichtbarkeit und Alokalität – und daraus resultierend: eine Zuordenbarkeit – sowie die Spontaneität der Kommunikation. Sichtbarkeit (vgl. Hollenbaugh und Everett 2013, S. 292) zielt auf die Möglichkeit einer optischen Vergegenwärtigung im Kommunikationskontext: Diese kann sich sowohl persönlich im Gesprächszusammenhang als auch im digitalen Zusammenhang einstellen. Demgegenüber beschreibt Alokalität eine fehlende körperliche spür- und erfahrbare Präsenz. Dies stellt im Rahmen der Kommunikationssituation einen wesentlichen Faktor dar, der aus Gruppendiskussionen und Fokusgruppen in Internet-Foren und anderen, online vermittelten Kommunikationsinstanzen Ullrich und Schiek (2014, S. 461 ff.) zufolge mehr macht als eine Abwandlung der klassischen studiobasierten Fokusgruppe. Die Zuschreibungen, die als Folgen von Alokalität gedeutet werden, sind vielfältig und reichen
6
C. Schmitz et al.
von Strukturen der Ermöglichung der Enthemmung (vgl. Misoch 2006, S. 71 ff.) bis hin zur Verhinderung von gruppendynamischen Prozessen (vgl. Erdogan 2001; Graffigna und Bosio 2006). Insofern sind in Situationen der Alokalität Prozesse der Sichtbarkeit und Zuordenbarkeit anders gelagert, da Mimik und Gestik als Kontrollinstanzen der Kommunikation wegfallen und auf Strategien der Online-Textproduktion (beispielsweise Emoticons) als Ersatz zurückgegriffen wird. Im Lichte dieser Überlegungen erweist sich die Analyse der Invektivität in Online- Umgebungen als herausfordernd. In den Kommunikations- und Politikwissenschaften etablierte Konzepte, die es erlauben, Diskurse qualitativ zu bewerten, entstammen in der Regel Habermas’ Diskursethik (vgl. Habermas 1997, 2016). Demzufolge orientieren sich die meisten Ansätze einer empirischen Messung von Diskursqualität an deliberativen Kriterien nach Habermas. Ein prominentes Beispiel ist der Discourse Quality Index (DQI, vgl. Steenbergen et al. 2003; dazu kritisch Kolleck 2017). Durch die Rückbindung an die Habermas’sche Diskurskonzeption ist den Variationen des DQI die Überzeugung gemein, dass eine Auseinandersetzung, damit sie demokratisch sinnvoll sei und die Qualität der Demokratie verbessere, im Idealfall deliberativen Prämissen folgen müsse. Eine Ausrichtung an diesem Ideal birgt jedoch die Gefahr, dass weite Teile des Redens über Politik und das Politische entweder per se aus dem Blickfeld verschwinden oder sofort als deviantes Kommunikationsverhalten markiert werden, weil sie keine deliberativen Kommunikationsformen darstellen. Dies ist nicht nur aus der Perspektive empirischer Sozialforschung problematisch, weil es einige Erkenntnisbereiche verdeckt, sondern wird darüber hinaus auch auf einer normativen Ebene kritisiert (Manow 2018, S. 6 f.; Koppetsch 2019, S. 32 ff.). Insofern bestehen nicht nur begründete Zweifel daran, ob der DQI für die politische Kommunikation im Allgemeinen und die Kommunikation im Online-Wahlkampf im Besonderen überhaupt verwendet werden kann, sondern auch, inwiefern die Messung von Diskursqualität Analyseziel empirischer Politikforschung sein kann. Im Anschluss an Zimmermann (2017, S. 11) betrachten wir die vorliegenden Kommunikationsdaten als allgemeine diskursive Partizipation und unterscheiden sie dezidiert von einer Deliberation im Besonderen. Für unsere empirische Analyse von Online-Kommunikationsdaten modifizieren wir deshalb die vorhandenen Indizes der Diskursqualitätsanalyse und verzichten auf eine ganze Reihe von Indikatoren, die für das gegebene Material eine Überfrachtung an Erwartungen darstellen (siehe Abschn. 1.5). Für die Erfassung dessen, was der DQI positiv gewendet als ‚Respekt‘ bezeichnet, verwenden wir im Sinne unseres Untersuchungsinteresses das Konzept der Invektivität. Da runter verstehen wir in Anschluss an Ellerbrock et al. (2017, S. 5 ff.) die permanente und konstante Relevanz von Praktiken der Herabsetzung und Schmähung in Relation und Abhängigkeit von soziokulturellen und historischen Kontexten. Es handelt sich um ein Konzept, das einerseits beansprucht, gesellschaftliche Fundamentalphänomene beschreiben und andererseits Grenzverletzungen im Sinne der Überschreitung und Überwindung von gesellschaftlichen Normen des verletzenden Verhaltens markieren und sie damit einer Analyse zugänglich machen zu können. Mit der Invektive fügen wir unserem Analyseraster die Perspektive hinzu, dass soziale Ordnungen grundsätzlich Konflikte erzeugen und
1 Wann kommt die Wut?
7
entsprechend abbilden – und eben gerade nicht konsensual orientiert oder deliberativ verfasst sein müssen. Invektiven treten dabei keineswegs immer in einer eindeutigen Gestalt auf, sondern können vielmehr in wechselnden Konstellationen (medial, politisch, sozial und ästhetisch) manifest werden. Insofern können Invektiven „nur als performatives Geschehen, als relationales Geflecht von Zuschreibungen, Resonanzen und Anschlusskommunikationen sowie im Kontext ihrer sozialen, diskursiven und medialen Ermöglichungsbedingungen verstanden werden“ (Ellerbrock et al. 2017, S. 4). Doch auch für die rein schriftlichen Repräsentationen von Online-Kommunikation und für Interviewtranskripte gilt, dass Invektivität sich nicht auf solche Äußerungen beschränkt, die allein auf der sprachlichen Ebene als abfällig, verletzend oder ausgrenzend erkennbar wären. Vielmehr sind explizite und implizite Invektiven zu unterscheiden: Eine explizite Invektive manifestiert sich im Sprachgebrauch, sie zeigt sich in „Schlagwörter[n] und Kampfvokabeln, kalkulierte[n] provozierende[n] Verstöße[n] gegen Höflichkeitsregeln und Taktempfinden“ (Detering 2019, S. 7). Es ist aber auch möglich, Invektivität als eine implizite Form der Herabsetzung zu fassen, deren invektiver Gehalt sich nicht direkt aus der Wortwahl ergibt, sondern aus dem relationalen Geflecht, in dem eine Äußerung steht und ihre Wirkung entfaltet. Dann geht es darum, „die Positionen und Funktionen der Wörter in den jeweiligen syntaktischen, metaphorischen, argumentativen Kontexten“ zu betrachten und die „womöglich von den Metaphern verdeckten Argumente und Narrative“ (Detering 2019, S. 8) freizulegen. Während sich explizite Invektiven zumeist auf der Wortebene erkennen lassen und durch den Kontext eine Verfestigung erfahren, zeichnen sich implizite Invektiven dadurch aus, dass sie auf der explizit-wörtlichen Ebene zunächst keine Herabwürdigung darstellen, sondern erst durch den Kontext einen invektiven Charakter entfalten (vgl. Scharloth 2017).
1.4
Zur Datenerhebung
1.4.1 Facebook-Kommentarverläufe Auch die Sozialwissenschaften bedienen sich unter den Schlagworten ‚Computational Social Science‘ oder ‚Data Science‘ immer häufiger der Möglichkeiten, große Mengen natürlicher Online-Kommunikationsdaten direkt über Schnittstellen bei Online-Plattformen, insbesondere sozialen Netzwerken, zu erheben und die resultierenden Datenbestände computergestützt zu analysieren (vgl. Blätte et al. 2018). Auch wenn wir für diese Studie bewusst auf diese Analysemethoden verzichtet haben, dienten die Techniken aus diesem Feld doch der Datenerhebung über eine Facebook-Programmierschnittstelle. Die AfD-Kommentarverläufe, die im Rahmen dieser Studie analysiert wurden, sind Teil eines Datensatzes, der alle Posts sowie Kommentare auf den Facebook-Profilseiten der CDU, CSU, FDP, SPD, Grünen, Linken und AfD sowie der zugehörigen SpitzenkandidatInnen im Bundestagswahlkampf 2017 beinhaltet.
8
C. Schmitz et al.
1.4.2 Fokusgruppen Fokusgruppen sind Gesprächssituationen, die nach Maßgaben des Forschungsinteresses zusammengesetzt werden (vgl. Marg 2014; Lamnek 2005). Grundsätzlich setzt das Erhebungsinstrument darauf, Formationen „kollektiver Erlebnisschichtung“ hervorzulocken (Bohnsack 2015, S. 378). Es geht also um die narrative Präsentation gemeinsam geteilter Wirklichkeiten, die Deutungsmuster artikulieren sowie Denk- und Handlungsmuster flankieren und strukturieren (vgl. Marg 2019, S. 108 ff.). Für die hier vorgestellte Studie wurden insgesamt zehn Fokusgruppen in Niedersachsen durchgeführt, darunter vier klassische Offline-Fokusgruppen, vier genuine Online- Fokusgruppen und schließlich zwei Offline-Fokusgruppen, die sich aus TeilnehmerInnen der Online-Fokusgruppen zusammensetzten. Die Rekrutierung erfolgte in allen Fällen über die Datenbanken von Marktforschungsstudios, daher waren die TeilnehmerInnen in der Situation geübt und an gewisse Erwartungshaltungen gewöhnt. Zur Überprüfung, ob es Unterschiede in der Bewertung und entsprechend im Reden über soziale Medien in Abhängigkeit von der politischen Selbsteinschätzung und dem Kommunikationsverhalten gibt, wurden die genuinen Offline-Gruppen im Rahmen einer Selbsteinschätzung in ‚politisch interessierte Offliner‘ und ‚politisch desinteressierte Onliner‘ aufgeteilt. Die Online-offline-Gruppen setzten sich jeweils paritätisch aus den TeilnehmerInnen der vorangegangenen Online-Diskussionen zusammen und wurden näherungsweise im Sinne einer ‚Blitzinterpretation‘ nach thematischen Haltungen in einer Art Kreuzstichverfahren rekrutiert: Anhand des Gesprächsverlaufs der Online-Gruppendiskussionen wurden Positionierungen zu den Themen Migration, Flüchtlinge und Islam als Scheidepunkt gewählt, und es wurde versucht, aus jeder Gruppe je eine Person entsprechend der Position ‚pro‘, ‚anti‘ bzw. ‚undifferenziert/unauffällig‘ in einer Gruppe zusammenzustellen. Um der Online-Situation näherzukommen wurde abweichend von anderen Fokusgruppendesigns die Rolle der Moderation zurückhaltend konzipiert. Die Online-Fokusgruppen wurden in einer eigens entwickelten Chat-Umgebung durchgeführt, die mit Standardfunktionen entsprechender realer Angebote ausgestattet war. So konnten die TeilnehmerInnen sehen, wenn andere gerade einen Beitrag verfassten. Abgesendete oder bestätigte Kommentare und Eingaben wurden den anderen TeilnehmerInnen unmittelbar angezeigt.
1.4.3 Vergleich der Datentypen Unsere Vergleichsstudie erfolgt über verschiedene Datentypen hinweg, woraus sich die Variation für unsere erklärende Variable ergibt. Die soziotechnischen Strukturen der Online-Kommunikationsumgebungen verändern kommunikative Opportunitätsstrukturen und Dynamiken erheblich. Die Ordnungen und Architekturen der Plattformen lassen nur gewisse Aktionen und Reaktionen zu (vgl. Dolata und Schrape 2014; Dolata 2017). Grundlegend ist die Unterscheidung zwischen unseren Datentypen hinsichtlich des Grades an Alokalität und Zuordenbarkeit der Beiträge. In unserem Fall liegen dabei sowohl Daten vor, bei denen Sichtbarkeit und körperliche Anwesenheit (Fokusgruppen), partielle
1 Wann kommt die Wut?
9
Sichtbarkeit (durch die Profile) und Alokalität (Facebook-Kommunikation) sowie Unsichtbarkeit und Alokalität (Online-Chat) gegeben sind. Zudem gehen wir davon aus, dass alle drei Kommunikationssituationen einen relativ hohen Spontaneitätsgrad (vgl. Brown 2018) aufweisen. Zu beachten war, dass trotz der versuchten Zurückhaltung in der Erhebungssituation die Ab- oder Anwesenheit einer moderierenden Instanz im Vergleich zwischen den Datentypen eine Rolle spielt. Ein weiterer Unterschied ergibt sich hinsichtlich der zeitlichen Rahmung und der Verbindlichkeit der Kommunikation. Facebook-Kommunikation ist natürliche Kommunikation, stellt einen potenziell anhaltenden Kommunikationsstrom dar und manifestiert sich in der Regel in Form längerer und kürzerer Kommentarverläufe. Wir können in unserer Datensammlung also immer nur Ausschnitte präsentieren. Die ProbandInnen in den Fokusgruppen dagegen nehmen für einen vordefinierten Zeitraum (in der Regel für zwei Stunden) an diesen Diskussionen teil. Daraus ergibt sich ein Unterschied mit Blick auf die Konstanz der Gruppe sowie die Synchronität der Kommunikation. Wie viele Online- Angebote funktionieren auch soziale Netzwerke auf der Grundlage asynchroner Kommunikation. Zu einem beliebigen Zeitpunkt können Meldungen von Account-InhaberInnen eingestellt werden. Sie können zeitlich unabhängig kommentiert oder völlig ignoriert werden, ohne dass dies per se bereits als auffällig oder unhöflich wahrgenommen würde. Im Gegensatz dazu steht die Offline-Fokusgruppe als eine Form des synchronen Gesprächs, das in einem begrenzten Zeitraum geführt wird. Das Ignorieren eines vorangegangenen Beitrags benötigt eine gewisse Vermittlung oder Begründung. Im Vergleich mit diesen beiden Extremformen befinden sich die Gruppenchats in einer mittleren Position. Auf der einen Seite wird eine synchrone Gesprächsführung in einer geteilten Zeit ermöglicht. Auf der anderen Seite führen die Schriftsprache und die Texteingabe zu Latenzen, die Konversationen in verschiedene Richtungen lenken oder dazu führen können, dass Beiträge ignoriert werden. Während aus Facebook-Diskussionen TeilnehmerInnen jederzeit aussteigen können, ohne dass dies auffallen würde, wird in den Fokusgruppen Schweigen zu einem Kommunikationsakt. Die Datentypen unseres Vergleichsdesigns unterscheiden sich zudem in der Auswahl der TeilnehmerInnen an den Diskussionen. Es ist davon auszugehen, dass in den hier betrachteten Kommentarverläufen auf Facebook-Seiten einer Partei eine überwiegend einseitige Repräsentation des Meinungsspektrums zu finden ist. DiskussionsteilnehmerInnen müssen damit rechnen, dass sie mit konfrontativen Aussagen auf konkurrierenden Parteiseiten rasch in der Minderheit sind. Deshalb ist anzunehmen, dass nur geübte oder besonders überzeugte NutzerInnen diese Auseinandersetzung ‚auf gegnerischem Terrain‘ suchen und führen. Ebenso folgt aus der Selbstrekrutierung, dass die DiskussionsteilnehmerInnen insgesamt ein hohes Maß an Eigenmotivation für die Facebook-Kommunikation mitbringen müssen. Dies prägt die Auswahl an TeilnehmerInnen und könnte schon allein deshalb zu engagierteren, möglicherweise emotionaleren und somit leichter invektiven Diskussionsstilen führen, als dies in den rekrutierten Fokusgruppen der Fall ist. Die inhaltliche Rahmung der Facebook-Kommentarverläufe und der Fokusgruppen wurde über die Inputs (siehe Abschn. 1.4.4) möglichst gleich gehalten. Während jedoch die parteipolitische Auseinandersetzung und besonders die strategische Kommunikation
10
C. Schmitz et al.
im Wahlkampf durch eine gesteigerte und inszenierte Konfliktintensität geprägt sind, haben wir die TeilnehmerInnen der Fokusgruppen thematisch auf den Wahlkampfkontext vorbereitet. Die Rahmung hat einen überparteilichen wissenschaftlichen Charakter. Diese Differenz ist durchaus relevant und kann zu erhellenden Resultaten führen, da sich Parteien und PolitikerInnen in rhetorischen Kämpfen der Mittel der Zuspitzung, des verbalen Angriffs auf den Gegner sowie der offensiven Rhetorik bedienen. Es ist wahrscheinlich, dass sich NutzerInnen, die auf den parteipolitischen Seiten Kommentare hinterlassen, mindestens an diesem Konfliktniveau orientieren.
1.4.4 Zum Sample von Diskussionsinputs Um die Differenzen der Datentypen jenseits der oben beschriebenen strukturellen Merkmale möglichst gering zu halten, wurden beide Datenquellen systematisch miteinander verknüpft. Hierzu wurden als Inputs in den Fokusgruppen regelmäßig die Facebook-Posts verwendet, die online eine hohe Aufmerksamkeit erfahren hatten. Auf diese Weise können Reaktionen der Teilnehmenden auf die gleichen inhaltlichen Stimuli verglichen werden. Insgesamt stand ein Set von neun verschiedenen Inputs zur Verfügung, die sowohl im Facebook-Datensatz vorhanden sind als auch in den Fokusgruppen Verwendung fanden, wobei drei der Inputs detaillierter analysiert wurden. Um die Anschlussfähigkeit an die jeweiligen Facebook-Kommentarverläufe nicht zu verlieren, wurden die Inputs innerhalb der Fokusgruppen dynamisch ausgewählt, das heißt: Aus einer Auswahl von im Vorlauf rege diskutierten Facebook-Postings wurde im Anschluss eine Handvoll Diskussionsinputs ausgewählt. Angesichts des zeitlichen Abstands zwischen der Datenerhebung einschlägiger Kommentarverläufe auf Facebook und der Terminierung der Fokusgruppen mussten wir zwischen der Vergleichbarkeit der Inputs und ihrer Aktualität im Wahlkampfgeschehen abwägen. Im Hinblick auf das invektive Diskursverhalten stellt unsere Materialauswahl eine Vorselektion im Sinne eines Most-likely-case-Designs dar. So beschränken wir uns in der Analyse der natürlichen Facebook-Kommunikation ausschließlich auf Kommentarverläufe von Seiten der AfD als der neuen Rechtsaußenpartei im deutschen Parteienspektrum. Bereits abgeschlossene korpusanalytische Diskursstudien über den kompletten Datensatz der weiteren Studie haben gezeigt, dass die Facebook-Seite der Partei im Vergleich zu den anderen größeren Parteien mit Aussichten auf Repräsentation im deutschen Bundestag ein auffallend hohes Maß an invektiven Äußerungen und offensiver Sprache aufweist (vgl. Schünemann und Marg 2019).
1.5
Auswertungsverfahren
Im Sinne einer qualitativen Methode ziehen wir die Indikatoren des DQI nicht zu einem Index zusammen. Sie dienen uns als Grundlage für ein Codebuch, mit dem das Material anschließend mithilfe von MaxQDA codiert wurde. Fragen nach Inhalt und Qualität von
1 Wann kommt die Wut?
11
Begründungen, einem zentralen Indikator des DQI, spielen für die Codierung nur eine sekundäre Rolle. So ist besonders die Vorstellung, Begründungen mit Bezug auf das Gemeinwohl seien Begründungen, die sich auf Gruppeninteressen beziehen, vorzuziehen (vgl. Steiner et al. 2004, S. 54), sehr eng an eine bestimmte normative Sicht auf Demokratie gebunden. Ausgehend von der oben präsentierten Modifikation von Ansätzen der Diskursqualität hin zu einer Interpretation von Diskursstrukturen mit Fokus auf Invektiven dienen die codierten Textstellen als Basis für eine Deutungsmusteranalyse im Nachgang einer dokumentarischen Textanalyse: Bereits während der Codierung wurden erste beschreibende Interpretationen formuliert, die dann in einem zweiten Analyseschritt der reflektierenden Interpretation vertieft wurden. Das Ziel der Analyse besteht in der Aufdeckung von Wissensbeständen und Wissensvorräten. Hierbei konzeptualisieren wir Wissensbestände als einerseits gemeinsam geteilt, situativ und kollektiv produziert und modifiziert, andererseits aber auch als potenziell unbewusst und unzugänglich (vgl. Bohnsack 2013; Bohnsack und Nohl 2013). Analytisch typisieren wir dabei diese Wissensvorräte als Deutungsmuster, wenn sie einen Wissensbestand berühren, der für die diskursive Auseinandersetzung mit den spezifischen thematischen Feldern von besonderer Relevanz ist. Aussagen, in denen sich diese Deutungsmuster manifestieren (vgl. Bögelein und Vetter 2019), betrachten wir als Narrative, die zur Plausibilisierung der Wirklichkeit im Sinne von Wissensvorräten und Wissensvorratsfragmenten herangezogen werden (vgl. Höffling et al. 2002). Die Deutungsmusteranalyse, die sich für die Auswertung von Fokusgruppen besonders anbietet (Marg 2019), ist auch für den Vergleich zwischen den hier analysierten verschiedenen Datentypen geeignet.
1.6
Ergebnisdarstellung
Die Ergebnisse lassen sich in drei Ebenen aufteilen.5 Erstens gibt es je nach Medium Unterschiede in der politischen Kommunikation, dem Grad und der Häufigkeit der Invektivität. Dabei mag dies zum Teil technisch-struktureller Natur sein, zum Teil Folge von Kommunikationskulturen in unterschiedlichen Arenen. Zweitens ist das hohe Maß an Bedeutung hervorzuheben, das einzelnen Teilnehmenden bei der Strukturierung von Diskussionen zukommt (vgl. Myers 1987). Unabhängig vom Medium bedienen sich bestimmte Personen in höherem Maße expliziter und impliziter Invektiven als andere.
Die Dokumentation anhand von Datenmaterial für die Auswertung gestaltet sich (vor allem aufgrund der sequenziellen Natur der Daten in den Fokusgruppen) schwierig: Wesentliche Interpretationsmerkmale und Muster entfalten sich zum Teil lediglich über lange Sequenzen, deren Darstellung im Fließtext nicht zielführend ist. Zur Plausibilisierung der Ergebnisdarstellung wird auf Ankerbeispiele im Anhang verwiesen, die jedoch nicht die Sequenzialität des Materials wahren können. Beispielhaft sei zur Illustration der Auswertungslogik auf das Beispiel bei Schenke et al. (2018, S. 379 ff.) verwiesen.
5
12
C. Schmitz et al.
Drittens fallen die Themenfelder Migration und Flucht sowie das Unterthema Islam durch erhöhte Invektivität auf, und zwar nicht in Form offener Kontroversen, sondern durch abwertende Narrative, die über die politischen Lager hinweg mithilfe von impliziten Invektiven geteilt und reproduziert werden. Ein ähnliches Muster hat sich aus dem Material heraus beim Thema PolitikerInnen-Einschätzung ergeben. Zur Frage systematischer Unterschiede der natürlichen Daten von Facebook, der Online-Fokusgruppen und der gewöhnlichen Fokusgruppen in Kolokalität entsprechen die meisten Befunde den Erwartungen. Die Häufigkeit und die Intensität explizit invektiver Sprache sind in den Kommentarspalten auf Facebook deutlich höher als in den Fokusgruppen. Dort ist in den Themenfeldern Migration, Flüchtlingskrise und Islam sofort ein sehr aufgeregter Tonfall vorherrschend, initial eingenommene Positionen sind klar und eindeutig, Angriffe auf politische Gegner und unterschiedliche Gruppen von Menschen werden unverhohlen unternommen (siehe Anhang A.1). Finden sich direkte Gewaltandrohungen und Billigungen von Verletzung, Leiden und Sterben in unserem Material, so ist das mit ganz wenigen Ausnahmen im Datenkorpus der Facebook-Kommentare der Fall. Ebenso ist das emotionale Level der Kommunikation sofort erreicht und an der sprachlichen Oberfläche manifest. Die Wut scheint für einen großen Teil der KommentatorInnen Antriebsfeder der Beteiligung zu sein. Dies gilt ebenso für Anti-AfD-Positionen (siehe Anhang A.1). Hier herrscht auch stärker ein spezifischer Sprachgebrauch vor, der die Kommentierenden über bestimmte Wörter und Sprachspiele in bestimmten Diskursräumen und Gruppen verortet. Die Kommunikation findet oft in Verweisen auf feste Narrative und in geteilten Symbolen statt (‚Merkel muss weg‘, ‚in der Uckermark entsorgen‘, ‚Wahlschafe‘, ‚Kanzlerdarstellerin‘). Dies verweist auf den besonders expressiven Sinn von öffentlicher Internet-Kommunikation (vgl. Kersting 2017), die zunächst zur Darstellung der eigenen Meinung und nicht zur Deliberation gedacht ist. In den Gruppendiskussionen, on- wie offline, spielen Invektiven gegenüber Gesprächspartnern so gut wie gar keine Rolle. Wenn Invektivität auftritt, bezieht sie sich nahezu ausschließlich auf Gruppen und Einzelpersonen außerhalb des Fokusgruppenkontextes. Die Ziele von Invektivität lassen sich zumeist einer von vier Kategorien – a) (Wirtschafts-) Flüchtlinge und die Unterscheidung von Fluchtursachen, b) MuslimInnen und Islam, c) PolitikerInnen und d) AfD-WählerInnen – zuordnen (siehe Anhang A.2). Die Kommunikation in den Fokusgruppen war zudem stärker von einer Entwicklung geprägt. In der typischen Weise von Gruppenfindungsprozessen werden Meinungen oftmals getestet, die Reaktion abgewartet und dann möglicherweise weitergetrieben. Dies wiederum war offline etwas stärker als im Chat. Dies gilt trotz des spezifischen Effekts von inputbasierten Fokusgruppen, die durchaus spontane Reaktionen provozieren und unvermittelt in die Diskussionen einsteigen. Ein auffälliger Befund ist der hohe Einfluss, den Einzelpersonen auf das Maß an Invektivität in den Fokusgruppen hatten. Es waren Einzelne, die einen überwiegenden Teil der Invektiven äußerten, dies galt noch einmal stärker für explizite Invektiven. Für einige TeilnehmerInnen muss das als ein spezifischer individueller Kommunikationsstil bezeichnet werden: Besonders in der schriftlichen Kommunikation des Chats war die gesteigerte Nut-
1 Wann kommt die Wut?
13
zung von Emoticons und Satzzeichen (siehe Anhang A.4), aber auch, eng damit verbunden, eine sprachliche Aufgeregtheit der Standardkommunikationsmodus einzelner Personen. Diese bedienten sich dann auch vermehrt invektiver Sprache. Ein anderer Typ zeichnete sich besonders durch eine starke politische Haltung aus, wobei dieser Typ sowohl in rechter wie linker Spielart, migrationsoffen wie migrationsskeptisch vorkam. Hier waren es nicht unbedingt die expliziten Invektiven, sondern die Verwendung impliziter Invektiven und ein dominantes Gesprächsverhalten, was diese Personen auszeichnete. Das führte zu zwei unterschiedlichen Reaktionen der Gruppe: Der erste Typ wurde weitgehend ignoriert, während der zweite oft relativ schnell eine äußerst dominante Rolle im Gesprächsverlauf einnehmen und so den Modus und das Thema der Diskussion prägen konnte. An diesen Personen ließ sich über unser Design auch gut nachverfolgen, welchen Effekt der Wechsel von der Chat-Umgebung in die körperliche Kolokalität hatte, da wir einige Fokusgruppen mit TeilnehmerInnen aus Online-Fokusgruppen besetzt hatten. Der Effekt war erstaunlich gering. Zunächst fiel der Typus, der im Chat einfach ignoriert wurde, in der Tendenz weniger auf, da sich das Verhalten aus einer spezifischen Form der Schriftnutzung im Chat ergeben hatte. Dieselben Personen allerdings, die im Chat durch raumgreifende Beiträge, klare inhaltliche Agenden, ständige Dramatisierung und besonders invektive Sprache auffielen und damit reüssierten, taten dies auch offline. In der Analyse der einzelnen Gesprächsverläufe lässt sich eine etwas vorsichtigere, tastendere Form desselben Kommunikationsstils beobachten, vor allem stieg die Bereitschaft, einmal Geäußertes wieder etwas zurückzunehmen, wenn es zu Widerstand kam. Invektivität spielt in allen unseren Daten (bezogen auf die Fokusgruppen) nur in bestimmten thematischen Kontexten eine entscheidende Rolle. In keinem der Medien war die Kommunikation von Invektivität per se dominiert, niemand war durchweg aggressiv, herabwürdigend oder unhöflich, aber bei bestimmten Themen stiegen die Chancen drastisch und dann wiederum über alle Datentypen und einen beachtlichen Teil der TeilnehmerInnen hinweg. Im Hinblick auf die Rekrutierungsparameter ist hervorzuheben, dass die Unterscheidung anhand der Gruppierungsparameter (‚politisch interessiert‘/‚desinteressiert‘, ‚online aktiv‘/‚nicht aktiv‘) bezogen auf die Inputs und die Reaktionen auf die Inputs keine Rolle spielt. Sobald die entsprechenden Inputs gesetzt waren, waren die entsprechenden Reaktionen und Narrative in beiden Fällen abrufbar, Differenzen wurden nicht offenbar. Hervorzuheben sind des Weiteren thematische Verknüpfungen, die sich in ihrer Funktionsweise für die jeweilige und in der jeweiligen Kommunikationssituation unterscheiden. Einige sind im Gruppenzusammenhang zustimmungsfähig und homogenisierend, während andere vor allem innerhalb der Gruppenkonstellationen ein Hegemoniemoment stiften können. Dies betrifft im homogenisierenden Sinne das Sprechen über PolitikerInnen und Thematisierungen der Themenkomplexe Flucht, Migration, Islam und die multikulturelle Gesellschaft einerseits und im hegemonialen Sinne die Einschätzung der AfD und ihrer WählerInnen andererseits. Das scharfe Kritisieren von PolitikerInnen scheint ein allgemein anerkannter Modus der politischen Kommunikation zu sein. In allen Kontexten blieben abwertende Spitzna-
14
C. Schmitz et al.
men sowie Zweifel an Intelligenz und moralischer Integrität von PolitkerInnen sanktionslos, provozierten im Gegenteil zustimmendes Gelächter und Emoticons. Das bedeutet nicht, dass Anerkennung nicht ebenso gezollt wird und ebenso möglich ist, aber der Angriff auf PolitikerInnen als Gruppe und Einzelpersonen hat offenbar andere moralische Grenzen als Angriffe auf andere Individuen. Hier finden sich auch alle politischen Lager zusammen. Es scheint kaum den Modus der Verteidigung von PolitikerInnen zu geben. In den Fokusgruppen findet sich hier ein geradezu integrierendes Moment. PolitikerInnenschelte ist dabei häufig stärker von Humor geprägt denn von Wut. Eine andere Dimension erreicht dies allerdings in den Kommentarspalten unter AfD-Postings. Hier herrscht mitunter ein Tonfall der Verzweiflung, des Notstands und der daraus folgenden Logik der Selbstverteidigung gegenüber der Politik und den PolitikerInnen vor. Daraus ergibt sich dann auch eine Offenheit zur Gewalt. Dabei muss allerdings beachtet werden, dass im Material alle drei besonders kritischen Themenkomplexe zusammenfallen: Es geht um die Selbstvergewisserung als AfD-AnhängerInnen sowie die von der Gegenseite geführten Angriffe, um Migrationsfragen und die Personalisierung derselben mit Bezug etwa auf Angela Merkel. Die Bewertung der AfD und eng damit verbunden ihrer WählerInnen ist das zentrale spaltende Bezugsproblem. Es wird überall dort diskutiert, wo Inputs dies direkt nahelegen oder sich mit den Themenkomplexen Flucht, Migration und Islam beschäftigen oder wo das Thema zumindest darauf gelenkt werden kann. Hier werden von der einen Seite des Konflikts ebenfalls Attacken auf persönlicher Ebene gefahren: Die Abwehr rechter Einstellungen funktioniert stark in Form der Abwertung der TrägerInnen dieser Einstellungen – ein Phänomen, das bereits in ähnlicher Form bei Fokusgruppen zum Thema NoPegida beobachtet wurde (vgl. Marg et al. 2016, S. 86 ff.): Als WählerInnen seien diese durchweg dumm oder gar gewalttätig, als PolitikerInnen der AfD entweder einfältig oder manipulierend. Im extremen Fall werden dann Partei und WählerInnen außerhalb des gesellschaftlichen Schutzraumes gestellt und im Zweifel illegale Attacken auf ihre Meinungsäußerungsmöglichkeiten (also beispielsweise das Abreißen von Wahlplakaten) gutgeheißen. Die Grenze zur Aufforderung zur körperlichen Gewalt wiederum wird in den Gruppendiskussionen nicht überschritten. Hegemonial sind diese Einlassungen deshalb, weil sie in den Gruppendiskussionen auch von jenen TeilnehmerInnen unwidersprochen bleiben, deren Äußerungen eine Affinität zur AfD andeuten oder nahelegen. Die KommentatorInnen bei der AfD sind in der Kommunikation auf Facebook jedoch keineswegs zimperlich mit der Gegenseite des Konflikts. Hier geht es durchaus regelmäßig bis zur Gewaltandrohung („CDU,SPD,KOTZGRÜNEN UND LİNKEN MÜSSEN WEG!“). In den Online- und Offline-Fokusgruppen tritt diese Haltung gar nicht zutage. Hier herrscht offenbar noch eine starke Differenz zwischen den beiden Lagern vor. Während Angriffe gegen rechts und die AfD im Speziellen auch in der Kolokalität der Gruppensituation gefahren wurden, sucht man Angriffe gegen ‚Bahnhofsklatscher‘, ‚Gutmenschen‘ etc. in unseren Fokusgruppen vergeblich. Offenbar besteht oder bestand zumindest zum Zeitpunkt unserer Datenerhebung noch eine klare Hierarchie der beiden Lager. Während diejenigen, die sich gegen rechts abgrenzen, davon ausgehen, sich in einer zufällig
1 Wann kommt die Wut?
15
ausgewählten Gruppe in der Mehrheit zu befinden, wagt die Gegenseite weder das Selbstouting und somit eine direkte Konfrontation der Invektiven noch den Gegenangriff. Anders ist natürlich die Situation auf Facebook, wo bereits durch das initiale Posting klar ist, welche inhaltliche Position wohl die mehrheitlich in den Kommentarspalten geteilte wird. Komplex ist die Lage bei den Themenkomplexen Flucht, Migration und Islam. Zunächst hat dieser Komplex hohe Ähnlichkeit mit der direkten politischen Spaltung in AfD-AnhängerInnen und ihre GegnerInnen. Vielfach sind die Begriffe, die hier verwendet werden, die initialen Aussagen, bereits die entscheidenden Marker für die Zuordnungen in ein bestimmtes Lager, wobei Migrationsskepsis weitaus offener thematisiert wird als nur unter AfD-AnhängerInnen. Während die MigrationsskeptikerInnen gerade bei Facebook, aber auch in den Fokusgruppen explizit invektiv gegenüber unterschiedlich begrenzten Gruppen sind, ziehen ihre GegnerInnen Grenzen ein und versuchen, Differenzierungen einzufordern. Allerdings ist diese Gegenüberstellung unterschiedlicher Positionen oft eine oberflächliche. Im Rahmen der Fokusgruppen fällt schnell auf, dass, je länger das Gespräch beim Thema verharrt, je mehr persönliche Geschichten erzählt werden, es umso deutlicher wird, dass beide Seiten des Konflikts dieselben Deutungsmuster auf dieses Bezugsproblem legen und sich in vielerlei Hinsicht einiger sind, als die mitunter scharfe politische Abgrenzung vermuten lässt. Narrativ werden diese Deutungsmuster dann mit Alltagsbeispielen plausibilisiert, die nicht nur auf eine Abwehr gegenüber Flüchtenden oder Asylsuchenden abzielen, sondern vielmehr in einem umfassenden Sinne zu einer Thematisierung von Integrationskonflikten führen: Menschen werden diskursiv über ihre Eigenschaft als ‚das Fremde‘ (vor dem man sich sorge oder ängstige) markiert. Durch das individuell-subjektive Empfinden legitimiert, werden diese ‚Nichtdeutschen‘ (sei es, dass sie Kopftücher tragen, viele Kinder haben oder arabisch sprechen) mittels impliziter Invektiven zu einer devianten oder zumindest störenden Erscheinung im Sozialgefüge erklärt (siehe Anhang A.3). Es ist denn auch der Wechsel vom Bezugsproblem ‚AfD und rechte Tendenzen‘ zum Bezugsproblem ‚Flucht, Migration und Islam‘, der eher wieder zur relativen Befriedung der Debatten innerhalb der Fokusgruppen führt und in dem sich die migrationsoffene und Anti-AfD-Seite des Konflikts durch deutlich mehr Kompromissbereitschaft auszeichnet. Diese Entwicklung innerhalb eines Kommunikationsprozesses wiederum ist ein Effekt, den man auf Facebook im Sinne des expressiven Charakters der Kommunikation gar nicht findet.
1.7
Diskussion und Schluss
Die politische Kommunikation in sozialen Medien funktioniert nach anderen Regeln als die in Gruppen, die von ForscherInnen zusammengestellt wurden. Sie unterscheidet sich, je nachdem, ob sie online oder offline stattfindet. Die zentralen Unterschiede liegen in den vorsichtig tastenden, impliziten Invektiven in den fokusgruppenorientierten Zusammenhängen gegenüber tendenziell expliziten Invektiven im Facebook-Kommentarzusammenhang. Ebenso findet sich ein Unterschied im Verzicht auf Angriffe gegen Gesprächspartne-
16
C. Schmitz et al.
rInnen in den Fokusgruppen gegenüber dem häufig harschen Ton gegen andere KommentatorInnen auf Facebook. Das Ergebnis entspricht den Erwartungen, die sich aus den Vorüberlegungen zur Facebook-Kommunikation als expressiver Meinungsdarstellung (sowohl als Folge des Mediums als auch der Rahmung als Teil der Wahlkampfkommunikation) sowie zu den technisch-strukturellen Gegebenheiten ergeben, die die Verbindlichkeit der Kommunikation betreffen. Diese alle ließen eine konfrontativere Kommunikation auf Facebook erwarten. Bei allen Unterschieden in den Artikulationsformen von abwertenden Deutungsmustern überwiegt aber die Persistenz von eben diesen Deutungsmustern unabhängig von der Kommunikationsumgebung. Die Feststellung lautet also, dass Invektiven auf der inhaltlichen Ebene nicht aus dem Netz kommen, sondern primär und genuin mit den politischen Inhalten, mit denen sie verknüpft werden, assoziiert sind. Sie kommen zum Einsatz, wenn mithilfe von Deutungsmustern die soziale Wirklichkeit plausibilisiert werden soll. Einerseits deutet dieser Sachverhalt darauf hin, dass die allgemeine Diskussion die Wirkung sozialer Netzwerke auf politische Kommunikationsstrukturen überschätzt. Damit soll nicht gesagt sein, dass die Realisierung explizit invektiver Kommunikationsformen per se unproblematisch wäre oder wirkungslos bliebe, aber: Es verdichten sich die Hinweise darauf, dass soziale Netzwerke primär bereits vorhandene gesellschaftliche Deutungsmuster hinsichtlich ihrer narrativen Strukturen modulieren. Es fehlt in der tendenziell inhaltlich-ideologischen vorsortierten Facebook-Kommunikation die widerstreitende Präsentation deutungsbedürftiger gesellschaftlicher Phänomene: In inhaltlich abgeschlossenen Diskurszusammenhängen bestehen offenbar andere Freiheitsgrade hinsichtlich der Sagbarkeit dezidiert expliziter Invektiven. Diese Freiheitsgrade bestehen in Situationen der Kolokalität und einer leicht zu vollziehenden Zuordenbarkeit von GesprächspartnerInnen zunächst nicht. Die Feststellung jedoch, dass Invektiven auch subtil und verdeckt formuliert werden und Wirkungen entfalten, lässt sich am Ende vielleicht auf die Frage zuspitzen, ob die Kausalitätskette im Zusammenhang von politischer Kommunikation in Social Media nicht in ihrer Richtung umgedreht werden oder vielleicht auch grundlegend anders gedacht werden muss. Die bisher dominante Form des Hate-Speech-Diskurses zielt darauf ab, den Diskurs im Netz in gewisser Weise zu dämonisieren: Die ‚normale‘ politische Debattenkultur, die offline stattfinde, werde nach und nach korrumpiert. Wenn jedoch Prozesse impliziter Invektivität in breiten, gesamtgesellschaftlichen Kontexten relativ unabhängig von Kommunikation in sozialen Medien so allgegenwärtig sind, wie es scheint (vgl. Marg 2019, S. 119 ff.; Schenke et al. 2018, S. 373 ff.), dann spricht dies nicht dafür, dass Kommunikation korrumpiert wird, sondern dafür, dass ‚Kommunikationsinhibitoren‘, die in anderen sozialen Kontexten wirken, online lediglich leichter zu durchbrechen sind. So bleibt auch herauszustellen: Nicht selten haben sich in vergangenen Kontexten Bekenntnisse zu Prinzipien des korrekten politischen Umgangs und zur multikulturellen Gesellschaft als „Ouvertüre heftiger Verurteilungen bestimmter Gruppen, zumeist Geflüchteter aus dem arabischen Raum“ (Schenke et al. 2018, S. 374) erwiesen. Die Erkenntnis an sich ist nicht neu, relativiert aber die Horrorszenarien vom Einfluss auf die Debattenkultur, der
1 Wann kommt die Wut?
17
Facebook (und anderen sozialen Medien) zugeschrieben wird. Aus dieser Perspektive liegt das Grundproblem dann weniger darin, dass soziale Netzwerke diese Formen der expliziten Invektivität ermöglichen, sondern darin, dass dies einerseits gesellschaftlich goutiert wird und andererseits nicht auf die soziokulturellen Grundlagen jenseits technischer Ermöglichungsfaktoren bezogen wird. Zu fragen wäre des Weiteren sicherlich nach einem Sozialisationseffekt der Kommunikation in sozialen Medien. Wenn immer mehr politische Kommunikation dort durchgeführt wird und diesen Regeln folgt – und womöglich ist das Konsumieren der Kommentarspalten ohne aktive Teilnahme (das sogenannte Lurking) ausreichend –, könnte es nicht letztlich zu einer Ausbreitung dieser Verrohung des Umgangs auf alle anderen Bereiche der politischen Kommunikation kommen (vgl. Wagner 2019, S. 10)? Unsere Daten können das nicht abschließend beantworten. Viel näher scheint uns eine Interpretation unserer Ergebnisse zu liegen, die die Debatte um Invektiven zurückverweist auf die politischen Inhalte, die diskutiert werden, und die Deutungsmuster, die hierfür herangezogen werden: Bestimmte Themen und Bezugsprobleme provozieren das Reden in Invektiven, bestimmten politischen Positionen sind Invektiven gegen bestimmte Gruppen eingeschrieben, und manche politischen Gruppen sind so in negativer Abgrenzung aufeinander bezogen, dass es keine Frage des Mediums ist, dass sie sich gegenseitig abwerten. Facebook- Kommunikation macht es womöglich leichter, diese Invektiven offen auszubuchstabieren, körperliche Kolokalität und Zuordenbarkeit haben hingegen eine mäßigende Wirkung. Die Quelle der Wut jedoch liegt nicht in der Form der Sprache, sondern in politischen und gesellschaftlichen Deutungsmustern, die mithilfe von Sprache verbalisiert werden.
A. Anhang A.1 Ankerbeispiele expliziter Invektiven Zur Illustration der überwiegend expliziten Invektivitätsmuster bei Facebook bietet es sich an, eine Originalsequenz der ersten Kommentarebene aus einem AfD-Input zum Thema Familiennachzug (fortlaufend nummeriert) zu zitieren. Allerdings stellt der erste Kommentar eine Namensnennung dar und wird daher maskiert: [K1: (maskiert)] [K2:] Merkel muss weg [K3:] Unglaublich [K4:] Zum Kotzen [K5:] Vielen Dank auch, dafür, das alles vor die Hunde geht! [K6:] … und trotzdem gibt es wieder genügend „Wahlschafe“, die diese Kanzlerdarstellerin wieder wählen werden ! [K7:] Die Frau gehört gestopt [K8:] Die Alte ist geisteskrank [K9:] kann mann diese frau merkel nicht in die uckermark entsorgen.
18
C. Schmitz et al. [K10:] Und wer hats erfunden und wer solls bezahlen ???Bestimmt nicht die Schweizer !!!Das ist erst der Anfang,unsere Kinder und Enkel werden dafür zahlen müssen !!!!!!!!Unwählbar!!!!!!!!!! [K11:] … bekanntlich gehen die duemmsten Kälber selber zum Metzger …. [K12:] Irrtum:Wir geben Ihr den Rest. [K13:] Tut doch net so, als hätte das keiner gewusst. [K14:] O m g
Bezogen auf die Einlassungen von AfD-KritikerInnen bietet derselbe Input ebenfalls Anschauungsmaterial: [K1:] Langsam bekommt man es mit der Angst zu tun, wenn man sieht, wieviele Idioten hier leben! [K2:] Wie blöd seid ihr alle! Wollt ihr so was wie die Hitler-Zeit wieder haben. Man kann doch nicht AFD wählen … [K3:] Anstatt zu hetzen, bitte eure Lösungen posten. :-)
A.2 Ankerbeispiele impliziter Invektiven a) (Wirtschafts-)Flüchtlinge und die Unterscheidung von Fluchtursachen: Die Thematisierung von (Wirtschafts-)Flüchtlingen ist meistens ein Versuch, Differenzierungen über Fluchtursachen herzustellen. ‚Vorbildliche‘ Flüchtende, deren Fluchtursachen real seien, werden Flüchtenden gegenübergestellt, deren Fluchtgründe ungerechtfertigt seien, so z. B. in einer Offline-Gruppe im Gesprächsverlauf über einen Input, der Familiennachzug thematisierte: Aber ich glaube auch, ich sag mal, von der ganzen Grundeinstellung sind die Wirtschaftsflüchtlinge wahrscheinlich mit ’nem ganz anderen Auftreten und einem ganz anderen Gefühl auch hier als die, die wirklich was Schlimmes erlebt haben, ne?
b) MuslimInnen und Islam: Folgendes Zitat aus einer Online-Gruppe fügt sich im Gesprächsverlauf in eine Gegenüberstellung zwischen der ‚aufgeklärten europäischen Gesellschaft‘ und der ‚archaischen, mittelalterlichen Gesellschaftsvorstellung‘ des Islam ein: „Man müsste einen liberalen deutschen Islam entwickeln, passiert ja auch seit einigen Jahren.“ Hier verdichten sich paradigmatisch Rückständigkeitszuschreibungen gegenüber dem Islam, die Anknüpfungspunkte für Rhetoriken der Unvereinbarkeit liefern. c) PolitikerInnen: Vor allem bei dem Thema Rente (die Diskussion einer Online-Gruppe drehte sich um einen Input, bei dem Martin Schulz die Rente mit 70 ablehnte) boten sich für die TeilnehmerInnen Gelegenheiten, mit Ironie und Sarkasmus PolitikerInnen, ihr Handeln und ihre Qualifikation zu kommentieren: „In der Rentendebatte braucht’s eine Vision, eine, die nicht allen gefallen wird – aber Mutti hat sie nicht“. Aber auch eine Einlassung Christian Lindners zur Rückkehrnotwendigkeit von Geflüchteten, sobald wieder Frieden herrsche, motivierte die DiskutantInnen:
1 Wann kommt die Wut?
19
es gibt so viele unterschiedliche gründe, warum die menschen hier sind … herr Lindner ist gewiss ein kluger mann … doch er sitzt im trockenen und hat eine sichere rente und auskommen … weiß nicht, wie die Realität aussieht.
Erklärbar durch die Verzögerung beim Tippen einige Absätze später die eigentliche, spöttische Entgegnung: „Lindner ist kein kluger Mann, dann hätte er so was nicht gesagt.“ d) AfD: Exemplarisch für die abwertende Haltung gegenüber AfD-WählerInnen, wie sie in den Gesprächsgruppen zum Ausdruck kam, stehen folgende Sequenzen aus einer Online-Diskussion, die zwar zeitlich etwas auseinanderliegen, thematisch aber zusammengelesen werden müssen: „einfache, aber bor allem dumme Antworten!!! Man muss nicht besonders intelligent sein, um zu verstehen, dass die Programmatik der AfD völliger Murks ist.“ Hier insinuiert der Sprecher unverhohlen, dass man nur dann die AfD wählen könne, wenn man nicht sonderlich intelligent sei. Die nachfolgende Sequenz konkretisiert dies im Hinblick auf die WählerInnen nochmals: nur dass die AfD laut Wahlprogramm überhaupt nicht denen hilft, die Grund zum Jammern haben (Arbeitsmarktpolitik, etc) Niemand dieser Wähler hat auch nur einen Satz aus dem Programm gelesen. Die sind nur gegen Fremde … das reicht
A.3 Ankerbeispiele Bezugsproblem ‚multikulturelle Gesellschaft‘ Das Bezugsproblem ‚multikulturelle Gesellschaft‘ zeichnet sich vor allem dadurch aus, dass es in Kontexten auftritt, die sich zum Teil weit von den ursprünglichen Inputs entfernt haben: Thematisierungen finden häufig in Form von Alltagserzählungen statt, die gerade in der basalen Alltäglichkeit das Unbehagen der Diskutierenden auf den Punkt bringen. Hierzu ein Beispiel aus einer Online-Offline-Gruppe: Also, ich kann mir immer schlecht vorstellen, dass jemand, der also nicht deutscher Herkunft ist, einem Deutschen hilft. Obwohl das manchmal vielleicht nicht so sein kann oder muss. Und da fehlt einfach so die Erfahrung. Das ist so, wenn ich also in dieser Situation wäre und da sind – ich sag jetzt mal – die Hälfte Nichtdeutsche, würde die andere Hälfte der Nichtdeutschen mir helfen, wenn ich in Not wäre? Wage ich mal … ja … mit Fragezeichen zu sehen. Und genau da, da setzt das letztendlich nachher an. Die sind … die gehören ja – in Anführungsstrichen – „nicht dazu“, obwohl es vielleicht nicht so ist. Und da, da setzt also dann dieser politische Wille oder die Meinung dann nachher an. Halt eben: „Die sind anders, die brauchen wir nicht.“ Obwohl das in der Praxis dann manchmal ganz anders aussehen kann. Da ist es halt eben eine Emotion.
Aus der zweiten kombinierten Gruppe stammt folgende Gesprächssequenz zwischen einer Teilnehmerin T1 und einem Teilnehmer T2. In der Auseinandersetzung über Zuwanderungsängste kulminieren schließlich blanke Ressentiments, die später dann jedoch noch auf andere Subgruppen (wie zum Beispiel Punks) ausgeweitet werden.
20
C. Schmitz et al. [T1:] Aber ich habe noch mal … aber ich frage mich: Vor was haben denn die Menschen so Angst? Also haben die Menschen Angst, dass sie den Job machen, den ich mache? Da haben die gar nicht die Ausbildung für. Haben die Angst, dass sie die Wohnung bekommen, die ich habe? Die könnten die sich gar nicht leisten. Ich frage mich, vor was haben … vor was … [T2:] Vor den Fremden allgemein erst mal. [T1:] Ja, aber was … [T2:] Vor dem Kulturkreis. [Mit] Kopftüchern Rumlaufende, mit zehn Kindern rumschreiend, mit der [unverständlich] noch telefonierend oder was und alle [tolle] Sachen, die den Mensch stören. [T1:] Ja, stören ist aber was anderes als Angst. [T2:] Möchte ich nicht haben. Was ich nicht will, da kann ich mich doch … dazu sagen: Ich möchte nicht, dass es noch mehr wird. Das muss doch auch mein Recht sein zu sagen, ich möchte das nicht haben, ne?
A.4 Ankerbeispiele sprachliche und formale Besonderheiten Einige TeilnehmerInnen zeichnen sich in der schriftbasierten Chat-Umgebung durch eine stilistisch besondere Kommunikation aus. Diese könnte einerseits zur Illustration (I) des kommunizierten Inhalts dienen, andererseits aber auch lediglich eine kommunikative Eigenart (E) darstellen. [E1:] In allen Bereichen gibt es Gute und Böse!! [E2:] denen, den es in Deutschland nicht gut geht vermittelt es den eindruck, das die Regierung … Parteien nichts bzw. nicht genug für sie tun … und das ist der frust … [I1:] es sei hier nur mal an die Millionen!!!! von Auswanderern aus Deutschland nach Übersee erinnert, die hier einfach keine Existenzgrundlage mehr im 19. Jahrhundert hatten, wie zynisch. [I2:] Was soll das??? Es gibt kein Menschenrecht, sich seinen Standort selbst auszusuchen? Wo kommt der denn her?
Literatur Berry, J. M./Sobieraj, S. (2016): The outrage industry. Political opinion media and the new incivility. New York: Oxford University Press. Blätte, A. et al. (Hrsg.) (2018): Computational Social Science. Die Analyse von Big Data. Baden- Baden: Nomos. Bögelein, N./Vetter, N. (Hrsg.): (2019): Der Deutungsmusteransatz. Einführung – Erkenntnisse – Perspektiven. Weinheim, Basel: Beltz Juventa. Bohnsack, R. (2013): Die dokumentarische Methode in der Bild- und Fotointerpretation. In: Bohnsack, R./Nentwig-Gesemann, I./Nohl, A.-M. (Hrsg.): Die dokumentarische Methode und ihre Forschungspraxis. Grundlagen qualitativer Sozialforschung. 3. Aufl. Wiesbaden: Springer VS Verlag für Sozialwissenschaften, S. 75–98. Bohnsack, R. (2015): Gruppendiskussion. In: Flick, U./Kardorff, E. v./Steinke, I. (Hrsg.): Qualitative Forschung. Ein Handbuch. Reinbek bei Hamburg: Rowohlt, S. 369–384.
1 Wann kommt die Wut?
21
Bohnsack, R./Nohl, A.-M. (2013): Exemplarische Textinterpretation: Die Sequenzanalyse der dokumentarischen Methode. In: Bohnsack, R./Nentewig-Gesemann, I./Nohl, A.-M. (Hrsg.): Die dokumentarische Methode und ihre Forschungspraxis. Grundlagen qualitativer Sozialforschung. 3. Aufl. Wiesbaden: Springer VS Verlag für Sozialwissenschaften: Wiesbaden, S. 325–329. Brown, A. (2018): What is so special about online (as compared to offline) hate speech? In: Ethnicities 18 (3), S. 297–326. Buchstein, H. (1996): Bittere Bytes: Cyberbürger und Demokratietheorie. In: Deutsche Zeitschrift für Philosophie 44 (4), S. 583–607. Castells, M. (2015): Networks of outrage and hope. Social movements in the Internet Age. 2. Aufl. Cambridge, Malden (MA): Polity Press. Detering, H. (2019): Was heißt hier „wir“? Zur Rhetorik der parlamentarischen Rechten. Ditzingen: Reclam. Dolata, U. (2017): Technisch erweiterte Sozialität. Soziale Bewegungen und das Internet. In: Zeitschrift für Soziologie 46 (4), S. 266–282. Dolata, U./Schrape, J.-F. (2014): Kollektives Handeln im Internet. Eine akteurtheoretische Fundierung. In: Berliner Journal für Soziologie 24 (1), S. 5–30. Ellerbrock, D. et al. (2017): Invektivität – Perspektiven eines neuen Forschungsprogramms in den Kultur- und Sozialwissenschaften. In: Kulturwissenschaftliche Zeitschrift 2 (1), Art. 1 (https:// doi.org/10.2478/kwg-2017-0001) [letzter Zugriff: 23.02.2020]. Erdogan, G. (2001): Die Gruppendiskussion als qualitative Datenerhebung im Internet: ein Online- Offline-Vergleich. kommunikation @ gesellschaft 2, Art. 5 (https://nbn-resolving.org/urn:nbn:de: 0228-200102040) [letzter Zugriff: 23.02.2020]. Graffigna, G./Bosio, A. C. (2006): The Influence of Setting on Findings Produced in Qualitative Health Research: A Comparison between Face-to-Face and Online Discussion Groups about HIV/AIDS. In: International Journal of Qualitative Methods 5 (3), S. 55–76 (https://doi.org/1 0.1177%2F160940690600500307) [letzter Zugriff: 23.02.2020]. Habermas, J. (1997): Faktizität und Geltung. Beiträge zur Diskurstheorie des Rechts und des demokratischen Rechtsstaats. 5. Aufl. Frankfurt a. M.: Suhrkamp. Habermas, J. (2016): Theorie des kommunikativen Handelns. 2 Bde., 10. Aufl. Frankfurt a. M.: Suhrkamp. Hillje, J. (2017): Propaganda 4.0. Wie rechte Populisten Politik machen. Bonn: Dietz. Hindman, M. S. (2009): The myth of digital democracy. Princeton (NJ): Princeton University Press. Höffling, C./Plaß, C./Schetsche, M. (2002): Deutungsmusteranalyse in der kriminologischen Forschung. In: Forum Qualitative Sozialforschung 3 (1), Art. 14 (http://www.qualitative-research. net/index.php/fqs/article/view/878/1910) [letzter Zugriff: 23.02.2020]. Hollenbaugh, E. E./Everett, M. K. (2013): The Effects of Anonymity on Self-Disclosure in Blogs: An Application of the Online Disinhibition Effect. In: Journal of Computer-Mediated Communication 18 (3), S. 283–302 (https://doi.org/10.1111/jcc4.12008) [letzter Zugriff: 23.02.2020]. Janssen, D./Kies, R. (2005): Online Forums and Deliberative Democracy. In: Acta Politica 40 (3), S. 317–335. Kersting, N. (2017): Online-Partizipation und Medienkompetenz: Kann man Netiquette lernen? In: Gapski, H./Oberle, M./Staufer, W. (Hrsg.): Medienkompetenz. Herausforderung für Politik, politische Bildung und Medienbildung. Bonn: Bundeszentrale für Politische Bildung, S. 63–72 (https://www.bpb.de/lernen/digitale-bildung/medienpaedagogik/medienkompetenz-schriftenreihe/257595/online-partizipation-und-medienkompetenz) [letzter Zugriff: 12.02.2020]. Kies, R. (2010): Promises and limits of Web-deliberation. Basingstoke: Palgrave Macmillan. Kneuer, M. (2013): Bereicherung oder Stressfaktor? Überlegungen zur Wirkung des Internets auf die Demokratie. In: dies. (Hrsg.): Das Internet: Bereicherung oder Stressfaktor für die Demokratie? Baden-Baden: Nomos, S. 7–32.
22
C. Schmitz et al.
Kolleck, A. (2017): Politische Diskurse online. Einflussfaktoren auf die Qualität der kollektiven Meinungsbildung in internetgestützten Beteiligungsverfahren. Baden-Baden: Nomos. Koppetsch, C. (2019): Die Gesellschaft des Zorns. Rechtspopulismus im globalen Zeitalter. Bielefeld: transcript. Lamnek, S. (2005): Gruppendiskussion. Theorie und Praxis. 2. Aufl. Weinheim, Basel: Beltz. Manow, P. (2018): „Dann wählen wir uns ein anderes Volk …“. Populisten vs. Elite, Elite vs. Populisten. In: Merkur 72 (827), S. 5–14. Marg, S. (2014): Mitte in Deutschland. Zur Vermessung eines politischen Ortes. Bielefeld: transcript. Marg, S. et al. (2016): NoPegida. Die helle Seite der Zivilgesellschaft? Bielefeld: transcript. Marg, S. (2019): Nach Pegida – Politische Orientierungen junger Menschen. Fokusgruppen als In strument zur Deutungsmusteranalyse. In: Bögelein, N./Vetter, N. (Hrsg.): Der Deutungsmusteransatz. Einführung – Erkenntnisse – Perspektiven. Weinheim, Basel: Beltz Juventa, S. 107–127. Marx, K. (2017): Rekontextualisierung von Hate Speech als Aneignungs- und Positionierungsverfahren in Sozialen Medien. In: Aptum – Zeitschrift für Sprachkritik und Sprachkultur 13 (2), S. 132–147. Miró-Llinares, F./Moneva, A./Esteve, M. (2018): Hate is in the air! But where? Introducing an algorithm to detect hate speech in digital microenvironments. In: Crime Science 7, Art. 15 (https:// doi.org/10.1186/s40163-018-0089-1) [letzter Zugriff: 23.02.2020]. Misoch, S. (2006): Online-Kommunikation. Konstanz: Universitätsverlag. Morozov, E. (2011): The net delusion. The dark side of internet freedom. New York (NY): Public Affairs. Myers, D. (1987): „Anonymity is part of the magic“: Individual manipulation of computer-mediated communication contexts. Qualitative Sociology 10 (3), S. 251–266. Rost, K./Stahel, L./Frey, B. S. (2016): Digital Social Norm Enforcement: Online Firestorms in Social Media. In: PLoS ONE 11 (6), S. 1–26 (https://doi.org/10.1371/journal.pone.0155923) [letzter Zugriff 23.02.2020]. Scharloth, J. (2017): Hassrede und Invektivität als Gegenstand der Sprachwissenschaft und Sprachphilosophie: Bausteine zu einer Theorie des Metainvektiven. In: Aptum – Zeitschrift für Sprachkritik und Sprachkultur 13 (2), S. 116–131. Schenke, J. et al. (2018): PEGIDA-Effekte? Jugend zwischen Polarisierung und politischer Unberührtheit. Bielefeld: transcript. Schünemann, W. J./Marg, S. (2019): Der Einfluss sozialer Medien auf die Qualität demokratischer Diskurse im Bundestagswahlkampf – Ein Werkstattbericht. In: Schünemann, W. J./Kneuer, M. (Hrsg.): E-Government und Netzpolitik im europäischen Vergleich. 2. Aufl. Baden-Baden: Nomos (E-Government und die Erneuerung des öffentlichen Sektors; 19), S. 381–402. Steenbergen, M. R. et al. (2003): Measuring Political Deliberation: A Discourse Quality Index. In: Comparative European Politics 1 (1), S. 21–48. Steiner, J. et al. (2004): Deliberative Politics in Action. Analysing Parliamentary Discourse. Cambridge: Cambridge University Press. Suler, J. (2004): The Online Disinhibition Effect. In: CyberPsychology & Behavior 7 (3), S. 321–326. Thimm, C./Bürger, T. (2015): Digitale Partizipation im politischen Konflikt – ‚Wutbürger‘ online. In: Friedrichsen, M./Kohn, R. A. (Hrsg.): Digitale Politikvermittlung. Chancen und Risiken interaktiver Medien. 2. Aufl. Wiesbaden: Springer, S. 285–304. Ullrich, C. G/Schiek, D. (2014): Gruppendiskussionen in Internetforen. Zur Methodologie eines neuen qualitativen Erhebungsinstruments. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie 66, S. 459–474. Vorländer, H. (2011): Der Wutbürger – Repräsentative Demokratie und kollektive Emotionen. In: Bluhm, H./Fischer, K./Llanque, M. (Hrsg): Ideenpolitik. Geschichtliche Konstellationen und gegenwärtige Konflikte. Berlin: Oldenbourg, S. 467–478.
1 Wann kommt die Wut?
23
Wagner, E. (2019): Intimisierte Öffentlichkeiten. Pöbeleien, Shitstorms und Emotionen auf Facebook. Bielefeld: transcript. Wehner, M. (2019): CDU weist AfD Mitverantwortung zu. In: Frankfurter Allgemeine Zeitung (https://www.faz.net/aktuell/politik/inland/mord-an-luebcke-cdu-weist-afd-mitverantwortung-zu-16244655.html) [letzter Zugriff: 14.08.2019]. Zimmermann, T. (2017): Digitale Diskussionen. Über politische Partizipation mittels Online- Leserkommentaren. Bielefeld: transcript (Edition Politik; 44).
2
Soziale Medien zwischen Disruption und Synthese Eine bildungstheoretische Perspektive auf Praktiken des Codings zur Herstellung von digitalen Öffentlichkeiten Dan Verständig
Inhaltsverzeichnis 2.1 Einleitung 2.2 Bildung und Subjektivierung in einer digitalen Welt 2.3 Soziale Medien zwischen Disruption und Synthese 2.4 Fazit Literatur
26 28 35 40 41
Zusammenfassung Der Beitrag geht der Frage nach, wie sich die Komplexität von sozialen Medien zu Bildungs- und Subjektivierungsprozessen verhält. Dieser Perspektivsetzung liegt die Annahme zugrunde, dass den digitalen Technologien, die schließlich erst die sozialen Medien in ihrer Heterogenität hervorbringen, bereits Potenziale zur individuellen Herstellung und Transformation von Orientierungsrahmen eingeschrieben sind. Es soll im Schnittfeld von Medien- und Bildungstheorie diskutiert werden, wie neben einer Fragmentierung, Filterung und Selektion im Sinne der Disruption von öffentlichen Kommunikationsräumen über soziale Medien auch erst neue Erfahrungsräume in Form einer Synthese hervorgebracht werden können.
D. Verständig (*) Institut I: Bildung, Beruf und Medien, Otto-von-Guericke-Universität Magdeburg, Magdeburg, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_2
25
26
D. Verständig Schlüsselwörter
Medienbildung · Subjektivierung · Soziale Medien · Digitalität · Coding · Artikulation · Digitale Öffentlichkeiten
2.1
Einleitung
Soziale Medien sind von einer hohen Ambivalenz geprägt. Einerseits machen sie es uns heute erstaunlich leicht, uns mitzuteilen, persönliche Eindrücke sowie Erfahrungen mit anderen Menschen zu teilen. Andererseits zeichnen sie ein komplexes Bild von Prozessen der sozialen Aushandlung, Konfrontation durch Gegen- oder sogar Hass Rede und beeinflussen damit die individuelle Positionierung der Einzelnen in der Welt. Betrachtet man dies vor dem Hintergrund der Kommerzialisierungslinien des Netzes, dann werden Prozesse der sozialen Interaktion eben nicht nur im Kontext der Meinungsbildung oder demokratisierender Potenziale diskutierbar, sondern müssen vielmehr auch im Zusammenhang von Sichtbarkeitsmetriken und Marktpositionierungen der jeweiligen Dienstanbieter im Sinne eines „surveillance capitalism“ (Zuboff 2019) diskutiert werden. Für die Fragen der Bildung sind derartige Verflechtungen jedoch nach wie vor von gesteigerter Bedeutung, da hierüber nicht nur bildungstheoretische Aktualisierungsbestrebungen unter den Bedingungen des Digitalen erfolgen können, sondern durch die sozialen Medien und die zugrunde liegenden digitalen Technologien auch empirische Untersuchungen zu Lern- und Bildungsprozessen ermöglicht werden. Mit ‚Bildung‘ ist dabei nicht die zielorientierte Ausbildung, berufliche Qualifikation oder ein Ergebnis gemeint. Der hier verwendete Bildungsbegriff zielt auf ein Prozessgeschehen ab, „in welchem vorhandene Strukturen und Muster der Weltaufordnung durch komplexere Sichtweisen auf Welt und Selbst ersetzt werden“ (Jörissen 2014, S. 100, mit Bezug auf Marotzki 1990). Bildungsprozesse können somit auch als Prozesse der Teilhabe an deliberativen Öffentlichkeiten verstanden werden, da die Haltung zur Welt und zu sich selbst im Zusammenhang mit sozialen Positionierungen und Aushandlungsprozessen steht. Damit lässt sich Bildung als eine komplexe Form des Lernens beschreiben und von weniger reflexiven Formen abgrenzen: Während Lernen auf die Herstellung von Wissen, also die Herstellung von Bestimmtheit in Bezug auf Welt und Selbst abzielt, sind Bildungsprozesse durch Kontextualisierung, Flexibilisierung, Dezentrierung, Pluralisierung von Wissen- und Erfahrungsmustern, also durch die Eröffnung von Unbestimmtheitsräumen gekennzeichnet. (Jörissen 2014, S. 100, Hervorhebung im Original)
Digitale Öffentlichkeiten stellen damit einen zeitgemäßen Gegenstand dar, wenn man danach fragt, wie sich derartige Aushandlungs- und Positionierungsprozesse vollziehen, da sie einerseits einen empirischen Zugang ermöglichen und sich andererseits schon allein
2 Soziale Medien zwischen Disruption und Synthese
27
durch ihren Produktionsprozess grundlegend von den Mechanismen der klassischen Massenmedien wie Film, Fernsehen oder Print unterscheiden und damit neues Erkenntnispotenzial für die Fragen der Bildung bereithalten (vgl. Münker 2013, S. 249). Der Beitrag geht daher am Beispiel von Twitter der Frage nach, wie sich die Komplexität von digitalen Öffentlichkeiten zu Bildungs- und Subjektivierungsprozessen verhält. Betrachtet werden dabei aus strukturtheoretischer Perspektive unterschiedliche Möglichkeiten und Praktiken zur Herstellung von digitalen Öffentlichkeiten und zur Einwirkung auf diese über das Microblogging-Netzwerk Twitter.1 Dieser Perspektivsetzung liegt die Annahme zugrunde, dass den digitalen Technologien, die schließlich erst die sozialen Medien in ihrer Heterogenität hervorbringen, bereits Potenziale zur individuellen Herstellung von Orientierungsrahmen eingeschrieben sind, indem durch die sozialen Praktiken mit dem Dienst mediale Artikulation vollzogen wird, die zur Herausbildung und Transformation von Selbst- und Weltsichten führen kann, wenngleich man sich dem Geschäftsmodell des Unternehmens unterwirft. Die Ermächtigung erfolgt also mit der Unterwerfung. Es soll im Schnittfeld von Medien- und Bildungstheorie diskutiert werden, wie neben einer algorithmischen Filterung und Selektion im Sinne der Disruption von öffentlichen Kommunikationsräumen über soziale Medien auch erst neue Erfahrungsräume durch Eingriffe in den Code hervorgebracht werden können und sich dementsprechend soziale Formgefüge transformieren können, was im Sinne einer Synthese schließlich neue soziale und diskursive Räume hervorbringen kann. Die sich daraus entwickelnde Komplexität für die Herstellung von Orientierungsrahmen ergibt sich nicht zuletzt aus den digitalen Architekturen selbst, denn erst durch Algorithmen werden die Daten um uns herum erstellt und verarbeitet und dann schließlich individuell präsentiert, kurzum: Ohne Algorithmen wären wir blind (Stalder 2016, S. 13). Gleichzeitig entstehen auf Basis der Daten wieder neue Algorithmen, die in einer ständigen Spirale neue Erkenntnisse über uns und die Welt hervorbringen sollen. Dementsprechend ist dieser Beitrag wie folgt geliefert: Es soll zunächst darum gehen, Subjektivierungsweisen im Zusammenhang von Bildung zu diskutieren. Hieraus ergeben sich einige Herausforderungen für die Konzeption des Subjektbegriffs vor dem Hintergrund von Bildung, da er als „Chiffre für freiheitliches Fühlen, Denken, Wollen und Handeln, selbständige Entscheidungen“, „für Widerständigkeit, Selbstbewusstheit und die weitgehend selbstbestimmte Verfügung über Lebensaktivitäten“ steht (Meueler 1993, S. 8). Ausgehend davon wird in einem nächsten Schritt auf das Verhältnis von Filterblasen Die 2006 gegründete und ursprünglich für mobile Endgeräte entwickelte Micro Blogging-Plattform ermöglicht es den Nutzenden, inzwischen über 280 Zeichen kurze Statusnachrichten (Tweets) zu veröffentlichen. Twitter zeichnet sich darüber hinaus jedoch durch die vom Unternehmen angebotene Programmierschnittstelle (API) aus. Man kann Daten abfragen, auf dem eigenen Server verarbeiten und damit nicht nur Anschlusskommunikation herstellen, sondern im Zusammenspiel mit der Technologie erst neue Räume, beispielsweise durch die Programmierung von Social Bots oder anderen Skripten, hervorbringen. Die Programmierschnittstelle ist auch einer der Gründe, weshalb der Micro Blogging-Dienst eine hohe Beliebtheit in jüngeren Forschungsbestrebungen unterschiedlicher Fachdisziplinen genießt (vgl. hierzu ausführlich Weller et al. 2013). 1
28
D. Verständig
und Echokammern im Zusammenhang der Sozialen Medien fokussiert, um so die ambivalente Struktur von Disruption und Synthese hervorheben zu können, die dann schließlich in der Diskussion um die spezifischen Subjektivierungsweisen und Bildungspotenziale mündet. Es geht in einer solchen Perspektivsetzung also weniger um die sich inhaltlich abzeichnenden Diskursformationen als vielmehr um die sozialen Praktiken, die sich in dem komplexen Verhältnis von Prozessen der sozialen Positionierung und den jeweiligen Technologien festmachen lassen. Auch in Anlehnung an Foucault (1981) lassen sich Diskurse eben nicht bloß als das Sprechen über Dinge charakterisieren, sondern eher als Praktiken, die systematisch die Gegenstände hervorbringen, von denen sie sprechen. Daher ist Code ein integraler Bestandteil bei der Betrachtung von digitalen Öffentlichkeiten (vgl. Münker 2009). Die besondere Qualität ergibt sich daraus, dass es damit möglich wird, bisher für den Menschen reservierte Kulturtechniken zu automatisieren (vgl. Stalder 2016, S. 174 f.). Dies kann durch die programmierte Komposition von Texten unterschiedlicher Art, die Rekonfiguration von medialen Artefakten oder eben die Herstellung von Öffentlichkeiten über Meme-, Remix- oder Mashup-Kulturen geschehen. Das kann aber auch durch die Entwicklung eigener Softwarelösungen zur Einwirkung auf vorherrschende Diskurse über Praktiken des Codings und der politisch-ästhetischen Artikulation mit und durch Code stattfinden (vgl. Kelty 2008; Cox und McLean 2013; Brunton und Coleman 2014; Crawford 2016; Jörissen und Verständig 2017).
2.2
Bildung und Subjektivierung in einer digitalen Welt
Versteht man Bildung unter den Bedingungen des Digitalen nicht bloß als instrumentellen und politisch-administrativen Gestaltungsauftrag, sondern als tief greifenden historisch- kulturellen Entwicklungsprozess, dann werden einige Umbrüche auf ökonomischer, sozialer und individueller Ebene deutlich, die auf eine längere Vorgeschichte verweisen und die vermeintliche digitale Revolution – ungeachtet der neuen Qualität in den Ausprägungen und Möglichkeitsräumen – zumindest relativieren und damit zur Reflexion über die aktuellen Entwicklungen um Lern- und Bildungsprozesse einladen (vgl. Hansmann und Marotzki 1989; Jörissen und Marotzki 2009; Schäfer 2011; Verständig et al. 2016). Die Auseinandersetzungen ergeben sich aus der Notwendigkeit zur Legitimation des Bildungsbegriffs selbst, denn wenn Bildung als Entwurf Bestand haben kann, dann gilt es, die gegenwärtigen gesellschaftlichen Rahmenbedingungen in den Blick zu nehmen. Bildung wird damit nicht nur auf das Subjekt allein zentriert diskutiert, sondern fokussiert das wechselseitige Hervorbringen von Subjekten und Objekten gleichermaßen, indem der Zusammenhang zu zeitgenössischen gesellschaftlichen Strukturen hergestellt wird. Damit erfährt der Bildungsbegriff eine starke Aufladung, denn wenn er den Modus von Selbstund Weltreferenz beschreibt, dann beinhaltet dieser Sachverhalt auch „ein mögliches gegenwärtiges Selbst- und Weltverständnis sowohl aus dem Horizont der Zukunft als auch aus dem der Vergangenheit“ (Hansmann und Marotzki 1989, S. 8). Bildung schließt dann
2 Soziale Medien zwischen Disruption und Synthese
29
neben den Erwartungshaltungen des Individuums auch Momente der Selbstvergewisserung und Sinnkonstruktion ein. Erst dadurch erhält die reflexive Auseinandersetzung mit einer Konzeption von Bildung, wie sie im Sinne der Bildungstheorie adressiert wird, nicht nur eine legitimierende, sondern zugleich eine orientierende Funktion. Eine Entwicklung, die den gegenwärtigen Rahmenbedingungen Rechnung trägt, ist die Hinwendung zu Konzeptionen von Medienbildung (vgl. Aufenanger 1999; Marotzki 2004; Jörissen und Marotzki 2009; Spanhel 2010; Jörissen 2014; Verständig et al. 2016). Die recht griffige Begriffskomposition vereint verschiedene Grundkonzepte und wird von unterschiedlichen Akteuren mit jeweils spezifischen Vorannahmen entwickelt, um so die Konturierung von Bildung in einer medial durchdrungenen Welt zu vollziehen (vgl. Jörissen 2011). Für die hier vorliegende Betrachtung des Verhältnisses von Disruption und Synthese im Zusammenhang von sozialen Medien scheint die Konzeption der Strukturalen Medienbildung einen geeigneten Ausgangspunkt darzustellen, um die komplexen Verflechtungen zwischen Mensch und Maschine auch in ihren performativen Ausprägungen analytisch erfassbar zu machen. Für eine solche Konzeption von Medienbildung ist der Umstand maßgebend, dass „erstens Artikulationen von Medialität nicht zu trennen sind, und dass zweitens mediale Räume zunehmend Orte sozialer Begegnung darstellen“ (Jörissen und Marotzki 2009, S. 39). Dementsprechend nehmen „mediale soziale Arenen“ eine immer größere Bedeutung für „Bildungs- und Subjektivierungsprozesse“ ein (ebd.). Ausgehend davon geht es aus einer solchen Perspektive auf Medienbildung darum, die „re flexiven Potenziale von medialen Räumen einerseits und medialen Artikulationen andererseits“ (ebd.) im Hinblick auf die Orientierungsdimensionen Wissens-, Handlungs-, Grenz- und Biografiebezug (in Anlehnung an Kant) analytisch zu erkennen und ihren Bildungswert einzuschätzen. Damit weist die Konzeption von Medienbildung eine im engeren Sinne bildungstheoretische Rahmung auf, bei der erst die Transformation des Selbstund Weltverhältnisses als Bildungsprozess gefasst werden kann. Während man sich durch stabile Routinen Referenzrahmen der Orientierung aufbaut, sind es meist Krisen oder Irritationen, die als Anlass dienen können, bestehende Orientierungsrahmen grundlegend infrage zu stellen, und damit das Potenzial haben, diese und damit schließlich das Selbstund Weltverhältnis zu transformieren. Dementsprechend argumentieren Jörissen und Marotzki (2009) auch mit grundlegenden Orientierungskrisen der Moderne oder Spätmoderne, um die Konzeption von Bildung ins Verhältnis zu einer medial durchzogenen Welt zu setzen. Die Analyse der medialen Formbestimmtheiten mündet im Sinne der zugrunde gelegten Bildungstheorie „in eine Analyse der strukturalen Bedingungen von Reflexivierungsprozessen“ (ebd., S. 40, Hervorhebung im Original). Die Autoren verdeutlichen entlang unterschiedlicher visueller, audiovisueller und multimedialer Medienphänomene, wie Medienbildung in einer solchen Konzeption darauf abzielt, „Bildungsgehalte und implizite Bildungschancen von Medien über die strukturanalytische Thematisierung von Medienprodukten und medialen sozialen Arenen zu erschließen“ (ebd.). Am Beispiel des Films können so Krisenmomente und Grenzerfahrungen sichtbar gemacht werden, ohne dass man sie selbst durchleben müsste. Damit liegen im Medium Film grundsätzliche
30
D. Verständig
Reflexionspotenziale, wenngleich sie je nach Produktion von unterschiedlichem Bildungswert und im Einzelfall zu beurteilen wären. Was für die Handschrift des Filmemachers oder die Medienproduktion in all ihren Facetten gilt, kann strukturanalytisch grundlegend auch auf das Internet angewendet werden. In Hinblick auf die digital vernetzten Technologien wird demgegenüber die Emergenz sozialer Aushandlungen unter anderem im Rahmen von Meinungsbildungs- und Kollaborationsprozessen thematisiert, die das Individuum im medialen Wechselverhältnis von medialen Strukturen, Sozialität und Kulturalität verortet. Medien sind dabei nicht als einzelne losgelöste Artefakte zu sehen, da sich das Zusammenspiel von Subjekt und Medium erst im Rahmen komplexer soziokultureller Gefüge hinreichend betrachten lässt, sondern werden im Sinne der Medialität gefasst (vgl. Mersch 2002; Jörissen 2014). Durch eine strukturanalytische Perspektive lassen sich unterschiedliche Modi von Reflexionspotenzialen empirisch herausarbeiten; zudem lassen sich lebensweltliche Sinndeutungsmomente dieser Reflexionspotenziale finden, die besonders hinsichtlich einer zeitdiagnostischen Betrachtung von gesteigerter Bedeutung sind, da hierüber analytisch differenzierbar herausgearbeitet werden kann, wie sich Formen der Subjektivierung abzeichnen. Digitale Öffentlichkeiten sind damit in zweifacher Weise für die Betrachtung von Bildungs- und Subjektivierungsprozessen interessant, denn sie gehen einerseits erst aus komplexen und partizipativen Aushandlungsprozessen der beteiligten Akteure hervor – unabhängig von der öffentlichkeitsgenerativen Funktion der Medien allgemein sind die sozialen Medien gerade dadurch charakterisiert, dass sie erst im Gebrauch zur vollen Entfaltung kommen. Andererseits sind sie damit von einer spezifischen Performativität geprägt, die sich wiederum auf die spezifischen Subjektivierungsweisen auswirkt. Unter Rückbezug auf Münker (2009) gilt es an dieser Stelle festzuhalten, dass die sozialen Medien eben nicht zwischen den partikularen und voneinander getrennten Sphären des Netzes vermitteln, sondern sie vermischen diese, wie entlang der Grenzverschiebung von politischen Öffentlichkeiten und Gegenöffentlichkeiten oder der Nivellierung der epistemologischen Differenz der Kategorien des Laien und des Experten entlang der kollaborativen Wissensproduktion bei Wikipedia gezeigt werden kann (vgl. ebd., S. 113 f.). Mit der so beschriebenen Rollenverschiebung soll aber keineswegs unterstellt werden, dass die Wikipedia ein herrschaftsfreier Raum sei. Verschiedene Studien haben einschlägig gezeigt, dass die sozialen Aushandlungen von massiven Konflikten und Exklusionsmechanismen geprägt sind (vgl. Pentzold 2007; Koenig 2011; Holze 2017a, b.) Dabei ist es insbesondere im Hinblick auf die digitalen Technologien von gesteigerter Bedeutung, darauf hinzuweisen, dass aus den sozialen Medien – trotz ihrer hohen Optionalität – nicht willkürlich alles hervorgehen kann, sondern bestimmte Möglichkeiten der Artikulation fest eingeschrieben sind und andere wiederum nicht. Dies hat zur Folge, dass die Auseinandersetzung mit den jeweiligen medialen Formen und Formaten ebenfalls zu jeweils spezifischen Weisen der Subjektivierung beiträgt. Nach Jörissen (2014) können mediale Artikulationen „als Subjektivierungspraktiken verstanden werden, die in eine mediale Struktur der Visualität eingebettet sind“ (ebd., S. 114 f.). Damit ist gemeint, den
2 Soziale Medien zwischen Disruption und Synthese
31
Prozess „des Artikulierens (als Selbstpraktik) und das je dabei Artikulierte (als diskursiv- symbolisches Moment) als zwei Seiten von Artikulation zu betrachten, die insofern analytisch unterscheidbar sind, jedoch auch miteinander in Verbindung stehen“ (ebd.)). Sichtbarkeiten sind zwar längst nicht nur für soziale Begegnungen in medialen Räumen von integraler Bedeutung, dort jedoch aufgrund ihrer doppelten Bedingtheit von Prozess und Manifestation von besonderer Qualität. Vor dem Hintergrund von Sichtbarkeitsmetriken und Mechanismen der Affirmation, wie man sie bei den sozialen Medien vorfindet, sind neben der Problematik von Subjektivierung auch anerkennungstheoretische Fragen gebunden, die sogleich auf eine höhere Ebene der Orientierungsleistung verweisen, schließlich ist die Suche nach Aufmerksamkeit und Sichtbarkeit ein typisches Phänomen im Social Web und zugleich ein ständiger Prozess der Aushandlung. Nicht zuletzt deshalb ist heute der „Voice Divide“ (Klein 2004; vgl. Iske et al. 2016), also die Frage danach, wer sich wie Gehör verschaffen kann, wichtiger denn je. Schließlich ist die individuelle Verortung in den sozialen Räumen keineswegs bloß eine Frage der jeweiligen Nutzungsgewohnheiten und der individuellen Präferenzen, sondern vielmehr das Ergebnis „komplexer ressourcenabhängiger relativer Positionierungen im sozialen Raum“ (Kutscher und Otto 2014, S. 293). Sich zu sehen geben, heißt gleichermaßen auch, sich dem Gesehen Werden hinzugeben und sich damit den technologischen, aber auch sozialen Rahmenbedingungen zu unterwerfen. Daher genügt es auch nicht, sich einer Konzeption von Bildung allein aus instrumentell-qualifikatorischer Perspektive zu nähern, da hierbei die performativen Prozesslogiken der medialen Artikulation und Selbstvergewisserungen ausgeblendet werden und so eine Sichtbarmachung von impliziten Machtstrukturen nur bedingt ermöglicht werden kann. Dahin gehend argumentieren auch Brunton und Coleman (2014), wenn sie sich den Praktiken und Aushandlungsprozessen zuwenden, die „closer to the metal“ beispielsweise bei Systemadministratoren stattfinden (vgl. ebd., S. 77). Eine Sichtbarmachung dieser Prozesse ist jedoch nicht nur für die zugestanden recht eingeschränkte Gruppe von Admins von Bedeutung. Fokussiert man die sozialen Aushandlungsprozesse innerhalb der jeweiligen Sphären und sozialen Arenen, ohne dabei die technologischen Rahmenbedingungen allein in den Mittelpunkt zu stellen, sondern indem man vielmehr auf die Praktiken der sozialen Aushandlung und Positionierung im Feld abzielt, dann gilt dies für einen wesentlichen weiteren Kreis von Akteuren, wie auch Crawford verdeutlicht: By looking beyond algorithms as fetishized objects, we can account for a wider range of actors: be it developers in cubicle farms, Twitter bots, Amazon book buyers, 4channers and Redditors. And we can also look to the ways people reverse engineer algorithms, acting in direct contestation, where the troll, the artist and the hacker become key players in an agonistic system. (Crawford 2016, S. 90)
Dies ist für die Betrachtung von Reflexionsangeboten in einer bildungstheoretischen Perspektive von zentraler Bedeutung, da Grenzziehung durch digitale Technologien eben nicht per se die Einschränkung von Handlungsoptionen heißen muss, sondern gleichzeitig dazu auffordert, die gewohnten Handlungsweisen und Routinen zu überdenken und damit
32
D. Verständig
den eigenen Handlungsspielraum durch die Veränderung von Routinen zu erweitern. Es reicht demnach nicht, die den digitalen Technologien eingeschriebenen Reflexionsangebote in einer rein instrumentell-qualifikatorischen Perspektive zu betrachten, da der Blick einem Produktivitätsparadigma folgend zwangsläufig auf die intendierte Nutzung abstellt und bestenfalls nicht-intendierte Nebeneffekte erkennen lässt, jedoch nicht explizit nach den komplexen sozialen und kulturellen Verflechtungen von Technologien und Mensch fragt. Allert und Asmussen (2017) bringen dies insofern auf den Punkt, als dass sie auf das komplexe und komplizierte Verhältnis im Spiel mit den digitalen Technologien hindeuten: Mit komplexen Algorithmen müssen wir die Vorstellung, dass digitale Objekte in unseren Aktivitäten ein Gegenüber darstellen, zu dem wir uns autonom verhalten und das wir bestimmen können, praktisch aufgeben. Algorithmen wirken in unsere Aktivitäten und mischen sich in unsere Beziehungen, aber wir können uns in vielen alltäglichen Fällen weder vollständig über sie informieren noch ihren Einfluss auf unsere Tätigkeiten abschätzen. Das Verhältnis von Technologie und Mensch ist durch Unbestimmtheit gekennzeichnet. (Allert und Asmussen 2017, S. 34)
Mit dem Begriff der Unbestimmtheit wird unter anderem auf die von Marotzki (1990, 1991) entwickelte Figuration von Bildung hingedeutet, die eben nicht nur die Überführung von Unbestimmtheit zu Bestimmtheit zum Kern hat, wie sie noch bei Herbart gedacht ist, sondern beim Aufbau von Orientierungswissen vielmehr auch Unbestimmtheitsbereiche ermöglichen müsse (vgl. Marotzki 1991, S. 86). Es handelt sich dabei um eine dialektische Struktur, bei der die Herstellung von Bestimmtheit auch Unbestimmtheitsbereiche ermöglichen und eröffnen müsse (Marotzki 1990, S. 153). Hieraus erwächst die besondere Qualität des zugrunde gelegten Bildungsbegriffs: Bildung bringt Unbestimmtheitsdimensionen zur Geltung; das macht gerade den offenen, experimentellen und suchenden Charakter aus. Intakte Routinen der Selbst- und Weltauslegung werden gerade in Bildungsprozessen außer Kraft gesetzt; sie werden würdig, befragt zu werden, also fragwürdig. (Ebd., S. 153)
Nach Marotzki ist die Dialektik von Bestimmtheit und Unbestimmtheit, welche die Matrix des Bildungsbegriffs darstellt, zugleich auch eine Dialektik von Ordnung und Unordnung (Marotzki 1990, S. 153). Dieser Aspekt ist mit Blick auf das hier im Fokus stehende Verhältnis von Disruption und Synthese der sozialen Medien von gesteigerter Bedeutung, da erst die Infragestellung von Ordnungen und die damit verbundene Dekonstruktion von Ordnungsschemata und Routinen zu neuen Einsichten und womöglich einer Transformation des Selbst- und Weltverhältnisses führen können. Bildung als der Prozess der Herstellung eines Welt- und Selbstverhältnisses sei demnach ein „suchendes Sichverhalten“ und „beinhaltet im Kern […] Prozesse tentativer Wirklichkeitsauslegung“ (ebd., S. 154). Hieran lässt sich die doppelte Differenz des dargelegten Bildungsverständnisses hervorheben, da die disruptiven Momente, die sich in Form des Neuen, Unbekannten und damit auch des Fremden eröffnen, gleichsam die Hervorbringung neuer Sinndeutungsmomente im Sinne emergenter Reflexivierungsprozesse ermöglichen. Die
2 Soziale Medien zwischen Disruption und Synthese
33
Ubiquität der digitalen Technologien lässt die Herstellung von Ordnung und die Etablierung von Routinen mehr und mehr zu einem Umgang mit Unbestimmtheiten avancieren, da sich die Wirkweisen von Algorithmen, vernetzten Architekturen und komplexen Softwaresystemen nicht selten den handelnden Akteuren und damit auch der Öffentlichkeit entziehen (vgl. Pasquale 2015). Gleichzeitig kann mit Zuboff (2019) auch unterstellt werden, dass es den Unternehmen herzlich egal ist, wie sich derartige Suchbewegungen zwischen dem Bekannten und Unbekannten abzeichnen: Instrumentarianism’s radical indifference is operationalized in Big Other’s dehumanized me thods of evaluation that produce equivalence without equality. These methods reduce individuals to the lowest common denominator of sameness – an organism among organisms – despite all the vital ways in which we are not the same. (Zuboff 2019, S. 354)
‚Radikale Indifferenz‘ meint in diesem Zusammenhang, dass es schließlich egal ist, was in den Social Streams passiert, solange Informationen fließen. Damit wird eine Perspektive auf die sozialen Medien gelegt, welche die dahinterstehenden Unternehmen als holistisches System versteht, welches die von Menschen abgeschöpften persönlichen Daten dazu benutzt, Informationen über Verhaltensweisen zu sammeln, diese zu analysieren und für marktökonomische Entscheidungsfindungen aufzubereiten. Damit werden nicht nur Gewohnheiten der Menschen adressiert, manipuliert oder ausgewertet, es verändern sich gleichzeitig auch die digitalen Architekturen, die diesem System zugrunde liegen, immer weiter. Mit Chun (2016) lässt sich ein für die hier diskutierte Herstellung von Orientierung in einer digitalen Welt zentraler Aspekt hervorheben, der sowohl das Individuum berücksichtigt als auch gesellschaftliche Rahmenbedingungen einholt. Krisen durchbrechen den kontinuierlichen Informationsfluss, der das zeitliche und vorübergehend Wertvolle von der Banalität des Alltäglichen differenziert, um den Nutzern ein Gefühl von Echtzeitverantwortung und Empowerment zu vermitteln. Diese Logik der Krise hängt jedoch von zwei Faktoren ab, die diesem Prinzip zunächst diametral gegenüberzustehen scheinen: Code und Gewohnheiten; beides Mechanismen bzw. Prozesse, die die Zukunft auf die Vergangenheit reduzieren oder, genauer gesagt, eine verstrichene Antizipation der Zukunft darstellen. Für Chun geht es hierbei um die Routinen des Handelns und die indirekten Auswirkungen von Code auf die Herstellung von Orientierung, die immer auch im Zusammenhang von Krisen zu denken sind, wie unter Rückbezug auf Doane (1990) herausgearbeitet wird: This twinning of crisis and code/habit has not diminished crises, but rather proliferated them through an unending series of decisions and unforeseen consequences that undermine the agency they promise. From financial crises linked to complex software programs to diagnoses and predictions of global climate change that depend on the use of supercomputers, from undetected computer viruses to bombings at securitized airports, we are increasingly called on both to trust coded systems and to prepare for events that elude them. (Chun 2016, S. 70)
Diese Ambivalenz, die sich aus der Haltung zu Code beschreiben lässt, ist gewissermaßen kongruent zu den tentativen Suchbewegungen des Menschen, die sich in der dialektischen Figur von Bestimmtheit und Unbestimmtheit beschreiben lassen und sich
34
D. Verständig
gleichzeitig auf die Idee der Freiheit und Selbstverwirklichung und damit die Subjektkonstitution auswirken. Interessant ist jedoch auch, dass Chun die Logik der sozialen Medien dahingehend beschreibt, dass hier die Suche nach dem ‚Neuen‘ ein zentrales Muster der vernetzten Medien ist. Auf der Suche nach dem Neuen produzieren die Netzwerke Krisenmomente, die uns dazu auffordern, unsere bekannten Routinen zu hinterfragen: [C]rises cut through the constant stream of information, differentiating the temporally and temporarily valuable from the mundane, offering its user a taste of real-time responsibility and empowerment. (ebd., S. 70)
Chuns Formel hierfür lautet „habit + crisis = update“ (ebd., S. 85). Krisen lassen sich als Anlässe zur Befragung bestehender Handlungsvollzüge und Muster beschreiben. Indem Krisen provoziert werden, werden mehr und mehr auch Momente der Destabilisation von vermeintlich stabilen Rahmenbedingungen sichtbar. Die Ambivalenz der digitalen Technologien hat damit direkte Auswirkungen auf die Art, wie sich die Menschen die Welt um sich herum schaffen und wie sie für sich Plausibilitäten herstellen, um Handlungssicherheit in einer potenziell unsicheren Umgebung zu gewinnen. Das Durchkreuzen von Ordnungsmustern wird dann relevant, wenn Technologien sich in alltägliche Handlungsvollzüge und damit in Abhängigkeit zu habituellen Ausprägungen einschreiben. Hierdurch verschiebt Chun ihren Fokus vom Instantanen und dem Neuen der sozialen Medien hin zu repetitiven Handlungen, die sich in ihrer Kontinuität zu erkennbaren Praktiken des Alltags formieren. Somit entziehen sie sich zugleich dem Bewusstsein. Die Informationen sind damit von einer paradoxalen Struktur des Speicherns und Löschens geprägt, denen etwas ‚Untotes‘ anhaftet. Individuelle Entscheidungen sind damit niemals festgeschrieben. Sie können gewissermaßen überschrieben werden. Daraus entwickelt sich ein komplexes Verhältnis zwischen Momenten des Empowerments, der inneren Aushandlung von Werten und der Entscheidung des Unentscheidbaren: Repetition is not simply exhaustion: not simply repetition of the same that uses up its object or subject. What can emerge positively from the linking of crises to networks – what must emerge from it, if we are not to exhaust our resources and ourselves – are constant ethical encounters between the self and other. These moments can call forth a new future, a way to exhaust exhaustion, even as they complicate the deconstructive promise of responsibility by threatening a present of affectively draining, yet sustaining crises. Undecidable and undead indeed. (ebd., S. 90)
Mit dieser medientheoretischen Position entwickelt Chun nicht nur eine sehr aufschlussreiche Perspektive auf die impliziten Prozesse sozialer Aushandlung, sie entwirft damit auch einen Rahmen, der hochgradig anschlussfähig an die hier dargelegte bildungstheoretische Perspektive ist, indem die tentativen Bewegungen des Individuums zwischen Bestimmtheit und Unbestimmtheit als Kontingenzerfahrungen und dementsprechend auch als Reflexionsangebote verstanden werden können, die zwischen Involvement und Distanzierung aufgespannt sind. Informationen zu speichern und zu aktualisieren, kann dann mit dem Prozess der Erinnerung, der wiederholbaren Infragestellung bisher etablierter Orientierungsmuster beschrieben werden, die dann schließlich aktualisiert und überschrieben werden können.
2 Soziale Medien zwischen Disruption und Synthese
2.3
35
Soziale Medien zwischen Disruption und Synthese
Die sozialen Medien stehen spätestens seit der Publikation der provokanten Thesen von Eli Pariser über Filterblasen (Pariser 2011) unter dem Verdacht, die eigenen Ansichten der Nutzer oder jene mit höchstmöglichen Kongruenzen zu reproduzieren, um die kognitiven Dissonanzen so gering wie möglich zu halten und so möglichst zu einer positiven Nutzungserfahrung beizutragen. Eine (algorithmische) Selektion auf Basis der Nutzergewohnheiten hat die Exklusion von Meinungsvielfalt zur Folge und bestätigt eigene Ansichten, was dann wiederum zur verstärkten Partizipation führt, da man das Gefühl der Bestätigung erfährt. Ein derartiges Prinzip ist aus einer kommunikationswissenschaftlichen Historie heraus gesehen nichts Neues. Schon in den 1970er-Jahren wurde ein solches Prinzip von Noelle-Neumann ausführlich vor dem Hintergrund der Theoriebildung zur öffentlichen Meinung im Hinblick auf die massenmedialen Strukturen des Fernsehens diskutiert und als Theorie der Schweigespirale in den noch heute von Aktualität geprägten Diskurs eingeführt (vgl. Noelle-Neumann 1976, 1977, 1980). Demnach hängt die Bereitschaft, öffentlich politische und gesellschaftliche Positionen zu äußern, von der persönlichen Einschätzung ab, ob diese Positionen der Mehrheitsmeinung entsprechen. Sehe ein Individuum, dass seine Meinung kaum geteilt wird oder geringe affirmative Resonanz bekommt, verfalle es in Schweigen. Im umgekehrten Fall der Bestätigung gerate es in eine „Redespirale“ (Noelle-Neumann 2001). Nach Lamp (2008) erhält dieser Prozess seine Dynamik durch „die mit dem Reden (Zeigen) und Schweigen (Verbergen) verbundene Missbilligung“ (ebd., S. 205). Begründet wird dies dadurch, dass die meisten Menschen soziale Isolation fürchten (Noelle-Neumann 2001, S. 96 ff.). Wenngleich das Konzept der Schweigespirale auch kritisch gelesen werden kann, da es beispielsweise keine solide empirische Untersuchung zu den Schweigenden unter den Bedingungen der Massenmedien gibt, lässt sich die theoretische Konzeption in ihren Grundannahmen und phänomenologischen Ausprägungen auch auf die sozialen Medien im Zusammenhang von Forschungsarbeiten zu Echokammern anwenden (vgl. O’Hara 2014; Yardi und Boyd 2010). Für eine bildungstheoretische Betrachtung ist diese Dynamik zwischen Zugehörigkeit und Isolation insofern relevant, als hier jene Momente der Bestimmtheit gegenüber den Momenten der Unbestimmtheit verortet, algorithmisch berechnet und auf Basis der Nutzungsgewohnheiten eben ähnliche Ansichten herausgestellt werden. Aus medientheoretischer Sicht ist dies insofern von Bedeutung, als mit den sozialen Medien eine gestalterisch- partizipative Dimension einhergeht, die für ‚das Soziale‘ konstitutiv ist (vgl. Münker 2009). Parisers provokante Thesen, verpackt in anekdotische Erzählungen, haben einige Forschungsbestrebungen um die Existenz, die Wirkweise und den Einfluss von Filterblasen, aber auch Echokammern auf die individuelle Wahrnehmung von Welt ausgelöst. Neben einigen grundlegenden Arbeiten, die sich dieser Problematik unter Berücksichtigung der Herausbildung von spezifischen Diskursen kritisch zuwenden (Dubois und Blank 2018; Hampton et al. 2014; Fletcher und Nielsen 2017; Bruns 2019), fokussieren andere Studien auf konkrete soziale Schauplätze wie Facebook (Anspach 2017; Bessi 2016; Quattrociocchi et al. 2016) oder Twitter (Marwick und Boyd 2011; Barberá et al. 2015; Garimella et al. 2018), um Phänomene der politischen Kommunikation und einer algorithmisch be-
36
D. Verständig
einflussten Meinungsbildung zu untersuchen. Nicht nur dass über die Vielzahl der Studien auch empirisch versucht worden ist, die Thesen Parisers zu verifizieren oder zu widerlegen; verschiedene Arbeiten deuten auch darauf hin, dass die Konzepte von Filterblasen und Echokammern selbst sehr schwierig zu konturieren sind und zugleich im Zusammenspiel der verschiedenen und sich selbst verändernden Medienformen zu einer erhöhten Komplexität beitragen, die es eben nicht nur auf rein technische Phänomene zu reduzieren gilt (vgl. Bruns 2019, S. 104). Fletcher und Nielsen (2017) untersuchen in ihrer vergleichenden Studie ausgehend von einem publikumszentrierten Ansatz, der die Mediennutzung einerseits und strukturelle Aspekte andererseits einbezieht, daher nicht nur unterschiedliche nationale Kontexte, sondern auch verschiedene Plattformen. Auch Marwick und Boyd (2011) legen ihren Fokus auf die Generierung von Publika und die Ansprache an die (imaginierten) Publika auf Twitter, wobei sie unter anderem schließlich Praktiken der Selbstzensur, der Balance zwischen Erwartungen und Authentizität beschreiben. Diese Praktiken können als Formen der Subjektivierung verstanden werden, da sich hieran – auch strukturell bedingt – bestimmte Modi des Sich-Verhaltens festmachen lassen: Individuals learn how to manage tensions between public and private, insider and outsider, and frontstage and backstage performances. They learn how practices of micro-celebrity can be used to maintain audience interest. But Twitter makes some intrinsic conflicts visible. (Marwick und Boyd 2011, S. 130)
Die Sichtbarmachung innerer Aushandlungsprozesse wird meist entlang von Anschlusskommunikation an die technologischen Rahmenbedingungen untersucht, indem danach gefragt wird, wie sich die Nutzenden als Akteure im Diskursfeld verhalten. Eine an die verschiedenen Untersuchungen anschließende Frage ist die nach den Möglichkeiten zur algorithmischen Unterstützung von Pluralität und Diversität der Informationsangebote. Gillespie (2016) untersucht, wie Trending-Algorithmen, auch über soziale Medien hinaus, selbst zu kulturellen Objekten werden, indem sie in unser Denken über Kultur und die daraus hervorgehenden Öffentlichkeiten, an die sie gerichtet sind, einfließen und sowohl für das, was sie tun, als auch für das, was sie enthüllen, infrage gestellt werden. Trending-Algorithmen haben damit eine synthetisierende Funktion, indem sie Themen zusammenbringen. Gleichzeitig lässt eine algorithmische Selektion die Frage zu, was eben nicht auf dieser Liste steht. Graham und Auckland (2017) beschreiben zwei Wege, wie sich Beziehungsnetzwerke auf Twitter durch algorithmische Eingriffe realisieren lassen. Es handelt sich zum einen um „popperbots“ (ebd., S. 199 f.), zum anderen um „bridgerbots“ (ebd., S. 201 f.). Als Popperbots verstehen sie Social Bots, die Beziehungsnetzwerke von hoher bis sehr hoher sozialer Homophilie „infiltrieren“ und dann bei erfolgreicher Positionierung im Teilnetzwerk gemäßigte Informationen oder gar kontrastierende ideologische Standpunkte einstreuen sollen (ebd., S. 199 f.). Das Konzept von Bridgerbots hingegen folgt der Idee einer Überbrückung des Informationsflusses zwischen ansonsten ideologisch getrennten Teilnetzwerken. Erzielt werden könnte dies durch Tweeting und Retweeting von Inhalten
2 Soziale Medien zwischen Disruption und Synthese
37
„beider Seiten“ sowie dem Folgen von Akteuren im Netzwerk unterschiedlicher Standpunkte und Teilnetzwerke. Bridgerbots würden damit eine synthetisierende Funktion in zweifacher Hinsicht einnehmen. Einerseits tragen sie zu einer „Diversität by design“ bei, indem sie verschiedene Argumente bzw. Statements bündeln und repräsentieren, andererseits kann man den Bots selbst folgen und darüber Einblicke in die durch algorithmische Prozesse selektierten Beziehungsgeflechte bekommen. Sie bringen damit nicht nur Inhalte zusammen, sondern bündeln auch Akteure durch die von Twitter bereitgestellte Repräsentationsmöglichkeit der Followee- und Follower-Übersichten. Bruns (2019 S. 103) kritisiert, dass es trotz der positiven Intention derartiger Interventionen zu unangemessenen Entwicklungen hinsichtlich der Amplifikation von oppositionellen und radikalen Positionen kommen könne. Diese Form des ‚Nudgings‘ könne gar destruktive Konsequenzen haben, wie Bruns am Beispiel von LGBTIQ+ Communities verdeutlicht, bei denen die Lenkung von Ansichten zur Injektion von homophoben Inhalten führen kann, was dann eben der sozialen Erwünschtheit und Akzeptanz widerspräche, aus der Perspektive des Social Bots jedoch immer noch die gleiche Funktionsweise wäre. Bruns hebt dabei einen für die vorliegende Betrachtung zentralen Aspekt hervor, nämlich die Tatsache, dass die Implementationen derartiger Interventionen sowie das Design von Social Bots und deren Algorithmen nicht wertneutral sind, sondern immer auch von den Menschen- und Weltbildern derjenigen abhängen, die diese Technologien nutzen und (weiter-)entwickeln. Bildungstheoretisch interessant ist dabei einerseits, wie sich die implementierten Werte beispielsweise über die Analyse von Code und dessen öffentlich zugängliche Repositorien explizieren lassen, und andererseits, wie es sich mit der sozialen Emergenz verhält, wenn Leerstellen erst sichtbar gemacht werden, es also zur Disposition von Werten kommt, die bislang nicht implementiert sind.2 Disruption und Synthese stehen einander dann nicht mehr diametral gegenüber, sondern bilden ein komplexes Abhängigkeitsverhältnis, das sich auf die jeweiligen Subjektivierungsweisen abbilden lässt. Die Formen der Aushandlung lassen sich jedoch nicht bloß auf der Ebene von Anschlusspraktiken erforschen, sondern erfordern zudem auch einen Blick in die Produktions- und Entstehungskontexte von Code. In ihrem Band Speaking Code entwickeln Cox und McLean (2013) eine Weise der Betrachtung von Code, die sie im Schnittfeld ästhetischer Praktiken sowie politischer Expressionen verorten. Code wird dabei nicht nur hinsichtlich seiner formalen Strukturen betrachtet, sondern entlang seiner Ausführbarkeiten und der daraus resultierenden Effekte auf den Menschen gelesen. Sie diskutieren die demokratischen Potenziale des Netzes und deren Entfaltung unter anderem durch offene und freie Software. Wenngleich die Kritik an der Kommerzialisierung des Netzes nicht neu ist, zeigen Cox und McLean entlang einzelner Beispiele eindrücklich auf, wie Code in seiner besonderen Qualität als Text selbst das Produkt des Schaffens ist und zugleich die Grundlage für künstlerisch-ästhetische und politische Expressionen bilden kann, indem über die Ausführung von Code eine Transformation der Räume herbeigeführt werden kann. Mit dem Konzept der Coding Publics Beispielsweise bei algorithmischen Entscheidungssystemen oder diskriminierenden Technologien unterschiedlicher Art.
2
38
D. Verständig
beschreiben sie dabei jene Öffentlichkeiten, die erst durch Code hervorgebracht werden und die gleichzeitig sowohl den digitalen als auch den analogen Raum adressieren, indem beispielsweise soziale Netzwerkstrukturen durch Skripte verändert werden. Für Cox und McLean geht es dabei in erster Linie um die Herstellung von Öffentlichkeit und die daraus resultierenden Konsequenzen für die gesellschaftlichen und technologischen Rahmenbedingungen: „publicness is constituted not simply by speaking, writing, arguing and protesting but also through modification of the domain or platform through which these practices are enacted, making both technology and the law unstable“. (Cox und McLean 2013, S. 93) Code als Text weist dabei – anders als bisher etablierte Textformen – eine performative Dimension auf, indem er in Form der Anwendung nicht nur geschrieben ist, sondern nach einem Prozess der Übersetzung in Maschinensprache auf dem jeweiligen Gerät auch ausgeführt wird (vgl. hierzu auch Jörissen und Verständig 2017, S. 39 ff.). Code ermöglicht es einzelnen Akteuren, der eigenen Stimme Gehör zu verschaffen und Standpunkte und Haltungen medial in Form von ausgeführten Softwareanwendungen und darüber hinaus zu artikulieren. Doch auch schon der Quellcode selbst stellt ein, wenn zugänglich, beobachtbares Artefakt dar, das es ermöglicht, entlang von regelbasierten und formal strukturierten Abläufen nachzuvollziehen, wie ein Skript oder eine Anwendung aufgebaut ist, welche Bezeichnungen die Variablen und Funktionen haben und wie die Handschrift der Entwickler zu lesen ist. Mediale Artikulationen sind dabei weit mehr als nur das Gesagte, wie das folgende Beispiel verdeutlichen soll, welches bei Cox und McLean im Zusammenhang der paradoxalen Struktur von Autonomie und Rekursion und damit Reproduktion von Abhängigkeiten unter den Bedingungen von freier Software diskutiert wird (vgl. Cox und McLean 2013, S. 97). Es handelt sich um ein Python-Skript, welches das Beziehungsnetzwerk eines Nutzers grundlegend transformiert, indem es durch dessen Freunde iteriert und zufällig Freund X per Direktnachricht einlädt, Freund Y morgen auf dem Marktplatz zu treffen, wobei allerdings Freund Y nicht eingeladen wird, Freund X zu treffen, sondern einen anderen Freund. Da sie alle angewiesen sind, zur selben Zeit denselben Ort zu besuchen, führen diese automatisierten Einladungen zu unerwarteten Begegnungen. Gleichzeitig wird das jeweilige Beziehungsnetzwerk auf Twitter am Ende des Netzwerks zerstört, indem die Beziehung zur angeschriebenen Person aufgelöst wird. Man folgt nach der Ausführung des Skripts also niemanden mehr. Diese Eingriffe in die proprietäre Plattform Twitter evozieren Kontingenzerfahrungen und transformieren nicht nur den digitalen Raum, sondern sie stellen auch neue Öffentlichkeiten in anderen Domänen, auf anderen Plattformen her. Die beispielhafte Vorstellung des von Cox und McLean (2013) thematisierten Skripts verdeutlicht den für Subjektivierungsprozesse relevanten performativen Möglichkeitsraum, der in der kreativ-ästhetischen Auseinandersetzung mit Code liegt. Analytisch erfassbar werden diese impliziten Mechanismen auch über öffentliche Repositorien der Skripte und Programme, wie beispielsweise durch die Veröffentlichung und Aufarbeitung des Projekts Trump2Cash mit dem dazugehörigen Twitter-Account @Trump2Cash, dessen Quellcode samt
2 Soziale Medien zwischen Disruption und Synthese
39
okumentation, Versionsverlauf und gemeldeten Problemen auf GitHub zu finden ist.3 So D finden sich neben dem Quellcode auch Diskussionen über Fragen der Ethik und Verantwortung zu diesem Projekt.4 Doch die besondere Qualität von Trump2Cash ist nicht die Fokussierung auf den politischen Akteur an sich, sondern die Sichtbarmachung von politischen und ökonomischen Zusammenhängen und deren impliziten Auswirkungen auf größere gesellschaftliche Zusammenhänge sowie die Verfügbarmachung des Codes. Ein Blick in den Quellcode allein würde daher nur begrenzte Einsichten zulassen und die Emergenz der digitalen Öffentlichkeiten, die sich hieraus über Twitter, Medium und GitHub ergeben, ausblenden. Automatisierte Skripte und Bots stellen eine Möglichkeit dar, die digitalen Räume durch die Präsenz der unterschiedlichen Entitäten zu verändern und die individuelle Wahrnehmung der im Netzwerk interagierenden Akteure zu beeinflussen. Eingriffe in den Code und das damit verbundene Einmischen in einen Diskurs oder zumindest die Veränderung der Parameter der sozialen Arena können auch als Praktik verstanden werden, die Blicke in bestimmte Richtungen lenkt, indem Sichtbarkeiten überlagert werden und Themen einerseits hervorgehoben und andererseits ausgeblendet werden. Insbesondere Social Bots nehmen somit eine gewisse Steuerungsfunktion ein, deren kontrollierende Akteure in diesem Prozess im Hintergrund stehen. Dies wird beispielsweise an der Debatte um falsche Follower deutlich, die ganz direkt auf Prozesse der Sichtbarkeitsherstellung einwirken und damit auch Meinungsbildungsprozesse beeinflussen können und deren Identifikation kein triviales Problem ist (vgl. Cresci et al. 2015; Gupta et al. 2013). Bildung ist immer an die Person gebunden und damit ein intrinsischer Prozess, der sich durch unterschiedliche Weltwahrnehmungsweisen auszeichnet. Dementsprechend ist die Auseinandersetzung mit der Welt immer auch ein Prozess der Schaffung einer eigenen Weltsicht. Mit der steigenden Zugänglichkeit von digitalen Technologien über Diskurse, Code-Repositorien oder Hardware geschieht dies nun nicht mehr nur über mediale Artikulationen, sondern mehr und mehr auch über algorithmische Artikulationen. Coding ist dabei mehr als nur ein produktiver Prozess, es ist ein Sich-zur-Welt-Verhalten und damit eine Form des Ausdrucks, eingebettet in verschiedene soziale, kulturelle Praktiken, die sich nicht zuletzt in politisch-ästhetischen Formen des Ausdrucks manifestieren. Die Syn-
Siehe https://github.com/maxbbraun/trump2cash. Trump2Cash lauscht den Tweets des Accounts @realDonaldTrump, wartet darauf, dass börsennotierte Unternehmen erwähnt werden, startet eine Sentiment Analyse und handelt dann die jeweiligen Aktien auf Grundlage der Ergebnisse. Die Ergebnisse des Prozesses werden dann auf Twitter über den Account @Trump2Cash in Echtzeit veröffentlicht. Zur Motivation zu diesem Projekt gibt es eine kurze Hintergrundgeschichte des Entwicklers (Braun 2017). 4 Die Diskussion ist zum 03.08.2019 offen und umfasst zwölf Kommentare. Sie ist unter https://github.com/maxbbraun/trump2cash/issues/37 einsehbar. Ausgangspunkt ist die Überlegung darüber, inwiefern man einzelne politische Akteure, in diesem Fall Trump, mit mehr Sichtbarkeit unterstützt. Der Twitter Bot @Trump2Cash hat zu diesem Zeitpunkt 3892 Follower. 3
40
D. Verständig
these bedeutet, dass es durch die Auseinandersetzung mit Technologie zu einer Aufhebung bisher etablierter Modi der Weltwahrnehmung kommen kann. Das Durchkreuzen einer bestehenden Ordnung bietet dann Anlässe zur Reflexion und eröffnet damit neue Einsichten – nicht nur für diejenigen, die sich aktiv mit der Programmierung von Bots befassen, sondern für alle Akteure, die an diesem kommunikativen Ensemble beteiligt sind.
2.4
Fazit
Der Beitrag hat konzeptionell aufgezeigt, wie soziale Arenen im Netz für eine bildungstheoretische Betrachtung gewendet werden können, um so implizite Mechanismen und Machtstrukturen auch empirisch sichtbar zu machen. Wenngleich sich soziale Medien grundlegend auf einzelne Charakteristika wie das Teilen von Informationen und Erfahrungen oder strukturelle Merkmale wie Likes oder andere Möglichkeiten zur (phatischen) Kommunikation zusammenführen lassen, sind es doch auch die jeweils unterschiedlichen strukturellen Eigenschaften, die hier einen ganz spezifischen Einfluss auf die jeweiligen Möglichkeiten der Partizipation und (Selbst-)Expression haben. Dies hat zur Folge, dass entgegen einer technikzentristischen Fokussierung allein auf die algorithmischen Strukturen vor allem die Emergenz der sozialen Aushandlungsprozesse und Beziehungsgeflechte von gesteigerter Bedeutung ist. Damit verbunden ist die ständige Aufforderung, sich selbst zu anderen und zur Welt ins Verhältnis zu setzen, die eigenen Standpunkte zu artikulieren und andere Perspektiven zu erkennen sowie anzuerkennen. Dies ist gewissermaßen die Kehrseite einer ständigen Suche nach dem Neuen, die schließlich auch krisenbehaftet sein kann. Die automatisierten Skripte sind dabei zumindest in einer bildungstheoretischen Per spektive mehr als nur digitale Artefakte, da sie eingebettet in soziale Praktiken sind. Code wird hier nicht nur genutzt, um bestehende Räume zu verändern, sondern auch um eingeschriebene Werte und bestimmte Haltungen zu transportieren, zur Disposition zu stellen und damit auch neue Räume hervorzubringen. Technisch wird dies unter anderem durch proprietäre Programmierschnittstellen der Plattformen unterstützt, wie an der exemplarischen Diskussion von @Trump2Cash verdeutlicht wurde. Auch Social Bots können neben Trending-Algorithmen Sichtbarkeiten herstellen und so Themen bündeln. Sie können aber auch als Praktik verstanden werden, die die Blicke in bestimmte Richtungen lenkt oder Momente der Irritation hervorruft. Darin liegt auch die subjektivierende Kraft von Code, denn die Haltungen, die hinter den Praktiken stehen und so eng mit diesen verknüpft sind, können exemplarisch für die Manifestation von Bildungspotenzialen gewendet werden. Zugleich lassen sich hieran auch neue Formen von Öffentlichkeit ablesen, die im Prozess der diskursiven Auseinandersetzung erst entstehen. Es sind die hochgradig heterogenen (sub-)kulturellen Ausprägungen, die eine Emergenz digitaler Öffentlichkeiten mit sich bringen und so die Strukturen wenden, um den sozialen Raum zu prägen bzw. die Rahmenbedingungen zu rekonfigurieren. Diese Ambivalenz von Disruption und Synthese er-
2 Soziale Medien zwischen Disruption und Synthese
41
möglicht nicht nur die Destabilisation von Systemen, sondern ist zugleich auch die Grundlage zur Hervorbringung neuer Perspektiven und Ordnungen.
Literatur Allert, H./Asmussen, M. (2017): Bildung als produktive Verwicklung. In: Allert, H./Asmussen, M./ Richter, C. (Hg.): Digitalität und Selbst. Interdisziplinäre Perspektiven auf Subjektivierungs- und Bildungsprozesse. Bielefeld: transcript, S. 27–68. Anspach, N. M. (2017): The New Personal Influence: How Our Facebook Friends Influence the News We Read. In: Political Communication 34 (4), S. 590–606. Aufenanger, S. (1999): Medienkompetenz oder Medienbildung? Wie die neuen Medien Erziehung und Bildung verändern. In: Bertelsmann Briefe 142, S. 21–24. Barberá, P. et al. (2015): Tweeting From Left to Right: Is Online Political Communication More Than an Echo Chamber? In: Psychological Science 26 (10), S. 1531–1542. Bessi, A. (2016): Personality Traits and Echo Chambers on Facebook. In: arXiv.org (http://arxiv.org/ abs/1606.04721) [letzter Zugriff: 18.02.2020]. Braun, M. (2017): This Machine Turns Trump Tweets into Planned Parenthood Donations. In: medium.com (https://medium.com/@maxbraun/this-machine-turns-trump-tweets-into-planned-parenthood-donations-4ece8301e722) [letzter Zugriff: 18.02.2020]. Bruns, A. (2019): Are Filter Bubbles Real? Cambridge: Polity Press. Brunton, F./Coleman, G. (2014): Closer to the Metal. In: Gillespie, T./Boczkowski, P. J./Foot, K. A. (Hg.): Media Technologies. Essays on Communication, Materiality, and Society. Cambridge (MA): The MIT Press, S. 77–98. Chun, W. H. K. (2016): Updating to remain the same. Habitual new media. Cambridge (MA): The MIT Press. Cox, G./McLean, A. (2013): Speaking code. Coding as aesthetic and political expression. Cambridge (MA): The MIT Press. Crawford, K. (2016): Can an Algorithm be Agonistic? Ten Scenes from Life in Calculated Publics. In: Science, Technology, & Human Values 41 (1), S. 77–92. Cresci, S. et al. (2015): Fame for sale: Efficient detection of fake Twitter followers. In: Decision Support Systems 80, S. 56–71. Doane, M. A. (1990): Information, Crisis, Catastrophe. In: Mellencamp, P. (Hg.): Logics of Television. Essays in cultural criticism. Bloomington (IN): Indiana University Press (Theories of contemporary culture; 11), S. 222–239. Dubois, E./Blank, G. (2018): The echo chamber is overstated: The moderating effect of political interest and diverse media. In: Information, Communication & Society 21 (5), S. 729–745 (https://doi.org/10.1080/1369118X.2018.1428656) [letzter Zugriff: 18.02.2020]. Fletcher, R./Nielsen, R. K. (2017): Are News Audiences Increasingly Fragmented? A Cross-National Comparative Analysis of Cross-Platform News Audience Fragmentation and Duplication. In: Journal of Communication 67 (4), S. 476–498. Foucault, M. (1981): Archäologie des Wissens. Frankfurt a. M.: Suhrkamp. Garimella, K. et al. (2018): Political Discourse on Social Media: Echo Chambers, Gatekeepers, and the Price of Bipartisanship. In: arXiv.org (http://arxiv.org/abs/1801.01665) [letzter Zugriff: 18.02.2020]. Gillespie, T. (2016): #trendingistrending: when algorithms become culture. In: Seyfert, R./Roberge, J. (Hg.): Algorithmic Cultures. Essays on Meaning, Performance and New Technologies. London: Routledge (Routledge advances in sociology; 189), S. 52–75.
42
D. Verständig
Graham, T/Auckland, R. (2017): Do Socialbots Dream of Popping the Filter Bubble? The Role of Socialbots in Promoting Deliberative Democracy in Social Media. In: Gehl, R. W./Bakardjieva, M. (Hg.): Socialbots and Their Friends. Digital Media and the Automation of Sociality. New York (NY), London: Routledge, S. 186–206. Gupta, A./Lamba, H./Kumaraguru, P. (2013): $1.00 per RT #BostonMarathon #PrayForBoston: Analyzing fake content on Twitter. In: 2013 APWG eCrime Researchers Summit (https://doi. org/10.1109/eCRS.2013.6805772) [letzter Zugriff: 18.02.2020]. Hampton, K. N. et al. (2014): Social Media and the ‚Spiral of Silence‘. In: Pew Research Center, 26. 08. 2014 (https://www.pewinternet.org/2014/08/26/social-media-and-the-spiral-of-silence/) [letzter Zugriff: 18.02.2020]. Hansmann, O./Marotzki, W. (Hg.) (1989): Diskurs Bildungstheorie. Rekonstruktion der Bildungstheorie unter Bedingungen der gegenwärtigen Gesellschaft II: Problemgeschichtliche Orientierungen. Weinheim: Deutscher Studien Verlag. Holze, J. (2017a): Das umkämpfte Wissen. Untersuchungen zu Aushandlungsprozessen in Wikipedia. In: Biermann, R./Verständig, D. (Hg.): Das umkämpfte Netz. Macht- und medienbildungstheoretische Analysen zum Digitalen. Wiesbaden: Springer VS (Medienbildung und Gesellschaft; 35), S. 95–110. Holze, J. (2017b): Digitales Wissen. Bildungsrelevante Relationen zwischen Strukturen digitaler Medien und Konzepten von Wissen. (Diss.) Magdeburg: Otto-von-Guericke-Universität (https:// doi.org/10.25673/4666) [letzter Zugriff: 18.02.2020]. Iske, S./Klein, A./Verständig, D. (2016): Informelles Lernen und digitale Spaltung. In: Rohs, M. (Hg.): Handbuch Informelles Lernen. Wiesbaden: Springer VS, S. 567–584. Jörissen, B. (2011): ‚Medienbildung‘ – Begriffsverständnisse und -reichweiten. In: Moser, H./Grell, P./Niesyto, H. (Hg.): Medienbildung und Medienkompetenz. Beiträge zu Schlüsselbegriffen der Medienpädagogik. München: kopaed, S. 211–235. Jörissen, B. (2014): Medialität und Subjektivation. Strukturale Medienbildung unter besonderer Berücksichtigung einer historischen Anthropologie des Subjekts. (Habil.) Magdeburg: Otto-von- Guericke-Universität (https://doi.org/10.25673/4094) [letzter Zugriff: 18.02.2020]. Jörissen, B./Marotzki, W. (2009): Medienbildung – Eine Einführung: Theorie – Methoden – Analysen. Bad Heilbrunn: Klinkhardt. Jörissen, B./Verständig, D. (2017): Code, Software und Subjekt: Zur Relevanz der Critical Software Studies für ein nicht-reduktionistisches Verständnis ‚digitaler Bildung‘. In: Biermann, R./Verständig, D. (Hg.): Das umkämpfte Netz. Macht- und medienbildungstheoretische Analysen zum Digitalen. Wiesbaden: Springer VS (Medienbildung und Gesellschaft; 35), S. 37–50. Kelty, C. M. (2008): Two Bits. The Cultural Significance of Free Software. Durham: Duke University Press. Klein, A. (2004): Von ‚Digital Divide‘ zu ‚Voice Divide‘. Beratungsqualität im Internet. In: Otto, H.-U./Kutscher, N. (Hg.): Informelle Bildung Online. Perspektiven für Bildung, Jugendarbeit und Medienpädagogik. Weinheim, München: Juventa, S. 97–121. Koenig, C. (2011): Bildung im Netz. Analyse und bildungstheoretische Interpretation der neuen kollaborativen Praktiken in offenen Online-Communities. (Diss.) Darmstadt: Technische Universität (http://tuprints.ulb.tu-darmstadt.de/2641) [letzter Zugriff: 18.02.2020]. Kutscher, N./Otto, H.-U. (2014): Digitale Ungleichheit – Implikationen für die Betrachtung medialer Jugendkulturen. In: Hugger, K.-U. (Hg.): Digitale Jugendkulturen. 2. Aufl. Wiesbaden: Springer VS (Digitale Kultur und Kommunikation; 2), S. 283–298. Lamp, E. (2008): Öffentlichkeitskonzepte im Vergleich – Elitekonzept und Integrationskonzept. In: Melischek, G./Seethaler, J./Wilke, J. (Hg.): Medien & Kommunikationsforschung im Vergleich. Grundlagen, Gegenstandsbereiche, Verfahrensweisen. Wiesbaden: VS Verlag für Sozialwissenschaften, S. 199–217.
2 Soziale Medien zwischen Disruption und Synthese
43
Marotzki, W. (1990): Entwurf einer strukturalen Bildungstheorie. Biographietheoretische Auslegung von Bildungsprozessen in hochkomplexen Gesellschaften. Weinheim: Dt. Studien-Verlag (Studien zur Philosophie und Theorie der Bildung; 3). Marotzki, W. (1991): Bildung, Identität und Individualität. In: Benner, D./Lenzen, D. (Hg.): Erziehung, Bildung, Normativität. Versuche einer deutsch-deutschen Annäherung. Weinheim: Juventa, S. 79–94. Marotzki, W. (2004): Von der Medienkompetenz zur Medienbildung. In: Brödel, R./ Kreimeyer, J. (Hg.): Lebensbegleitendes Lernen als Kompetenzentwicklung. Analysen – Konzeptionen – Handlungsfelder. Bielefeld: Bertelsmann (Erwachsenenbildung und lebensbegleitendes Lernen; 4), S. 63–73. Marwick, A. E./Boyd, D. (2011): I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined audience. In: New Media & Society 13 (1), S. 114–133. Mersch, D. (2002): Ereignis und Aura. Untersuchungen zu einer Ästhetik des Performativen. Frankfurt a. M.: Suhrkamp. Meueler, E. (1993): Die Türen des Käfigs: Wege zum Subjekt in der Erwachsenenbildung. Stuttgart: Klett-Cotta. Münker, S. (2009): Emergenz digitaler Öffentlichkeiten. Die sozialen Medien im Web 2.0. Frankfurt a. M.: Suhrkamp. Münker, S. (2013): Media in use: how the practice shapes the mediality of media. In: Distinktion. Journal of Social Theory 14 (3), S. 246–253. Noelle-Neumann, E. (1976): Ein Fernseh-Duell kann über den Wahlsieg entscheiden. In: Die Welt, Nr. 229 vom 01. 10. 1976, S. 5. Noelle-Neumann, E. (1977): Öffentlichkeit als Bedrohung: Beitrag zur empirischen Kommunikationsforschung. Freiburg i. Br., München: Alber (Alber-Broschur Kommunikation; 6). Noelle-Neumann, E. (1980): Wahlentscheidung in der Fernsehdemokratie. Freiburg i. Br., Würzburg: Ploetz. Noelle-Neumann, E. (2001): Die Schweigespirale: Öffentliche Meinung – unsere soziale Haut. 6. Aufl. München: Langen Müller. O’Hara, K. (2014): In Worship of an Echo. In: IEEE Internet Computing 18 (4), S. 79–83 (https:// doi.org/10.1109/MIC.2014.71) [letzter Zugriff: 18.02.2020]. Pariser, E. (2011): The filter bubble. What the Internet is hiding from you. New York: Penguin Press. Pasquale, F. (2015): The black box society: The secret algorithms that control money and information. Cambridge (MA): Harvard University Press. Pentzold, C. (2007): Machtvolle Wahrheiten: diskursive Wissensgenerierung in Wikipedia aus Foucault’scher Perspektive. In: kommunikation @ gesellschaft 8 (https://nbn-resolving.org/ urn:nbn:de:0228-200708075) [letzter Zugriff 18.02.2020]. Quattrociocchi, W./Scala, A./Sunstein, C. R. (2016): Echo Chambers on Facebook. In: Social Science Research Network (https://papers.ssrn.com/abstract=2795110) [letzter Zugriff: 18.02.2020]. Schäfer, A. (2011): Das Versprechen der Bildung. Paderborn: Schöningh. Spanhel, D. (2010): Mediale Bildungsräume – Ihre Erschließung und Gestaltung als Handlungsfeld der Medienpädagogik. In: Bauer, P./ Hoffmann, H./Mayrberger, K. (Hg.): Fokus Medienpädagogik. Aktuelle Forschungs- und Handlungsfelder. München: kopaed, S. 29–44. Stalder, F. (2016): Kultur der Digitalität. Berlin: Suhrkamp. Verständig, D./Holze, J./Biermann, R. (Hg.) (2016): Von der Bildung zur Medienbildung. Festschrift für Winfried Marotzki. Wiesbaden: Springer VS (Medienbildung und Gesellschaft; 31). Weller, K. et al. (Hg.) (2013): Twitter and Society. New York (NY), Bern, Frankfurt: Lang. Yardi, S./Boyd, D. (2010): Dynamic Debates: An Analysis of Group Polarization Over Time on Twitter. In: Bulletin of Science, Technology & Society 30 (5), S. 316–327. Zuboff, S. (2019): The age of surveillance capitalism. The fight for the future at the new frontier of power. London: Profile Books.
Alles Bots? Ein Vorschlag zur Typisierung (teil-)automatisierter politischer Accounts auf Twitter Florian Muhle
Inhaltsverzeichnis 3.1 3.2 3.3 3.4
Einleitung witter als Heimstatt (teil-)automatisierter (politischer) Accounts T Ansätze und Probleme der Erkennung von Political Bots Ansatz und Ergebnisse einer Fallstudie zur Typisierung (teil-)automatisierter Accounts auf Twitter 3.4.1 Bestimmung des Merkmalsraums 3.4.2 Ergebnisse der Analyse 3.5 Schluss Literatur
46 47 49 51 53 56 65 68
Zusammenfassung Während bisherige Ansätze zur Detektion von Social Bots mit automatisierten Methoden arbeiten und lediglich binär zwischen Bots und Menschen differenzieren, präsentiert der Beitrag einen qualitativen Ansatz zur Klassifizierung automatisierter Accounts in sozialen Medien. Anhand einer Fallstudie zur Identifizierung von Social Bots auf dem Kurznachrichtendienst Twitter wird gezeigt, dass dieser Ansatz in der Lage ist, politische Accounts von anderen Typen automatisierter Accounts zu unterscheiden und verschiedene Grade der Automatisierung zu differenzieren. Im Vergleich zu bisher dominierenden Methoden der Bot-Erkennung erlaubt dies einen tieferen Blick auf Automatisierung in sozialen Medien, der – so die Hoffnung – auch die Weiterentwicklung bisheriger computergestützter Erkennungsverfahren informieren kann. F. Muhle (*) Fakultät für Soziologie, Universität Bielefeld, Bielefeld, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_3
45
3
46
F. Muhle Schlüsselwörter
Social Bots · Political Bots · Typisierung · Qualitative Inhaltsanalyse · Twitter · Politische Kommunikation
3.1
Einleitung
Der Kurznachrichtendienst Twitter hat sich zu einer bedeutenden Arena der öffentlichen Meinungsbildung und politischen Kommunikation entwickelt, in der zunehmend nicht nur menschliche User/innen aktiv zu sein scheinen, sondern auch Computerprogramme. Hierbei handelt es sich um sogenannte Social Bots – oder präziser „political bots“ (Howard et al. 2018, S. 85) – denen zugeschrieben wird, in politische Kommunikationsprozesse einzugreifen und diese möglicherweise sogar mit Erfolg zu beeinflussen und zu manipulieren (vgl. Bessi und Ferrara 2016; Ross et al. 2019; Thieltges und Hegelich 2018). Nicht nur in der Öffentlichkeit hat dies nachhaltig für Aufsehen gesorgt, sondern auch in der Wissenschaft. Denn trifft es tatsächlich zu, dass entsprechende Programme mit ihren Bestrebungen erfolgreich sind, wird die Notwendigkeit deutlich, Political Bots und deren Aktivitäten zu erkennen, um Nutzer/innen sozialer Medien, aber auch Öffentlichkeit und Politik darüber zu informieren und Ansatzpunkte für Gegenmaßnahmen zu liefern. Entsprechende Versuche werden bisher vor allem mithilfe computerwissenschaftlicher Zugänge unternommen, die darauf abzielen, automatisiert Bot-Accounts zu identifizieren. Angesichts der Datenmengen und der Unüberschaubarkeit der Online-Kommunikation wirkt ein solches Vorgehen auf den ersten Blick auch angebracht. Allerdings, hierauf weisen verschiedene in der jüngsten Zeit publizierte Arbeiten hin, scheinen die bisherigen Methoden zur Erkennung automatisierter Accounts noch nicht ausgereift. So erweisen sie sich zum einen als zu ungenau, da sie häufig fälschlicherweise professionell betriebene Accounts ebenso wie Accounts von (Medien-)Organisationen als Bot-Accounts klassifizieren (vgl. Muhle et al. 2018),1 und zum anderen auch als zu undifferenziert. Denn sie erlauben nur eine binäre Unterscheidung automatisch und menschlich gesteuerter Accounts, obwohl auch die Existenz ‚hybrider‘ Accounts angenommen werden muss (vgl. Öhman et al. 2019; Gorwa und Guilbeault 2018). Zudem sind existierende automatische Methoden der Bot-Erkennung nicht in der Lage, unterschiedliche Einsatzzwecke automatisierter Accounts zu differenzieren. Dies wäre jedoch wichtig, um tatsächlich solche Bots zu identifizieren, die zu politischen Zwecken eingesetzt werden, und diese verlässlich von ‚harmlosen‘ Varianten automatisierter Accounts zu unterscheiden, die ebenso existieren (vgl. Stieglitz et al. 2017; Gorwa und Guilbeault 2018).
Siehe hierzu auch https://blog.info.graphics/social-bot-research-is-flawed/ [letzter Zugriff: 24.01.2020].
1
3 Alles Bots?
47
Vor diesem Hintergrund möchte ich im vorliegenden Beitrag einen alternativen Ansatz zur Klassifizierung politischer automatisierter Accounts sowie einige mit diesem im Rahmen einer Fallstudie gewonnene Ergebnisse vorstellen. Dieser Ansatz zielt darauf ab, politische Accounts von anderen Typen automatisierter Accounts zu unterscheiden, und ist in der Lage, verschiedene Grade der Automatisierung in den Blick zu bekommen. Hierzu bedient er sich nicht automatisierter und damit verbunden quantitativer Methoden, sondern Verfahren der typenbildenden qualitativen Inhaltsanalyse (Kuckartz 2016, S. 143 ff.; Schreier 2014, Abs. 33 ff.), mittels derer ich im Rahmen der Fallstudie 68 (teil-)automatisierte Twitter-Accounts genauer klassifiziert habe. Bevor ich diesen Ansatz und die mit diesem gewonnenen Einsichten ausführlich vorstelle (Abschn. 3.4), möchte ich zunächst kurz darauf eingehen, warum Twitter heute zu einer bedeutsamen, wenn nicht zu der Plattform für automatisierte (politische) Entitäten im Internet geworden ist (Abschn. 3.2), und anschließend bestehende Ansätze der Bot-Erkennung und deren Probleme darlegen (Abschn. 3.3). Auf diese Weise soll der Boden für die Formulierung des eigenen Ansatzes bereitet werden.
3.2
witter als Heimstatt (teil-)automatisierter T (politischer) Accounts
Betrachtet man die aktuelle öffentliche und akademische Beschäftigung mit Social Bots, macht es den Anschein, als handele es sich bei den vorwiegend auf der Kurznachrichtenplattform Twitter beheimateten automatisierten Accounts um ein völlig neuartiges Phänomen. Dies ist jedoch nur bedingt der Fall, denn Bots unterschiedlicher Couleur – gemeint sind damit computergesteuerte Programme, die in direkte Interaktion mit Internet-User/ innen treten2 – waren und sind bereits seit Anbeginn des Internets in verschiedenen Online-Welten aktiv. So finden sich schon in den frühen 1990er-Jahren in den zu diesem Zeitpunkt noch textbasierten virtuellen Welten erste Agentensysteme, die mit menschlichen User/innen kommunizieren und mitunter gar flirten (Turkle 1998, S. 137 ff.). Aber auch heutige virtuelle Welten und Computerspiele werden häufig nicht nur von Menschen, sondern ebenso von computergesteuerten Non-Player Characters bevölkert (vgl. Muhle 2017; Harth 2017). Zudem machen Kund/innen auf den Webseiten diverser Unternehmen regelmäßig Bekanntschaft mit Chatbots, die Teile der Kund/innenkommunikation übernehmen (vgl. Braun 2003; Følstad et al. 2019), und Nutzer/innen der E-Mail-Kommunikation sowie Leser/innen der Kommentarspalten auf Internet-Seiten bekommen ärgerlicherweise regelmäßig Nachrichten von Spambots zu lesen (Gorwa und Guilbeault 2018, S. 6 f.). Automatisierte Accounts bzw. Entitäten tauchen also nicht nur in sozialen Medien wie Twitter auf, sondern auch auf anderen Plattformen und gehören schlichtweg zur Kul Hiervon zu unterscheiden sind Bots, die gleichsam hintergründig im Internet operieren, aber nicht als ‚Interaktionspartner‘ auftreten. Zu denken wäre hier beispielsweise an sogenannte Crawler Bots, die im Dienst von Suchmaschinen zur Indexierung von Webseiten eingesetzt werden.
2
48
F. Muhle
tur des Internets dazu. Das Besondere an den Social Bots scheint vor allem zu sein, dass sie – anders als etwa Chatbots – versuchen, ihre maschinelle Identität zu verschleiern (vgl. Boshmaf et al. 2011, S. 93; Gehl und Bakardjieva 2017, S. 2), primär zu schädlichen Zwecken eingesetzt werden, etwa um „Informationen zu manipulieren und die stattfindenden Interaktionen zu stören oder abbrechen zu lassen“ (Thieltges und Hegelich 2018, S. 357), und zudem ihre ‚natürliche‘ Heimat auf der Kurznachrichtenplattform Twitter haben, die sich zu einem „major home for automated accounts“ (Gorwa und Guilbeault 2018, S. 3) entwickelt hat. Ein wichtiger Grund hierfür ist darin zu sehen, dass die Kurznachrichtenplattform im Unterschied zu anderen sozialen Netzwerken die Automatisierung von Accounts systematisch zulässt und begrüßt (Howard et al. 2018, S. 85). So erlaubt Twitter laut Selbstauskunft „Unternehmen, Entwicklern und Nutzern durch unsere APIs (Application Programming Interfaces, Applikationsprogrammierschnittstellen) Programmierzugriff auf Twitter Daten“ (Twitter 2019b). Konkret bedeutet dies, dass jedwede Person, die sich hierfür registriert, Anwendungen nutzen und entwickeln kann, um Twitter-Accounts in verschiedenen Hinsichten und mit unterschiedlichen Absichten zu automatisieren.3 Intendiert sind hier selbstverständlich als legitim angesehene Zwecke, zu denen Twitter selbst etwa die automatische Verbreitung hilfreicher Informationen oder „kreative Kampagnen“ zählt, während „Spam oder Belästigung von Nutzern oder anderweitiges Versenden unerwünschter Nachrichten“ (Twitter 2017) als unerwünscht gelten. Durch die offene API wird dem Missbrauch der Automatisierungsmöglichkeiten aber zugleich Tür und Tor geöffnet, sodass es kaum verwunderlich erscheint, dass die von Twitter vorgegebenen Automatisierungsregeln nicht immer eingehalten werden. Dies gilt nicht nur für Marketing-Profis (Paoli 2016, S. 78 f.), sondern offensichtlich auch für Akteur/ innen, die darauf abzielen, politische Debatten und öffentliche Meinungsbildungsprozesse mithilfe automatisierter Twitter-Accounts zu unterminieren. Aufwand und Kosten hierfür fallen vergleichsweise gering aus. So geht der Politikwissenschaftler Simon Hegelich davon aus, dass sich 1000 falsche Accounts bei Twitter bereits zu einem Preis von 45 $ käuflich erwerben lassen und hochwertige Software, die 10.000 solcher Accounts steuern kann, für 50 $ zu haben ist (Hegelich 2016, S. 2 f.). Zudem gibt es im Internet frei verfügbaren Programmcode, der es auch Laiinnen und Laien mit geringen Programmierkenntnissen ermöglicht, einfache Anwendungen zu erstellen und mit einem Twitter-Account zu verbinden, um diesen zu automatisieren. Entsprechend rät Twitter seinen Nutzer/innen zu einem umsichtigen Umgang mit entsprechenden Anwendungen und informiert darüber, dass eine „autorisierte App […] je nach ihren Berechtigungen […] deinen Account auf vielfältige Weise nutzen [kann], z. B. deine Tweets lesen, sehen, wem du folgst, dein Profil aktualisieren, Tweets in deinem Namen posten, auf deine Direktnachrichten zugreifen oder deine E-Mail-Adresse sehen“ (Twitter 2019a). Damit stellt Twitter aufgrund seiner Plattformpolitik eine ideale Umge Wer einmal ‚twitter automatisierung tools‘ in eine Suchmaschine eingibt, findet eine unübersichtliche Zahl an Anwendungen, die unterschiedliche Formen der Twitter-Automatisierung anbieten.
3
3 Alles Bots?
49
bung für die Automatisierung von Accounts dar, und es verwundert nicht, dass entsprechende automatisierte Accounts „natürliche Bewohner“ der Plattform Twitter geworden sind (Leistert 2017, S. 215). So vermuten Forschende, dass insgesamt 9–15 % der Accounts auf Twitter Bot-gesteuert sind (vgl. Varol et al. 2017), wobei es sich hier nicht nur um solche Bots handelt, die als Political Bots darauf abzielen, in politische Kommunikation zu intervenieren, sondern auch um weitere Typen automatisierter Accounts (vgl. Gorwa und Guilbeault 2018; Stieglitz et al. 2017), zu denen News Bots (vgl. Lokot und Diakopoulos 2016), Humorous Bots (vgl. Veale et al. 2015; Veale und Cook 2018) oder auch Prayer Bots (vgl. Öhman et al. 2019) gehören. Nichtsdestotrotz haben bisher vor allem Political Bots die Aufmerksamkeit von Öffentlichkeit und Wissenschaft erhalten und sind meistens auch implizit gemeint, wenn von Social Bots die Rede ist. Dies liegt sicher daran, dass sie im Unterschied zu Bots, die Unterhaltungs- oder Informationszwecken dienen, als besonders schädlich eingestuft werden (vgl. Stieglitz et al. 2017) und zudem mutmaßlich insbesondere in Wahlkämpfen und polarisierten politischen Situationen Verwendung finden (vgl. Howard und Kollanyi 2016; Hegelich und Janetzko 2016; Howard et al. 2018). So sollen während des letzten US-Präsidentschaftswahlkampfes gar 20–25 % des darauf bezogenen Twitter-Traffics von automatisierten Accounts erzeugt worden sein und in ihrer großen Mehrheit Stimmung für den republikanischen Kandidaten Donald Trump gemacht haben (vgl. Bessi und Ferrara 2016; Kollanyi et al. 2016). Angesichts dessen wird es zu einer bedeutsamen Aufgabe, politische Bots verlässlich zu erkennen und deren Aktivitäten offenzulegen, damit man diesen begegnen kann. Denn für die Bildung öffentlicher Meinung wird es, unabhängig davon, ob man ein normatives oder ein nicht-normatives Verständnis von Öffentlichkeit vertritt, zu einem Problem, wenn die Bildung öffentlicher Meinung von verdeckten Manipulationen torpediert wird. So wirken entsprechende Manipulationsversuche nicht nur der „Bildung rational gefilterter, in diesem Sinne ‚reflektierter‘ öffentlicher Meinungen“ (Habermas 2014, S. 139) entgegen, sondern unterminieren auch ein nichtnormatives Verständnis von öffentlicher Meinung als „kommunizierte[r] Mehrheitsmeinung, bestimmt durch die Aggregation der Invidiualkommunikation“ (Gerhards 1997, S. 12), wenn vorgebliche „Indivualkommunikationen“ (massenhaft) von Bots produziert werden.
3.3
Ansätze und Probleme der Erkennung von Political Bots
Wie einleitend skizziert, setzen Versuche zur Identifizierung von Social Bots bisher vornehmlich auf automatisierte Methoden der Big-Data-Analyse, wobei ganz unterschiedliche Verfahren zum Einsatz kommen (vgl. Thieltges und Hegelich 2018, S. 369 ff.). Ein einfaches Verfahren besteht beispielsweise darin, schlicht die Anzahl täglich gesendeter Tweets eines Accounts als Indikator für Automatisierung zu nehmen. So behandeln etwa Kollanyi, Howard und Woolley (2016), aber auch Neudert, Kollanyi und Howard (2017) sowie Howard und Kollanyi (2016) solche Accounts als automatisiert, die durchschnittlich
50
F. Muhle
mehr als 50 Tweets pro Tag versenden.4 Komplexere Verfahren setzen dagegen moderne Machine-Learning-Technologien ein, in die wesentlich mehr Informationen eingehen als nur die Tweet-Frequenz von Accounts. Als „state-of-the-art bot detection technique“ (Badawy et al. 2018, S. 259) hat sich hierbei der sogenannte Botometer5 etabliert, der an der Indiana University entwickelt wurde und mittlerweile weltweit von Forschenden eingesetzt wird (vgl. Badawy et al. 2018; Bessi und Ferrara 2016; Keller und Klinger 2019; Rizoiu et al. 2018; Brachten et al. 2017). Dabei handelt es sich um eine Software, die zusätzlich zur Häufigkeit von Tweets zahlreiche weitere Merkmale analysiert, zu denen u. a. die Inhalte gesendeter Tweets, die Art der Vernetzung eines Accounts oder dessen Profilinformationen gehören (vgl. Davis et al. 2016). Aus der Gesamtheit der untersuchten Merkmale errechnet der Botometer einen „Botscore“ zwischen 0 und 1, der anzeigt, ob ein Account (wahrscheinlich) menschlich gesteuert oder automatisiert betrieben wird. Sobald ein zuvor festgelegter Schwellenwert (in der Regel 0,5) überschritten ist, werden Accounts als Bots klassifiziert.6 Wie gut die einzelnen Methoden der Bot-Erkennung sind, ist hochumstritten. So weisen etwa die Entwickler/innen des Botometers auf die hohe Akkuratheit ihres Tools hin, während andere Forschende diese anzweifeln (vgl. Gallwitz und Kreil 2019). Eigene Validitätstests scheinen diese Zweifel zu bestätigen (vgl. Muhle et al. 2018) und verweisen insbesondere auf zwei Probleme der genannten Verfahren: Zum einen erzeugen diese offensichtlich systematisch Fehlklassifikationen und klassifizieren häufig professionell betriebene Accounts von Organisationen und Personen öffentlichen Interesses fälschlicherweise als Bots (Muhle et al. 2018, S. 627).7 Zum anderen können sie nur binär festlegen, ob ein Account Bot-gesteuert ist oder nicht. Es werden aber weder unterschiedliche Einsatzzwecke automatisierter Accounts noch unterschiedliche Grade und Formen der Automatisierung erkannt. Beides wäre jedoch wichtig, damit Forschungen, die sich für Relevanz und Problematik automatisierter Accounts in sozialen Medien interessieren, ein differenziertes Bild von Form und Ausmaß der Automatisierung erhalten, was im Anschluss auch eine begründete Bewertung zulässt. So scheint es etwa plausibel, hochautomatisierte Spam-Accounts, die keine politischen Botschaften verbreiten, aber über die Verwendung viel benutzter politischer Hashtags versuchen, Sichtbarkeit zu generieren, als verhältnismäßig unproblematisch für den politischen Diskurs einzuschätzen, während Ac Die Arbeiten der genannten Autor/innen entstammen allesamt dem Computational Propaganda Research Project an der Universität Oxford (siehe https://comprop.oii.ox.ac.uk/ [letzter Zugriff: 24.01.2020]). 5 Ursprünglich hieß diese Software BotORNot. Sie wurde aber vor einiger Zeit umbenannt (siehe https://botometer.iuni.iu.edu/ [letzter Zugriff: 24.01.2020]). 6 Dieser Wert wurde von den Entwicklern etabliert. Es gibt jedoch auch Forschende, die ebenfalls mit der Software arbeiten, aber vorsichtiger sind und höhere Schwellenwerte wie 0,6 (Rizoiu et al. 2018) oder 0,7 (Brachten et al. 2017) wählen. Die Entscheidung für einen Schwellenwert scheint also arbiträr, hat aber natürlich Einfluss auf die Ergebnisse. 7 Dieses Problem wird zumindest von den Entwicklern des Botometers auch eingeräumt (Varol et al. 2017, S. 285). 4
3 Alles Bots?
51
counts, die nur teilweise automatisiert sind, aber gezielt zur Verbreitung bestimmter politischer Frames eingesetzt werden, um deren (vermeintliche) Popularität zu erhöhen, möglicherweise eine manipulative Wirkung erzielen können, vor allem wenn sie zahlreich eingesetzt werden. Denn auf diese Weise kann der Eindruck der öffentlichen Meinung auf Twitter verfälscht werden, mit möglichen Konsequenzen für die Bereitschaft von User/ innen, konträre Meinungen zu artikulieren, bis hin zu möglichen Intermedia-Agenda- Setting-Effekten, die aus der Beobachtung des Geschehens auf Twitter durch Massenmedien und Politik resultieren können. So existieren empirische Evidenzen, dass zum einen auch in den sozialen Medien Schweigespiralenprozesse stattfinden (vgl. Magin et al. 2019) und das kommunikative Geschehen auf Twitter zum anderen – insbesondere bei kontroversen Themen – mittlerweile in der Lage ist, die Agenda der klassischen Leitmedien mitzubestimmen (vgl. Conway et al. 2015; Abdi-Herrle 2018). Auch wird die Kommunikation auf Twitter gerne in aggregierter Form von den Massenmedien aufgegriffen, die dadurch Hinweise auf besondere Resonanz und Popularität von Themen und Akteuren erhalten und sie weiter verbreiten. In der Konsequenz scheint es, wie einleitend bereits dargelegt, notwendig, zur Identifizierung und Klassifizierung automatisierter Accounts Verfahren zu verwenden, die sensibel gegenüber unterschiedlichen Graden der Automatisierung sind, unterschiedliche Einsatzzwecke differenzieren können und zudem hinreichend valide Ergebnisse liefern, um Fehlklassifikationen zu vermeiden. Ein solches Verfahren stellt die qualitative Inhaltsanalyse dar, mit der es möglich ist, nah am empirischen Material, aber dennoch systematisch sowie kategorien- und regelgeleitet empirisches Material zu untersuchen (vgl. Schreier 2014, Abs. 4). Darüber hinaus eröffnet die qualitative Inhaltsanalyse Möglichkeiten für spätere quantitative Auswertungen (Kuckartz 2016, S. 54 f.; Mayring 2015, S. 20 ff.), wodurch sie auch als Grundlage für die Entwicklung und Verbesserung automatisierter Bot-Erkennungsmethoden dienen kann.8
3.4
nsatz und Ergebnisse einer Fallstudie zur Typisierung (teil-) A automatisierter Accounts auf Twitter
Unter dem Label der qualitativen Inhaltsanalyse verbergen sich verschiedene Verfahren, die zwar grundsätzliche Ähnlichkeiten, aber hinsichtlich ihrer Zielsetzung auch Unterschiede aufweisen (vgl. Schreier 2014). Da es mir in diesem Beitrag in erster Linie um eine Klassifizierung automatisierter Accounts hinsichtlich ihrer Einsatzzwecke und Automatisierungsgrade geht, bietet sich für meinen Fall die typenbildende Inhaltsanalyse an. Denn diese zielt darauf ab,
Hierauf arbeite ich aktuell mit Kolleg/innen im Rahmen des laufenden Forschungsprojektes ‚Unbiased Bots That Build Bridges (U3B): Technical Systems That Support Deliberation and Diversity as a Chance for Political Discourse‘ hin, das finanziell von der VolkswagenStiftung gefördert wird. 8
52
F. Muhle die untersuchten Fälle auf der Grundlage von Gemeinsamkeiten und Unterschieden hinsichtlich ausgewählter Merkmale in prägnante Gruppen zu unterteilen und diese Gruppen im Hinblick auf ihre Ausprägungen auf den relevanten Merkmalen genauer zu beschreiben. (Schreier 2014, Abs. 33)
Um dies zu ermöglichen, wird im Rahmen typenbildender Inhaltsanalysen in einem ersten Arbeitsschritt ein Merkmalsraum definiert, der die Dimensionen bestimmt, welche der Typenbildung zugrunde liegen. Ist dieser mit seinen Ausprägungen festgelegt, können die zu typisierenden Fälle codiert werden, um sie den einzelnen Typen zuzuordnen, die im Merkmalsraum festgelegt sind. Die Dimensionen der Typologie dienen hierbei als Hauptkategorien, die Ausprägungen der Dimensionen als Unterkategorien (vgl. Schreier 2014, Abs. 34). Im Rahmen der bereits einleitend erwähnten Fallstudie habe ich ein solches Verfahren auf 68 Twitter-Accounts angewandt, die Merkmale der Automatisierung aufweisen, um sie genauer zu klassifizieren. Die Accounts stammen aus einem Datenkorpus, das Profilinformationen und Tweets von 26.564 Accounts enthält, die sich am 26.09.2016 während der ersten Fernsehdebatte zwischen Hillary Clinton und Donald Trump sowie in den 15 Minuten davor und danach an Online-Konversationen zur Debatte beteiligt haben (zu den Details der Datenerhebung siehe Muhle et al. 2019). Entstanden ist dieses Korpus im Kontext des vom DAAD geförderten Projektes „Socialbots as political actors? Autonomous communication technologies as tools and objects for digital sociology“, das ich gemeinsam mit Robert Ackland von der Australian National University geleitet habe.9 Die 68 Accounts wurden dabei innerhalb eines knapp 1000 Accounts umfassenden Samples von mir und Studierenden im Zuge einer inhaltlich strukturierenden Inhaltsanalyse identifiziert. Hierzu wurden die Accounts in einem ersten Schritt unterschiedlichen Account-Arten zugeordnet, wobei zwischen ‚individuellen Accounts‘ und ‚organisatorischen Accounts‘ als Hauptkategorien unterschieden wurde, denen jeweils verschiedene Unterkategorien zugeordnet wurden. Ziel dessen war es, typische Eigenschaften der jeweiligen Account- Arten zu identifizieren und dies als Grundlage dafür zu nehmen, Abweichungen von diesen Eigenschaften zu identifizieren und als Indikatoren für Automatisierung verwenden zu können. So stellte sich beispielsweise schnell heraus, dass es für Accounts von Medienorganisationen normal sein kann, 100 oder mehr Tweets pro Tag abzusetzen, während dies für Accounts von Privatpersonen extrem ungewöhnlich ist und auf Automatisierung hinweist. Insgesamt konnte ich so für jeden Account-Typ in drei Kategorien (‚Aktivitäten‘, ‚Profilgestaltung‘ sowie ‚weitere Eigenschaften‘) insgesamt neun Merkmalsausprägungen festlegen, die als Indikatoren für Automatisierung gewertet wurden (siehe Tab. 3.1). Fünf dieser Indikatoren wurden account-typspezifisch festgelegt (grau hinterlegt), während vier Indikatoren account-typübergreifend Gültigkeit besitzen.
Neben Robert Ackland und mir war Dr. Timothy Graham an dem Projekt beteiligt.
9
3 Alles Bots?
53
Tab. 3.1 Übersicht der Indikatoren für Automatisierung #MVKXKVkVGP
2TQHKNIGUVCNVWPI
9GKVGTG'KIGPUEJCHVGP
$Q]DKO7ZHHWV
,QNRK¦UHQ]3URILOJHVWDOWXQJXQG $Q]DKO)ROORZHU ,QKDOWGHU$NWLYLW¦WHQ
7ZHHWLQKDOWH
*HULQJH$XVJHVWDOWXQJGHV 3URILOV
9HUK¦OWQLV 7ZHHWDUWHQ
*HULQJH*ODXEZ¾UGLJNHLWGHU $QJDEHQ
9HUK¦OWQLV)ROORZHU)ULHQGV
6WDQGDUGLVLHUXQJXQG 5HGXQGDQ]
Übersicht der Indikatoren für Automatisierung
Um als (zumindest teil-)automatisiert klassifiziert zu werden, mussten mindestens drei Merkmalsausprägungen eines Accounts auf Automatisierung hinweisen und mindestens eine davon aus den Kategorien ‚Aktivitäten‘ oder ‚Weitere Eigenschaften‘ stammen.10 Die typenbildende Analyse baut auf dieser Analyse und dem dort verwendeten Kategoriensystem auf, modifiziert dieses aber für den Zweck der Typisierung.
3.4.1 Bestimmung des Merkmalsraums Typenbildung dient dazu, Untersuchungselemente nach ihren Ähnlichkeiten und Unterschieden zu gruppieren. Dies ermöglicht einerseits einen geordneten Überblick über den interessierenden Gegenstandsbereich, reduziert andererseits aber auch dessen Komplexität (Kluge 1999, S. 23). Die Definition eines Merkmalsraums11 stellt sich vor diesem Hintergrund als Herausforderung dar, da dieser, sofern er nur wenige Ausprägungen erlaubt, zu unterkomplex zur angemessenen Erfassung des Gegenstandsbereiches sein kann, aber auch schnell unübersichtlich wird, wenn zu viele Dimensionen mitsamt ihren Ausprägungen eingeführt werden. Angesichts dessen plädiert etwa Kuckartz (2016, S. 155) dafür, „dass die Zahl der Merkmale überschaubar gehalten werden sollte“. In Einklang mit diesem Plädoyer und dem eigenen Forschungsinteresse habe ich mich dafür entschieden, einen zweidimensionalen Merkmalsraum zu konstruieren, der Accounts auf Grundlage ihrer Aktivitäten12 zum einen nach ihrem primären Einsatzzweck Das heißt: Eine wenig ausgearbeitete und wenig kohärente Profilgestaltung kann zwar auf Automatisierung hinweisen. Es ist aber auch möglich, dass User/innen lediglich ihre Identität verschleiern möchten und daher auf eine kohärente Ausarbeitung verzichten. Daher mussten hier noch andere auf Automatisierung hinweisende Merkmalsausprägungen hinzukommen. 11 Zur Zentralität des Konzeptes des Merkmalsraumes für die sozialwissenschaftliche Typenbildung vgl. Kuckartz (2016, S. 146 f.) sowie ausführlich Kluge (1999, S. 92 ff.). 12 Diese wurden für den vorliegenden Beitrag von Juli bis August 2019 erhoben. Konkret untersucht wurden jeweils 50 Tweets der Accounts in diesem Zeitraum. Bei einzelnen Accounts, die in diesem 10
54
F. Muhle
und zum anderen nach ihrem Automatisierungsgrad differenziert. Dabei unterscheide ich in der Dimension ‚Einsatzzweck‘ die fünf Merkmalsausprägungen ‚Politik‘, ‚Privat‘, ‚Geschäft‘, ‚Spam‘ und ‚Spaß‘. Weitere Ausprägungen wären prinzipiell möglich, finden sich aber nicht in den 68 im Kontext der Fallstudie typisierten Accounts. Zugeordnet werden die untersuchten Accounts den jeweiligen Einsatzzwecken dann, wenn die von ihnen versendeten Tweets thematisch in dominanter Weise diesen zu dienen scheinen. Als Spam- Accounts gelten in diesem Sinne solche, die überwiegend Werbung und/oder Aufrufe zur Teilnahme an Gewinnspielen (weiter-)verbreiten (siehe Abb. 3.1), während etwa Politik- Accounts in erster Linie politische Inhalte (re-)produzieren (siehe Abb. 3.5) und Spaß- Accounts primär humoristische Tweets versenden (siehe Abb. 3.2). Abb. 3.1 Typische Retweets eines Spam-Accounts (eigener Screenshot)
Zeitraum nicht mehr aktiv waren, haben wir ältere Tweets verwendet. Anders als bei automatisierten Twitter-Analysen erfolgte die Erhebung nicht über die API des Dienstes, sondern direkt über dessen Webseite, da nur so die kompletten Tweets mitsamt den häufig eingebetteten Bildern und Videos zugänglich sind, was für deren Verständnis von großer Bedeutung sein kann.
3 Alles Bots?
55
Abb. 3.2 Tweet eines Spaß-Accounts (eigener Screenshot)
In der Dimension ‚Automatisierungsgrad‘ unterscheide ich dagegen drei Merkmalsausprägungen: geringe, teilweise und hochgradige Automatisierung. Eine Festlegung, welche dieser Ausprägungen auf einen untersuchten Account zutrifft, ist nur möglich, wenn nicht einzelne Aktivitäten isoliert voneinander betrachtet werden, sondern das Zusammenspiel von Aktivitäten in den Blick gerät. So wird es z. B. zu einem Indiz für Automatisierung, wenn redundante Inhalte in (weitgehend) identischer Form wiederholt versendet werden, vornehmlich Retweets von Nachrichten einiger weniger anderer Accounts weiterverbreitet werden oder Antworten auf vorangegangene Tweets stets die gleiche standardisierte Form annehmen. Entsprechend ist es notwendig, die Differenzierung von geringer, teilweiser und hochgradiger Automatisierung eines Accounts auf Grundlage eines Gesamteindrucks vorzunehmen. Hierzu dient für jeden Account ein Sample von 50 Tweets, die auf Anzeichen für Automatisierung abgesucht werden. Lässt sich nur für einige wenige Tweets sicher annehmen, dass diese mithilfe von Automatisierungssoftware oder Skripten erzeugt oder weiterverbreitet wurden, wird der untersuchte Account als gering automatisiert eingestuft. Scheinen nahezu alle Tweets automatisiert generiert worden zu sein, handelt es sich um hochgradige Automatisierung, während Accounts, die sowohl
56
F. Muhle
signifikante Anzeichen der Automatisierung als auch der manuellen Kuratierung aufweisen, als teilweise automatisiert eingestuft werden.
3.4.2 Ergebnisse der Analyse Mithilfe des solchermaßen für die Typologisierung konstruierten Kategoriensystems habe ich die 68 bereits zuvor als automatisiert klassifizierten Accounts in den beiden Dimensionen ‚Einsatzzweck‘ und ‚Automatisierungsgrad‘ recodiert und auf dieser Grundlage den in der Kombination der beiden Merkmalsdimensionen möglichen Typen zugeordnet.13 Im Ergebnis konnte ich so insgesamt 46 Accounts dem Einsatzzweck ‚Politik‘ zuordnen, der auch im Kontext der Diskussion um Social Bots im Vordergrund steht. Von diesen 46 Accounts weisen 14 Anzeichen hochgradiger, 20 teilweiser und zwölf geringer Automatisierung auf. Es ist sicherlich dem speziellen Datenkorpus geschuldet, das dezidiert Accounts (und Tweets) enthält, die an politischen Konversationen partizipieren, dass sich sehr viel weniger (teil-)automatisierte Accounts finden, die anderen Zwecken dienen. So gibt es insgesamt zehn Privataccounts, von denen sich drei durch hochgradige, fünf durch teilweise und zwei durch geringe Automatisierung auszeichnen, sowie sechs Geschäftsaccounts, von denen jeweils einer hoch- bzw. gering automatisiert ist, während vier Accounts Merkmale teilweiser Automatisierung aufweisen. Des Weiteren finden sich vier Spam- Accounts, die allesamt hochgradig automatisiert sind, und zwei Spaß-Accounts. Einer dieser Accounts ist hochgradig, der andere gering automatisiert. Anschaulich wird die Verteilung der einzelnen Fälle auf die (möglichen) Typen anhand von Tab. 3.2, welche die Ergebnisse der Typisierung visualisiert. Sieht man sich Tab. 3.2 genauer an, fällt schnell auf, dass sich zwar zahlreiche Accounts (23) den hochgradig automatisierten Account-Typen zuordnen lassen, jedoch insgesamt diejenigen Accounts überwiegen, die teilweise automatisiert sind (29).14 Im KonTab. 3.2 Verteilung der Accounts im Merkmalsraum der Typologie Automatisierungsgrad hoch teilweise gering
Einsatzzweck Politik Privat 14 3 20 5 12 2
Geschäft 1 4 1
Spam 4
Spaß 1 1
Verteilung der Accounts im Merkmalsraum der Typologie
13 Unterstützung erhielt ich hierbei von Niko Wilke, der zur Validierung der Ergebnisse ebenfalls die Daten recodiert hat. Dem Konzept des konsensuellen Codierens folgend, wurden die Daten zunächst getrennt codiert, bevor anschließend bei nicht übereinstimmenden Codierungen kommunikativ eine Einigung erzielt wurde. 14 Differenziert man die Einsatzzwecke, gilt dies nur für die ‚normalen‘ privaten, geschäftlichen und politischen Accounts, nicht jedoch für Spam- und Spaß-Accounts. Möglicherweise liegt dies an Größe und Zusammensetzung des Samples, es könnte aber auch mit den Besonderheiten dieser Account-Typen zusammenhängen. Zumindest für Spam-Accounts scheint es normal zu sein, dass sie in hohem Maße auf Automatisierung setzen (vgl. Gorwa und Guilbeault 2018).
3 Alles Bots?
57
text der aktuellen Debatte um Automatisierung der Online-Kommunikation ist dies bereits besonders bemerkenswert. Denn dieses Ergebnis verweist darauf, dass es tatsächlich angezeigt scheint, nicht einfach nur binär zwischen Bot- und menschengesteuerten Accounts zu unterscheiden, sondern die Existenz ‚hybrider‘ Accounts ernst zu nehmen und diesen mehr Aufmerksamkeit zu widmen (vgl. hierzu auch Abschn. 3.4.2.2 und 3.5). Dies erscheint nicht nur notwendig, damit man ein präziseres Bild der Formen und Ausmaße von Automatisierung auf Twitter erhält, sondern auch vor dem Hintergrund der Frage einer möglichen (unbemerkten) Manipulation der öffentlichen Meinungsbildung im Internet. So ist zu vermuten, dass teilautomatisierte Accounts gerade für automatisierte Methoden der Bot-Erkennung schwer zu identifizieren sind und es ihnen eher gelingt, unterhalb des Radars von Wissenschaft, Politik und Öffentlichkeit ihre politische Agenda zu verfolgen. Die im Folgenden vorgenommene genauere Charakterisierung der drei Typen (teil-) automatisierter politischer Accounts soll hierüber mehr Aufschluss liefern. Aus Platzgründen und weil im Kontext des vorliegenden Beitrags insbesondere auf Automatisierung in der politischen Kommunikation abgehoben wird, liegt der Schwerpunkt auf dem Vergleich der Account-Typen, die politischen Zwecken dienen. Der Vergleich mit Accounts mit anderen Einsatzzwecken steht dagegen in den weiteren Ausführungen nicht im Vordergrund.
3.4.2.1 Politische Accounts mit geringem Automatisierungsgrad Accounts, die diesem Typus zugehören, lassen sich als klar menschengesteuert identifizieren. Zugleich weisen sie aber doch in geringem Maße Merkmale der Automatisierung auf. Typischerweise handelt es sich hierbei um geskriptete Tweets, die gelegentlich über den Account versendet werden. Exemplarisch hierfür steht ein Account eines konservativen (aber gegen Trump agitierenden) Aktivisten, der über seinen Account mit identischen Tweets zur Teilnahme an einem politischen Treffen aufruft (siehe Abb. 3.3). Abgesehen von diesen erkennbar standardisierten Tweets sind jedoch keine weiteren Anzeichen der Automatisierung zu identifizieren. Zwar werden überwiegend Retweets verschickt, aber dies ist für politische Accounts, die nicht professionell betrieben werden, vollkommen normal, und es macht auch nicht den Anschein, als ob nur Nachrichten weiterverbreitet würden, die von den immer gleichen Accounts stammen oder bestimmte Schlagworte beinhalten, was ein Indiz für Automatisierung wäre. In ähnlicher Weise lassen sich auch bei den von dem Account verschickten Original tweets und @replies, die rund ein Drittel der gesamten Nachrichten ausmachen, keine Merkmale der Automatisierung nachweisen. Vielmehr wirken diese authentisch und sowohl situativ als auch zum Account-Typ passend. So engagiert sich der Account erkennbar kompetent und kontextsensitiv in kurzen Interaktionen, in denen der Autor seinen politischen Standpunkt vertritt (siehe Abb. 3.4). Dies kann nicht nur als klares Indiz für menschliche Autorschaft genommen werden, sondern trägt dazu bei, den Account als politischen Account mit Leben zu füllen. Entsprechend handelt es sich bei dem hier exemplarisch angeführten Account um einen typischen Account eines politischen Aktivisten, der Twitter nutzt, um seine politische Position in Auseinandersetzung mit anderen zu verteidigen und zu verbreiten. Hierzu verbreitet er Tweets ähnlich gesinnter bekannter Personen und streitet mit anderen User/innen.
58
F. Muhle
Abb. 3.3 Geskriptete Tweets eines ansonsten weitgehend manuell kuratierten Accounts (eigener Screenshot)
Die vorhandenen Möglichkeiten der Automatisierung werden in diesem Zusammenhang lediglich dazu genutzt, identische Informationen gezielt an verschiedene Rezipient/ innen zu bringen, was in ähnlicher Weise bei standardisierten E-Mails oder analogen Einladungskarten auch der Fall ist. Es handelt sich hierbei also um eine durchaus übliche und im Sinne der Twitter-Automatisierungsregeln auch legitime Form der Automatisierung, da sie dazu dient, „automatisch hilfreiche Informationen in Tweets [zu] verbreiten“ (Twitter 2017). Trotz partieller Automatisierung kann hierin kein Problem für die politische Online- Kommunikation erkannt werden.
3 Alles Bots?
59
Abb. 3.4 Authentische Interaktion eines Accounts mit geringem Automatisierungsgrad (eigener Screenshot)
Dazu passend weisen Accounts, die nur einen geringen Automatisierungsgrad besitzen, in der Regel auch nicht auffällig viele Follower/innen auf und sind auch nicht unerwartet aktiv. Auch in diesen Hinsichten erfolgt also keine oder nur geringe Automatisierung.
3.4.2.2 Politische Accounts mit mittlerem Automatisierungsgrad Etwas anders sieht dies dagegen bei teilweise automatisierten Accounts aus. Diese besitzen zwar immer noch deutlich erkennbare Merkmale der menschlichen Kuratierung, was ähnlich wie bei den gering automatisierten Accounts (siehe Abb. 3.4) vor allem anhand von situativ passendem Engagement in politischen Interaktionen deutlich wird. Darüber hinaus werden aber erkennbar regelmäßig auch automatisiert Nachrichten generiert und/ oder weiterverbreitet. Die Strategien sind hierbei unterschiedlich. So setzen manche Accounts auf das automatisierte Retweeten der Nachrichten bekannter Accounts (etwa Donald Trumps), während andere Accounts teilweise Tweets versenden, deren Inhalt zur politischen Position des Accounts passt und automatisch von Nachrichtenwebseiten generiert wird (siehe Abb. 3.5 und 3.6) oder lediglich aus Hashtags besteht (etwa #Trump2020 #KeepAmericaGreat). Zudem finden sich bei Accounts mit einem mittleren Automatisierungsgrad auch teilweise redundante Aktivitäten, die bei hochgradig automatisierten Accounts noch häufiger vorkommen (siehe Abschn. 3.4.2.3). Das heißt: Es werden teilweise Nachrichten mit (nahezu) identischem Inhalt verbreitet, obwohl die Wiederholung dieser Nachrichten für die eigenen Follower/innen keinen Informationswert mehr besitzt (siehe Abb. 3.7). Im Unterschied zu den lediglich gering automatisierten Accounts wird an den beschriebenen Strategien deutlich, dass Automatisierung hier bereits strategisch eingesetzt wird, um Inhalte, die der eigenen politischen Position entsprechen oder diese stützen, ebenso wie ‚Partisan Hashtags‘ weiter zu verbreiten und kontroverse Themen im Sinne der eigenen Position zu framen. Die Automatisierung der Kommunikation scheint damit weniger
60
F. Muhle
Abb. 3.5 Aus News-Quelle generierter Tweet (eigener Screenshot)
Abb. 3.6 Quelle des Tweets (eigener Screenshot)
darauf abzuzielen, andere Twitter-User von der eigenen Position zu überzeugen, als darauf, die Verbreitung bestimmter Inhalte und Hashtags künstlich zu erhöhen und das öffentliche Framing von Nachrichten zu beeinflussen, um auf diese Weise in Online-Meinungsbil dungsprozesse einzugreifen.
3 Alles Bots?
61
Abb. 3.7 Redundante Tweets, die von einem Account mit mittlerem Automatisierungsgrad verschickt wurden, zunächst in Form eines Retweets und anschließend als ‚Originaltweet‘ (eigener Screenshot)
Sowohl aus öffentlichkeitstheoretischer Perspektive als auch mit Blick auf die Automatisierungsregeln von Twitter handelt es sich hierbei um einen schädlichen Einsatz von Automatisierung. Denn durch die künstliche Verbreitung von in bestimmter Weise geframten Nachrichten und Hashtags entsteht zugleich ein falscher Eindruck von deren Popularität und Relevanz. Dies kann in der Konsequenz einen verfälschten Eindruck der öffentlichen Meinung auf Twitter erzeugen, der das Potenzial besitzt, sich auf die Artikulationsbereitschaft konträrer Meinungen auszuwirken, und über die Massenmedien, welche das Geschehen auf Twitter genau beobachten, weitere Verbreitung zu finden, mit entsprechenden Folgen für die Agenda politischer und medialer Akteure. Zugleich sind Accounts mit einem mittleren Automatisierungsgrad in der Regel nicht unverhältnismäßig aktiv, besitzen nicht übermäßig viele Follower/innen und verschicken wie bereits erwähnt in ausreichendem Maße klar erkennbar menschlich generierte Beiträge. Angesichts dessen fallen sie auch nicht auf den ersten Blick als automatisiert auf,
62
F. Muhle
sind daher kaum von Sperrung bedroht und werden in der Regel auch von automatisierten Methoden der Bot-Erkennung nicht als Bot-gesteuert identifiziert. Wenn in der Literatur zu Social Bots davon ausgegangen wird, dass diese ihre maschinelle Identität zu verschleiern versuchen, so trifft der Versuch der Verschleierung der Automatisierung entsprechend offensichtlich vor allem auf die hier charakterisierten Accounts mit teilweiser Automatisierung zu. Denn im Unterschied zu diesen erscheinen die Aktivitäten der hochgradig automatisierten Accounts wesentlich auffälliger und damit leicht erkennbar.
3.4.2.3 Hochgradig automatisierte politische Accounts Im Vergleich zu Accounts mit geringer und teilweiser Automatisierung, deren Aktivitäten in der Regel zu einem nicht unbedeutenden Teil auch aus manuell kreierten @replies und Originaltweets bestehen, fällt an den meisten hochgradig automatisierten Accounts auf, dass der Anteil von Retweets an ihren Aktivitäten insgesamt höher ist und in der Regel zwischen 80 und 100 % liegt. Ergänzt werden diese Retweets, die oftmals auch redundante Nachrichten weiterverbreiten (siehe Abb. 3.8), durch ‚Originaltweets‘ und @replies, die in den meisten Fällen jedoch nahezu vollständig standardisiert wirken. So finden sich hier, wie auch schon oben dargestellt (siehe Abb. 3.6), Nachrichtenbeiträge, die mithilfe von Automationssoftware aus Beiträgen anderer Webseiten generiert wurden, aber auch vorproduzierte Bilder, die von Meme-Portalen im Internet stammen (siehe Abb. 3.9). Genauso lassen sich aber auch Tweets identifizieren, die aus vorgefertigten Textblöcken produziert scheinen und sich teilweise wiederholen (siehe Abb. 3.10 und 3.13). Wie die teilweise automatisierten Accounts zielen damit auch die hochgradig automatisierten Accounts in erster Linie darauf ab, existierende Inhalte zu verbreiten und die eigene politische Position zu stärken. Dies machen sie allerdings in einem weitaus höheren Maße standardisiert und zudem aggressiver als die weniger automatisierten politischen Accounts. Denn nicht nur erscheint ein Großteil ihrer Aktivitäten automatisiert. Darüber hinaus finden diese Aktivitäten in einer viel höheren Frequenz statt und werden an unglaubwürdig viele Follower/innen ausgespielt, sodass insgesamt mehr Inhalte in beträchtlich geringerer Zeit weiter verbreitet werden als dies bei den anderen Typen (teil-)automatisierter Accounts durchschnittlich der Fall ist. Exemplarisch deutlich wird dies an dem in Abb. 3.11 dargestellten Profil eines hochgradig automatisierten Accounts. Dieser hat seit seiner Einrichtung bereits 357.000 Tweets versendet. Im Durchschnitt sind dies 122 Tweets pro Tag, wobei es sich zu über 95 % um Retweets anderer Accounts handelt (etwa @realDonaldTrump, @WhiteHouse, @TrumpWarRoom oder @DonaldJTrumpJr). Zudem besitzt der Account 385.000 Follower/innen, was normal für Accounts prominenter Persönlichkeiten wäre15 – aber nicht für Accounts politischer Aktivist/innen, die nicht selbst Personen öffentlichen Interesses sind. Dies verweist recht deutlich auf den Einsatz 15 So weisen in dem verwendeten Datenkorpus etwa die Schauspielerin und Sängerin Rita Wilson oder die Vloggerin Allison Speed ähnliche Follower/innen-Zahlen auf.
3 Alles Bots?
63
Abb. 3.8 Redundante Retweets (eigene Screenshots)
Abb. 3.9 Tweet, der aus einer vorgefertigten Bilddatei besteht (eigener Screenshot)
sogenannter Auto-follow Tools, mit denen die Follower/innen-Zahlen künstlich in die Höhe getrieben werden.16 Es gibt zahlreiche zumeist kostenpflichtige Programme, die es Twitter-User/innen ermöglichen, automatisiert Follower/innen zu generieren. Einerseits setzen sie darauf, automatisiert anderen User/ innen zu folgen, um diese in Einklang mit Reziprozitätserwartungen dazu zu bringen, im Gegenzug dem eigenen Account zu folgen. Andersherum können sie aber auch darauf setzen, dass sie automatisch denjenigen Accounts folgen, die dem eigenen Account folgen, und dies offensiv bewerben. Denn auf diese Weise werden andere an hohen Follower/innen-Zahlen interessierte User/innen eingeladen, Follower/innen des Accounts zu werden. 16
64
F. Muhle
Abb. 3.10 Standardisierte und redundante Antworten eines hochgradig automatisierten Accounts (eigene Screenshots)
In der Verbindung von hohen Zahlen von Follower/innen und den skizzierten Aktivitäten agieren hochgradig automatisierte politische Accounts somit gleichsam als Verbreitungsmedien für Nachrichten des eigenen politischen Lagers, die dazu dienen, deren Sichtbarkeit permanent sicherzustellen und zu erhöhen, gehen dabei aber nicht sonderlich subtil, sondern eher massiv vor.17 Doch selbst unter den hochgradig automatisierten Accounts gibt es in den meisten Fällen noch Hinweise auf zumindest partielle menschliche Kuratierung. Denn auch wenn in vielen Fällen sogar @replies automatisiert und standardisiert erzeugt werden (siehe Abb. 3.9), ist dies nicht durchgängig der Fall. Vielmehr finden sich bei den meisten Accounts vereinzelte Tweets, von denen plausibel anzunehmen ist, dass sie manuell erstellt worden sind. Exemplarisch steht hierfür die in Abb. 3.11 zu sehende (beleidigende) Antwort eines ansonsten hochgradig automatisierten Accounts auf einen Beitrag des Schriftstellers Stephen King. Diese Antwort nutzt erkennbar das ‚Weltwissen‘ ihres Autors und thematisiert explizit den Beruf des Schriftstellers, um dies als Ressource für die Beleidigung zu verwenden, weshalb kaum anzunehmen ist, dass es sich um eine automatisch generierte Antwort handelt (Abb. 3.12). 17 Damit haben hochgradig automatisierte Accounts in den Mustern ihrer Aktivitäten große Ähnlichkeit mit Spam-Accounts. Denn diese versenden ebenfalls mehrheitlich in hoher Frequenz Retweets, die durch gelegentliche geskriptete ‚Originaltweets‘ ergänzt werden. Der Unterschied zwischen beiden Account-Typen besteht im Wesentlichen darin, dass die einen politische Inhalte verbreiten, während die anderen Werbung und Hinweise auf Gewinnspiele distribuieren. Anders agieren dagegen Privat- und Geschäftsaccounts. Denn deren Aktivitäten bestehen nicht vornehmlich aus Retweets, sondern aus ‚Originaltweets‘, die einmal mehr mithilfe von Skripten, welche Inhalte von anderen Quellen abziehen, automatisch generiert werden. Bei den Geschäftsaccounts sind dies etwa Marketing-News, Börsenmeldungen oder Getreidepreise, während es sich bei den Privataccounts um Boulevardnachrichten, Schminktipps oder Links zu Musikvideos handelt.
3 Alles Bots?
65
Abb. 3.11 Profil eines hochgradig automatisierten politischen Accounts, eigener Screenshot
Mit Blick auf die Debatte um Political Bots ist also festzuhalten, dass selbst hochgradig automatisierte Accounts nicht notwendig reine Bots sein müssen, sondern oftmals zumindest temporär auch von Menschenhand bedient werden, sodass es eher irreführend wäre, sie als Bots zu bezeichnen. Zugleich können selbst verifizierte Accounts, die von Twitter als authentisch bestätigt worden sind und sich damit eindeutig konkreten menschlichen Personen zurechnen lassen, hochgradig automatisiert sein. So findet sich in dem untersuchten Sample ein verifizierter Account einer politischen Kolumnistin, deren Account durchschnittlich 259 Tweets am Tag absetzt, bei denen es sich in hohem Maße um standardisierte und redundante Allgemeinplätze (siehe Abb. 3.13) oder Retweets anderer Accounts mit ähnlicher politischer Ausrichtung handelt. Angesichts dessen macht es keinen Sinn, diesen Account als manuell gesteuert zu klassifizieren, nur weil er verifiziert ist. Um einen Bot handelt es sich aber offensichtlich auch nicht, sondern eher um einen „bot-assisted human“ (Gorwa und Guilbeault 2018, S. 9), der die Probleme einer lediglich binären Unterscheidung von Bots und Menschen offenlegt.
3.5
Schluss
Während bisherige Ansätze zur Detektion automatisierter Accounts in sozialen Medien auf automatisierte Methoden der Bot-Erkennung setzen und lediglich binär zwischen Botund menschengesteuerten Ansätzen unterscheiden, habe ich im vorliegenden Beitrag einen Ansatz präsentiert, der es ermöglicht, mit den Mitteln der typenbildenden qualitativen Inhaltsanalyse in differenzierter Weise automatisierte Accounts einerseits nach ihren Einsatzzwecken und andererseits nach dem Grad ihrer Automatisierung zu differenzieren. Was ist mit einem solchen Ansatz aber gewonnen?
66
F. Muhle
Abb. 3.12 Manuell generierte Antwort eines hochgradig automatisierten Accounts (eigener Screenshot)
Abb. 3.13 Automatisierte Tweets eines verifizierten Accounts (eigener Screenshot)
3 Alles Bots?
67
Wie die im Rahmen der Fallstudie produzierten Ergebnisse zeigen, mindestens zweierlei: Zum einen ermöglicht es dieser Ansatz durch Differenzierung verschiedener Einsatzzwecke automatisierter Accounts, solche Accounts verlässlich zu identifizieren, die tatsächlich auch ernsthaft in politischen Kommunikationsprozessen zu intervenieren versuchen. Aussortiert werden dagegen solche Accounts, die z. B. trendende Hashtags nutzen, um sichtbar zu werden, aber inhaltlich ganz anderen Zwecken dienen (z. B. Spam oder Spaß). Denn diese Accounts sind für die Analyse automatisierter politischer Kommunikation nicht relevant, würden aber unter Umständen als relevant behandelt, wenn sie lediglich mithilfe der etablierten automatisierten Methoden der Bot-Erkennung identifiziert würden. Zum anderen führt insbesondere die Differenzierung unterschiedlicher Grade der Automatisierung zu relevanten und für den Diskurs um Social Bots möglicherweise weiterführenden Einsichten. Denn die mithilfe der Inhaltsanalyse eng am empirischen Material gewonnenen Ergebnisse weisen nachdrücklich darauf hin, dass die in der bisherigen Forschung überwiegende binäre Unterscheidung zwischen Bot- und menschengesteuerten Accounts der empirischen Realität nicht gerecht wird und selbst hochgradig automatisierte Accounts bei näherer Betrachtung Momente manueller Kuratierung aufweisen können. In der Konsequenz scheint es naheliegend, in der Debatte weniger von Social Bots oder Political Bots zu sprechen als von (teil-)automatisierten Accounts, da dies der empirischen Realität gerechter wird. In diesem Zusammenhang gilt es, insbesondere demjenigen Account-Typ Aufmerksamkeit zu widmen, der sich durch teilweise Automatisierung auszeichnet. Denn während Accounts mit geringer Automatisierung kaum ein Problem für den politischen Onlinediskurs und die Verfertigung öffentlicher Meinung darstellen und die Strategien der hochgradig automatisierten Accounts recht auffällig und damit auch leicht aufdeckbar erscheinen, besteht bei teilweise automatisierten Accounts die Gefahr, dass sie unentdeckt bleiben, was ja auch das erklärte Ziel des manipulativen Einsatzes automatisierter Accounts ist. Dies kann insbesondere dann problematisch werden, wenn entsprechende Accounts massenhaft auftreten und sogar koordiniert aktiv sind, um bestimmte politische Agenden zu verfolgen und auf diese Weise unterhalb des Radars von Öffentlichkeit, Politik und Wissenschaft Prozesse öffentlicher Meinungsbildung zu beeinflussen. Weitergehende Analysen müssten daher genau an dieser Stelle ansetzen und genauer in den Blick nehmen, welche politischen Agenden entsprechende Accounts in welcher Weise und mit welchem Erfolg verfolgen. Dabei würde es auch gelten, genauer die Strukturen der Netzwerke zu untersuchen, in denen sich (teil-)automatisierte Accounts bewegen. Die typisierende Analyse von (teil-)automatisierten politischen Accounts stellt damit nur einen ersten Schritt dar, um darauf aufbauend deren Aktivitäten sowie mögliche Folgen ihres Einsatzes für Netzwerkstrukturen, Themendiffusion, Diskursqualität und Generierung öffentlicher Meinung im Internet genauer in den Blick zu nehmen. Dies bleibt ein Desiderat weiterer Forschung.
68
F. Muhle
Literatur Abdi-Herrle, S. (2018): Mediale Themensetzung in Zeiten von Web 2.0. Wer beeinflusst wen? Das Agenda-Setting-Verhältnis zwischen Twitter und Online-Leitmedien. Baden-Baden: Nomos (Politische Kommunikation und demokratische Öffentlichkeit; 16). Badawy, A./Ferrara, E./Lerman, K. (2018): Analyzing the Digital Traces of Political Manipulation: The 2016 Russian Interference Twitter Campaign. In: Brandes, U./Reddy, C. K./Tagarelli, A. (Hrsg.): Proceedings of the 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). Piscataway (NJ): IEEE, S. 258–265. Bessi, A./Ferrara, E. (2016): Social Bots distort the 2016 U.S. Presidential election online discussion. In: First Monday 21 (11) (https://doi.org/10.5210/fm.v21i11.7090) [letzter Zugriff: 24.01.2020]. Boshmaf, Y. et al. (2011): The Socialbot Network: When Bots Socialize for Fame and Money. In: Zakon, R. H. (Hrsg.): Proceedings of the 27th Annual Computer Security Applications Conference (ACSAC ’11). New York (NY): ACM, S. 93–102. Brachten, F. et al. (2017): Strategies and Influence of Social Bots in a 2017 German state election – A case study on Twitter. In: ACIS 2017 Proceedings (https://arxiv.org/pdf/1710.07562) [letzter Zugriff: 24.01.2020]. Braun, A. (2003): Chatbots in der Kundenkommunikation. Berlin, Heidelberg: Springer (Xpert.press). Conway, B. A./Kenski, K./Wang, D. (2015): The Rise of Twitter in the Political Campaign: Searching for Intermedia Agenda-Setting Effects in the Presidential Primary. In: Journal of Computer- Mediated Communication 20 (4), S. 363–380 (https://doi.org/10.1111/jcc4.12124) [letzter Zugriff: 24.01.2020]. Davis, C. A. et al. (2016): BotOrNot. A System to Evaluate Social Bots. In: Bourdeau, J. et al. (Hrsg.): Proceedings of the 25th International Conference on World Wide Web (WWW 2016). Companion Volume. New York (NY): ACM, S. 273 f. Følstad, A./Skjuve, M./Brandtzaeg, P. B. (2019): Different Chatbots for Different Purposes: Towards a Typology of Chatbots to Understand Interaction Design. In: Bodrunova, S. S. et al. (Hg.): Internet Science. INSCI 2018 International Workshops. Revised Selected Papers. Cham: Springer (Lecture Notes in Computer Science; 11551), S. 145–156. Gallwitz, F./Kreil, M. (2019): Die Mär von „Social Bots“. In: Tagesspiegel Background (https://background.tagesspiegel.de/digitalisierung/die-maer-von-social-bots) [letzter Zugriff: 15.07.2019]. Gehl, R. W./Bakardjieva, M. (2017): Socialbots and Their Friends. In: dies. (Hrsg.): Socialbots and Their Friends. Digital Media and the Automation of Sociality. New York (NY), London: Routledge, S. 1–16. Gerhards, J. (1997): Diskursive versus liberale Öffentlichkeit. Eine empirische Auseinandersetzung mit Jürgen Habermas. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie 49 (1), S. 1–34. Gorwa, R./Guilbeault, D. (2018): Unpacking the Social Media Bot: A Typology to Guide Research and Policy. In: Policy & Internet (https://doi.org/10.1002/poi3.184) [letzter Zugriff: 24.01.2020]. Habermas, J. (2014): Hat die Demokratie noch eine epistemische Dimension? Empirische Forschung und normative Theorie. In: ders: Kleine politische Schriften XI: Ach, Europa. 5. Aufl. Frankfurt a. M: Suhrkamp, S. 138–191. Harth, J. (2017): Empathy with Non-Player Characters? An Empirical approach to the Foundations of Human/Non-Human Relationships. In: Journal of Virtual Worlds Research 10 (2) (https://doi. org/10.4101/jvwr.v10i2.7272) [letzter Zugriff: 24.01.2020]. Hegelich, S. (2016): Invasion der Meinungs-Roboter. In: Analysen & Argumente 221, S. 1–9 (https:// www.kas.de/documents/252038/253252/7_dokument_dok_pdf_46486_1.pdf/aa0b183f-e298f66e-aef1-b41d6246370b?version=1.0) [letzter Zugriff: 24.01.2020].
3 Alles Bots?
69
Hegelich, S./Janetzko, D. (2016): Are Social Bots on Twitter Political Actors? Empirical Evidence from a Ukrainian Social Botnet. In: Proceedings oft he Tenth International AAAI Conference on Web and Social Media (ICWSM 2016). Palo Alto (CA): AAAI Press, S. 579–582 (https://www. aaai.org/ocs/index.php/ICWSM/ICWSM16/paper/view/13015) [letzter Zugriff: 24.01.2020]. Howard, P. N./Kollanyi, B. (2016): Bots, #StrongerIn, and #Brexit. Computational Propaganda during the UK-EU Referendum (COMPROP Research Note; 1) (https://doi.org/10.2139/ ssrn.2798311) [letzter Zugriff: 24.01.2020]. Howard, P. N./Woolley, S./Calo, R. (2018): Algorithms, bots, and political communication in the US 2016 election. The challenge of automated political communication for election law and administration. In: Journal of Information Technology & Politics 15 (2), S. 81–93 (https://doi.org/1 0.1080/19331681.2018.1448735) [letzter Zugriff: 24.01.2020] Keller, T. R./Klinger, U. (2019): Social Bots in Election Campaigns: Theoretical, Empirical, and Methodological Implications. In: Political Communication 36 (1), S. 171–189. Kluge, S. (1999): Empirisch begründete Typenbildung. Zur Konstruktion von Typen und Typologien in der qualitativen Sozialforschung. Opladen: Leske + Budrich. Kollanyi, B./Howard, P. N./Woolley, S. C. (2016): Bots and Automation over Twitter during the U.S. Election (COMPROP Data Memo 2016.4) (http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2016/11/Data-Memo-US-Election.pdf) [letzter Zugriff: 24.01.2020]. Kuckartz, U. (2016): Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung. 3., überarb. Aufl. Weinheim, Basel: Beltz Juventa (Grundlagentexte Methoden). Leistert, O. (2017): Social Bots als algorithmische Piraten und als Boten einer techno-environmentalen Handlungskraft. In: Seyfert, R./Roberge, J. (Hrsg.): Algorithmuskulturen. Über die rechnerische Konstruktion der Wirklichkeit. Bielefeld: transcript (Kulturen der Gesellschaft; 26), S. 215–234 (https://doi.org/10.25969/mediarep/2756) [letzter Zugriff: 24.01.2020]. Lokot, T./Diakopoulos, N. (2016): News Bots. Automating news and information dissemination on Twitter. In: Digital Journalism 4 (6), S. 682–699. Magin, M. et al. (2019): Schweigespirale oder Echokammer? Zum Einfluss sozialer Medien auf die Artikulationsbereitschaft in der Migrationsdebatte. In: Weber, P. et al. (Hrsg.): Meinungsbildung in der Netzöffentlichkeit. Aktuelle Studien zu Nachrichtennutzung, Meinungsaustausch und Meinungsbeeinflussung in Social Media. Baden-Baden: Nomos (Rezeptionsforschung; 40), S. 95–114. Mayring, P. (2015): Qualitative Inhaltsanalyse. Grundlagen und Techniken. 12., überarb. Aufl. Weinheim, Basel: Beltz. Muhle, F. (2017): Embodied Conversational Agents as Social Actors? Sociological Considerations on the Change of Human-Machine Relations in Online Environments. In: Gehl, R. W./Bakardjieva, M. (Hrsg.): Socialbots and Their Friends. Digital Media and the Automation of Sociality. New York (NY), London: Routledge, S. 86–109. Muhle, F./Ackland, R./Graham, T. (2018): Socialbots in politischen Online-Konversationen. Eine (überschätzte) Gefahr für demokratische Willensbildung im Internet? In: Zeitschrift für Parlamentsfragen 49 (3), S. 618–638. Muhle, F./Ackland, R./Graham, T. (2019): Automatisierte politische Kommunikation auf Twitter. Popularität und Einfluss automatisierter Accounts in Online-Konversationen zur US- Präsidentschaftswahl 2016. In: Burzan, N. (Hrsg.): Komplexe Dynamiken globaler und lokaler Entwicklungen. Verhandlungen des 39. Kongresses der Deutschen Gesellschaft für Soziologie in Göttingen 2018 (https://publikationen.soziologie.de/index.php/kongressband_2018/article/ view/1091/1396) [letzter Zugriff: 24.01.2020]. Neudert, L.-M./Kollanyi, B./Howard, P. N. (2017): Junk News and Bots during the German Federal Presidency Election: What are German Voters Sharing Over Twitter? (COMPROP Data Memo
70
F. Muhle
2017.2) (http://blogs.oii.ox.ac.uk/comprop/wp-content/uploads/sites/93/2017/09/ComProp_ GermanElections_Sep2017v5.pdf) [letzter Zugriff: 24.01.2020]. Öhman, C./Gorwa, R./Floridi, L. (2019): Prayer-Bots and Religious Worship on Twitter: A Call for a Wider Research Agenda. In: Minds and Machines 29 (2), S. 331–338 (https://doi.org/10.1007/ s11023-019-09498-3) [letzter Zugriff: 24.01.2020]. Paoli, S. De (2016): The Raise of the Robots in Virtual Worlds: A Comparison and a Framework for Investigating Bots in Social Networks Sites and MMOGs. In: Sivan, Y. Y. (Hrsg.): Handbook on 3D3C Platforms. Applications and Tools for Three Dimensional Systems for Community, Creation and Commerce. Cham: Springer (Progress in IS), S. 59–83. Rizoiu, M.-A. et al. (2018): DebateNight. The Role and Influence of Socialbots on Twitter During the 1st 2016 U.S. Presidential Debate. In: Proceedings of the Twelfth International AAAI Conference on Web and Social Media (ICWSM 2018). Palo Alto (CA): AAAI Press,, S. 300–309 (https://www.aaai.org/ocs/index.php/ICWSM/ICWSM18/paper/view/17886/17021) [letzter Zugriff: 24.01.2020]. Ross, B. et al. (2019): Are social bots a real threat? An agent-based model of the spiral of silence to analyse the impact of manipulative actors in social networks. In: European Journal of Information Systems 28 (4), S. 394–412 (https://doi.org/10.1080/0960085X.2018.1560920) [letzter Zugriff: 24.01.2020]. Schreier, M. (2014): Varianten qualitativer Inhaltsanalyse: Ein Wegweiser im Dickicht der Begrifflichkeiten. In: Forum Qualitative Sozialforschung 15 (1), Art. 18 (http://www.qualitative- research.net/index.php/fqs/article/view/2043/3635) [letzter Zugriff: 24.01.2020]. Stieglitz, S. et al. (2017): Do Social Bots Dream of Electric Sheep? A Categorisation of Social Media Bot Accounts. In: Proceedings of the 28th Australasian Conference on Information Systems (ACIS 2017). (https://arxiv.org/pdf/1710.04044) [letzter Zugriff: 24.01.2020]. Thieltges, A./Hegelich, S. (2018): Falschinformationen und Manipulation durch social bots in sozialen Netzwerken. In: Blätte, A. et al. (Hrsg.): Computational Social Science: Die Analyse von Big Data. Baden-Baden: Nomos (Schriftenreihe der Sektion Methoden der Politikwissenschaft der Deutschen Vereinigung für Politikwissenschaft), S. 357–378. Turkle, S. (1998): Leben im Netz. Identität in Zeiten des Internet. Reinbek bei Hamburg: Rowohlt. Twitter (2017): Automatisierungsregeln (Aktualisiert am 6. April 2017). In: Twitter. Hilfe-Center (https://help.twitter.com/de/rules-and-policies/twitter-automation) [letzter Zugriff: 15.07.2019]. Twitter (2019a): Über Drittanbieter-Apps und Anmeldesitzungen. In: Twitter. Hilfe-Center (https:// help.twitter.com/de/managing-your-account/connect-or-revoke-access-to-third-party-apps) [letzter Zugriff: 15.07.2019]. Twitter (2019b): Über Twitter APIs. In: Twitter. Hilfe-Center (https://help.twitter.com/de/rules-and-policies/twitter-api) [letzter Zugriff: 15.07.2019]. Varol, O. et al. (2017): Online Human-Bot Interactions. Detection, Estimation, and Characterization. In: Proceedings of the Eleventh International AAAI Conference on Web and Social Media (ICWSM 2017). Palo Alto (CA): AAAI Press, S. 280–289 (http://arxiv.org/pdf/1703.03107) [letzter Zugriff: 24.01.2020]. Veale, T./Cook, M. (2018): Twitterbots. Making Machines that Make Meaning. Cambridge (MA), London: The MIT Press. Veale, T./Valitutti, A./Li, G. (2015): Twitter: The Best of Bot Worlds for Automated Wit. In: Norbert Streitz und Panos Markopoulos (Hrsg.): Distributed, ambient, and pervasive interactions. Third international conference. DAPI 2015. Held as Part of HCI International 2015. Proceedings. Cham: Springer (Lecture notes in computer science; 9189), S. 689–699.
4
Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How to Catch a Tweeting Bird Samuel Breidenbach und Peter Klimczak
Inhaltsverzeichnis 4.1 Introduction 4.2 Social Media as the Datafication of Everyday Communication 4.2.1 Twitter as the Subject of Data Analysis 4.2.2 Observation of Society on Twitter 4.3 How to Catch a Tweeting Bird 4.3.1 Modes of Accessing Twitter Data 4.3.2 Selection and Transformation in Data Analysis 4.3.3 What Do Twitter Data Describe? 4.4 Archiving Twitter 4.5 Conclusion and Outlook References
72 72 75 76 76 77 80 82 84 86 86
Abstract
In times of increasing societal significance of public discourse on social media, questions surrounding the possibilities of access to the data generated are becoming ever more pressing. Using the example of the short message service Twitter, the article describes not only how everyday individual observations can be recorded on social media, but also the changes to which the availability of socially relevant information is subject, if society has only selective access to it and modes of access are being transformed generally: digital data requires for its generation, storage and analysis – especially that
S. Breidenbach (*) · P. Klimczak Fachgebiet für Angewandte Medienwissenschaften, Brandenburgische Technische Universität, Cottbus, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_4
71
72
S. Breidenbach und P. Klimczak
of large amounts of data – the technical system of the computer, which selects data according to particular observational interests and allows it to appear in a new context. Keywords
Social media analysis · Archive · Public discourses · Datafication · Database · Data processing
4.1
Introduction
Virtually parallel to its emergence and growth, the short message service Twitter has been accompanied by increasing interest from, above all, computer science research, but also from the social sciences and humanities (see Weller 2014a, p. 3). Not least because of this, social media analysis has developed in general, but also Twitter research in particular has grown within a few years into a broad field within (and between) the individual disciplines. In the following, various aspects of social media research will be examined against the background of a system theory of media, in order to give an initial overview of different theoretical as well as technical implications and hurdles and to provide an entrée into the field of Twitter research. To this end, part 4.2 describes how communication on social media differs from the public discourses of the pre-internet age, because social media render communication in a standardized form, which is – theoretically – retrievable at any time and able to be distributed en masse. In part 4.3 a brief look is cast at the lifeworld circumstances under which social media data is created and which many of the analyses ultimately seek to describe. Parts 4.3.1 and 4.3.2 then outline – in virtual analogy to the sequence of a research project – the collection, analysis and interpretation of Twitter data as well as of questions and problem areas related to these sets of issues. Lastly, in part 4.4, the more long-term perspective is discussed as to whether and how this data can be retained for future access and – in reference to the broader system-theoretical framework – how the social handling of information changes if this data is no longer available archivally, but instead configured algorithmically.
4.2
Social Media as the Datafication of Everyday Communication
A now well-established practice on Twitter is the commenting on and redistribution of, by means of screenshot capture within one’s own tweet, the potentially controversial tweets of others that are soon likely to be deleted. When a post is shared as a quoted retweet using Twitter’s built-in citing function, the original tweet no longer appears after its deletion, but rather only an indication in the commenting post that the tweet cited has been deleted.1 However, even this practice comes in for criticism, since screenshots, as image files, are always manipulable with minimal technical effort. A further possibility for documenting tweets, which co1
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
73
Similarly to the screen-capture method, the Twitter bot @ArchivFD2 (Archive for Germany) automatically shares posts from accounts of leading members of the AfD or their circles, in case the posts are subsequently deleted by the authors. Such communicative practices, which even use technical systems to preserve individual posts, are an expression of the wish to make the ever-changing communication on social media platforms tangible, to fix and archive it in its present form. Beyond the issue of the deletion of individual tweets or entire accounts, the question arises as to how the data produced by users on social media platforms is preserved and in what form and by whom access to it is made possible. In addition to Twitter, platforms such as Facebook and, now increasingly in Germany, YouTube have also become an important part of public discussion and a source for journalistic reporting. In the run-up to the 2019 European Parliament elections, YouTuber Rezo (2019) reached an audience of millions in just a few days with his video “The Destruction of the CDU” and sparked a controversial debate in the public and political sphere about the status of private expression on the internet. Newspaper articles, news programmes and talk shows frequently make reference to individual tweets or Facebook posts by politicians. In July 2017, for example, the Tagesschau reported on a tweet by the CDU general secretary Peter Tauber (2017) in which he responded to another account’s lament for the problems of the precariously employed: “If they have learned something proper, then they don’t need three mini-jobs.”3 The flippant and perhaps desultory comment of a politician on Twitter, with which Tauber sparked a wave of outrage, thus became newsworthy – an image of the tweet as it appears on a screen is shown in the Tagesschau report. Even though it is nothing new for private individuals to express themselves in public discourse, these expressions of private opinions are having a completely new impact due to the increasing societal prevalence of the internet and, in particular, of the large social media platforms, because publication on the internet radically expands the potential reach of these opinions. Through their presence on social media as supposedly private individuals, public figures are changing the structures of social and mass media communication. For example, current US President Donald Trump is making his ‘private’ Twitter account the direct channel of his public communications, while at the same time discrediting traditional forms of mass media communication – following his ‘private’ Twitter account thus seems compulsory for an adequate understanding of current US policy. More importantly, though, each individual’s opinion becomes, when published on the internet, a piece
mes closer to fulfilling the requirement of authentic reproduction, are archiving services, by means of which it is possible to archive entire websites (e.g. https://archive.org/). 2 https://twitter.com/ArchivFD/ [Accessed: 24 June 2019]. Unfortunately, the account profile of the bot @ArchivFD does not provide information on the technology it uses. It is possible that the bot creates a screenshot of every post published by selected AfD accounts, then shares this in case the tweet is later deleted. 3 How controversial Tauber’s statement on Twitter was can be gauged from the unusually high number of replies to the tweet (over 1600).
74
S. Breidenbach und P. Klimczak
of data that can be globally accessed and viewed, giving the statement a seemingly unrestricted public visibility. Katzenbach describes this new status of the opinions of individuals in the digitized social discourse by example of weblogs (to which he, in broader terms, also counts the big social media providers Facebook and Twitter): The fleeting nature of interactions in simple publics is […] captured by blogs into a manifest, permanent form. This permanence makes it possible to conduct and rehash debates over time. Via links and trackbacks, the individual episodes combine to form networked conversations. The shift from simple publics into a medial space with the features described thus enormously increases the possibilities for follow-up communication. (Katzenbach 2016, p. 9)
The possibilities for follow-up communication expand not only because individual posts are connected by links and trackbacks and thus explicate references. Through the publication of individual communication posts, which can be localized by means of links, everyday communication, as is mainly practised on social media, is fixed in writing in the first place and thus in turn enables further written referencing. This increase in possibilities for follow-up communication can initially be understood quantitatively. Whereas in the past the individual had access to opportunities to publish private expression – for example in the form of letters to the editor or special television broadcasters such as an ‘open channel’ – it is now possible for a significantly larger group to publish their own opinions in higher volume and at an extremely low-threshold, which gives them at least the potential to be received by the masses. However, possibilities for follow-up communication are also changing qualitatively, be it due to the technical specifications of the services, such as the character limitation of a tweet, or pre-existing options for follow-up communication such as liking or retweeting a post and the ability to communicate anonymously. Above all, however, social media enable an encounter and confrontation with the completely contrary points of view of others, which otherwise would not take place, because the people involved simply would never meet4 – a circumstance that perhaps also explains the emotionality of many discussions conducted on social media platforms. These possibilities were available to the individual in principle even prior to the age of the social web (albeit the threshold was not as low), but due to the current technical possibilities, they are also assuming new qualities. Thus, according to Plake et al., the discourses on social media are fundamentally different from everyday verbal communication, even though many posts contain only routine observations: Even the technical constraint to decide on the status of an acquaintance communicatively in the yes/no format stands in marked contrast to the subtle possibilities of direct or indirect communication to gradually create closeness or distance in interactions and conventional social networking. (Plake et al. 2001, p. 294) This especially applies to interaction or communication between public figures and private individuals, e.g. between politicians and (critical) citizens, stars and their fans (or haters), but also between people whose social standing, political views or, simply, whose living environments are too disparate to allow opportunities for communication to arise under normal circumstances. 4
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
75
To be sure, it has become possible on social media to use emojis, pictures, gifs or memes to explore ways of explicating subtle undertones in one’s own communication. Likewise, our everyday social behaviours – speaking or not speaking, smiling or not smiling – are, in their basic forms, binary-coded.5 However, by posting on social media, these greatly reduced and unified codings are rendered in a technically manifest form and stored as such, which is why – at least in the commonly held view and at least in most cases (if, for example, posts are for some reason not deleted) – they can be made present at any time. While in everyday communication only memories of what has been said remain, i.e. individual observations and descriptions can usually only be recalled in the form of self or external observations, social media posts can be recalled at any time and in identical form (for several limitations on this presupposition, see part 4.3.1). Binary encodings, such as (not) following, mentioning an account and tweeting to a hashtag (or not doing so), inevitably produce data about each account that is automatically stored by the providers, can be localised and also allows the unambiguous identification of the respective references of different communication posts, if, for example, one tweet refers to another and the latter is quoted by retweet.
4.2.1 Twitter as the Subject of Data Analysis Despite a sometimes very diverse range of disciplinary and methodological approaches to Twitter as an object of research, some common forms of data analysis have emerged in humanities and social sciences research and in journalistic reporting on Twitter: Stieglitz et al. (2014, p. 107) distinguish between, among other things, the statistical analyses as well as the examination of content (topic modelling, word clustering, etc.), moods (sentiment analysis) and networks as primary fields of social media analysis. In practice, of course, the various procedures are often combined: for example, in their cluster analysis of different communities who took part in discussion on the hashtag #aufschrei on Twitter, Maireder and Schlögl (2015) visualize the follower relationships of several thousand accounts and assign them, on the basis of a textual analysis of the profile description of each account, to several thematic groups, such as ‘feminism’, ‘media’ or ‘entertainment’. Similar visualizations of a debate on Twitter are provided by Vogler and Rauchfleisch (2017) with their network analysis of several thousand accounts who participated in the discussion about the future energy strategy of Switzerland under the hashtag #ES2050. In this case, however, the clustering of each account was conducted using an artificial neural network and the investigation is also based on the network of retweets and mentions (@ mention) between the individual accounts. In his presentation at the 34th Chaos Communication Congress, data journalist Michael Kreil (2017) showed a graphic visualization of the retweets of a proven fake news story and how, in contrast, its correction spread. It should be noted that binarity is not negatively connoted here. In system theory, binary coding of information is a necessary condition for communication in general (see Luhmann 2012, p. 212).
5
76
S. Breidenbach und P. Klimczak
4.2.2 Observation of Society on Twitter These studies share a common focus on documenting a public discourse on Twitter on a topic of general social interest. In the age of increased publicity of individual posts via WWW and social media, the opinions of individuals “appear as alternative propositions for the interpretation of reality right next to journalistic constructions” (Katzenbach 2008, p. 114). Thus, the descriptions of social reality expressed in individual social media posts fulfil, from a system theory perspective, a similar function to that of conventional mass media. Mass media observe society; their contribution consists in providing up-to-date descriptions of society, to which the other systems can, in their respective communication, connect (see Luhmann 2009, p. 120; Eckoldt 2007, pp. 171–174). Even if only a few social media posts receive as much attention as the headline of a newspaper report or the video of the YouTuber Rezo, and one therefore can not assume societal awareness of the posts as in the case of conventional mass media (see Esposito 2002, p. 255), users in social media can also describe society from their perspective, potentially triggering societal debates. In the terminology of system theory, these posts become a second-order observation, i.e. when the observing and describing of others is observed. These observations themselves can in turn then be observed and addressed by others. Luhmann uses the term second-order observation to designate reflection, i.e. when the boundaries of an observation or description are made visible and when one can distinguish what it describes – or indeed what it does not describe (see Luhmann 1975, p. 73 f.; 2012, p. 601 f.). In the case of communication on the hashtag #aufschrei (or similarly in the case of #meToo), for example, individual posts highlighted cases of sexism or sexual harassment by others, which in turn were discussed by third parties in a society-wide debate. These debates may have attained such social relevance precisely because a large number of different individuals reported personal experiences on their own initiative (and often anonymously, which certainly influences the form of the reports). Additionally, they had the opportunity through social media to ensure that the multitude of their individual self-descriptions are perceived en masse, whereas any journalistic description of these events would already constitute a foreign observation of these observations. For observing the observation of others, the discourses in social media are also interesting because they can be examined based on their data material, which opens up completely new perspectives on the object of investigation.
4.3
How to Catch a Tweeting Bird
The storage of user data by Twitter does not in and of itself constitute a (negative or positive) additional function of the service but is indispensable for the functioning of the platform. With their everyday behaviour on social media, the individual users produce data more or less incidentally, which, as “Big Social Data” (Burgess and Bruns 2014), provides science with an almost immeasurable amount of empirical material. For Lazer et al. (2009, p. 721 f.), the data produced by individual users on social media offers the possibility to gain completely new insights into the behaviour of individuals or entire groups and apparently to treat the digital
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
77
manifestations of this behaviour ultimately as objective data that is independent from the perspective of the observers. Stieglitz et al. (2014, p. 102), for example, draw on Boyd and Crawford to posit a research perspective on social media, according to which they “can be understood as a kind of living lab that allows scientists to collect large amounts of data generated under real-world conditions”. However, such a view seems quite one-dimensional and focused on the data itself in isolation, while disregarding the origin of the data and the selective process of its further processing. For example, the data on social media is technically preformed insofar as the number of characters in a tweet is limited, functions such as retweeting or liking a post predetermine the possibilities for follow-up actions, and the data released by Twitter only reflect certain key figures.6 Such data can therefore never provide a direct and unobstructed view of the lifeworld circumstances of the individuals in question – or, in analogy to the concept of the living lab: the experimental arrangement is always predetermined. In addition, data by its mere existence does not have any informative content. Insights that an observer of this data can gain from it are only possible by means of analyses, for which the observer, in turn, is reliant on the tool of the computer. Often in data analysis, data points are isolated, values are re-aggregated or complex moods are quantified using technical methods. Each analysis step, as an observation, automatically also implies selection, which excludes numerous features from the already limited and standardised data sets and thereby, depending on the observer’s interest, narrows the perspective on the object of observation.
4.3.1 Modes of Accessing Twitter Data All public7 user information can be found and viewed via the Twitter app or the web client of the short message service.8 Search results can be filtered by the search function of the
In response to Lazer’s point of view, Paßmann (2014) states that such data is never generated independently of any observational perspective, but only independently of the perspective of the scientific observer. Posts on social media and related data such as the likes or retweet count can also be determined by the anticipated expectations of the recipients of one’s own post – as an observation of their observation of one’s own observation – if, for example, a tweet is only published in the expectation that the topic discussed can be used to generate a high number of retweets and likes on Twitter and among one’s own followers. 7 Public user information includes all data that is also displayed to all users by Twitter’s interfaces, such as the text, likes and retweets of a post or profile information, as well as the followings of an account. Non-public information, on the other hand, is the data of protected accounts (for which followers need to be confirmed by the account in question), individuals’ duration of use of the service, and information about the reach of one’s own tweets (the number of accounts to which the tweet appears in their feed, i.e. the sum of one’s own followers and the number of followers of those accounts that retweeted the tweet), which are only displayed to the tweet’s originator. Beyond this, it is very likely that the company collects further data from Twitter that is completely inaccessible to the public. 8 It may also occur that not all tweets of a user are displayed in his or her timeline, because Twitter limits the ability to scroll on its webpages. If the number of Tweets in an account exceeds the amount of Tweets that can be displayed, only tweets up to a certain point in time are displayed. However, all historical tweets can be found using the service’s search function. 6
78
S. Breidenbach und P. Klimczak
service for further parameters, such as a specific user account or a period of time, whereby one’s own search can be systematized. Barely a year after the creation of the Twitter platform, the company announced the public release of its API, and over the years a variety of third-party software has developed around the short messaging service, such as TweetDeck9 (an account management system) or the data provider Gnip, which markets full access to Twitter’s data and which, like TweetDeck, has since been acquired by Twitter (see Bruns and Burgess 2016, p. 196). As a further example, the third-party platform Twitonomy10 allows users to graphically visualize data pertaining to their own account or those of others, such as daily activity on Twitter or the most commonly used hashtags and mentions of other accounts. As a paid service, data such as an account’s followers, timelines, or search results can be stored in tabular form, although these data sets do not include all the information provided by the Twitter API (see Pfaffenberger 2016, p. 65 f.). Twitter’s API itself offers different functions for querying data, which in turn are issued with different limitations. Via the Stream API, all tweets of an account or on a given search term can be retrieved immediately after their publication. Thus, it allows the ‘recording’ of current events on Twitter. The Stream API is available in three limitation levels, whereby either a maximum of one or (in justified cases) 10 percent of all available new tweets are released worldwide, as well as full access as marketed by the commercial provider Gnip. If the number of searched tweets exceeds 1 or 10 percent, Twitter only issues a limited data set (see Pfaffenberger 2016, p. 43 f.). In comparing a purchased, complete data set with a limited one, Morstatter et al. (2013) show that the representativeness of the data released by the API depends strongly on the quantitative scope of the search results released. Queries can also be made to the API through a service user account, and the features available are partially personalized because they are also used by third-party software to display recommended accounts or personalized search results. To what extent such a personalization also influences the results of data queries via the other functions is unclear. If, for example, the account via which the data query to the API is made is blocked by other users, access to their data is also not possible via the API. Using the REST API, historical data from tweets or users can be queried using various functions. For example, one can query the timeline of a particular account, its followers or liked tweets, or the search results for a given keyword. This data can, however, also be limited by Twitter and the terms of use of the API or the structure of the data output can change at any time (cf. Weller 2014b, p. 240): using the search function, only tweets of up to usually a little more than a week old can be queried, the query of the timeline of an account is currently limited to a maximum of about 3200 tweets. Our own research showed that even in cases where the number of available tweets in an account’s timeline was well below this limit at a maximum of 500, between about 0.2 and 2.5 percent of the existing tweets were not released by the API, whereas in many cases none were missing, while in 9
https://tweetdeck.twitter.com/ www.twitonomy.com
10
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
79
others between ten and 30 percent of a user’s tweets were missing, in a few cases, tweets were apparently even released twice.11 The function for querying the tweets liked by an account is likewise quantitatively limited by Twitter and even for numbers that are well below this limit, sometimes up to 20 percent of the liked tweets are missing. In turn, available tweets are sometimes issued in a different order than shown in the web view, which is based on the account’s chronology of likes. This finding is consistent with the evaluation of Twitters API by Brooker et al.: [I]t is a fallacy to believe that any data which is collected through Twitter’s APIs (rather than purchased) is complete: incompleteness and unrepresentativeness are fundamental features purposefully built into the APIs to protect the primacy of Twitter’s approved data providers. (Brooker et al. 2016, p. 42)
So those unable to overcome the (high) financial hurdles that Twitter places on full access to their data inevitably have to come to terms with the limitations and lack of representativeness of the public Twitter APIs.12 As described by Brooker et al. (ibid.), the API inevitably becomes part of the “assemblage of interconnected socio-technical entities” in the data analysis process. In its terms of service for developers, Twitter prohibits the creation of publicly accessible tweet databases and at most allows the exchange of extremely reduced data sets such as lists of user or tweet IDs (see Twitter, Inc. 2019; Bruns and Weller 2016, p. 5). In complete contrast, Bruns and Burgess (2016) describe the ethos of scientific Twitter analysis in the early years of the service, which was strongly characterized by openness to developers and research. Publicly available data collection software, such as TwapperKeeper, allowed the comparison of research data and allowed the creation of public databases through a standardized methodology. Starting in 2011, however, Twitter increasingly restricted the possibility to disseminate already collected datasets with its terms of service and thus prompted the discontinuation of the web service and the publicly accessible database of TwapperKeeper (see Bruns and Burgess 2016, p. 23 f.; Burgess and Bruns 2014, p. 196). Facebook, for its part, completely ceased its public API in April 2018, which immediately put an end to related research projects and rendered methods for data retrieval and analysis, which had been developed over the course of years, superfluous (see Freelon 2018, 11 The Python module Tweepy served as wrapper for the Twitter API. Using the search function to determine all tweets for a hashtag or keyword, an analysis was conducted of all accounts that at the time of the investigation were tweeting about the hashtags #exploreMW or #Kopftuchverbot or the search terms ‘Wiglaf Droste’ or ‘Vizepräsident’, but whose status count was a maximum of 500 each (a total of 519 accounts). These hashtags and keywords were trending on Twitter in Germany at the time of the investigation but had a current tweet volume of less than 5000. Using the get_user_timeline function, the number of tweets released (total 104,569) was compared with the respective user’s status count, which shows the number of tweets available. 12 Bruns and Burgess (2016, p. 26) state that the cost of larger and long-term studies can easily be several tens of thousands of dollars, which stands in contrast to the funding available for public research.
80
S. Breidenbach und P. Klimczak
p. 1). Not least because of such developments, Puschmann (2019) and Bruns (2019) argue about whether (and to what extent) cooperation between science and the media companies it researches is necessary or even possible (in accordance with scientific requirements) in order to maintain access to social media data. It is true that platforms such as the above- mentioned archive.org exist with the express aim of preserving the partly ephemeral content on the WWW over time. For the concrete analysis of social media, however, access to these data sets involves additional technical effort while already developed methods for data collection are becoming obsolete. Starting in 2010, Twitter has, as the first of the major social media platforms, provided all public user data since the service’s founding to the US Library of Congress (LoC), which stores this data with the goal of saving it for ‘future generations’. However, since the end of 2017, only a selection of tweets has been conveyed, while the principles guiding the selection are unknown (see Library of Congress 2017). However, LoC is obliged to make its data available to third parties only after a period of six months and, all told, only to selected researchers (see Zimmer 2015). In the meantime, the LoC itself has reported its own technical difficulties in storing the 170 billion tweets just from 2006 to 2010 with a required storage capacity of around 133 terabytes, which poses several challenges even to an institution like the LoC in its archiving and making available of this new form of data (see ibid.). In 2014, Twitter itself granted full access to its data to a handful of research groups (six out of about 1300 applicants; see Bruns and Weller 2016, p. 5; Bruns and Burgess 2016, p. 26 f.).13
4.3.2 Selection and Transformation in Data Analysis Due to Twitter’s limitations, even just the timing of data collection can determine whether all historical tweets for a search term can be retrieved, or whether they need to be acquired through a commercial provider. Therefore, relevant events must be recognised in a timely manner in order to attain the highest possible degree of completeness of the data retrieved (see Bruns and Sauter 2015, p. 145 f.; Pfaffenberger 2016, p. 52). Even if all tweets are available for a certain keyword, this does not in any way mean that the entire Twitter communication on a topic is reflected because, of course, tweets can refer to a topic or keyword without containing it word for word (see Pfaffenberger 2016, p. 113). Finally, the data put out by the Twitter API needs to be normalized or corrected in the course of the analysis process and, depending on the research question, then filtered or re-aggregated (Pfaffenberger 2016, p. 87). To visualise follower relationships, for example, only individual properties of an account – i.e. its followings and followers – are considered in isolation from most other data. Such processing steps constitute selections by the observer, who, guided Irrespective of the completeness of access to these databases and the desire of the market and research to be able to access them, it should be pointed out that data protection and ethical issues naturally also become acute when the personal data of users is queried and stored on a large scale. 13
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
81
in his or her analysis by his or her own intentions, moves further and further away from the lifeworld circumstances of the data origins which he or she is actually attempting to describe. Luhmann (2015, p. 304) describes the computer metaphorically as a “surface” that by means of commands allows access to the “depth” of the machine and displays the calculated values. At the same time, however, the interior of the technical apparatus is completely concealed by the surface, so that it remains “invisible” to users. This theory is illustrated by a description by social media analyst Luca Hammer, who remarks on the widespread network visualization software Gephi: Network visualization is messy. You get into technical difficulties and have to search the internet and peoples [sic] minds for solutions. The data itself is often inconsistent and you need to find ways to still get insights from it. The whole process is full of trial and error with many dead ends. There is no undo for most actions in network visualization. If you like a specific view on the data, better export it, because with the press of a button it may look totally different and even if you start with the same file and do the same things, the result will probably look different. It is possible to re-create certain views, but it takes a lot of time. (Hammer 2016)
When using such complex software, it is almost impossible for one and the same observer to guarantee the reproducibility of the results one has obtained. The visualization software Gephi is just one example of a multitude of programmes and modules that are used in the analysis of social media data and whose functioning can not possibly be completely transparent to the individual: in the process of data analysis, an observer relies on the technical system of the computer together with its programs, which – just like the social media data being examined – are captured in technically manifest form and thus fulfill a basic criterion of rationality, namely to be fundamentally comprehensible. However, due to the complexity resulting from the multitude of algorithmic and technical dispositions of these tools, this requirement becomes increasingly difficult for the individual observer to fulfill. Adding to this are (possibly unreflected) human choices, when, for example, data is filtered, training data for machine learning is annotated, or, as in some methods of sentiment analysis, complex semantics are evaluated numerically. As early as 2014, Bürger and Dang-Anh (p. 297) criticised the lack of public disclosure of systematics for “data selection, collection and evaluation” in scientific social media analysis, which would allow an “intersubjective reconstruction of the research design” and the “reproduction of the research results”. In a meta-study, Weller (2014b) examined 105 journal papers that deal with Twitter communication about political elections and base their results on data analysis. In just under 10 percent of the cases, Weller (2014b, p. 251 f.) was unable to detect any information about the data used, while in other cases, these details were vague or there was merely a reference to the Twitter API as the source of data. Admittedly, the publication of comprehensive research data violates Twitter’s terms of service, so a conflict with scientific standards exists from the outset (see Bruns and Burgess 2016, p. 28). However, in view of the fact that numerous publications lack accurate
82
S. Breidenbach und P. Klimczak
or complete information about their own data corpus, Twitter’s terms of service do not appear to be the sole reason for this. In the studies examined by Weller, the period of data collection varied from a few hours to several months; in some cases, the tweets were searched for by keyword and in others from selected accounts only. As such, Bürger and Dang-Anh (2014, p. 297) argue for the “development and provision of a uniform data collection standard instead of a differentiation of ‘isolated solutions’ of individual research groups”. For example, in social sciences and cultural studies publications about the short message service Twitter, research results of data analysis are often presented in the form of numerical information on examined data sets, graphics or tables. The methodological foundations for obtaining the research results are described only briefly, if at all, while information about the actual programme code, which, as a fundamental technical component of the method, significantly influences the study results, is only included in the fewest of publications. Collaborative methods and platforms for publishing and jointly developing programme code such as GitHub have a long tradition in computer science, but among relevant publications only the fewest make reference even to published programme code. Kleymann (2019, p. 197) argues that in the digital humanities, which in any case faces accusations of ‘theoretical laxity’, the “software prototype constitutes a specific form of theory design”, which therefore must also be reflected in every study and referenced in the publications.
4.3.3 What Do Twitter Data Describe? With full access to Twitter’s database, a data query certainly could preserve the posts on Twitter in their current form on the platform at the time of the query. As a fluid communicative medium, however, these posts can change their form at any time. Although published Twitter posts can not be edited by their creators, a tweet is not just a mere text entry, but instead only reveals its social relevance through the form of its reception by others and its reach, which can be appraised on the basis of key figures such as the number of retweets, likes and replies. Thus, certain tweets can attain their eventual significance and effect only much later, when they appear in new contexts. If tweets are queried using data collection via Twitter’s Stream API, they are also stored immediately after their publication. The possibility of others interacting with them in such a short time is practically non-existent, meaning that information on the number of subsequent retweets or likes of these tweets is not included when they are saved into one’s own databases (see Pfaffenberger 2016, p. 52). If historical tweets are queried using the REST API, their ages can range from a few seconds to several years old. This period allows interaction of others with the tweet, which can then be deduced from the number of retweets, likes or replies and partially reconstructed from the stored data. But even in this case, the data represents only an image of a limited extract from the Twitter database at the specific time of data collection. Metrics such as the like, retweet and reply counts of different tweets have only limited significance because they are not comparable in absolute terms due to the different ages of
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
83
tweets. The same applies to follower networks that are mapped at a certain point in time, which, despite their relative stability, potentially can change constantly and whose structures can only be approximated at specific historical points in time with no possibility of determining the former followers of an account (see Bruns and Sauter 2015, p. 147). For Twitter as a company it may be more possible to reconstruct such historical conditions of the network, but this would probably involve a great technical effort. For outside observers, on the other hand, the possibility that remains is to generate an image of the network at the specific time of the data query. Walker (2017) devotes an entire monograph to the complexity of collecting ephemeral social media data, noting that only “[f]ew studies have focused on the dynamic nature of social media data itself” (cf. Walker 2017, p. 9). Even if all the metrics of a tweet can be queried or reconstructed, a tweet can consist of significantly more than a character string and an associated bundle of metadata. For example, many tweets contain media objects such as photos, gifs and videos or hyperlinks to external websites that may not be available or possible to retrace later on (see Bruns and Weller 2016, p. 5). Although the availability of these data can never be precluded in theory, such questions nevertheless bear on analysis in practice, because the reconstruction of such data requires technical capacities which, depending on the amount of data, can demand a tremendous amount of work, calculation and time. Bruns and Weller (2016, pp. 4–6) plead for a view of the social media posts of every individual as a valuable historical relic whose preservation for future generations should be a societal priority.14 In light of the large proportion of private or everyday communication on the social web, the question arises whether the preservation of all these posts really has social value. On the other hand, social media platforms such as Twitter have already become such an integral part of the public communication of politicians, organisations, ministries and administrative authorities that the posts in question undoubtedly have social relevance. For example, the US government saves all tweets that are distributed by official government accounts and selected tweets that mention them – though, according to their own statements, only for their own analysis and not to make them available to third parties (see White House 2019). Of course, posts on Twitter can be archived not only using the datasets issued by the API. Also, these data do not include all the relevant metrics of a tweet. For example, the data in JSON format do not include the number of replies to a tweet, which can be an important indication of how controversial the discussion around a single post is. Conversations in the form of replies can only be very laboriously reconstructed from a large data pool. Alternatively, while information about the number and content of replies is contained in the HTML source code of each Twitter post, it would possibly have to be queried individually and, depending on the research question, merged with other data. Mayr and Weller (2017, p. 108) describe not only data acquisition using Twitter’s API or HTML scraping but also simple by copying and pasting of tweet texts into tables or by creating However, in their paper Bruns and Weller (2016) also raise the question of how individual tweets or the surface design of the application at a certain point in time as well as views of profile homepages can be preserved at all. 14
84
S. Breidenbach und P. Klimczak
screenshot databases. Bruns and Burgess (2016, p. 21) refer to the use of HTML scrapers or screenshots in comparison to data mining using Twitter’s API as “more primitive methods for gathering data from the platform”. However, considering that only via these methods the replies to a tweet or the visual appearance of tweets and profile homepages including all integrated media can be exactly reproduced, these methods make an indispensable contribution to the preservation of communicative phenomena on Twitter. Freelon (2018, p. 2) also cites web-scraping (which, however, has some limitations of its own) as a tried and tested alternative data collection method after the discontinuation of Facebook’s public API. The data put out by the API is designed to be machine-readable and is therefore by nature particularly well-suited for computer analysis. Although the data in JSON format contains (almost) all the information about a tweet contained in the user interface, this is sometimes redundant (when, for example, the user or tweet ID is given as a number and as a string or when the URLs contained are given in several formats) and/or simply irrelevant for a reading of the tweet (such as the colour code of the profile background). For a close reading of the individual post or its communicative contexts, such information is completely superfluous, or rather can even be a complicating factor, because the information of interest must first be searched for in or queried from the dataset. For such forms of investigation, Tweets need to be searched for and viewed instead through the user interface, so that they appear in their original view together with any images or responses to the tweet and thus in their actual communication context.
4.4
Archiving Twitter
On one hand, the vast amount of data generated by individual users under lifeworld conditions offers a virtually immeasurable amount of empirical material that has been obtained in this form independent of the perspective of any observer, and as such it possesses an apparent objectivity. On the other hand, this data represents only a sampling of possible ways of describing a subject, for which reason alone it is of only limited significance for the actual phenomenon of interest. Even if the data produced by individual users on social media is created under life-world conditions and thus is actually independent of the observational perspective of those researching it, this does not mean that this data is directly accessible to the observers. Data in digital form requires the computer as a tool to be displayed, let alone analysed. The computer’s technical system inevitably influences the process of data production, acquisition, and processing – in a way that was unprecedented in previous media. The sociologist Elena Esposito (1993, p. 338) vividly describes this difference between the computer and conventional media: we expect from a medium the loss- free transfer of the content conveyed by it, that the output is as identical as possible with the input. By contrast, we expect a machine to produce something, to process and transform objects. If input and output are identical, the machine does not do anything. In this case, the computer is “medium and machine at the same time and in relation to the same
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
85
objects: it changes and disseminates them” (see Esposito 1993, p. 339). An objective and unobstructed view of the social circumstances of social media users on the basis of data they publish there, as Lazer et al. (2009) postulate, is therefore also precluded for the reason that every data analysis uses the computer as its tool, and this tool selects and transforms data according to the particular interest of the observer. Esposito assumes that in the era of printing and mass media, the memory of a society is still archivally stored. Archiving differs from storage by providing not just pure data but also the indexation of contents. Texts can be systematized and retrieved using the names of authors, titles or thematic classifications. Esposito distinguishes from this ‘archival memory’ of society in the era of printing and mass media a ‘telematic’ or ‘procedural’ memory under the conditions of computer-mediated communication. For her, the difference between a ‘dynamic’ or ‘procedural’ and an archival memory is that in the former the information sought is not pinpointed via an existing cataloguing of the text containing it, but can be found by an individual query at the moment of interest: “It is not data that is logged, but merely procedures, which enable in each case the ‘regeneration’ of the information of interest by ‘recalculating’ it.” (Esposito 1998, p. 290) However, the paradigm of the archive described by Esposito also influenced the WWW in its early years. The search engine Yahoo was based on the indexing of websites and there were analogue and digital address books of websites. Likewise, the archive paradigm shaped the early stages of weblogs, which initially consisted of curated collections and thematic lists of web links (see In der Smitten 2007, p. 241). Twitter’s user interface also possesses some qualities that Esposito attributes to the archive. A Twitter user’s newsfeed, which is not chronologically but rather hierarchically organised according to his or her interactions and which also includes posts from other accounts with algorithmically predicted compatibility (e.g. “x and y like a post from z”), amounts to a procedural access to data par excellence, because the particular sample from Twitter’s archive that gets displayed in the feed of every individual user is determined up-to-the-minute and with the help of algorithms that are completely non-transparent to the users. On the other hand, the profile homepage of a Twitter user can be understood much more as an archive of all posts by a particular author, whereas hashtags in turn represent indexings of posts on a particular topic, which also enable the retrieval of certain posts. In social sciences and humanities Twitter research, the large number of individual methods and technical systems constitute highly individualized access to social media data. Publications include in their analysis results numerical data and visualizations of data sets, which per se already represent a selection or transformation of the data. Scientific research, in particular, should therefore not run the risk of examining its objects of investigation in a purely individual and procedural manner, because this is diametrically opposed to the replicability of analysis results. However, even if the publication of research data were not precluded by the company’s terms of service, the data obtained in individual analyses would only be a selective image of the archive at a given time, while full access to this archive, if at all possible, remains in Twitter’s hands. If, however, standardized methods for retrieving and analysing data are repeated at different times, it is possible that different results will be achieved if the data has changed in the meantime.
86
4.5
S. Breidenbach und P. Klimczak
Conclusion and Outlook
The various thematic dimensions of media research and in particular of Twitter research – between questions of data selection, collection, evaluation and interpretation – represent, in their own right and in relation to one another, such a complex and diverse field which in turn branches off into a variety of different methods and discourses, that the present article can not possibly depict these topics comprehensively. Rather, this somewhat summary description is intended and perhaps useful to show how research on social media and society’s handling of research findings are still fraught with many unanswered questions and problems. The public debate over the WDR’s ‘Umweltsau’ (‘Environmental pig’) video, in which the environmental sins of a fictional ‘grandma’ are satirized in a song sung by a children’s choir, also dominated communication on Twitter and was defined by two highly polarised political camps. Shortly after the peak of the debate on Twitter on December 28th and 29th 2019, Der Spiegel (2019) published an online report on the scandal, since dubbed ‘grandma-gate’, on December 30th, under the headline “outrage machine”, which was partly based on a data analysis of relevant search terms on Twitter. However, initial interpretations contained in the article of the data visualization used had to be corrected after its publication. Even one of the users involved, a right-wing extremist, had pointed out inconsistencies in the analysis on Twitter (see Hartes_Geld 2019). Irrespective of the topic addressed in the report and of the conclusions drawn from the data surveyed, the example reveals the socially and politically charged environment in which the analysis of social media data currently often finds itself. In the present case, the analysis in question was also subject to the production conditions and the demand for topicality of fast-paced online journalism. On Twitter, a video describing a fictional grandma is discussed, which is then described in the Spiegel’s report on the basis of data analysis. This report, in turn, is observed by a user included in the analysis and commented on Twitter. It is not only our social discourses that are highly influenced by the posts of individuals on social media. The analysis of social media data – especially with regard to socially polarizing issues – also has the potential to influence public debate. In light of the difficulties described above of rendering a swarm of tweeting birds catchable, this approach should therefore be taken judiciously.
References Brooker, P./Barnett, J./Cribbin, T./Sharma, S. (2016): Have We Even Solved the First ‚Big Data Challenge‘? Practical Issues Concerning Data Collection and Visual Representation for Social Media Analytics. In: Snee, H./Hine, C./Morey, Y./Roberts, S./Watson, H. (eds.): Digital Methods for Social Science. An Interdisciplinary Guide to Research Innovation. Basingstoke, New York: Palgrave Macmillan, pp. 34–50. Bruns, A./Burgess, J. (2016): Methodological Innovation in Precarious Spaces: The Case of Twitter. In: Snee, H./Hine, C./Morey, Y./Roberts, S./Watson, H. (eds.): Digital Methods for Social
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
87
Science. An Interdisciplinary Guide to Research Innovation. Basingstoke, New York: Palgrave Macmillan, pp. 17–33. Bruns, A./Sauter, T. (2015): Anatomie eines Trending Topics: methodische Ansätze zur Visualisierung von Retweet-Ketten. In: Maireder, A. et al. (eds.): Digitale Methoden in der Kommunikationswissenschaft. Berlin: Freie Universität (Digital communication research; 2), pp. 141–161 (https://doi.org/10.17174/dcr.v2.7) [Accessed: 20 January 2020]. Bruns, A./Weller, K. (2016): Twitter as a first draft of the present – and the challenges of preserving it for the future. In: WebSci ’16. Proceedings of the 8th ACM Conference on Web Science, New York, pp. 183–189. DOI: https://doi.org/10.1145/2908131.2908174 Bruns, A. (2019): After the ‘APIcalypse’: social media platforms and their fight against critical scholarly research. In: Information, Communication & Society, pp. 1–23. DOI:https://doi.org/10. 1080/1369118X.2019.1637447 Bürger, T./Dang-Anh, M. (2014): Twitter Analytics. In: Welker, M./Taddicken, M./Schmidt, J.H./Jackob, N. (eds.): Handbuch Online-Forschung. Sozialwissenschaftliche Datengewinnung und -auswertung in digitalen Netzen. Köln: Halem, pp. 284–302 (http://nbn-resolving.de/urn:nbn:de:0168-ssoar-54354-8) [Accessed: 5 July 2019]. Burgess, J./Bruns, A. (2014): Twitter-Archive und die Herausforderungen von „Big Social Data“ für die Medien- und Kommunikationswissenschaft. In: Reichert, R. (ed.): Big Data. Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Bielefeld: Transcript, pp. 191–202. Der Spiegel (2019): „Umweltsau“-Skandalisierung. Die Empörungsmaschine läuft heiß. (https:// www.spiegel.de/netzwelt/web/wdr-umweltsau-skandalisierung-die-empoerungsmaschine-laeuft-heiss-a-1303164.html) [Accessed: 21 January 2020]. Eckoldt, M. (2007): Medien der Macht. Macht der Medien. Berlin: Kadmos. Esposito, E. (1993): Der Computer als Medium und Maschine. In: Zeitschrift für Soziologie, (22/5), pp. 338–354 (https://www.degruyter.com/downloadpdf/j/zfsoz.1993.22.issue-5/zfsoz-1993-0502/ zfsoz-1993-0502.pdf) [Accessed: 16 January 2018]. Esposito, E. (1998): Fiktion und Virtualität. In: Krämer, S. (ed.): Medien. Computer. Realität. Frankfurt a.M.: Suhrkamp, pp. 269–296. Esposito, E. (2002): Soziales Vergessen. Formen und Medien des Gedächtnisses der Gesellschaft. Frankfurt a.M.: Suhrkamp. Freelon, Deen (2018): Computational Research in the Post-API Age. In: Political Communication, pp. 1–4. DOI: https://doi.org/10.1080/10584609.2018.1477506 Hammer, L. (2016): Guide: Analyzing Twitter Networks with Gephi 0.9.1. (https://medium.com/@ Luca/guide-analyzing-twitter-networks-with-gephi-0-9-1-2e0220d9097d) [Accessed: 29 June 2018]. Hartes_Geld (2019) on Twitter (https://twitter.com/Hartes_Geld/status/1211727366780792832) [Accessed: 21 January 2020]. In der Smitten, S. (2007): Weblogs als politische Online-Gemeinschaften: Online Vergemeinschaftung. Potentiale politischen Handelns im Internet. München: Reinhard Fischer. Katzenbach, C. (2008): Weblogs und ihre Öffentlichkeiten. Motive und Strukturen der Kommunikation im Web 2.0. München: Reinhard Fischer. Katzenbach, C. (2016): Von kleinen Gesprächen zu großen Öffentlichkeiten? Zur Dynamik und Theorie von Öffentlichkeiten in sozialen Medien. In: Klaus, E./Drüeke, R. (eds.): Öffentlichkeiten und gesellschaftliche Aushandlungsprozesse. theoretische Perspektiven und empirische Befunde. Bielefeld: Transcript, pp. 151–174. DOI: https://doi.org/10.14361/9783839430491-009 Kleymann, R. (2019): Prototypen als Proto-Theorie? – Plädoyer einer digitalen Theoriebildung. In: DHd 2019. Digital Humanities: multimedial & multimodal, Konferenzabstracts, pp. 197–201 (https://zenodo.org/record/2600812#.Xlu5NG5FxPY) [Accessed: 20 March 2020].
88
S. Breidenbach und P. Klimczak
Kreil, M. (2017): Social Bots, Fake News und Filterblasen. Therapiestunde mit einem Datenjournalisten und vielen bunten Visualisierungen (https://media.ccc.de/v/34c3-9268-social_bots_fake_ news_und_filterblasen) [Accessed: 14 March 2020]. Lazer, D. et al. (2009): Computational Social Science. In: Science, 323 (5915), pp. 721–723 (https:// gking.harvard.edu/files/LazPenAda09.pdf) [Accessed: 22 May 2019]. Library of Congress (2017): Update on the Twitter Archive at the Library of Congress. (https://blogs. loc.gov/loc/files/2017/12/2017dec_twitter_white-paper.pdf) [Accessed: 20 June 2019]. Luhmann, N. (1975): Selbst-Thematisierung des Gesellschaftssystems. In: Ders.: Soziologische Aufklärung 2. Aufsätze zur Theorie der Gesellschaft. Opladen: Westdeutscher Verlag, pp. 72–102. Luhmann, N. (2009): Die Realität der Massenmedien. Wiesbaden: Springer VS. Luhmann, N. (2012): Soziale Systeme. Grundriß einer allgemeinen Theorie. Frankfurt a.M.: Suhrkamp. Luhmann, N. (2015): Die Gesellschaft der Gesellschaft. Frankfurt a.M.: Suhrkamp. Maireder, A./Schlögl, S. (2015): Twitter-Öffentlichkeiten: Identifikation und Interpretation der Strukturen von Follower-Netzwerken. In: Maireder, A. et al. (eds.): Digitale Methoden in der Kommunikationswissenschaft. Berlin: Freie Universität (Digital communication research; 2), pp. 115–139 (https://doi.org/10.17174/dcr.v2.6) [Accessed: 20 January 2020]. Mayr, P./Weller, K. (2017): Think Before You Collect. Setting Up a Data Collection Approach for Social Media Studies. In: Sloan, L./Quan-Haase, H. (eds.): The Sage Handbook of Social Media Research Methods. London: SAGE Publications, pp. 107–124. Morstatter, F./Pfeffer, J./Liu, H./Carley, K. M. (2013). Is the sample good enough? comparing data from twitter’s streaming api with twitter’s firehose. In: Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media, pp. 400–408 (https://www.aaai.org/ocs/index. php/ICWSM/ICWSM13/paper/viewPaper/6071) [Accessed: 5 July 2019]. Paßmann, Johannes (2014): From Mind to Document and Back Again. Zur Reflexivität von Social Media Daten. In: Reichert, R. (ed.): Big Data. Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Bielefeld: Transcript, pp. 259–285. Pfaffenberger, F. (2016): Twitter als Basis wissenschaftlicher Studien. Eine Bewertung gängiger Erhebungs- und Analysemethoden der Twitter-Forschung. Springer VS Online (https://link.springer.com/book/10.1007/978-3-658-14414-2) [Accessed: 5 February 2018]. Plake, K./Jansen, D./Schumacher, B. (2001): Öffentlichkeit und Gegenöffentlichkeit im Internet. Politische Potenziale der Medienentwicklung. Wiesbaden: Springer VS. Puschmann, C. (2019): An end to the wild west of social media research. A response to Axel Bruns. In: Information, Communication & Society, pp. 1–8. DOI: https://doi.org/10.1080/ 1369118X.2019.1646300 Rezo ja lol ey (2019): Die Zerstörung der CDU (https://www.youtube.com/watch?v=4Y1lZQsyuSQ) [Accessed: 20 January 2020]. Stieglitz, S./Dang-Xuan, L./Bruns, A./Neuberger, C. (2014). Social Media Analytics. Ein interdisziplinärer Ansatz und seine Implikationen für die Wirtschaftsinformatik. In: Wirtschaftsinformatik (2/2014), pp. 89–96. DOI: https://doi.org/10.1007/s12599-014-0315-7 Tauber, P (2017) on Twitter (https://twitter.com/petertauber/status/881966006138220544) [Accessed: 20 January 2020]. Twitter, Inc. (2019): Developer terms. More about restricted uses of the Twitter APIs (https://developer.twitter.com/en/developer-terms/more-on-restricted-use-cases) [Accessed: 4 July 2019]. Vogler, D./Rauchfleisch, A. (2017): Twitter-Netzwerkanalyse #ES2050. In: fög – Forschungsinstitut Öffentlichkeit und Gesellschaft/Universität Zürich (https://doi.org/10.5167/uzh-168244) [Accessed: 19 January 2018]. Walker, S. (2017): The Complexity of Collecting Digital and Social Media Data in Ephemeral Contexts. Ph.D. thesis, University of Washington. (https://digital.lib.washington.edu/researchworks/
4 Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How …
89
bitstream/handle/1773/40612/Walker_washington_0250E_17763.pdf?sequence=1) [Accessed: 21 January 2020]. Weller, K. (2014a): What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. In: Knowledge Organization 41 (3/2014), pp. 1–15 (http://nbn-resolving.de/ urn:nbn:de:0168-ssoar-47768-2) [Accessed: 5 February 2018]. Weller, K. (2014b): Twitter und Wahlen. Zwischen 140 Zeichen und Milliarden von Tweets. In: Reichert, R. (ed.): Big Data. Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Bielefeld: Transcript, pp. 239–258. White House (2019): Privacy Policy (https://www.whitehouse.gov/privacy-policy/) [Accessed: 31 August 2019]. Zimmer, M. (2015): The Twitter Archive at the Library of Congress. Challenges for information practice and information policy. In: First Monday, 20/7. (https://firstmonday.org/article/ view/5619/4653) [Accessed: 21 January 2020].
5
Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung Eine computergestützte kritische Diskursanalyse Cornelia Fedtke und Gregor Wiedemann
Inhaltsverzeichnis 5.1 Einleitung 5.2 Theoretischer Rahmen 5.2.1 Soziale Medien und Öffentlichkeit 5.2.2 Hass- und Gegenrede 5.2.3 Text Mining und kritische Diskursanalyse 5.3 Computergestützte kritische Diskursanalyse 5.3.1 Kontext des Diskurses 5.3.2 Korpuserstellung 5.3.3 Strukturanalyse I – Topic Modeling 5.3.4 Strukturanalyse II – Textklassifikation 5.3.5 Strukturanalyse III – Kookkurrenz 5.3.6 Auswahl typischer Texte 5.3.7 Feinanalyse ausgewählter Threads 5.4 Synopsis 5.5 Reflexion und Ausblick Literatur
92 94 94 95 96 97 97 99 100 104 107 109 109 115 116 118
C. Fedtke (*) Institut für Soziologie, Universität Hamburg, Hamburg, Deutschland E-Mail: [email protected] G. Wiedemann Media Research Methods Lab, Leibniz-Institut for Media Research / Hans-Bredow-Institut, Hamburg, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_5
91
92
C. Fedtke und G. Wiedemann Zusammenfassung
Soziale Netzwerke wie Facebook bieten ihren NutzerInnen die Möglichkeit, die dort zahlreich verlinkten Inhalte traditioneller Massenmedien zu diskutieren. Dabei treffen Menschen mit sehr unterschiedlichen politischen Einstellungen aufeinander. Vermehrt kommt es zu diskriminierenden Kommentaren, denen mit Gegenrede widersprochen wird. Der Artikel analysiert, bezüglich welcher Themen Hass- und Gegenrede mitei nander interagieren und welche diskursiven Strategien dabei verwendet werden. Ausgehend von einem Korpus mit ca. 360.000 Facebook-Kommentaren aus dem Jahr 2017 machen wir einen Vorschlag für eine computergestützte kritische Diskursanalyse. Mithilfe von Topic Modeling und Textklassifikation wird das Material so strukturiert, dass eine präzise Navigation durch thematisch und kategorial gefilterte Teilkorpora möglich wird. Näher untersucht werden Diskursverschränkungen, in denen moralische Exklusion als Gegenredestrategie genutzt wird, sowie Versuche von Hassrede, darauf mit Umdeutung geläufiger Konzepte zu reagieren. Schlüsselwörter
Hassrede · Gegenrede · Migration · Social Media · Facebook · Kritische Diskursanalyse · Text Mining · Topic Modeling · Klassifikation
5.1
Einleitung
Zwei Entwicklungen bestimmen maßgeblich die Gestalt des heutigen Internets und dessen Einfluss auf die Gesellschaft: der Wandel von einem One-to-many-Medium hin zur Einbindung der NutzerInnen in die Erstellung von Inhalten im ‚Web 2.0‘ und anschließend die Einbindung der NutzerInnen in die Verteilung dieser Inhalte durch soziale Medien wie Twitter und Facebook. Hegten anfangs nicht wenige die Hoffnung auf neue Demokratisierungsschübe durch die erweiterten Kommunikationsmöglichkeiten, so stehen heute die negativen Konsequenzen dieser Entwicklung im Fokus. In diesem Zusammenhang wird häufig eine Verrohung der Auseinandersetzungen in den sozialen Netzwerken beklagt. Unter dem Begriff „Hassrede“ (im Folgenden: HR) erhält diese Entwicklung mittlerweile viel Aufmerksamkeit durch zivilgesellschaftliche, wissenschaftliche und staatliche Akteure. Um die Vielzahl an HR-Kommentaren nicht unwidersprochen stehen zu lassen und demokratische Werte zu verteidigen, werden „Gegenkommentare“ verfasst. Hass- und Gegenkommentare können dabei als diskursive Auseinandersetzung um Machtpositionen in den sozialen Medien verstanden werden (vgl. Kreißel et al. 2018). Vor dem Hintergrund massenmedialer Themensetzung geht es darum, auszuhandeln, was in der Online Community und damit im weiteren Sinne auch in der Gesellschaft als sagbar gelten soll und als legitime politische Position anerkannt
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
93
werden kann. Solche Auseinandersetzungen in Facebook sind der Gegenstand unserer Untersuchung. Die Analyse öffentlicher Diskurse wird in den Sozialwissenschaften klassischerweise anhand medialer Berichterstattungen vorgenommen, welche durch eine überschaubare Anzahl von MedienakteurInnen und Diskurspositionen gekennzeichnet sind. Mit den sozialen Medien treten neue virtuelle Räume zur massenmedialen Öffentlichkeit hinzu. Klassische Massenmedien sind jedoch auch als große Akteure in den sozialen Netzwerken vertreten. Auf den Facebook-Seiten der Print- und TV-Medien begeben sich KonsumentInnen von Nachrichten in einen intensiven Austausch. Dabei treffen auch NutzerInnen aufeinander, die sich ansonsten nicht in denselben Teilöffentlichkeiten begegnen. An diesen Knotenpunkten im Netzwerk kommt es zu Konfrontationen äußerst heterogener Meinungen und Diskurspositionen und damit regelmäßig auch zu Beleidigung, Diskriminierung und HR. In dieser Hinsicht sind die Kommentierung massenmedialer Berichterstattung in sozialen Netzwerken und insbesondere deren polarisierte Zuspitzung in HR und Gegenrede aus diskursanalytischer Perspektive von besonderem Interesse. Allerdings stellen die Heterogenität der AkteurInnen und ihrer Diskurspositionen sowie die schiere Masse an Kommentaren konventionelle methodische Ansätze vor große Herausforderungen. Die Datenmengen sind schlicht zu groß, als dass sie händisch ausgewertet werden könnten. Die meisten bislang vorliegenden Untersuchungen konzentrieren sich zudem ausschließlich auf HR als Untersuchungsgegenstand. Gegenrede (im Folgenden: GR) wird dagegen deutlich seltener explizit in den Blick genommen. Für uns stellt sich daher die Frage: Wie verhalten sich HR und vor allem GR in den digitalen Teilöffentlichkeiten sozialer Medien, welche Themen sind besonders stark mit HR assoziiert und mit welchen Themen und Strategien wird ihr in GR begegnet? In unserer Studie machen wir zur Beantwortung dieser Fragen einen Vorschlag für eine computergestützte kritische Diskursanalyse (KDA) in Anlehnung an Jäger (2004). Mit einer Kombination aus automatisierten Strukturanalyse- und manuellen Feinanalyseschritten gehen wir in einem Korpus von ca. 360.000 Facebook-Kommentaren aus dem Themenfeld Flucht und Migration auf die Suche nach Mustern von HR und GR. Für eine thematische Erschließung des diskursiven Feldes verwenden wir Topic-Modelle, mit denen das Kommentarkorpus automatisch und datengetrieben in semantisch kohärente Cluster zergliedert werden kann. Zur Identifizierung von HR und GR als theoriegeleiteten Kategorien verwenden wir ein Textklassifikationsverfahren, mit dem das Vorliegen von jeweils einer Kategorie für alle Kommentare automatisch bestimmt wird. Anhand charakteristischer Muster des gemeinsamen Auftretens von Themen und Kategorien wählen wir schließlich relevante Ausschnitte des Diskurses für eine qualitative Analyse aus. Damit zielt unsere Arbeit nicht nur auf die Beantwortung der inhaltlichen Fragestellung, sondern soll auch ein Beitrag zur Methodik sein, indem sie exemplarisch aufzeigt, inwiefern sich ausgewählte Verfahren des Text Mining für die Operationalisierung diskursanalytischer Fragestellungen in sozialen Medien eignen.
94
5.2
C. Fedtke und G. Wiedemann
Theoretischer Rahmen
Um unser Forschungsthema theoretisch einzubetten, betrachten wir zuerst die Verbindungen und die daraus resultierenden Veränderungen von traditionellen und sozialen Medien mit der Öffentlichkeit. Anschließend wird das der Arbeit zugrunde liegende Verständnis von HR und GR definiert. Im dritten Abschnitt wird das Verhältnis von KDA und bisherigen Ansätzen computergestützter Textanalysen reflektiert.
5.2.1 Soziale Medien und Öffentlichkeit Eine wichtige Grundlage dieser Arbeit ist die fortschreitende Verbindung von sozialen Medien, Massenmedien und Öffentlichkeit. Durch deren Verschränkung ergeben sich für alle drei Felder Veränderungen, die zur Herausbildung digitaler Teilöffentlichkeiten geführt haben. Wir verstehen soziale Medien als digital vermittelte Netzwerke von NutzerInnen, die eigene Inhalte produzieren und miteinander teilen. Sie sind geprägt von der Idee niedrigschwelliger Partizipation. Bei Facebook (FB) kann sich jeder kostenlos einen Account anlegen und sich mit Freunden, Bekannten, Kollegen oder dem Lieblingsfernsehsender verbinden. Als derzeit größtes Netzwerk in Deutschland hat FB 32 Millionen NutzerInnen, von denen 29 Millionen täglich aktiv sind (vgl. Roth 2019). Fast alle großen Vertreter der Massenmedien sind mit eigenen Seiten in FB vertreten, auf denen sie Links zu ihren redaktionellen Veröffentlichungen posten und intensive Debatten dieser Inhalte ermöglichen. Für diese Entwicklung schlägt Andrew Chadwick (2013) den Begriff der „hybriden Medien“ (HM) vor. Chadwick versucht, die Dichotomie analoger Offline- Medien und digitaler Online-Medien zu überwinden, indem er die bislang getrennt gedachten Welten als einander ergänzende hybride Systeme versteht. Die vielen traditionellen Massenmedien, die mittlerweile in den sozialen Medien eigenständige Inhalte vertreiben, sind Beispiele dafür. Mit der Veränderung des Mediensystems hin zu einem HM-System verändert sich auch die Art und Weise, wie sich die BürgerInnen informieren (vgl. Welbers und Opgenhaffen 2019) und wie sie an der Öffentlichkeit partizipieren (vgl. Jaques et al. 2019). Zugangshürden zur Partizipation an der öffentlichen Kommunikation verringern sich durch die HM-Systeme oder verschwinden sogar ganz. Welche Informationen BürgerInnen konsumieren, können sie einerseits durch aktives Aufsuchen von Anbietern (z. B. FB-Seiten klassischer Nachrichtenmedien) selbst bestimmen, andererseits zeigt FB ihnen passiv eine algorithmische Auswahl von Neuigkeiten auf Basis ihrer Position im sozialen Netzwerk. Durch den immer individuelleren Zuschnitt des Medienkonsums zergliedert sich die Öffentlichkeit in immer kleinere Fragmente. Demnach entsteht in HM-Systemen wie FB eine Vielzahl von Teilöffentlichkeiten, die persönlich, fluid und nebeneinander herlaufend sind (vgl. Jarren und Klinger 2017, S. 34; Machill et al. 2014, S. 38). Es ist anzunehmen, dass die Dynamiken in der Entwicklung digitaler Teilöffentlichkeiten großen Einfluss auf Prozesse zur Bildung der öffentlichen Meinung haben. In unse-
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
95
rer Studie untersuchen wir daher Kommentare von NutzerInnen auf ausgewählten FB- Seiten zusammen mit den redaktionellen Posts und verlinkten Artikelinhalten. Diskurstheoretisch können die redaktionellen Artikel als die durch das gesellschaftliche Dispositiv gefilterte journalistische Ebene des Diskurses aufgefasst werden. Von der massenmedialen Berichterstattung unterscheiden sich Kommentare der NutzerInnen in vielfältiger Weise. Die Analyse dieser (teils) dialogisch verfassten Kurztexte verspricht einen Blick in die Alltagsebene eines Diskurses. Wir nehmen an, dass sie als Meinungsäußerungen einer Vielzahl von BürgerInnen in die digitalen Teilöffentlichkeiten FBs hinein weniger stark durch das vorherrschende Dispositiv geprägt sind und damit Diskurspositionen aufweisen, die klar von der massenmedialen Öffentlichkeit unterscheidbar sind. Technisch vermittelt, so unsere Annahme, treten Konflikte und Kämpfe um politische Deutungshoheit dort deutlich offener zutage.
5.2.2 Hass- und Gegenrede AkteurInnen der extremen Rechten haben das Internet schon frühzeitig als einen Raum für Organisation nach innen, vor allem aber auch für Propaganda nach außen entdeckt. Mit den sozialen Medien steht ihnen ein Instrument zur Verfügung, mit dem sie viele Menschen direkt und unmittelbar erreichen können. Wissenschaftliche Studien zur Untersuchung von HR in sozialen Netzwerken wie Ben-David und Matamoros (2016) nehmen FB-Seiten von erklärt rechten AkteurInnen in den Blick. Andere Studien analysieren HR-Strategien in Beiträgen öffentlicher FB-Gruppen mit Bezug zum Thema Migration (z. B. Burke und Goodman 2012). Solche Gruppen, wie auch die Seiten extrem rechter AkteurInnen, stehen zwar prinzipiell allen NutzerInnen offen, werden jedoch eher von einem Nutzerkreis mit ähnlichen politischen Einstellungen frequentiert. Stier et al. (2017) untersuchen z. B. mithilfe von Topic-Modellen Überschneidungen zwischen den Inhalten von FB-Posts politischer Parteien in Deutschland und denen der Pegida-Bewegung. Die größte Ähnlichkeit zu den Pegida-Inhalten besitzen demnach die Posts der AfD. In den letzten Jahren ist HR jedoch auch als zunehmendes Phänomen gerade in Bereichen der sozialen Netzwerke zu beobachten, die von AkteurInnen betrieben werden, welche fest im demokratischen politischen Spektrum verankert sind und gleichzeitig von NutzerInnen mit einer großen politischen Bandbreite frequentiert werden (vgl. Oz et al. 2018). In einer großen quantitativen Studie von 243 Millionen Kommentaren auf 42 amerikanischen Medienseiten stellten Su et al. (2018) eine deutliche Zunahme von unflätigen Kommentaren im Zuge des Präsidentschaftswahlkampfes 2016 fest. Solche Studien sind aufgrund der Datenmenge notwendigerweise auf automatische Auswertungsverfahren angewiesen. Fortuna und Nunes (2018) geben einen Überblick über die derzeitigen Ansätze zur computerlinguistischen Erkennung von HR und vergleichbaren Konzepten (z. B. zur Erkennung von unzivilisiertem oder diskriminierendem Sprachgebrauch). Generell gilt, dass HR von NutzerInnen sehr subjektiv bewertet wird. Ross et al. (2017) konnten zeigen, dass nur geringe Übereinstimmungen erzielt werden, wenn zufällige
96
C. Fedtke und G. Wiedemann
Internet-NutzerInnen Kommentare in entweder HR oder zulässige Meinungsäußerung einordnen sollten. Computerlinguistische Operationalisierungen zur Erkennung von HR, wie wir sie in unserer Studie nutzen, sind deshalb auf konkrete Definitionen angewiesen. Wir orientieren uns dafür an der Definition des Europarats; sie fasst unter HR jegliche Ausdrucksformen, welche Rassenhass, Fremdenfeindlichkeit, Antisemitismus oder andere Formen von Hass, die auf Intoleranz gründen, propagieren, dazu anstiften, sie fördern oder rechtfertigen, unter anderem Intoleranz, die sich in Form eines aggressiven Nationalismus und Ethnozentrismus, einer Diskriminierung und Feindseligkeit gegenüber Minderheiten und Menschen mit Migrationshintergrund ausdrückt. (ECRI 2016, S. 28)
Seit Einführung des Netzwerkdurchsetzungsgesetzes 2017 sind Betreiber großer sozialer Netzwerke in Deutschland verpflichtet, strafbare HR-Kommentare binnen 24 Stunden zu löschen. Jenseits solcher Löschungen stellen GR-Kommentare eine Möglichkeit dar, kritisch auf HR zu reagieren. Sie wenden sich ausdrücklich gegen HR und versuchen, diese auf Basis einer antidiskriminierenden Grundhaltung zu delegitimieren. Vor dem machtpolitischen Hintergrund der Auseinandersetzungen verstehen wir HR und GR nicht primär als linguistische, sondern als soziale Phänomene. In dieser Perspektive können durchaus beide Kategorien auch aggressive oder beleidigende Sprache beinhalten; sie unterscheiden sich jedoch entlang der Frage, ob mit der Sprachhandlung eine definitionsgemäße Diskriminierung einhergeht. Während HR in der wissenschaftlichen Literatur bereits aus vielen Perspektiven (z. B. automatischer Detektion, linguistischer Realisierung, sozialer Verbreitung oder psychischer Folgen) zu einem häufig studierten Gegenstandsbereich zählt, finden sich nur sehr wenige Studien, die GR systematisch in den Blick nehmen (z. B. Mathew et al. 2019). In unserer Studie wollen wir Muster der Interaktion von HR und GR untersuchen. Wir fassen GR als solche Kommentare auf, welche direkt auf einen HR-Kommentar reagieren und dagegen eine antidiskriminierende Diskursposition durch Widerspruch, Gegenargumente oder die Infragestellung unzulässiger Prämissen zum Ausdruck bringen.
5.2.3 Text Mining und kritische Diskursanalyse Computergestützte Methoden werden zunehmend zur Operationalisierung von Diskursanalysen genutzt (vgl. Scholz 2019). Lewis et al. (2013) plädieren für eine enge Verbindung von computergestützten und qualitativen Analysemethoden in Zeiten von Big Data. Topic Modeling eignet sich Wiedemann (2016) sowie Jacobs und Tschötschel (2019) zufolge zur Strukturierung großer Korpora für Diskursanalysen. Merrill und Åkerlund (2018) nutzen Topic Modeling dementsprechend im Rahmen einer KDA zur Untersuchung von migrationsfeindlichen schwedischen Gruppen in Facebook. An die theoretischen Überlegungen dieser Arbeiten anknüpfend verbinden wir für unsere Studie c omputergestützte Verfahren wie Topic Modeling und Textklassifikation für eine KDA von deutschsprachigen FB-Kommentaren.
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
97
Um dem kritischen Aspekt der Diskursanalyse Rechnung zu tragen, gibt es nach Margarete Jäger (2019, S. 79 ff.) fünf Punkte, die es zu beachten gilt: Um den Diskurs in sozialen Medien zu strukturieren, werden wir erstens auftretende kontroverse Themen und deren Verschränkung identifizieren. Zweitens betrachten wir, wie in den Kommentaren versucht wird, das „Feld des Sagbaren“ (Jäger 2019, S. 79) abzustecken, indem wir Strategien für Verbote und Grenzziehungen herausarbeiten. Drittens untersuchen wir Veränderungen im Sprachgebrauch anhand von Symbolen, Redensarten und Wortneuschöpfungen. Der Annahme folgend, dass Diskurs der „Fluss von Wissen durch die Zeit“ (Jäger 2004, S. 129) ist, zeigt sich in diesen sprachlichen Aspekten, wie Themen verhandelt werden und wie sie sich über die Zeit verändern. Die letzten beiden Punkte betreffen die Forschenden. Diese sollen, viertens, ihre eigenen Positionen, Normen und Werte zu den untersuchten Themen kennen und reflektieren, denn „wer Diskurse analysiert, bezieht Position“ (Jäger 2019, S. 80). Und fünftens sollen die Forschenden auch Kritik an den Normen und Werten der Diskutanten üben können. Im Rahmen unserer Studie betrifft dies die Bewertung der identifizierten HRund GR-Strategien sowie deren Auswirkung auf die Gesellschaft.
5.3
Computergestützte kritische Diskursanalyse
Zur Auswertung des sehr umfangreichen Textkorpus schlagen wir eine computergestützte Variante der KDA vor. Den sechs Schritten der Vorgehensweise einer KDA folgend (1. Kontext des Diskurses, 2. Korpusauswahl, 3. Strukturanalyse, 4. Auswahl prototypischer Texte, 5. Feinanalyse, 6. Synopsis; vgl. Jäger 2004), erläutern wir im Folgenden, wie sich einzelne dieser Schritte mithilfe computergestützter Text-Mining-Verfahren umsetzen lassen (siehe Abb. 5.1). Dazu kombinieren wir insbesondere für die Schritte 3 und 4 Verfahren des Topic Modeling und der Textklassifikation. Wir verwenden diese (semi-)automatischen Verfahren, um die große Menge digitaler Textdaten zu strukturieren und zu sortieren, sodass sie vor dem Hintergrund unserer Fragestellung handhabbar wird.
5.3.1 Kontext des Diskurses Anstoß dieser Arbeit ist der anhaltende öffentliche Diskurs um die Migrationsbewegungen nach Deutschland, welche maßgeblich als Folge der kriegerischen Auseinandersetzungen in Syrien und Afghanistan auftraten. Von der Bundesregierung unter der Führung von Angela Merkel wurde im Sommer 2015 aufgrund einer humanitären Notlage die Durchsetzung der Dublin-II-Verordnung zur Regelung von Asylgesuchen in der Europäischen Union zeitweise außer Kraft gesetzt. Infolgedessen konnten mehrere hunderttausend Flüchtlinge nach Deutschland weiterreisen, die zuvor in anderen EU-Staaten festsaßen. Der sich daran anschließende Diskurs um Geflüchtete in Deutschland ist von stark gegensätzlichen Auffassungen geprägt. In diesem Zusammenhang stieg auch die öffentliche Aufmerksamkeit für HR gegen MigrantInnen und deren UnterstützerInnen in sozialen Medien.
98
C. Fedtke und G. Wiedemann
Abb. 5.1 Methodisches Vorgehen entlang der kritischen Diskursanalyse
Darüber hinaus war der Zeitraum unserer Datenerhebung im Jahr 2017 gekennzeichnet von Ereignissen mit globaler Bedeutung, welche auch die Debatten in Deutschland prägten. Dazu zählen z. B. mehrere Terroranschläge in westlichen Ländern, die dem sogenannten ‚Islamischen Staat‘ zugeschrieben wurden. Zu Jahresbeginn wurde Donald Trump als 45. Präsident der USA ins Amt eingeführt. Zwischen der EU und Großbritannien wurden die Brexit-Verhandlungen begonnen. Im Sommer prägten der G20-Gipfel in Hamburg und die Einführung der „Ehe für alle“ die politische Debatte. Im Herbst des Jahres fand die Wahl zum 19. Deutschen Bundestag statt, bei der mit der ‚Alternative für Deutschland‘
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
99
(AfD) erstmals eine Partei rechts der CDU als stärkste Oppositionsfraktion ins Parlament einzog.
5.3.2 Korpuserstellung Die Zusammenstellung des Korpus fokussiert, unserer Fragestellung entsprechend, auf Kommentare von NutzerInnen im sozialen Netzwerk Facebook. Zusätzlich zu den Kommentaren haben wir einen Datenkorpus aus journalistischen Artikeln von Online-Medien gesammelt, welche von FB-Posts aus verlinkt sind. Zur Erstellung des Korpus haben wir die Facebook-API zum automatischen Download von Nutzerkommentaren im Zeitraum vom 12.04.2017 bis zum 04.11.2017 genutzt. Um eine möglichst breite Menge von KommentatorInnen einzubeziehen, haben wir 18 Seiten verschiedener überregionaler und regionaler Zeitungen sowie zweier öffentlich-rechtlicher Medienformate mit hohem Kommentaraufkommen ausgewählt.1 Wie verschiedene Studien bereits für Online-Medien zeigen konnten, tritt HR (und unserer Erwartung nach auch GR) in Kommentarspalten vor allem bei kontroversen Themen und Ereignissen auf (vgl. Santana 2016). Zu diesen Themen zählen unter anderem Religion, insbesondere der Islam, (rechte) politische AkteurInnen, Flucht und Migration, Kriminalität, Rassismus und Sexismus (vgl. Berecz und Devinat 2016). Zur Vorfilterung von FB-Debatten haben wir dementsprechend eine Liste von Schlüsselwörtern mit potenziellem Bezug zu kontroversen Themenfeldern und unserem Forschungsthema genutzt.2 Von den FB-Seiten wurden nur jene Threads3 einbezogen, die im zugrunde liegenden, redaktionell erstellten Post-Text mindestens ein Wort der Stichwortliste enthalten. Zur Analyse erfolgte eine Auswahl von vier Zeitabschnitten à zwei Wochen aus den gesammelten Daten (siehe Tab. 5.1). Das finale Korpus umfasst 357.851 Kommentare, verfasst von insgesamt 79.649 Nutze rInnen.4 Betrachtet man die vier Zeitabschnitte, ist die Häufigkeit der Kommentierung in Abschn. 3 rund um die Bundestagswahl am höchsten und im Hochsommer (Abschn. 2) am Zu den über die Facebook-API heruntergeladenen Seiten gehören BILD, EXPRESS, Frankfurter Allgemeine, FOCUS Online, JUNGE FREIHEIT, LVZ Leipziger Volkszeitung, MDR Aktuell, Mitteldeutsche Zeitung, n-tv, N24, RP ONLINE, SPIEGEL ONLINE, Süddeutsche Zeitung, Thüringer Allgemeine, tagesschau, Westdeutsche Zeitung, ZDF heute und ZEIT ONLINE. 2 Die Liste der Schlüsselwörter wurde aus einer Auswahl relevanter FB-Posts zu Beginn der Datensammlung zusammengestellt und umfasst die Wortstämme afd, afrika, anschlag, asyl, ausländ, flucht, flücht, frau, humanit, islam, kopftuch, missbrauch, muslim, nazi, npd, rassis, schleier, sexuell, sudan, syr, terror, vergewalt. 3 Als Thread definieren wir einen Kommentar und sämtliche dazu verfassten Antworten in zeitlicher Reihenfolge ihres Eingangs auf Facebook. 4 Eine grundsätzliche Schwierigkeit bei der Forschung in sozialen Medien ist, dass aufgrund von Moderation bzw. Account-Löschungen ein Teil der Kommentare nicht erhoben werden kann. Dies trifft insbesondere auf die Untersuchung von Hassrede zu. Uns ist bewusst, dass unser Korpus einen unbekannten Teil der gravierendsten HR-Kommentare nicht enthält, welcher dementsprechend auch bei der Erfassung der Sagbarkeitsfelder unberücksichtigt bleiben muss. 1
100
C. Fedtke und G. Wiedemann
Tab. 5.1 Größe des Datenkorpus in vier Zeitabschnitten Abschnitt 1 2 3 4 Gesamt
Zeitraum 28.05.–10.06.2017 02.07.–15.07.2017 17.09.–30.09.2017 22.10.–04.11.2017
N Posts 806 456 1016 638 2916
N Kommentare 91.373 51.628 137.510 77.340 357.851
geringsten. Die meisten Kommentare gibt es zu verlinkten Inhalten der öffentlich- rechtlichen TV-Nachrichtenformate von ARD und ZDF. In der Häufigkeit der Kommentare absteigend folgen überregionale Printmedien und private Nachrichtensender (N24, n-tv), schließlich die Regionalzeitungen. Die durchschnittliche Länge eines Kommentars umfasst 169 Wörter (Median 105 Wörter). Die Länge der Kommentare zu BILD-Inhalten entspricht genau dem Durchschnitt. Die Kommentare zu öffentlich-rechtlichen und überregionalen Medieninhalten sind im Vergleich zu regionalen Medien um 50 bis 100 % länger als der Durchschnitt.
5.3.3 Strukturanalyse I – Topic Modeling In dem Korpus der ca. 360.000 Nutzerkommentare kann eine händische Analyse nur in einem kleinen Ausschnitt durchgeführt werden. Um alle Kommentare in die Untersuchung einbeziehen zu können, greifen wir daher auf computergestützte Text-Mining-Verfahren zurück (Wiedemann 2016). Wir führen eine thematische Strukturierung mithilfe von Topic Modeling durch. Topic Models sind probabilistische Modelle aus dem Bereich des unüberwachten5 maschinellen Lernens, die ein überlappendes Clustering einer Dokumentenmenge auf Basis der in Dokumenten gemeinsam verwendeten Worte ausführen (vgl. Maier et al. 2018). Insofern semantische Zusammenhänge vollkommen automatisch vom Algorithmus gefunden werden und diese sich (teilweise) als Themen interpretieren lassen, werden Topic Models zunehmend systematisch zur Auswertung großer Korpora in den Sozialwissenschaften eingesetzt. Jacobs und Tschötschel (2019) argumentieren, dass die Modelleigenschaften von Topic Models kompatibel zu epistemologischen Grundannahmen der Diskursanalyse sind und daher für diese fruchtbar gemacht werden können. Zur Strukturierung unseres Korpus berechnen wir ein LDA-Modell6 mit K = 65 Topics7 auf allen Kommentaren und allen in den Posts verlinkten Medienartikeln gemeinsam. Als Unüberwacht bezieht sich auf den Aspekt, dass eine Strukturierung bzw. Cluster-Einteilung automatisch nur auf Basis der untersuchten Daten selbst vorgenommen wird. 6 Die Berechnung wurde mit der R-Bibliothek RMallet v1.2.0 (https://cran.r-project.org/package=mallet [letzter Zugriff: 23.01.2020]) mit einem Gibbs Sampling mit 1000 Iterationen und einer Optimierung des Alpha-Hyperparameters alle 100 Iterationen (Initialwert Alpha = 0,1) durchgeführt. Die Anzahl an Topics K muss bei der LDA-Berechnung als externer Parameter gewählt werden. 7 Wir brauchen einerseits eine Menge an Topics, die groß genug ist, verschiedene thematische Facetten unseres Korpus zu erfassen, und auf der anderen Seite klein genug ist, sodass wir die gefundenen 5
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
101
Ergebnis der Berechnung erhalten wir zwei Wahrscheinlichkeitsverteilungen. Die höchstwahrscheinlichen Begriffe aus der Wort-Topic-Verteilung lassen sich als semantischer Zusammenhang interpretieren.8 Diese Interpretation kann validiert werden, in dem Kommentare anhand der Topic-Dokument-Verteilung selektiert werden, welche das jeweilige Topic mit höchster Wahrscheinlichkeit enthalten.9 Als Ergebnis unserer Interpretation lassen sich beschreibende Labels für jedes unserer 65 Topics formulieren, wie zum Beispiel „Islamistische Anschläge“ oder „Trolle und Fake-Profile“. Die folgende Abb. 5.2 enthält eine Auflistung aller Topic-Labels (siehe Tab. 5.2 für eine nach Anteilen geordnete Liste aller Topics). Die vom LDA-Prozess gefundenen Topics stellen unterschiedliche Facetten des Diskurses rund um Flucht, Migration und Diskriminierung dar. Diese sind nicht zuletzt Ergebnis unseres Vorauswahlprozesses mithilfe bestimmter Schlüsselwörter. Jedoch teilt das Modell unsere Kommentare in eine Vielzahl deutlich unterscheidbarer Subthemen auf, die von den NutzerInnen in den sozialen Medien diskutiert werden. Während der Interpretation fiel auf, dass wir recht zuverlässig drei Typen von Topics unterscheiden konnten: Das sind erstens 45 Topics, die klar abgrenzbare thematische Zusammenhänge mit Bezug zu realweltlichen Gegenstandsbereichen beschreiben (Thema). Zweitens gibt es 16 Topics, die sich vor allem auf die Form der kommunikativen Auseinandersetzung in Nutzerkommentaren sozialer Medien zu beziehen scheinen (Praxis). Diese Wortcluster beschreiben kein inhaltliches Thema, sondern etwas, das wir im Folgenden als Sprachpraxis bezeichnen wollen. Dazu gehören z. B. Auseinandersetzungen darüber, wie Zustimmung oder Ablehnung zu bestimmten Positionen formuliert wird, oder die Einforderung von Respekt und Toleranz gegenüber Mitdiskutierenden (und Mitmenschen). Drittens finden sich im Korpus vier Topics von relativ allgemeinen, häufig vorkommenden Wörtern, die keinen eindeutigen semantisch abgrenzbaren Zusammenhang beschreiben (Sonstige).10 Um unsere Interpretation der Topics und Topic-Typen zu validieren, können wir deren unterschiedliche Vorkommen in den beiden Medientypen auswerten. Dazu stellt Abb. 5.2 die Differenz von Anteilen eines jeden Topics am Subkorpus aller Nutzerkommentare Zusammenhänge interpretieren und bewerten können. Auf Basis dieser Vorüberlegungen haben wir Werte zwischen K = 50 und K = 100 in Fünferschritten mit der R-Bibliothek ldatuning R package v1.0.0 (https://cran.r-project.org/package=ldatuning [letzter Zugriff 23.01.2020]) getestet. Die ermittelten Evaluierungswerte des Modells für verschiedene K legten nahe, dass im Bereich K = 65 ein guter Kompromiss zwischen beiden Anforderungen zu liegen scheint. Anschließend wurden sechs verschiedene Modelle berechnet und interpretiert. Zwischen diesen Modellen wiesen die Topics sehr hohe Überschneidung auf. Für die weitere Analyse wurde das Modell ausgewählt, welches die am besten interpretierbaren Topics mit Bezug zum Themenfeld Flucht und Migration beinhaltete. 8 Zur Interpretation der Topics verwenden wir das Tool LDAvis (https://cran.r-project.org/package=LDAvis [letzter Zugriff: 23.01.2020]; vgl. Sievert und Shirley 2014), welches den Anteil der Top-30-Begriffe eines Topics am Gesamtkorpus visualisiert. Ferner kann mit einem Parameter Lambda gesteuert werden, wie sehr die Top-30-Begriffe nach Wahrscheinlichkeit oder Spezifität gewichtet werden, wodurch Begriffe einbezogen werden können, die ein Topic besser in Abgrenzung zu anderen Topics beschreiben. Wir folgen der Empfehlung von Shirley und Sievert und interpretieren die Top-30-Begriffe bei einem Wert von Lambda = 0,6. 9 Zur Validierung und besseren Interpretation bei zunächst uneindeutigen Topics lesen wir Auszüge aus der Selektion der diesen Topics zugeordneten Top-100-Kommentare. 10 Diese Topics werden für die weiteren Analysen nicht betrachtet.
102
C. Fedtke und G. Wiedemann
Abb. 5.2 Differenz von Topic-Anteilen in NutzerInnenkommentaren und Medienartikeln
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
103
Tab. 5.2 Topics und ihre Anteile am Korpus Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Topic-Label Diskussion: Zustimmung und Ablehnung Hoffnung, Zukunft, Aufwachen Wissen und Glaube Humor und Ironie Allgemeine Debatte Beleidigung Aktion, Körper, derbe Sprache Diskussion, Bewertung und Vergleich Trolle und Fake-Profile Diskussion: Sachlichkeit Diskussion: Informiertheit Abwertung und negative Emotionen Religion: Islam und Christentum Delegitimierung: Rassismus/Nazis Angst in der Bevölkerung Diskussion: Fakten vs. Fakes Hetze gegen Merkel/die Regierung Respekt und Toleranz Diskussion: Frage und Antwort AfD-Wahlprogramm Geflüchtete in Deutschland AfD und Demokratie Medienberichterstattung Arbeits- und Sozialpolitik Diskussion: Liken vs. Löschen Farbe, Wetter, Aussehen, Körperteile Terrorismus Links- und Rechtsextremismus Herkunft und Migration Veränderungswille und Zukunft Politische Parteien Lebens- und Genussmittel Abtreibung und Familie Geschlechterverhältnisse Grundrechte Gewaltverbrechen II. Weltkrieg Bildung AfD-Wahlergebnis Politik: Naher Osten, USA, Russland G20 in Hamburg Kultur und Integration
Anteil 3,4 % 3,3 % 3,2 % 3,1 % 3,1 % 2,9 % 2,8 % 2,8 % 2,6 % 2,5 % 2,4 % 2,3 % 2,3 % 2,2 % 2,2 % 2,1 % 2,1 % 2,1 % 2 % 2 % 2 % 1,9 % 1,9 % 1,9 % 1,8 % 1,7 % 1,6 % 1,5 % 1,5 % 1,5 % 1,4 % 1,4 % 1,3 % 1,3 % 1,3 % 1,3 % 1,2 % 1,2 % 1,2 % 1,1 % 1,1 % 1,1 %
Typ Praxis Praxis Praxis Praxis Sonstiges Praxis Praxis Praxis Praxis Praxis Praxis Praxis Thema Praxis Thema Praxis Thema Praxis Praxis Thema Thema Thema Thema Thema Praxis Sonstiges Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema (Fortsetzung)
104
C. Fedtke und G. Wiedemann
Tab. 5.2 (Fortsetzung) Nr. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
Topic-Label Sicherheit und Islamismus Justiz und Strafe Entwicklung Afrikas Diskriminierung und Homosexualität Städte und Verkehr West- vs. Ostdeutschland Abschiebung nach Afghanistan Flucht(-routen) Kriminalstatistik und Zuwanderung Sexismus und #metoo AfD im Bundestag Tierhaltung Kopftuchdebatte Türkei und Erdogan USA Außenpolitik Englische Sprache AfD-Bundestagsvizepräsident EU-Staaten Festivals und Terrorwarnungen Vertreibung aus Kriegsgebieten Zeitangabe/Mitteilung Kriminalverdachtsfälle Islamistische Anschläge
Anteil 1,1 % 1,1 % 1 % 1 % 0,9 % 0,9 % 0,9 % 0,9 % 0,8 % 0,8 % 0,8 % 0,7 % 0,7 % 0,7 % 0,6 % 0,6 % 0,5 % 0,5 % 0,5 % 0,5 % 0,4 % 0,3 % 0,2 %
Typ Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Thema Sonstiges Thema Thema Thema Thema Sonstiges Thema Thema
gegenüber allen Medienartikeln dar. Die Sortierung entlang der Differenz offenbart eine nahezu perfekte Rangfolge der von uns zuvor identifizierten Sprachpraxis-Topics mit relativ höherem Anteil in den Nutzerkommentaren. Gleichzeitig lässt sich beobachten, dass auch bestimmte thematische Zusammenhänge in den sozialen Netzwerken deutlich stärker eine Rolle spielen als in den Artikeln der HM (z. B. der Zweite Weltkrieg oder das Verhältnis von Islam und Christentum). Für die folgende Analyse bestimmten wir auf Basis des Modells für jeden Kommentar das höchstwahrscheinliche Topic als Primärtopic. Auch wenn einige Topics bereits eine Überschneidung mit unserem Gegenstandsbereich von HR und GR nahelegen, lassen sich die vom Topic-Modell gefundenen Zusammenhänge nicht eindeutig diesen Kategorien zuordnen.
5.3.4 Strukturanalyse II – Textklassifikation Damit wir das Korpus gezielt auf HR und GR auswerten können, ist eine deduktive Kategorienzuordnung von Kommentaren mithilfe eines weiteren computergestützten Verfahrens notwendig. Eine solche Zuordnung erlaubt uns, zu beobachten, welche Themen- und Sprachpraxis-Topics eher mit HR bzw. GR einhergehen. Die Textklassifikation ist ein
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
105
überwachtes maschinelles Lernverfahren, bei dem ein Algorithmus den Zusammenhang von Textmerkmalen und zugeordneten Kategorien auf Basis von manuell codierten Trainingsdaten lernt. Mit einem trainierten Klassifikationsmodell können beliebig viele neue Texte den gelernten Kategorien automatisch zugeordnet werden. In der automatischen Sprachverarbeitung hat die Erkennung von HR in den vergangenen Jahren immer größere Aufmerksamkeit erlangt (vgl. Fortuna und Nunes 2018). Für unsere Studie verwenden wir einen Klassifikationsansatz auf Basis neuronaler Netze, welcher bereits erfolgreich für die Erkennung von beleidigender Sprache in deutschen Twitter-Daten verwendet wurde (Wiedemann et al. 2018).11 Das Textklassifikationsmodell muss für unsere Zwecke mit Daten aus unserem Kommentarkorpus neu trainiert werden. Dafür wurden zunächst analog zu den Definitionen (siehe Abschn. 5.2.2) Richtlinien für die Codierung von Kommentaren in HR oder GR entwickelt. Kommentare, die keiner der beiden Kategorien entsprachen, wurden als „None“ codiert. Zwei CodiererInnen erstellten einen Trainingsdatensatz mit insgesamt 17.363 Kommentaren (HR 4024 und GR 3836).12 Mit diesen Trainingsdaten wurde ein Klassifikationsmodell erstellt, mit dem alle ca. 360.000 Kommentare in eine der drei Kategorien klassifiziert wurden. Die automatische Klassifikation erreicht in der Kreuzvalidierung eine Genauigkeit von 71,7 %.13 Wiedemann (2019) zufolge können mit solchen Klassifikationsgenauigkeiten trotz einer immer noch beträchtlichen Zahl von Fehlzuordnungen für große Textkorpora sehr valide statistische Aussagen auf Basis aggregierter Ergebnisse vorgenommen werden. In unserer anschließenden manuellen Feinanalyse k önnen zudem etwaige Fehler erkannt und entsprechend bei der Interpretation berücksichtigt werden.14 Die gemeinsame Auswertung der Ergebnisse des Topic Models und der Klassifikation zeigt die Verschränkung von thematischen bzw. sprachpraktischen Topics mit HR und GR. Eine aggregierte Messung der klassifizierten Kategorieanteile pro Primärtopic stellt Abb. 5.3 dar. Durch die absteigende Sortierung nach HR-Anteilen wird besonders auffällig, dass HR vor allem zusammen mit thematischen Topics wie „Flucht(-routen)“, „Politi11 Das zur Klassifikation verwendete neuronale Netz ist ein bidirektionales LSTM-CNN-Modell mit vortrainierten fastText embeddings als Eingabe. Die Modellarchitektur wird ausführlich in Wiedemann et al. (2018) vorgestellt. In einer vergleichenden Evaluation mit zahlreichen anderen Modellarchitekturen belegte der Ansatz vordere Plätze bei der Klassifikation beleidigender Sprache. 12 Die Reliabilität der CodiererInnen liegt mit 82 % gleichen Zuordnungen und einem Krippendorff’s Alpha von 0,65 den Orientierungswerten von Landis und Koch (1977) folgend im (unteren) Bereich guter Übereinstimmung. Computerlinguistische Studien haben große Schwierigkeiten bei der Annotation von Hassrede aufgrund unterschiedlicher subjektiver Wahrnehmungen der CodiererInnen festgestellt (vgl. Ross et al. 2017). Vor diesem Hintergrund können unsere Reliabilitätswerte ebenfalls als vergleichsweise gut angesehen werden. 13 Der Klassifikator erreicht in einer 10-fold cross-validation einen F1-Wert von 67,0 % und eine Genauigkeit von 71,7 %. Schwierigkeiten hat der Ansatz insbesondere bei zynischen und sarkastischen Kommentaren, welche nur durch wenige sprachliche Hinweise als solche erkennbar sind, oder wenn ein Redebeitrag gegnerische Positionen zunächst ausführlich zitiert, um sie dann knapp zu attackieren. 14 Die Zählung fälschlich als HR bzw. GR klassifizierter Kommentare in der letztendlichen Kommentarauswahl der Feinanalyse ergibt einen Anteil von ca. 15 % False Positives.
106
C. Fedtke und G. Wiedemann
Abb. 5.3 Anteile an Hass- (absteigend sortiert), Gegenrede und None pro Topic
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
107
sche Parteien“ oder „Arbeits- und Sozialpolitik“ auftritt. GR ist dagegen vor allem mit sprachpraktischen Topics assoziiert. Dies macht bereits sichtbar, dass inhaltliche Gegenrede zusätzlich von Auseinandersetzungen darüber geprägt ist, wie die NutzerInnen miteinander kommunizieren (sollten).
5.3.5 Strukturanalyse III – Kookkurrenz Von besonderem Interesse bei der (kritischen) Analyse von Diskursen ist die Frage, welche Themen bzw. Diskursstränge miteinander verschränkt auftreten. Wir erwarten, dass insbesondere Diskussionen von NutzerInnen in sozialen Netzwerken nicht bei den thematischen Setzungen der redaktionellen Posts stehen bleiben, sondern darüber hinausgehen. Muster des gemeinsamen Auftretens von Topics können für das gesamte Korpus mithilfe einer Kookkurrenzanalyse automatisch bestimmt werden. Dazu greifen wir auf die Thread-Struktur der Kommentare zurück. Jeder Kommentar bzw. jede Antwort wird als Kombination aus zugeordnetem Primärtopic und klassifizierter Kategorie codiert. Anschließend zählen wir das gemeinsame Auftreten von Topic-/Kategoriecodes in einem Fenster von jeweils fünf aufeinanderfolgenden Kommentaren eines jeden Threads. Die so gezählten Kookkurrenzfrequenzen bewerten wir mit dem Dice-Koeffizienten, um die unterschiedliche Häufigkeit von Topic-/Kategoriecodes in einem normalisierten Maß betrachten zu können.15 Diesen Analyseschritt können wir für alle 45 thematischen Topic-/ HR-Codes vornehmen. Dadurch erhalten wir für jeden einzelnen Topic-/HR-Code eine Rangordnung der am stärksten verschränkten Topics, die gleichzeitig als HR bzw. GR klassifiziert sind. In Abb. 5.4 sind die typischen Verschränkungen für die drei thematischen Topics mit dem stärksten HR-Anteil zu sehen. Abgebildet sind die fünf am stärksten miteinander auftretenden HR-/Topic- bzw. GR-/Topic-Kookkurrenzen. Sichtbar wird so, dass z. B. HR mit Bezug zum Thema „Flucht(-routen)“ am stärksten gemeinsam mit HR rund um das Thema „Entwicklung Afrikas“ auftritt (siehe Abb. 5.4, oben). GR-Kommentare nehmen oft Bezug auf dieselben Themen wie HR. Jedoch gibt es auch auffällige Unterschiede. So tritt „Arbeits- und Sozialpolitik“ häufig mit HR zu „Flucht(-routen)“ auf, nicht aber als bedeutsamer Teil von GR. Interessant ist, dass HR und GR im Topic „Hetze gegen Merkel/ die Regierung“ (im Folgenden kurz „Merkel“-Topic; siehe Abb. 5.4, unten) durch sehr unterschiedliche Topics geprägt sind. Vor allem die GR ist an dieser Stelle durch Sprachpraktiken wie Beleidigung, Delegitimation und den Ausdruck negativer Emotionen gekennzeichnet.
Der Dice-Koeffizient bestimmt den Anteil des gemeinsamen Auftretens zweier Ereignisse gegenüber der Summe ihres jeweiligen Einzelauftretens und erzeugt so ein zwischen 0 und 1 skaliertes Maß. 15
108
C. Fedtke und G. Wiedemann
Abb. 5.4 Topic-Verschränkungen von Hass- bzw. Gegenrede mit den stärksten Hassredetopics
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
109
5.3.6 Auswahl typischer Texte Die Verschränkungen von Topics unter Berücksichtigung der Kategorien von HR und GR liefern bereits wertvolle Einblicke in die Grobstruktur des Diskurses. Darüber hinaus bilden sie gleichzeitig die Grundlage für die Auswahl typischer Texte zur Feinanalyse. Für diese betrachten wir das „Merkel“-Topic genauer, da es zu den am stärksten von HR durchsetzten Topics zählt. Die Themenverschränkung lässt erkennen, dass auf die HR-Kommentare dieses Topics häufig mit sprachpraktischer GR reagiert wird. Zur genaueren Betrachtung der GR-Strategien wählen wir das Topic „Delegitimierung: Rassismus/ Nazis“ (im Folgenden kurz „Delegitimierung“), da es nicht nur für das gewählte HR-Topic einen der stärksten GR-Anteile bildet, sondern auch im gesamten Korpus am zweitstärksten mit GR assoziiert ist. Zur Feinanalyse wählen wir alle Threads aus dem Korpus, in denen ein HR-Kommentar mit „Merkel“-Topic gemeinsam mit einem GR-Kommentar „Delegitimierung“ innerhalb von fünf aufeinanderfolgenden Kommentaren auftritt. So ergibt sich ein Teilkorpus mit 367 HR- bzw. GR-Kommentaren für die Feinanalyse (ca. 0,1 % des ursprünglichen Korpus), welche wir in einem ersten Schritt sequenziell analysieren. In einem zweiten Schritt betrachten wir die ersten 100 der 367 Kommentare in ihrem umliegenden Thread-Kontext. Dabei handelt es sich um ca. 1150 Kommentare in 29 Threads. Auf diese Weise ist es uns möglich, die Kommentare im Zusammenhang mit den zuvor getätigten Äußerungen zu interpretieren.
5.3.7 Feinanalyse ausgewählter Threads Die Ergebnisse der Feinanalyse lassen sich in zwei Schritten wiedergeben. Der erste besteht in der Beschreibung typischer Selbstverständnisse und „Wir“-Konstruktionen der KommentatorInnen in HR und GR sowie dem Herausarbeiten der Konstruktion ihrer Feindbilder. Im zweiten Schritt arbeiten wir typische diskursive Strategien heraus, welche zur Legitimation der eigenen bzw. Delegitimation gegnerischer Diskurspositionen zur Anwendung kommen.
5.3.7.1 Selbstverständnis von Hass- und GegenrednerInnen HR erfolgt vielfach von Menschen, die sich selbst als Teil eines homogen definierten Volkes in Abgrenzung zur führenden Elite identifizieren (K1252).16 Sie nehmen für sich in Anspruch, für „das Volk“ zu sprechen und einer (noch) schweigenden Mehrheit Ausdruck zu verleihen. Selbst beschreiben sie sich als „aufrechte Deutsche“ (K3393), „die Verantwortung für sich und andere übernehmen“ (K1441). Ab September 2017 bezeichnen sie sich vielfach als die „13 %“, mit Bezug auf das Wahlergebnis, das die AfD zur Bundes16 Die mit vorangestelltem K bezeichneten fortlaufenden Nummern referenzieren Kommentare in unserem Auswahlkorpus.
110
C. Fedtke und G. Wiedemann
tagswahl* erzielt hatte.17 Die AfD als politische Partei wird von ihnen als „einzige Vertreterin“ des deutschen Volkes gesehen (K301). Von der Politik der anderen Parteien* sei „das Volk“ in seiner Existenz bedroht, wobei ein ethnisch-kulturell definierter Volksbegriff erkennbar wird. Äußerungen der Bedrohtheit gehen einher mit Gewaltbereitschaft, z. B. der Ankündigung, die Regierung zu „jagen“ (K794; eine Bezugnahme auf eine Rede des AfD-Vorsitzenden Alexander Gauland) und sich ‚das Land zurückzuholen‘ (K992). Feindbilder in HR lassen sich in drei Gruppen zusammenfassen: die etablierte Politik mit Kanzlerin Merkel an der Spitze, die diese Politik stützenden „Gutmenschen“ und die Geflüchteten*. Bezüglich der ersten Gruppe drückt HR eine grundsätzliche Unzufriedenheit mit der Regierung aus, die mit dem Unmut einhergeht, sich übergangen zu fühlen. Die Entscheidung zur Aufnahme von Geflüchteten im Jahr 2015 ist eine von wenigen konkret benannten Politikmaßnahmen in HR. Insbesondere Kanzlerin Merkel ist dabei als Einzelperson ins Visier vieler HassrednerInnen (im Folgenden HR-Innen) geraten. Ihr wird vorgeworfen, „Schuld“ (K1048) zu sein, Deutschland und das Volk „gespalten zu haben wie noch nie ein Kanzler“ (K1048) zuvor. Sie zerstöre die Zukunft* des Landes (K251) und treibe es in den „Untergang“ (K522). Die tief verinnerlichte Überzeugung, „das Volk [sei] dieser Regierung so was von egal und genauso agieren sie“ (K230), richtet sich aber nicht nur auf die Regierungschefin, sondern auf die „etablierten Parteien“ (K281) der parlamentarischen Demokratie insgesamt. Einen Hinweis darauf liefert die permanente Nutzung des Begriffs „Altparteien“ zur Bezeichnung von CDU/CSU, SPD, Bündnis 90/Die Grünen, Die Linke sowie der FDP. Der Begriff beschreibt nicht nur Parteien mit einer langen parlamentarischen Tradition, sondern ist durchweg negativ konnotiert. Insbesondere markiert das Präfix „Alt-“ die Abgrenzung zur einzigen „Neupartei“, der AfD*, die auf diese Weise positiv mit modernen und dynamischen Eigenschaften assoziiert wird. Den „Altparteien“ wird Lüge (K533), Korruption (K3045) und Verschwörung durch eine „geplante Umvolkungsaktion“ (K1348) und einen damit einhergehenden „Völkermord“ an den Deutschen (K1204) vorgeworfen. Die zweite große Gruppe von GegnerInnen in HR bilden die Teile des Volkes, welche einer Zuwanderung nach Deutschland offen gegenüberstehen. Für diese finden sie viele despektierliche Bezeichnungen wie „Teddybär(chen)werfer“, „Willkommensklatscher“ und „Bahnhofsklatscher“, bildsprachliche Beschreibungen von Situationen, in denen Personen an deutschen Bahnhöfen im Sommer 2015 Züge mit geflüchteten Menschen empfangen haben. Am häufigsten sind die Bezeichnungen „Buntbürger“ und „Gutmenschen“ vertreten. HR-Innen definieren: „Gutmensch ist die nette Beschreibung für realitätsrenitende Wahrheitsallergiker mit dem IQ einer Amöbe in diesen [sic!] Land!“ (K909) oder „Ein Gutmensch MEINT gut zu handeln, wenn er rücksichtslos und egoistisch seine linke naive Ideologie verwirklicht. In Wahrheit asozial und zum Schaden von Millionen Men Mit * markierte Begriffe und Wortgruppen verweisen hier und im Folgenden auf weitere Topics, in denen diese vorrangig enthalten sind. Weitere Feinanalysen der mit diesen Topics verbundenen Themenverschränkungen könnten mit einer Teilkorpusauswahl analog zum Vorgehen in Abschn. 5.3.6 vorgenommen werden. 17
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
111
schen ...“ (K2714). „Gutmenschen“ gelten als „typisch links“ oder „grün“ (K856; K867), eine Bezeichnung die häufig zu „linksgrün“ zusammengefasst und mit dem Zusatz „versifft“ abgewertet wird (K2803). Da sie für eine diverse, kulturell vielfältige und bunte Gesellschaft eintreten, werden sie auch als „Buntbürger“ (K838) bezeichnet. HR-Innen fordern „Gutmenschen“ (und auch die Regierung) auf, die „Wahrheit“ zu erkennen. Dazu müssten diese nur aus ihrem „Tiefschlaf“ (K2155) „aufwachen“* (K2371). HR-Innen sehen sich dagegen als „erwacht“ an, was ihnen einen ungetrübten Blick auf die Welt ermöglicht. Diese Überzeugung des geistigen Erwachtseins erlaubt es, die eigenen Positionen und Theorien als einzig legitime Weltdeutungen wahrzunehmen und erfolgreich gegen jegliche GR-Argumente zu verteidigen. Geflüchtete als drittes Feindbild kommen in unserem Diskursausschnitt vor, insofern sie in Bezug zu der Entscheidung Merkels zur Einreiseerlaubnis 2015 diskutiert werden.18 Geflüchtete in Deutschland werden nicht als Menschen, die Schutz vor Krieg und Verfolgung suchen, angesehen, sondern als „Simulanten“ (K751) bezeichnet, die den Schutzbedarf nur vortäuschen. Folglich hätten diese „sogenannten Flüchtlinge“ (K2100) auch keinen Asylanspruch. GR stellt in der Regel eine Reaktion auf HR dar. Anders als bei HR lässt sich aus den GR-Kommentaren keine einheitliche Identitätskonstruktion ableiten. GR-KommentatorInnen agieren als Individuen, ohne auf spezifische Gruppenidentitäten zurückzugreifen. Vereinzelt beschreiben sie sich als „anständige Demokraten“ (K1102), teils als explizit „nicht links“ (K2007). Die Selbstverortung erfolgt oft über eine Negativdefinition in Abgrenzung zu „Menschenverachtung, Xenophobie, […], Hetze und Hass“ (K82). Nach der Bundestagswahl wird dabei auf die Gruppe der Nicht-AfD-WählerInnen Bezug genommen, im Besonderen auf die Mehrheit der „anderen 87 %“ (K3369). Damit wird die Idee einer „schweigenden Mehrheit“, die hinter den HR-Innen stünde, zurückgewiesen. Eine auffällige Besonderheit sind die zahlreichen mit dem Hashtag #ichbinhier markierten GR-Beiträge einer FB-Gruppe von AktivistInnen, die es sich zur Aufgabe gemacht haben, HR-Threads zu identifizieren und darin gemeinsam systematisch für solidarische Politik und differenzierte Auseinandersetzungen zu streiten. Der Hashtag symbolisiert eine lose Gruppenzugehörigkeit derjenigen, die sich gegen HR engagieren, und wird in diesem Zuge auch von Nichtmitgliedern der Gruppe aufgegriffen. Die Feindbilder der GegenrednerInnen (im Folgenden GR-Innen) lassen sich aufteilen in die sich zunehmend Gehör verschaffenden rechtsgesinnten BürgerInnen und die Partei AfD als deren politische Vertretung. Für die erste Gruppe finden sich häufig die Bezeichnungen „besorgte Bürger“ und „Wutbürger“. Die „Besorgten“ werden teilweise der CDU/ CSU (K3569), vor allem aber der AfD (K3645) nahestehend verortet. Problematisch ist für die GR-Innen deren rassistische und autoritäre Gesinnung, die sie in emotionalen Äußerungen* demonstrativ herausstellen. Die permanente Übersteigerung von Ängsten* und Vorurteilen, z. B. gegenüber Geflüchteten, führten zu einem „ständig[en] und wehleidi18 Unsere Strukturanalyse hat mehrere separate Topics mit Bezug zu Migration identifiziert, die hier jedoch nicht Gegenstand der Untersuchung sind.
112
C. Fedtke und G. Wiedemann
g[en] Klagen“ (K2588). Statt auf Fakten* beruhten Argumentationen der „besorgten BürgerInnen“ auf „Bauchgefühl“ (K1578) sowie ungenauen oder verfälschten Informationen (K3659; K2916). Demgegenüber beziehen die GR-Innen häufig einen klaren moralischen Standpunkt. Sie verurteilen das „hetzerische“ Verhalten (K1425) scharf und charakterisieren HR-Innen als „dumme Nachläufer der rechtsextremen Volksverhetzer“ (K915). Die AfD, das zweite große Feindbild in der GR, wird als „Feind der Demokratie“ (K1109) identifiziert. Der Partei wird vorgeworfen, völkische Feindbilder zu bedienen (K2147) bzw. sogar „heraufzubeschwören“ (K22). Die Wortwahl des Heraufbeschwörens verweist darauf, dass die AfD den „Besorgten“ gezielt Feindbilder wie die der „Flüchtlinge und Muslime“ (K22) als Ursachen ihrer Probleme anbiete. Die GR-Innen verurteilen solche vorsätzliche und fahrlässige Bedienung von Fremdenfeindlichkeit (K153) als „geistige Brandstiftung“ (K2147). Abneigung gegenüber der Partei, wie sie z. B. in der Wortschöpfung „EkelhAFD“ (K1034) zum Ausdruck kommt, ist mit starken Emotionen verknüpft. Die AfD und ihre WählerInnen hätten schlechte Argumente und seien wenig kritikresistent, weshalb sie schnell durch „bloße Polemik und persönliche Diskreditierungen“ (K2272) auffielen. Dementsprechend sei es „ein Unding, diese Leute zu wählen“ (K2147).
5.3.7.2 Diskursstrategien Im Diskurs lassen sich wiederkehrende Vorgehensweisen zur Legitimierung eigener Positionen bzw. Delegitimierung von gegnerischen Positionen erkennen, die als Kämpfe um Deutungshoheit und als Diskursausschlüsse verstanden werden können. Die Strategien sind dabei als bedeutsame (aber nicht abschließende) Menge von Argumentationsmustern zu verstehen, die im untersuchten Ausschnitt des Korpus immer wieder auftauchen. Wir identifizieren Strategien, die nahezu ausschließlich von HR-Innen oder GR-Innen genutzt werden, und solche, auf die beide Gruppen gleichermaßen zurückgreifen. Zwei Strategien, die maßgeblich von HR-Innen genutzt werden, sind die Konstruktion einer existenziellen Bedrohung und die Selbstinszenierung als Opfer. Die erste Strategie zeigt sich in der wiederholten Beschwörung von Unsicherheit* und dem Insistieren auf dem Vorhandensein einer akuten Bedrohungssituation*. Damit bringen HR-Innen eigene Ängste zum Ausdruck, schüren sie aber auch zielgerichtet bei anderen. Zentrale Motive sind dabei die Konstruktion eines unversöhnlichen Gegensatzes von ‚natürlichem‘ Volk und bösartiger bzw. unfähiger Regierung sowie der Aufbau eines Narrativs der „Umvolkung“ durch Geflüchtete und MigrantInnen. Zur Bestärkung dieser Botschaften wird auch auf dramatische Übertreibungen und Lügen zurückgegriffen. Dazu zählen pauschale Verunglimpfungen aller geflüchteten Menschen als Gewalttäter* und Terroristen* oder Unterstellungen wie die, Frau Merkel mache aus Deutschland ein muslimisches Land (K2218). In verschärfter Form wird das Misstrauen gegen die Regierung zur Verschwörungstheorie. Nur durch „Gehirnwäsche“ (K1155) und irreführende Berichterstattung der „Mainstreammedien“* und „Lügenpresse“ sei es erklärbar, dass so viele Menschen die „Wahrheit“ noch nicht erkennen würden. Die zweite HR-Strategie betrifft die Selbstinszenierung als Opfer und damit einhergehend auch die Zurückweisung von Schuld und Verantwortung als Konsequenz des eigenen Handelns bzw. der eigenen Ideologie. Beklagt wird häufig die
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
113
Einschränkung der Meinungsfreiheit als Reaktion auf vorangegangene GR-Beiträge oder Löschungen strafrechtlich relevanter HR. Zurückgewiesen werden in einer Täter-Opfer- Umkehr auch Vorwürfe von Geschichtsvergessenheit. Der „Schuld-Kult“ (K1054) müsse überwunden werden, damit „deutsche Interessen wieder in den Vordergrund“ (K3402) rücken könnten. Der Beitrag, den HR zur Spaltung der Gesellschaft leistet, wird zwar von GR thematisiert, aber in HR nur als Schuld der Politik von „Mutti Merkel“ (K1658) gesehen, die so letztendlich auch für den Wahlerfolg der AfD* verantwortlich zu machen sei. Zusammenhänge zwischen der Zunahme von sprachlicher Diskriminierung, rechtsextremen Aktivitäten und politisch motivierten Übergriffen* werden entweder negiert oder als rechtmäßige Reaktion auf die verfehlte Politik der „Altparteien“ entschuldigt. Typische Strategien von GR-Innen beruhen meist auf dem Versuch der Aufklärung sowie moralischer Exklusion aus dem Diskurs. Die erste Strategie verfolgt das Ziel, die Argumente der Angst- und Opferstrategien in HR aufzudecken und durch das Richtigstellen bzw. Einbringen von Fakten und Informationen* zu widerlegen. Mit dieser Strategie einher geht eine Markierung von in HR erkennbaren Diskurspositionen als moralisch verwerflich. Eine Reihe von Bezeichnungen dient als Grenzziehung, mit der AkteurInnen, Ideologien oder Aussagen aus der Menge legitimer Beteiligung am demokratischen Diskurs ausgeschlossen werden sollen. Dies betrifft zum einen die Markierung von bestimmten Aussagen als „Hass“ (K82) bzw. als „Hetze“ (K839). Zum anderen werden mit den Bezeichnungen „Nazi“ (K114), „Faschist“ (K1040), „Rassist“ (K18), „Rechtsextremist“ (K196) oder „braun“ als politischer Farbe der Nationalsozialisten bestimmte AkteurInnen markiert: „Nazis und ihre Befürworter dürfen hier keine Meinung haben!!“ (K27) Unabhängig davon, ob sich die moralische Exklusion gegen eine Position oder eine Person richtet, verweist diese Strategie im Kleinen der einzelnen Kommentare immer wieder darauf, wo im Großen und Ganzen des Diskurses die GR-Innen Grenzen des Sagbaren ziehen. Nationalsozialismus, Faschismus, Rassismus und Rechtsextremismus* werden wegen ihrer Affirmation von Ungleichheit als einer demokratischen Gesellschaft fundamental widersprechende Ideologien angesehen. Deren AnhängerInnen könnten folglich keinen legitimen Raum für die Verbreitung ihrer Ansichten beanspruchen: „Den wer unser Grundgesetz missachtet hat auch kein Recht auf freie Meinungsäußerung!“ (K27) Vonseiten der HR-Innen finden sich auf die Versuche moralischer Diskursausschlüsse zwei gängige Antwortverhalten: Relativierung oder Neudefinition. Beide Strategien werden dazu genutzt, den Exklusionsversuch zurückzuweisen und die eigene Legitimität als DiskursteilnehmerIn (wieder) herzustellen. Mit der Strategie der Relativierung wird der Vorwurf, Hetze zu betreiben bzw. eine rechte Position zu vertreten, zurückgewiesen. GR-Innen wird der Vorwurf gemacht, durch den Diskursverweis selbst ein „Totschlagargument“ (K835) zu verwenden, „Mainstreamhetze“ (K141) zu betreiben oder gar die „Nazi-Keule“ (K29) zu schwingen, mit der die „freie Meinungsäußerung“ (K3548) unterdrückt werden solle. Die „Rassisten-Keule“ bzw. „Nazi-Keule“ drückt aus, dass kritische Verweise auf Ähnlichkeiten zu rassistischen oder nationalsozialistischen Positionen als ungerechtfertigt empfunden werden. Die Bezeichnung führt damit selbst eine neue diskursive Grenzziehung ein, welche den Vergleich mit rechten Ideologieelementen für
114
C. Fedtke und G. Wiedemann
illegitim erklärt. Der Schwung mit der metaphorischen Keule sei langweilig (K887), weil diese Entgegnung inhaltsleer oder altbekannt und nur dazu da sei, den HR-Innen ein „schlechtes Gewissen ein[zu]reden“ (K2117). Inhaltlich unangebracht sei der Vorwurf auch, weil „Nazis“, also Anhänger des Nationalsozialismus*, bereits tot seien (vgl. K29; K1890), wodurch die Möglichkeit einer Kontinuität der NS-Ideologie nach 1945 ausgeschlossen wird. Die zweite Strategie, mit der auf GR reagiert wird, ist die Umdefinition. Dabei werden bestimmte Konzepte und deren Bewertungen, über die es im herrschenden Dispositiv einen Konsens gibt, inhaltlich und damit auch moralisch neu besetzt. Ein Beispiel ist die Verkehrung von Sozialisten in den ‚bösen‘ Faschisten, wie im folgenden Kommentar: „Übrigens schon Mal darüber nachgedacht: Nazi = Parteimitglied der NSDAP = National Sozialistische Deutsche Arbeiter Partei = eine in Deutschland national eingestellte sozialistische Arbeiterpartei = klingt eigentlich radikal links“ (K1192). In diesem Kommentar wird hergeleitet, dass die NSDAP im Grunde eine linke Partei gewesen sei, womit bewiesen werden soll, dass die Nationalsozialisten immer noch abzulehnen, aber politisch links und nicht, wie fälschlicherweise angenommen, rechts seien. Anhänger dieser Umdefinition schlussfolgern, dass die Linken nicht nur „böse“ Faschisten (K731), sondern sogar „die NAZIS von heute!“ (K1193) seien. Diese Argumentation ist für HR-Innen auf drei Weisen wirksam: „Nazi“-Vorwürfe aus der GR werden als unzutreffend zurückgewiesen, eigene Diskurspositionen werden als „nicht rechts“ und moralisch integer rehabilitiert, und schließlich wird die „Nazi-Keule“ zur Ausgrenzung der „linken“ GR-Positionen zurückgeschwungen. Als letzten Schritt betrachten wir kurz Diskursstrategien, die von beiden Gruppen verwendet werden. Die unverblümteste Strategie ist der direkte Diskursausschluss, der sich in Kommentaren wie „Einfach mal das besorgte Maul halten“ (K1034) zeigt. Jedoch versuchen nicht alle, den Diskurs zu beenden, sondern begeben sich stattdessen in die Diskussion. Häufig anzutreffen ist die Strategie des insistierenden Nachfragens*, wodurch die Position des Gegenübers bisweilen als unreflektiert, die eigene dagegen als reflektiert erscheint. In GR wird durch das kritische Nachfragen versucht, Informationen zu erhalten, die Vorurteile oder Lügen in HR entlarven können. HR-Innen verwenden diese Strategie eher, um nach Quellen kritischer Aussagen zu fragen. Mit dem Hinweis auf fehlende Quellenangaben wird die Unglaubwürdigkeit des GR-Arguments unterstellt bzw. erscheint dieses als eine bloße Meinung. Eine weitere Strategie ist die Ablenkung, auch bekannt als Whataboutism. Bei dieser Gesprächstaktik wird nicht auf eine Frage geantwortet, sondern mit einer unbequemen Gegenfrage oder einem Hinweis auf einen anderen Missstand reagiert. Eine ungünstige Antwort wird so vermieden und die Aufmerksamkeit auf ein anderes Thema gelenkt. Des Weiteren stellen beide Gruppen Forderungen nach besserer Informiertheit* und mehr Bildung* – u. a. durch Hinweise auf mangelnde Rechtschreibung (K65) – oder machen ihren GegnerInnen Vereinfachung (K108) und mangelnde Differenzierung (K57) zum Vorwurf. Diskursstrategien, die sich kaum als inhaltliche Beiträge einordnen lassen, aber dennoch klare Positionen zum Ausdruck bringen, sind die Verwendung von Humor, Ironie* und Sarkasmus sowie Beleidigung*.
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
5.4
115
Synopsis
Für unsere eingangs, gestellte Forschungsfrage nach dem Verhältnis von HR und GR und den mit ihnen verknüpften Themen und Strategien lassen sich folgende Erkenntnisse zusammenfassen. Unser Vorgehen der Korpuserstellung, FB-Kommentare zu massenmedialer Berichterstattung nach vorab definierten Schlagworten zu filtern, hat sich als geeignet zur Auswahl äußerst kontroverser Diskussionsstränge erwiesen. Die Teilöffentlichkeiten hybrider Medien stellen Schauplätze dar, an denen öffentlich um Deutungshoheit gerungen wird. Bezogen auf unser Topic-Modell konnten wir feststellen, dass die Diskussionen der NutzerInnen eine Vielzahl wichtiger Ereignisse des Jahres 2017 (siehe Abschn. 5.3.1) abbilden. Die thematische und sprachpraktische Aufgliederung des Korpus in Topics zusammen mit den Ergebnissen der Textklassifikation einzelner Kommentare in HR und GR liefert uns interessante Möglichkeiten, um statistisch auffällige Muster im Korpus zu finden und zielgenaue Auswahlen für qualitative Analyseschritte vorzunehmen. So wird z. B. deutlich, dass die Thematik „Flucht(-routen)“ vonseiten der HR am stärksten in Zusammenhang mit „Entwicklung Afrikas“ und den Auswirkungen in Deutschland, konkret etwa auf „Arbeits- und Sozialpolitik“ oder „Sicherheit und Islamismus“, diskutiert werden. Im Gesamtkorpus sowie in einzelnen Threads treten HR und GR in nahezu ausgeglichenen Verhältnissen auf (tatsächlich gibt es meist einen minimal höheren GR-Anteil), wohingegen ihre Anteile bezüglich einzelner Topics stark variieren. Die Analyse der Verschränkungen des „Merkel“-Topics zeigt, dass HR-Innen und GR-Innen grundsätzlich verschiedene Selbstverständnisse von sich, aber auch stark verfestigte Definitionen ihrer GegnerInnen besitzen. Dabei weichen die jeweiligen politischen Zielsetzungen und damit verbundenen Wertvorstellungen deutlich voneinander ab. Die primäre Diskursstrategie in HR besteht in einem permanenten Ausdruck und Schüren von Ängsten, die regelmäßig zu einer existenziellen Bedrohung einzelner Individuen oder des gesamten Volkes gesteigert werden. Damit einher gehen Anklage bzw. Gewaltandrohung gegen die vermeintlich Schuldigen an dieser Situation. Ziel der HR-Innen ist die Herbeiführung eines politischen Wandels hin zu einem völkisch-nationalen Deutschland als einem „natürlichen“ Bestandteil einer „Ordnung der Völker dieser Erde“ (K495). Untermauert wird dieses Ziel mit der Darstellung der eigenen Position als Mehrheits- oder auch „Volkswille“ und der Diskreditierung von politischen GegnerInnen. Die AfD wird in Abgrenzung zu den Altparteien als einzige ‚Erlöserpartei‘ zur Verhinderung des andernfalls sicheren Untergangs verteidigt. Insgesamt verdichten sich in HR sehr homogene Identitätskonstruktionen und Feindbilder zu einer kohärenten Diskursposition, die große Überschneidungen zu geschlossenen Weltbildern aufweist, wie sie z. B. in der Einstellungsforschung zum Rechtsextremismus beschrieben werden (vgl. Decker et al. 2016).19 GR als reaktives diskursives Verhalten auf HR mit dem Ziel, rassistischen und völkisch- nationalistischen Debattenbeiträgen zu widersprechen, ist dagegen von deutlich uneinheit19 Es ist zu beachten, dass aus dieser Beobachtung eine politische Einordnung einzelner HR-Innen nicht generell abgeleitet werden kann.
116
C. Fedtke und G. Wiedemann
licheren Identitätskonstrukten gekennzeichnet. Das Ziel von GR ist in erster Linie die Enttarnung der „besorgten Bürger“ und ihrer politischen VertreterInnen als eine Gefahr für die Demokratie. Dazu nimmt GR positiv Bezug auf eine Stärkung bzw. Bewahrung der demokratischen und rechtsstaatlichen Prinzipien* der Gesellschaft sowie der universellen Gültigkeit von Menschenrechten, was als Mehrheitsmeinung dargestellt wird. Darüber hinaus wird aber selten auf Gruppenidentitäten Bezug genommen, eine „linke“ Identität wird häufig sogar verneint. Die primären GR-Diskursstrategien sind Aufklärung und Information, mit denen unbegründeten Ängsten, drastischen Übertreibungen und Lügen argumentativ begegnet wird, sowie die moralische Verurteilung von HR-Positionen über die Markierung von Äußerungen als Hetze, Hass, rassistisch oder nazistisch. Mit diesen Strategien wird versucht, klare Grenzen des Diskurses aufrechtzuerhalten. Interessanterweise wird die negative Konnotation z. B. des „Nazi“-Vorwurfs (und damit auch ihre Eignung zur Grenzziehung) weitgehend von allen DiskursteilnehmerInnen geteilt. HR ihrerseits reagiert auf den Versuch des Diskursausschlusses mit den Strategien Relativierung und Umdeutung der Begriffe. Diese Strategien können zumindest teilweise erfolgreich sein, da GR häufig bei der bloßen Markierung bzw. Benennung der ‚unmoralischen‘ Konzepte stehen bleibt. Zugrundeliegende Definitionen der Konzepte oder Argumente, warum z. B der Nazi-Vorwurf auf eine vorangegangene HR zutreffend sei, werden nur selten mitkommuniziert, obwohl eine zwischen allen DiskursteilnehmerInnen geteilte Definition dieser Konzepte nicht vo rausgesetzt werden kann. Allerdings ist es auch fraglich, wie erfolgreich eine erweiterte Aufklärungsstrategie sein kann, da HR durch ein weitgehend geschlossenes Weltbild gekennzeichnet ist. So führen Grenzziehungen durch GR aufseiten der HR-Innen regelmäßig nicht zu einer Gegenargumentation, sondern zu Klagen, dass ihre Meinungsfreiheit beschnitten werde. Diese Strategie der Opferinszenierung verfestigt wiederum die Gruppenidentität nach innen, sodass sich die Chancen, mit GR argumentativ durchzudringen, weiter verringern. Dennoch erfüllt GR eine wichtige Funktion, indem sie anderen DiskursteilnehmerInnen und passiv Mitlesenden in den sozialen Netzwerken signalisiert, dass HR-Diskurspositionen argumentative Leerstellen aufweisen und keineswegs von einer Mehrheit geteilt werden. Es erscheint daher sinnvoll, GR mit n achvollziehbaren Begründungen zu verbinden, die über eine moralische Exklusion hinausgehen. Eine Kritik an HR-Positionen, die diese nicht nur als ‚unanständig‘ oder ‚böse‘ markiert, sondern begründet, inwiefern sie demokratischen Prinzipien ganz grundsätzlich widersprechen, kann nachvollziehbarer auf Mitlesende wirken und ist zudem weniger anfällig dafür, mit einer Opferinszenierungsstrategie gekontert zu werden. Um das reaktive Muster von GR zu durchbrechen, könnte es zudem allgemein hilfreich sein, wenn GR-Innen vermehrt proaktiv Narrative entwickeln, die eine positive Anknüpfung an eine demokratische Identität ermöglichen.
5.5
Reflexion und Ausblick
Die Analyse hat gezeigt, dass sich die Art und Weise der Diskursführung in den sozialen Medien deutlich von der in Massenmedien unterscheidet. Sichtbar wurden eigene Themensetzungen und eine polarisierte Debatte, die vom Ideal eines deliberativen Meinungs-
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
117
austausches weitestgehend abweicht. Im Gegenteil erhalten extrem rechte Positionen in den Kommentaren der NutzerInnen als ganz „normaler“ Teil des Alltagsdiskurses eine öffentliche Bühne, die im traditionellen Massenmediensystem nicht gegeben ist. In diesem Zusammenhang ist die diskursive HR-Strategie der Umdefinition besonders gefährlich, insofern es nicht unwahrscheinlich erscheint, dass es zu einem gewissen Grade gelingt, auf diesem Wege ein „alternatives“ Wissen zur Ordnung der Welt in der öffentlichen Meinung zu verankern. Beispiele dafür liefern bestimmte Argumentationsmuster, die, zunächst verbreitet in den sozialen Medien, inzwischen auch im politischen Diskurs auf Landes- und Bundesebene Eingang gefunden haben und dort wirken. So bezeichnete die ehemalige CDU-Bundestagsabgeordnete Erika Steinbach die NSDAP z. B. als linke Partei (vgl. BR24 2018), die sächsische CDU setzte im Landtagswahlkampf 2019 die Folgen des Nationalsozialismus mit denen des DDR-Sozialismus gleich (vgl. Möllers 2019), und der damalige Verfassungsschutzpräsident Hans-Georg Maaßen schürte im Herbst 2018 im Nachgang rechtsextremer Hetzjagden in Chemnitz das in sozialen Netzwerken verbreitete Misstrauen in die öffentlich-rechtliche Medienberichterstattung über die Ereignisse (vgl. Meisner 2018). Wenn verhindert werden soll, dass solche Narrative eine weitere Normalisierung über die sozialen Netzwerke hinaus erfahren, dürfen sie durch TeilnehmerInnen des medialen und politischen Diskurses nicht als legitim aufgegriffen werden. Stattdessen sollte ihnen konsequent mit inhaltlichen Richtigstellungen und demokratischen Gegenerzählungen begegnet werden. Methodisch machen wir mit unserer Studie einen Vorschlag für eine KDA von Nutzerkommentaren mit computergestützten Verfahren. Eine besondere Herausforderung in der Analyse dieser liegt darin, eine Auswahl typischer Diskursfragmente, also beispielsweise Kommentar-Threads mit kohärenter thematischer Verschränkung, in ausreichender Menge zu finden, um eine Repräsentativität der Aussagen über den Diskurs zu gewährleisten. Zwar lassen sich analog zur Korpusauswahl z. B. von Massenmedienartikeln thematische Filterungen von Posts vornehmen. Es zeigt sich jedoch, dass die dazu geführten Kommentardebatten in den sozialen Medien deutlich breiter ausfächern und eine Vielzahl an Themen berühren, die in den Massenmedien so nicht behandelt werden (vgl. Abb. 5.2). Der konventionelle Ansatz, weitere Kommentare zu lesen und das Korpus schrittweise quasi bottom-up bis zu einer Sättigung des Materials zu erweitern, wäre händisch nur mit sehr großem Aufwand und für einige wenige Themenverschränkungen zu leisten. Dagegen erlaubt uns die Nutzung von computergestützten Verfahren, Strukturen wie z. B. Topics oder Kategorien (halb-)automatisch in großen Textmengen top-down zu finden. Anhand dieser Strukturierungen ist es anschließend möglich, inhaltlich durch das Material zu navigieren sowie interessante Teilkorpora zu selektieren. Auch für den Top-down-Ansatz gilt: Die Sättigung des Materials wird nicht durch die reine Menge des Ausgangskorpus erreicht, sondern muss immer wieder in der Feinanalyse überprüft werden. Dies setzt voraus, dass die automatisch identifizierten Strukturen und ihre Verschränkungen in ausreichender Zahl im Korpus beobachtbar sind, sodass das diskursive Feld des Sagbaren möglichst vollständig erfasst werden kann. Eine ausreichend große Menge an Kommentaren kann durch das von uns vorgeschlagene Vorgehen effektiv in handhabbare Teilmengen zerlegt werden. In unserem Beispiel wurden letztendlich nur „0,1 % des Korpus zur Fein-
118
C. Fedtke und G. Wiedemann
analyse der Themenverschränkung „Merkel“ (HR)-Delegitimierung“ (GR) identifiziert. Eine auf dieser Auswahl von ca. 360 Kommentaren (in 29 Threads bzw. 1 % des Korpus) beruhende Feinanalyse kann somit Repräsentativität für genau diese Diskurskonstellation beanspruchen. Auf manuellem Wege zu einer solchen Auswahl zu gelangen, wäre dagegen mit unverhältnismäßig großem Aufwand verbunden. Für die automatische Strukturierung des Materials hat sich also die Kombination von Topic Modeling und Textklassifikation als besonders fruchtbar erwiesen. Im Topic-Modell ließen sich zwei relevante Typen von Topics unterscheiden: Thematische und sprachpraktische Zusammenhänge. Letztere kennzeichnen die besondere Textgattung von Nutzerkommentaren in sozialen Medien gegenüber journalistischen Publikationen und weisen, für uns überraschend, ebenfalls starke Überschneidungen mit GR auf. Die Textklassifikation erlaubte uns einen theoriegeleiteten Zugriff auf HR und GR in den Kommentaren, wobei der Aufwand zur Erstellung von ausreichenden Trainingsdatenmengen nicht unterschätzt werden sollte. Obwohl die automatischen Prozesse noch zahlreiche Fehler bei der Einordnung einzelner Kommentare machen, liefern sie valide und gut interpretierbare Ergebnisse, sobald aggregierte Statistiken erstellt und selektierte Einzelereignisse in der qualitativen Betrachtung in ihrem Kontext interpretiert werden können. Das in diesem Ansatz noch nicht annähernd ausgeschöpfte Potenzial zur Untersuchung wird deutlich, wenn wir weitere Kombinationen von HR und GR in anderen thematischen Topics anschauen. Besonders interessant wäre beispielsweise ein Blick auf explizit unterschiedliche GR-Strategien oder die Einbeziehung weiterer Variablen in die Analyse, wie der Vergleich über Zeiträume, Medienquellen oder NutzerInnen hinweg.
Literatur Ben-David, A./Matamoros-Fernandez, A. (2016): Hate Speech and Covert Discrimination on Social Media: Monitoring the Facebook Pages of Extreme-Right Political Parties in Spain. In: International Journal of Communication 10, S. 1167–1193. Berecz, T./Devinat, C. (2016): Relevance of Cyber Hate in Europe and Current Topics that Shape Online Hate Speech. Amsterdam: International Network Against Cyber Hate (INACH) (http:// test.inachbase.net/wp-content/uploads/FV-Relevance_of_Cyber_Hate_in_Europe_and_Current_Topics_that_Shape_Online_Hate_Speech.pdf) [letzter Zugriff: 23.01.2020]. BR24 (2018): Waren die Nazis links? In: Bayerischer Rundfunk, #faktenfuchs (https://www.br.de/ nachricht/faktencheck/waren-die-nazis-links-100.html) [letzter Zugriff: 21.08.2019]. Burke, S./Goodman, S. (2012): ‚Bring back Hitler’s gas chambers‘: Asylum seeking, Nazis and Facebook – a discursive analysis. Discourse & Society 23 (1), S. 19–33. Chadwick, A. (2013): The hybrid media system. Politics and power. New York (NY): Oxford University Press (Oxford studies in digital politics). Decker, O./Kiess, J./Brähler, E. (Hg.) (2016): Die enthemmte Mitte. Autoritäre und rechtsextreme Einstellung in Deutschland. Gießen: Psychosozial-Verlag (Forschung Psychosozial). ECRI (2016): Über die Bekämpfung von Hassrede. Straßburg: Europäische Kommission gegen Rassismus und Intoleranz – Europarat (Allgemeine Politik-Empfehlung; 15) (https://rm.coe.int/ ecri-general-policy-recommendation-no-15-on-combating-hate-speech-germ/16808b5b00) [letzter Zugriff: 23.01.2020].
5 Hass- und Gegenrede in der Kommentierung massenmedialer Berichterstattung
119
Fortuna, P./Nunes, S. (2018): A Survey on Automatic Detection of Hate Speech in Text. In: ACM Computing Surveys 4, Art. 85. Jacobs, T./Tschötschel, R. (2019): Topic models meet discourse analysis: a quantitative tool for a qualitative approach. In: International Journal of Social Research Methodology 22 (5), S. 469–485. Jäger, M. (2019): Wie kritisch ist die Kritische Diskursanalyse? In: Wiedemann, T./Lohmeier, C. (Hg.): Diskursanalyse für die Kommunikationswissenschaft. Theorien, Vorgehen, Erweiterungen. Wiesbaden: Springer, S. 61–82. Jäger, S. (2004): Kritische Diskursanalyse. Eine Einführung. 4. Aufl. Münster: Unrast. Jaques, C./Islar, M./Lord, G. (2019): Post-Truth: Hegemony on Social Media and Implications for Sustainability Communication. Sustainability 11 (7), Art. 2120. Jarren, O./Klinger, U. (2017): Öffentlichkeit und Medien im digitalen Zeitalter: zwischen Differenzierung und Neu-Institutionalisierung. In: Gapski, H./Oberle, M./Staufer, W. (Hg.): Medienkompetenz. Herausforderung für Politik, politische Bildung und Medienbildung. Bonn: Bundeszentrale für politische Bildung (BPB-Schriftenreihe; 10111), S. 33–42 (https://www.bpb.de/system/files/ dokument_pdf/1_1_Jarren_Oeffentlichkeit_und_Medien_ba_0.pdf) [letzter Zugriff: 21.08.2019]. Kreißel, P. et al. (2018): Hass auf Knopfdruck. Rechtsextreme Trollfabriken und das Ökosystem koordinierter Hasskampagnen im Netz. London: Institute for Strategic Dialogue. (https://www.isdglobal.org/wp-content/uploads/2018/07/ISD_Ich_Bin_Hier_2.pdf) [letzter Zugriff: 23.01.2020]. Landis, J. R./Koch, G. G. (1977): The Measurement of Observer Agreement for Categorical Data. In: Biometrics 33 (1), S. 159–174. Lewis, S. C./Zamith, R./Hermida, A. (2013): Content Analysis in an Era of Big Data: A Hybrid Approach to Computational and Manual Methods. In: Journal of Broadcasting & Electronic Media 57 (1), S. 34–52. Machill, M./Beiler, M./Krüger, U. (2014): Das neue Gesicht der Öffentlichkeit. Wie Facebook und andere soziale Netzwerke die Meinungsbildung verändern. Düsseldorf: Landesanstalt für Medien Nordrhein-Westfalen (LfM-Materialien; 31) (https://publikationen.medienanstalt-nrw.de/ modules/pdf_download.php?products_id=343) [letzter Zugriff: 23.01.2020]. Maier, D. et al. (2018): Applying LDA Topic Modeling in Communication Research. Toward a Valid and Reliable Methodology. In: Communication Methods and Measures 12 (2–3), S. 93–118. Mathew, B. et al. (2019): Thou Shalt Not Hate: Countering Online Hate Speech. In: Proceedings of the International AAAI Conference on Web and Social Media, S. 369–380. Meisner, M. (2018): Wie Maaßen und Kretschmer Hass und Hetze relativieren. In: Der Tagesspiegel (https://www.tagesspiegel.de/politik/chemnitz-wie-maassen-und-kretschmer-hass-und-hetze-relativieren/23008364.html) [letzter Zugriff: 23.01.2020]. Merrill, S./Åkerlund, M. (2018): Standing Up for Sweden? The Racist Discourses, Architectures and Affordances of an Anti-Immigration Facebook Group. In: Journal of Computer-Mediated Communication 23 (6), S. 332–353. Möllers, T. (2019): „Reichlich daneben“. CDU setzt DDR mit Nazi-Regime gleich – Sachsens Linke sauer. In: Frankfurter Rundschau (https://www.fr.de/politik/landtagswahl-sachsen-cdu-setzt-ddrnazi-regime-gleich-linke-sauer-12844837.html) [letzter Zugriff: 25.01.2020]. Oz, M./Zheng, P./Chen, G. M. (2018): Twitter versus Facebook. Comparing incivility, impoliteness, and deliberative attributes. In: New Media & Society 9, S. 3400–3419. Ross, B. et al. (2017): Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisis. In: Beißwenger, M./Wojatzki, M./Zesch, T. (Hg.): NLP4CMC III. 3rd Workshop on Natural Language Processing for Computer-Mediated Communication. Bochum: Sprachwissenschaftliches Institut Ruhr-Universität Bochum (Bochumer Linguistische Arbeitsberichte; 17), S. 6–9.
120
C. Fedtke und G. Wiedemann
Roth, Philipp (2019): Offizielle Facebook Nutzerzahlen für Deutschland (Stand: März 2019). In: AllFacebook.de (https://allfacebook.de/zahlen_fakten/offiziell-facebook-nutzerzahlen-deutschland) [letzter Zugriff: 21.08.2019]. Santana, A. D. (2016): Controlling the Conversation. The availability of commenting forums in online newspapers. Journalism Studies 17 (2), S. 141–158. Scholz, R. (Hg.) (2019): Quantifying Approaches to Discourse for Social Scientists. Cham: Springer (Postdisciplinary Studies in Discourse). Stier, S. et al. (2017): When populists become popular: comparing Facebook use by the right-wing movement Pegida and German political parties. In: Information, Communication & Society 20 (9), S. 1365–1388. Sievert, C./Shirley, K. E. (2014): LDAvis: A method for visualizing and interpreting topics. In: Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. Stroudsburg (PA): ACL, S. 63–70. Su, L. Y.-F. et al. (2018): Uncivil and personal? Comparing patterns of incivility in comments on the Facebook pages of news outlets. In: New Media & Society 10, S. 3678–3699. Welbers, K./Opgenhaffen, M. (2019): Presenting News on Social Media. Media logic in the communication style of newspapers on Facebook. In: Digital Journalism 7 (1), S. 45–62. Wiedemann, G. (2016): Text Mining for Qualitative Data Analysis in the Social Sciences. A Study on Democratic Discourse in Germany. Wiesbaden: Springer (Kritische Studien zur Demokratie). Wiedemann, G. (2019): Proportional Classification Revisited. Automatic Content Analysis of Political Manifestos Using Active Learning. Social Science Computer Review 37 (2), S. 135–159. Wiedemann, G. et al. (2018): Transfer Learning from LDA to BiLSTM-CNN for Offensive Language Detection in Twitter. In: Ruppenhofer, J./Siegel, M./Wiegand, M. (Hg.): Proceedings of the GermEval 2018 Workshop. 14th Conference on Natural Language Processing. KONVENS. Wien: Austrian Academy of Sciences, S. 85–94.
6
Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse Potenziale und Herausforderungen der Automatisierung im Kontext der Grounded Theory Gertraud Koch und Lina Franken
Inhaltsverzeichnis 6.1 6.2 6.3 6.4
Einleitung Spezifik der diskursanalytischen Datengrundlage Filtern als Prinzip methodisch geleiteter Analyse Umsetzung des Filterprinzips im Rahmen der Grounded Theory 6.4.1 Spezifik des manuellen Filterns 6.4.2 Spezifik des maschinellen Filterns 6.5 Umsetzung des maschinellen Filterns 6.5.1 Erzeugung und Nutzung von Wortfeldern 6.5.2 Nachnutzung bestehender Korpora 6.5.3 Crawling, Scraping und Indexing zur Korpuserstellung 6.5.4 Aufbereitung, Speicherung und Verwaltung der Daten 6.5.5 Textauswahl durch maschinelles Filtern 6.6 Fazit: Automatisierung von Filterprozessen – Erfahrungen aus der wissenssoziologischen Diskursanalyse Literatur
122 123 124 125 126 127 128 128 129 129 131 132 135 136
Zusammenfassung
Soziale Wirklichkeit ist komplex und kann in dieser Komplexität nicht ohne Weiteres erfasst werden. Forschungsprozesse erfordern somit das methodologisch geleitete Reduzieren auf handhabbare Ausschnitte mittels Filtern. Im Beitrag wird davon ausgegangen, dass Fragestellungen der Diskursanalyse durch automatisierte Ansätze zwar nie vollständig bearbeitet werden können, diese aber großes Potenzial haben, quaG. Koch (*) · L. Franken Institut für Volkskunde/Kulturanthropologie, Universität Hamburg, Hamburg, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_6
121
122
G. Koch und L. Franken
litative Analysen mittelbar zu unterstützen. Im Rahmen einer Studie zu Akzeptanzproblematiken von Telemedizin wurden unterschiedliche halbautomatisierte Verfahren erprobt. Fünf Ansatzpunkte werden als vielversprechend vorgestellt: 1. die Erzeugung und Nutzung von Wortfeldern, 2. die Klärung der Datenlage bestehender Korpora zur Nachnutzung, 3. die Generierung von Daten mittels Crawling, Scraping und Indexing, 4. die Aufbereitung, Speicherung und Verwaltung der Daten sowie 5. die Sichtung und Erstauswertung der generieren Korpora mittels Analyseverfahren der Digital Humanities. Schlüsselwörter
Diskursanalyse · Filtern · Automatisierung · Grounded Theory
6.1
Einleitung
Diskursanalytische Verfahren werden in vielen Disziplinen verwendet (vgl. grundlegend Foucault 1973, 1991; Keller 2011), sodass die Frage nach Automatisierungspotenzialen in diesem Bereich für ganz unterschiedliche Geisteswissenschaften und auch qualitativ arbeitende Sozialwissenschaften relevant ist. Die Frage wird aktuell in einem Teilprojekt des Verbundforschungsprojektes hermA (vgl. Gaidys et al. 2017) erforscht, aus dem dieser Beitrag hervorgeht.1 Die Verbundforschung setzt angesichts stetig steigender digitaler Textmengen, die nicht zuletzt über das Internet verfügbar sind, bei der Frage nach Automatisierungspotenzialen in der Analyse an. Der vorliegende Beitrag stellt das Prinzip des Filterns vor und skizziert dessen Umsetzung am Beispiel der wissenssoziologischen Diskursanalyse.2 Dazu erläutert er zunächst den Begriff des Filterns sowie Spezifika der diskursanalytischen Datengrundlage, um davon ausgehend sowohl manuelle als auch automatisierte, also maschinelle Prinzipien des Filterns sowie deren jeweilige Spezifika im Forschungsprozess zu diskutieren. Das Prinzip des Filterns kann als zentrales Arbeitsparadigma für Ansätze der qualitativen Forschung innerhalb der Digital Humanities und der Automatisierung angesehen werden. Der Forschungsverbund Automatisierte Modellierung hermeneutischer Prozesse – Der Einsatz von Annotationen für sozial- und geisteswissenschaftliche Analysen im Gesundheitsbereich (hermA) ist ein interdisziplinäres Projekt der Universität Hamburg, der Technischen Universität Hamburg und der Hochschule für Angewandte Wissenschaften Hamburg, das durch die Landesforschungsförderung Hamburg finanziert wird. Das Teilprojekt „Automatisierungspotenziale hermeneutischer Prozesse in der Diskursethnographie zu Akzeptanzproblematiken der Telemedizin“ ist ein Beitrag aus der Kulturanthropologie. Neben den Autorinnen sind Heike Zinsmeister, Uta Gaidys, Evelyn Gius, Wolfgang Menzel und Oliver Schmidt als Teilprojektleitungen beteiligt (siehe https://www.herma. uni-hamburg.de/ [letzter Zugriff: 23.01.2020]). 2 Grundüberlegungen wurden bereits in Koch und Franken 2019 vorgestellt und für den vorliegenden Beitrag erweitert und überarbeitet. 1
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
123
Die Perspektive der wissenssoziologischen bzw. -anthropologischen Diskursanalyse, die hier eingenommen wird, kann als exemplarisch im Hinblick auf die Verwendung von automatisierten Verfahren für das Filtern relevanter Analysematerialien auch für andere diskursanalytische Zugänge angesehen werden, wird aber je nach Schwerpunktsetzung auch Variationen aufweisen. Soziologie und Wissensanthropologie setzen die Diskursanalyse als Methode ein, um zu analysieren, wie sich (neue) gesellschaftliche Phänomene herausbilden und etablieren können, beispielsweise die sich aktuell konstituierende Telemedizin, die im Folgenden als exemplarischer Forschungsgegenstand dient. Sie wird zunehmend als Lösung für den Ärztemangel in ländlichen Räumen, aber auch zur Betreuung von chronisch kranken Patienten durch verschiedene Akteure in ganz unterschiedlichen Diskursarenen diskutiert, vom Bundestag über Ärzte und Krankenkassen bis hin zu Patientenverbänden und den Patienten selbst. Mittels der Diskursanalyse kann herausgearbeitet werden, wie angesichts heterogener Interessenlagen der beteiligten Gruppen die verschiedenen Auffassungen von Telemedizin sowie ihrer Notwendigkeit verhandelt werden, ob sich ggf. ein allgemeines, gesellschaftlich weitgehend akzeptiertes Verständnis von Telemedizin herausbildet, sich schließlich konkrete Arbeitsweisen (Praktiken), institutionelle Zusammenhänge oder Organisationsformen sowie gesetzliche Regelungen verfestigen (materialisieren). Spezifikum der wissenssoziologischen Diskursanalyse ist, dass aus der großen Zahl verfügbarer Texte letztlich nur vergleichsweise kleine Textmengen tief analysiert werden (können), somit übliche Verfahren automatisierter Textanalyse wenig Ertrag versprechen. In dieser Situation hat sich das Arbeitsprinzip des Filterns als besonders hilfreiches Konzept erwiesen, wie im Folgenden erläutert wird.
6.2
Spezifik der diskursanalytischen Datengrundlage
Für Diskursanalysen wird heterogenes Quellenmaterial verwendet, es können ganz unterschiedliche Textsorten eine Rolle spielen, die auf Grundlage der Diskursarenen ausgewählt werden. In der dem Beitrag zugrunde liegenden Forschung zu Akzeptanzproblematiken der Telemedizin werden aktuell Webseiten (Homepages, Blogs, Foren etc.) und Bundestagsprotokolle analysiert; Social Media werden als Diskursarena der Akteurs gruppen bisher nur am Rande genutzt und dementsprechend hier nicht berücksichtigt. Die relevanten Diskurspraktiken finden vielmehr in (gesundheits-)politischen, unternehmerischen sowie verbraucherschützenden Diskursarenen statt, die sich in den Quellenmaterialien Websites, Protokollen und Pressemitteilungen aufzeigen lassen. Social-MediaKanäle der Akteure, etwa der Bundesregierung, der Krankenkassen oder von Ärzteverbänden, doppeln in der Regel Inhalte, indem auf andere Web-Inhalte verlinkt wird. Eine Exploration von Twitter- und Instagram-Hashtags sowie von Facebook- Gruppen brachte keine weiteren, für Social Media spezifischen Diskursarenen zum Vorschein. Durch das unterschiedliche Textmaterial kann die Fragestellung multiperspektivisch untersucht werden. Potenziell sind für Diskursanalysen auch multimodale Daten
124
G. Koch und L. Franken
wie Bilder oder audiovisuelles Material relevant, aus forschungspragmatischen Gründen erfolgt jedoch zunächst eine Beschränkung auf Textquellen. Ein Spezifikum der diskursanalytischen Datengrundlage ist, dass nicht mit einem bestehenden oder vorab zusammengestellten Korpus von Quellen gearbeitet wird, sondern dieses im Laufe des Forschungsprozesses erstellt wird – die iterative Zusammenstellung des zu analysierenden Datenmaterials ist Teil der Methode und im Hinblick auf die etablierten Arbeitsweisen in der automatisierten Textanalyse eine besondere Herausforderung. Methodische Grundlage für die iterative Textauswahl ist die Grounded Theory. Nach dem Prinzip des theoretischen Samplings wird eine tendenziell unüberschaubare Datenmenge epistemologisch geleitet reduziert. Dafür werden in mehreren zyklischen Prozessen Daten erhoben, annotiert, interpretiert und anhand der so gewonnenen Ergebnisse über die Auswahlprinzipien der Texte für den nächsten Zyklus entschieden (vgl. Glaser und Strauss 2010). Dies ist eine spezifische Form des Filterns. Manuelle Filterprozesse sind somit eine iterative Abfolge verschiedener interpretativer, methodisch geleiteter Arbeitsschritte: theoretisches Sampling, offenes Kodieren, selektives Kodieren, axiales Kodieren, theoriegeleitete Interpretation (vgl. Bryant und Charmaz 2007; Götzö 2014). Die Informationsfülle wird so entsprechend dem Erkenntnisinteresse sukzessive in eine für qualitative Forschungen handhabbare Größenordnung gebracht. Im Laufe des Forschungsprozesses entsteht in iterativen Prozessen der Datenerhebung und -interpretation ein relativ kleines Datenkorpus, meist aus unterschiedlichen Quellen, die aussagekräftig für die Fragestellung sind (vgl. Strauss und Corbin 1996). Es stellt sich die Frage, inwieweit diese ‚manuellen Filterungen‘ von heterogenen Textsorten durch automatisierte Verfahren im Sinne einer höheren Effizienz oder verbesserten analytischen Qualität ergänzt werden können. Die Grounded Theory zielt nicht auf Repräsentativität der Daten, sondern auf Viabilität, also eine hohe Aussagekraft der Daten im Hinblick auf die erforschte soziale Realität (vgl. Glasersfeld 1997).
6.3
Filtern als Prinzip methodisch geleiteter Analyse
Soziale Wirklichkeit ist komplex und kann in dieser Komplexität nicht ohne Weiteres durch Forschung erfasst werden. Forschungsprozesse erfordern somit das Reduzieren sozialer Wirklichkeit auf handhabbare Ausschnitte. Das können, wie in unserem Beispiel, bestimmte Texte aus einem Diskurs oder einzelne Textstellen darin sein. Solche Reduktionen sind in jedem Forschungsvorhaben unabhängig von seiner methodischen Ausrichtung notwendig, um soziale Wirklichkeit in forschungspragmatisch handhabbare Ausschnitte zu bringen. Diese epistemologischen Reduktionen werden im Folgenden als Filtern bezeichnet, weil hierbei bestimmte Schemata der Selektion angewendet werden. Der Begriff des Filterns hat sich im Verlauf der hier vorgestellten Forschung als B ezeichnung für diesen Vorgang herausgebildet, ist also aus der eigenen Forschungspraxis erwachsen und nicht in einer spezifischen Methodologie verortet und kann als übergreifendes Konzept für
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
125
die vergleichende Betrachtung ganz unterschiedlicher Forschungsparadigmen verwendet werden. Der Begriff des Filterns ist in die Alltagssprache insofern übergegangen, als das Prinzip in zahlreichen Algorithmen umgesetzt wird: E-Mails werden ebenso gefiltert wie Online- Suchabfragen nach bestimmten Kriterien. Im Rahmen der Datenmodellierung in den Digital Humanities wird Filtern ebenfalls als eine Form der Auswahl verstanden (Rehbein 2017a, S. 341), wobei es vor allem darum geht, im Zuge des Forschungsprozesses eine Auswahl zu treffen, also ein „model for something“ (Geertz 1973, S. 93; McCarty 2004, S. 255) zu erarbeiten, mit dem der Forschungsgegenstand strukturiert wird. Wann und wie gefiltert wird, ist eng verbunden mit den theoretisch in einem Forschungszugang begründeten Selektionsprozessen und deren spezifischen Kategorien für die Auswahl, die dann methodisch umgesetzt werden; das betrifft etwa die Zusammenstellung eines repräsentativen Samples, eines möglichst vollständigen Korpus relevanter Texte oder Bildmaterialien, relevanter Experten für ein Themengebiet etc. Die jeweils eingesetzten Prinzipien und Möglichkeiten des Filterns können deshalb immer nur innerhalb des spezifischen Forschungszusammenhangs verstanden werden. Im Kontext von Texten kann man Filtern auch als einen Prozess des Annotierens verstehen, wenn einem weiten Verständnis von Annotation gefolgt wird. Annotation ist damit nicht nur das Markieren von Wörtern und Textpassagen mit eindeutigen Kategorien (vgl. Zinsmeister 2015, S. 87), sondern wird in diesem weiten Verständnis als die Anreicherung und Auszeichnungen von Texten mit Anmerkungen zur weiterführenden Interpretation verstanden (vgl. Koch 2015).
6.4
msetzung des Filterprinzips im Rahmen der U Grounded Theory
Im Folgenden werden zunächst die manuellen Filterprozesse dargestellt, wie sie im Rahmen von Grounded-Theory-geleiteten Methodologien durchgeführt werden, und dann wird aufgezeigt, wo und wie mit automatisierten Verfahren angeschlossen wurde. Es stellt sich die Frage, inwieweit die manuellen Prozesse der Filterung von heterogenen Textsorten durch automatisierte Verfahren verbessert werden können. Als Verbesserungen werden eine höhere Effizienz des Forschungsprozesses oder ein tieferes Verständnis in der Analyse verstanden. Zur Bearbeitung dieser Frage überprüfen wir, wo und wie in der Diskursanalyse automatische Verfahren als Filter eingesetzt werden können und mit welchen Konsequenzen dies verbunden ist. Allgemein lassen sich Filterprozesse in der Diskursanalyse als eine iterative Abfolge verschiedener interpretativer, methodisch geleiteter Arbeitsschritte verstehen, die in großen Teilen parallel laufen: Theoretisches Sampling führt zu einem ersten (Teil-)Korpus, das dann offen kodiert (also annotiert) wird. Darauf folgen axiales und selektives Kodieren des Materials, d. h. die Bildung und Weiterentwicklung von Kategorien anhand der ersten, offenen Annotationen. Gleichzeitig wird das Material erweitert: Dabei gilt es, mehr Daten
126
G. Koch und L. Franken
zirkulär einzubeziehen und „die aus den ersten Daten gewonnenen Erkenntnisse zu differenzieren, zu festigen und zu verifizieren“ (Truschkat et al. 2011, S. 366 f.). Mit einer spezifischen Blickrichtung und Aufmerksamkeit aufgrund der Fragestellung und den ersten Kodierungen wird gezielt nach weiterem Material gesucht und dieses in das Korpus einbezogen. Beim minimalen Vergleichen zieht man dabei ähnliche Daten heran, um Kategorien zu festigen und voneinander abzugrenzen. Erst wenn die Kategorien und Schlüsselkategorien an ähnlichem Material gefestigt sind, können und müssen diese mit maximal unterschiedlichem Material konfrontiert werden, damit Variationen und Veränderungen berücksichtigt werden, welche die Hypothesen prüfen und Kategorien weiter ausbauen können (Glaser und Strauss 2010, S. 72). Nach und nach bildet sich in der theoriegeleiteten Interpretation dann eine Sättigung heraus, die sowohl für die erhobenen Daten als auch für die Kategorien gilt; es kommen keine wesentlichen neuen Erkenntnisse mehr hinzu (vgl. Bryant und Charmaz 2007; Götzö 2014). Die Informationsfülle wird so sukzessive in eine für qualitative Forschungen handhabbare Größenordnung gebracht, wobei das Korpus ständig um signifikante Texte erweitert wird. Die Vollständigkeit der Textbasis bemisst sich nicht an der Gesamtmenge der Texte, sondern im Hinblick auf die im Diskurs vertretenen Aussagen. Es wird eine hohe Signifikanz bei möglichst kleiner Textmenge angestrebt. Da die vertretenen Aussagen erst im Laufe des Forschungsprozesses bekannt werden, wird die Vollständigkeit der vertretenen Aussagen im Korpus mittels des Prinzips der theoretischen Sättigung gewährleistet (vgl. Strauss und Corbin 1996).
6.4.1 Spezifik des manuellen Filterns Beim manuellen Filtern in der wissenssoziologischen Diskursanalyse ist ein hohes Maß an Vorwissen notwendig, welches sich auf mögliche Akteure, Diskursarenen und Kontexte des Themas, hier der Telemedizin bzw. der damit verbundenen Akzeptanzproblematiken, bezieht. Auf der Basis dieses Vorwissens wird der Einstieg in die Frage möglich, wo überhaupt Quellen für die Analyse des Phänomens zu finden sind. Dabei wird in der Datenerhebung heute nicht mehr nur manuell gefiltert, sondern es werden allgemein verfügbare Automatisierungen in generischen Tools wie Suchmaschinen im Internet oder Suchabfragen von Stichwörtern in Archivkatalogen als Hilfen in Anspruch genommen. Es sind so vor allem einfache, generische Verfahren des Information Retrieval (vgl. Klinke 2017; Manning et al. 2009) wie Suchfunktionen sowie ein automatisiertes Abrufen und Speichern von Dokumenten in und aus Datenbanken, die für den Umgang mit großen Informationsmengen in den jeweiligen Bereichen etabliert sind, die gegenwärtig bereits selbstverständlich für die qualitative Forschung eingesetzt werden. Beim manuellen Filtern wird das Wissen der Forschenden zum Thema stets erweitert, sodass ihre (stetig wachsende) Expertise in ihrem Themenfeld eine wesentliche Voraussetzung für eine hohe analytische Qualität der Diskursanalyse darstellt. Die in der Grounded Theory angelegten methodischen Arbeitsschritte profitieren wesentlich von dieser
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
127
stetig wachsenden Expertise, sind dabei jedoch auch zur Objektivierung der von den Forschenden formulierten Hypothesen, im Sinne von Falsifizierungen oder Bestätigungen, unerlässlich (vgl. Glaser 1978). Sowohl bei maschinellem als auch bei manuellem Filtern bleiben die Informationen weiterhin tendenziell unüberschaubar und auch hinsichtlich ihrer Relevanz höchst heterogen. Vollständigkeit ist dabei nicht zu erreichen, vielmehr wird mit einem theoretischen Sampling das Filtern reflektiert und in seiner Fragmentierung explizit gemacht. Inwiefern sich diese Unvollständigkeit mit maschinellem Filtern verändert, bleibt weiter zu prüfen und in der Automatisierung zu bedenken. Ebenso ist in manuellen wie maschinellen Zugängen offen, inwieweit tatsächlich alle relevanten Akteure und Diskursarenen erfasst worden sind. In der Regel bleibt deshalb eine Vielzahl an weiteren (manuellen) Filterprozessen, also theoretisches Sampling, notwendig.
6.4.2 Spezifik des maschinellen Filterns Wie können im beschriebenen Forschungsprozess Automatisierungen genutzt werden? Maschinelles Filtern beruht auf strukturellen Analysen von Sprache und bedarf vielfältiger Ressourcen (Ontologien, Wörterbücher, Tools, Korpora) wie auch Vorarbeiten an den Texten. Der Aufwand steigt schnell, da selten anwendungsfertige Lösungen verfügbar sind, sondern eigene Entwicklungen bzw. die Kombination von unterschiedlichen Tools und Zugängen gefunden werden müssen, teils mit erheblichem Aufwand für die Exploration von sinnvoll realisierbaren Arbeitsweisen. Für nicht oder wenig strukturierte Daten, wie sie in qualitativen Forschungsansätzen die Regel sind, stellen sich diese Herausforderungen in besonderer Weise. Filterprozesse, die ausschließlich auf maschinellen Verfahren basieren, sind in keiner der verschiedenen Phasen des Filterns zum Thema Telemedizin möglich – zumindest auf dem aktuellen Wissensstand der Forschung fehlen hierzu notwendige Ressourcen, etwa die entsprechenden Begriffe bzw. Schlagwörter in Ontologien wie Wikidata und Wikipedia oder der Gemeinsamen Normdatei (GND, vgl. Wiechmann 2012); dort sind bisher nur Teilbereiche des Phänomens definiert.3 Insgesamt darf man davon ausgehen, dass dies zumeist der Fall sein dürfte, wenn neue gesellschaftliche Phänomene auftreten und sich die soziale Wirklichkeit, die Themen und die Sprache wandeln. Um dieser Situation Rechnung zu tragen, wurden unterschiedliche halbautomatisierte Verfahren zur Unterstützung der verschiedenen Arbeitsschritte der wissenssoziologischen
In Wikidata besteht der Begriff ‚Telemedizin‘, aber dieser hat keine Unterbegriffe (vgl. Wikidata 2019). In der GND sind mit Stand 01.03.2020 lediglich zwei Unterbegriffe zur Telemedizin, ‚Telechirurgie‘ und ‚Telepathologie‘ verzeichnet. Die Abgrenzung zu E-Health und Telematik bzw. Telematikinfrastruktur ist noch ausbaufähig (vgl. dazu http://d-nb.info/gnd/4491714-4 und die Darstellung der Systematik unter http://gnd.eurospider.com/s?id=4491714-4&format=hierarchy [jeweils letzter Zugriff: 01.03.2020]).
3
128
G. Koch und L. Franken
Diskursanalyse erprobt. Fünf Ansatzpunkte haben sich dabei als vielversprechend in dem Sinne herausgestellt, dass Aufwand und Ertrag in ein realistisches Verhältnis gebracht werden können: 1. die Erzeugung und Nutzung von Wortfeldern, 2. die Klärung der Datenlage bestehender Korpora, die nachgenutzt werden können, 3. die Generierung von Daten mittels Crawling, Scraping und Indexing, 4. die Aufbereitung, Speicherung und Verwaltung der nachgenutzten oder generierten Daten sowie 5. die Sichtung und Erstauswertung der generieren Korpora mittels Analyseverfahren der Digital Humanities.
6.5
Umsetzung des maschinellen Filterns
Die Vorbereitung automatisierter Filterprozesse spielt für die Verfahren eine wichtige Rolle. Je nach Schritt ist maschinelles Filtern in unterschiedlichen Modi unterstützend. Der Schwerpunkt der hier vorgestellten Explorationen lag dabei auf dem Bereich der Datenerhebung bzw. Korpuserstellung. Dabei geht es um Filtern in den unterschiedlichen Phasen des Prozesses sowie um verschiedene (teil-)automatisierte Annotationen und die technische Unterstützung manueller Annotationen mit verschiedenen Tools.
6.5.1 Erzeugung und Nutzung von Wortfeldern Zunächst ist die reflektierte Erstellung von Wortfeldern zur Spezifizierung der Filteranwendung notwendig. Wortfelder als Findeheuristik sind eine Möglichkeit, die Suche nach relevanten Texten zu verbessern, indem auf unterschiedlichsten Wegen möglichst viele Begriffe für einen Themenbereich identifiziert und in einem Wortfeld zusammengefasst werden (vgl. Adelmann et al. 2019). Diese zentrale Vorarbeit kann vor allem durch die reflektierte Nutzung von Ressourcen strukturiert werden: Durch Einblick in entsprechende Ontologien und Wörterbücher können Begriffe identifiziert werden, die mit dem Phänomen verbunden, aber aus der Expertise der Forschenden noch nicht als relevant identifiziert worden sind. Wie oben bereits dargestellt, sind viele Ressourcen aufgrund der Aktualität des untersuchten Themas allerdings noch wenig aussagekräftig. Daneben kann die Wortfelderstellung auch durch maschinelle Verfahren wie Word2Vec (vgl. Mikolov et al. 2013) erweitert werden. Bei diesem Verfahren werden semantische Wortähnlichkeiten mittels Vektoren herausgearbeitet. Im Ergebnis werden dann verwandte Wörter mit ihrer Ähnlichkeit angezeigt, sodass aus dem Text heraus neue, bisher nicht bekannte Begriffe identifiziert werden können (vgl. zum Verfahren einführend Ignatow und Mihalcea 2017, S. 108 ff.). Hierfür sind allerdings große Mengen von Trainingsdaten notwendig, sodass man das Verfahren erst im Laufe des Forschungsprozesses realisieren kann, um dann Wortfelder für das weitere Verfahren ggf. zu erweitern. Mit einem entsprechend trainierten Verfahren auf Grundlage des aktuell bestehenden Korpus von rund 13.000 Texten wurden im weiteren Verlauf keine neuen Begriffe für das Wortfeld Telemedizin identifiziert (Word2Vec-Listen vom 19.07.2019). Dies lässt darauf schließen,
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
129
dass entsprechende Wortfelder in qualitativen Forschungen bereits auf anderem Wege gesättigt sind, wenn genug Trainingsmaterial für maschinelles Lernen gesammelt wurde. So bleibt für emergente Phänomene neben der Sichtung von bestehenden Ressourcen und Ontologien die manuelle Wortfelderstellung zentral, bei der aus dem Vorwissen bekannte zentrale Begriffe ergänzt und an ersten Texten verifiziert und erweitert werden. Im hier vorgestellten Forschungsprozess entstand auf Grundlage von GND und Wikipedia sowie manueller Sichtung von rund 30 explorativ manuell gefilterten Texten ein erstes Wortfeld Telemedizin mit 33 Begriffen (Wortfeld Telemedizin vom 24.07.2018).
6.5.2 Nachnutzung bestehender Korpora Bevor eigene Datensätze erzeugt werden, steht die Klärung an, inwieweit bestehende Korpora relevant sind für die Fragestellung und dementsprechend nachgenutzt werden können. Für die Akzeptanzproblematik rund um Telemedizin waren dies insbesondere das Dokumentations- und Informationssystem des Deutschen Bundestages4 und die alternativ angebotenen Open-Data-Bestände,5 die auch als bereits aufbereitetes Korpus, das GermaParlTEI-Korpus,6 verfügbar sind. Diese Bestände wurden mittels des erstellten Wortfeldes auf relevante Tagesordnungspunkte der Debatten hin durchsucht, das daraus resultierende Korpus von 118 Protokollen7 wurde manuell annotiert. Im Anschluss wurde das Wortfeld Telemedizin mit dem nun erweiterten Wissen der Forschenden auf 45 Begriffe ausgeweitet (Wortfeld Telemedizin vom 12.12.2018), zusätzlich wurde ein weiteres Wortfeld zu Medizindaten mit 18 Begriffen erzeugt (Wortfeld Medizin und Daten vom 07.02.2019). Für die Nachnutzung von bereits vorhandenen Texten ist ein Prinzip des Filterns nach den eigenen Interessen und Fragestellungen besonders zentral, weshalb die Sichtung eng mit der Weiterentwicklung und Konsolidierung der verwendeten Wortfelder zusammenhängt.
6.5.3 Crawling, Scraping und Indexing zur Korpuserstellung Für das iterative Erschließen eines emergenten Phänomens hat es sich als zentral herausgestellt, die Arbeitsweisen verschiedener Crawler zu verstehen, um diese zur Korpuserstellung nutzen zu können. Crawling bezeichnet das Auffinden von Websites, die von einer Startseite (Seed-URL) aus verlinkt sind. Durch ein Verfolgen der Links in mehreren Siehe http://dipbt.bundestag.de/dip21.web/bt [letzter Zugriff: 23.01.2020]. Siehe https://www.bundestag.de/service/opendata [letzter Zugriff: 23.01.2020]. 6 Siehe https://github.com/PolMine/GermaParlTEI [letzter Zugriff: 23.01.2020]. 7 Es handelt sich um Tagesordnungspunkte in 109 Protokollen des Deutschen Bundestages aus den Jahren 1993 bis 2018 sowie in neun Protokollen des Bundesrates aus den Jahren 2002 bis 2015. 4 5
130
G. Koch und L. Franken
Schleifen wird ein Netzwerk dargestellt. Scraping hingegen bezeichnet das Extrahieren der Informationen, die auf diesen Websites enthalten sind (Ignatow und Mihalcea 2017, S. 35). Mit dieser Form des ergebnisoffenen Filterns können umfangreiche Korpora erstellt werden, die möglicherweise relevante Textstellen enthalten und in folgenden Filterschritten weiter analysiert werden können. Dabei wurde herausgearbeitet, ob die bestehenden Crawler – etwa iCrawl,8 Apify9 und IssueCrawler10 oder das auf Crawlen basierende Web-Archiv der Deutschen Nationalbibliothek (DNB)11 – für eine zielführende Diskursanalyse aufgesetzt werden können. Im Ergebnis gibt es keine zufriedenstellende bestehende Lösung: Die gängigen Webcrawler wie Octoparse12 oder Apify sind auf strukturierte Websites ausgerichtet, wie etwa Online-Shops, nicht aber auf die uns interessierenden unstrukturierten Texte auf Websites. Das Web-Archiv der DNB ist aus rechtlichen Gründen nicht zur Nachnutzung freigegeben. Mit dem IssueCrawler des Amsterdamer Instituts für Digitale Methoden (vgl. Rogers 2019) kann gut eine Liste von URLs und deren Verlinkung erzeugt werden. Für eine Diskursanalyse fehlt aber das Extrahieren der dort enthaltenen Texte, das die Voraussetzung wäre, um diese entsprechend weiterverarbeiten und analysieren zu können. Im Projektkontext wurde deshalb ein Workflow entwickelt und darauf aufbauend die Pipeline eines Crawling, Scraping und Indexing selbst modelliert und umgesetzt.13 In der Pipeline besteht zunächst eine manuell erstellte Liste von Seed-URLs, die auf Grundlage des Vorwissens der beteiligten Forschenden erstellt wurde. Bisher wurden hierfür manuell erstellte Listen der Krankenkassen und Ärzteverbände ebenso genutzt wie solche zu Patientenverbänden und Modellprojekten der Telemedizin. Diese hatten sich in der vorhergehenden Beschäftigung mit dem Phänomen als zentrale Akteursgruppen he rausgestellt. Die Pipeline ist jedoch nicht auf diese Listen begrenzt, sondern kann mit einem Input von beliebigen URLs gestartet werden. Für jeden einzelnen URL wird eine Textextraktion, zunächst für HTML und PDF als gängigste Web-Formate,14 vorgenom Siehe http://icrawl.l3s.uni-hannover.de/ [letzter Zugriff: 23.01.2020]. Siehe https://www.apify.com/page-analyzer [letzter Zugriff: 23.01.2020]. 10 Siehe https://www.issuecrawler.net/ [letzter Zugriff: 23.01.2020]. 11 Siehe https://www.dnb.de/DE/Professionell/Sammeln/Sammlung_Websites/sammlung_websites_ node. html [letzter Zugriff: 23.01.2020]. 12 Siehe https://www.octoparse.com/ [letzter Zugriff: 23.01.2020]. 13 Benedikt Adelmann als verantwortlicher Informatiker des Projektes hermA hat diese Pipeline dankenswerterweise in enger Abstimmung mit Lina Franken realisiert. Der Programmcode ist unter https://github.com/benadelm/hermA-Crawler verfügbar [letzter Zugriff: 30.03.2020]. 14 Für PDFs wurde pdftotext (Kommandozeilentool) von Xpdf verwendet (siehe https://www. xpdfreader.com/download.html [letzter Zugriff: 23.01.2020]). Für HTML wurde das -Element aus HTML5-Standard extrahiert. Falls ein solches Element nicht existierte, wurde eine Boilerpipe-Bibliothek mit dem Extraktor NumWordsRules zur Extraktion des Haupttextes der Seite verwendet (siehe https://code.google.com/archive/p/boilerpipe/ [letzter Zugriff: 23.01.2020]). Dabei wurden HTTP- und HTTPS-Anfragen mit Apache HttpComponents 4.5.3 gestellt (siehe https://hc. apache.org/ [letzter Zugriff: 23.01.2020]). 8 9
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
131
men. Im Text wird nach enthaltenen URLs gesucht und diese werden extrahiert, sodass man dann per Crawling entsprechende URLs weiter durchsuchen und eine Verlinkungsstruktur abbilden kann. Die extrahierten Texte werden mit einer linguistischen Verarbeitung vorbereitet, die insbesondere eine Tokenisierung,15 Part-of-Speach Tagging16 und Lemmatisierung17 beinhaltet (zur Pipeline und der vorhergehenden Evaluation verschiedener Verfahren vgl. Adelmann et al. 2018). Insbesondere durch eine solche linguistische Vorverarbeitung kann Text strukturiert und genauer erfasst werden. Damit werden die Texte für die Suche nach Begriffen des vorab erstellten (lemmatisierten) Wortfeldes optimiert. In der Pipeline werden dann alle Dokumente mit Treffern aus dem Wortfeld im Original sowie in Verarbeitungsformen gespeichert. Zusätzlich besteht eine Dokumentation der zugehörigen Suchen in Form von Listen der verfolgten URLs. Im Ergebnis liegen sowohl die Originaldateien (HTML, PDF und TXT) als auch verschiedene Weiterverarbeitungen (TXT und linguistisch vorverarbeitet) sowie zugehörige Metadaten vor. Auch die Verlinkungsstruktur der betreffenden Websites ist dokumentiert. Insbesondere Wortfelder und Listen von Seed-URLs werden für dieses maschinelle Filtern als manueller Input genutzt. Mit dem eigens entwickelten Verfahren des Crawling, Scraping und Indexing wurden rund 13.000 Dokumente gefiltert, die mindestens einen der Wortfeldbegriffe zum Themenbereich der Telemedizin enthalten und nun in die weiteren Analysen einbezogen werden.
6.5.4 Aufbereitung, Speicherung und Verwaltung der Daten Vor der Weiterverarbeitung und Annotation der generierten Daten steht die Aufbereitung von den auf unterschiedliche Weisen erzeugten Dokumenten gerade für die automatisierte Analyse. Insbesondere die Übertragung von Text aus PDF- oder HTML-Dateien ist zu beachten, aber auch die syntaktische Verarbeitung der gewonnenen Textdateien, die für einige automatische Weiterverarbeitungen unerlässlich ist und im Rahmen der entwickelten Pipeline mit umgesetzt und oben bereits beschrieben wurde. In diesem Zusammenhang standen auch Tests der manuellen und automatischen Annotation von Koreferenzen. Mit dieser Form von Annotation werden in der Regel Personen und Konzepte als übereinstimmend markiert, auch wenn sie an der Textoberfläche unterschiedlich bezeichnet werden. So wird eine eindeutige Relation etwa zwischen Eigennamen und Personalpronomen 15 Die Tokenisierung wurde basierend auf der NLTK-Implementation des PUNKT-Algorithmus (siehe https://www.nltk.org/_modules/nltk/tokenize/punkt.html [letzter Zugriff: 23.01.2020]) durch ein Skript der Projektkollegin Melanie Andresen realisiert. 16 Das POS Tagging und die morphologische Analyse fanden mit dem MarMoT-Tagger statt (siehe http://cistern.cis.lmu.de/marmot/ [letzter Zugriff: 23.01.2020]). 17 Der Lemmatizer der MATE-Toolbox wurde mit dem online verfügbaren Modell für Deutsch genutzt (siehe https://code.google.com/archive/p/mate-tools/ [letzter Zugriff: 23.01.2020]). Das Parsing erfolgte basierend auf der MATE-Toolbox mit einem selbst trainierten Modell, das auf part A der Hamburg Dependency Treebank trainiert wurde (siehe https://nats-www.informatik.uni-hamburg.de/HDT/WebHome [letzter Zugriff: 23.01.2020]).
132
G. Koch und L. Franken
hergestellt (vgl. zum Verfahren Kübler und Zinsmeister 2015, S. 118; Andresen und Vauth 2018). Aufgrund der Fragestellung wissenssoziologischer Diskursanalysen sind jedoch die Konzepte und Begriffe in der Regel mehrdeutig und dementsprechend komplex zu differenzieren. Nicht eindeutig sind dabei die Unterschiede zu definieren, wie etwa die Frage nach der Koreferenz von Gesetzentwurf und verabschiedetem Gesetz. Solche Fragen führen jedoch von der eigentlichen inhaltlichen Fragestellung weg und machen erheblichen manuellen Aufwand notwendig, um maschinelle Fehler zu beheben (zur Frage der Mehrdeutigkeit von Annotationen und Möglichkeiten der automatisierten Auflösung vgl. Kuhn 2018, S. 37 f.). Auch wenn mit entsprechenden Vorverarbeitungen die Qualität der Texterkennung verbessert werden kann, stehen Aufwand und Ertrag für eine inhaltliche Auswertung der Textmaterialien nicht im Verhältnis. Für andere Vorverarbeitungen und technische oder semantische Annotationen gilt dies vergleichbar, wenn deren Realisierung nicht automatisiert mit Standardverfahren stattfinden kann. Im Zuge der Korpuserstellung entstehen mehrere Dateiversionen von großen Datenmengen. Die Datenablage und -verwaltung wird im Vergleich zu anderen kulturwissenschaftlichen Forschungsprojekten durchaus komplex, da das Filtern mit dem generierten Material als Textauswahl weitergeht und dementsprechend ungleich mehr Daten gespeichert werden. Hierfür ist eine Verwendung von Datenbankstrukturen anzustreben, die mit Listen nur mittelfristig kompensiert werden kann. Metadaten wie Erstellungsdatum, Herkunft und Autorschaft ebenso wie bisherige Verwendung im Projekt, Zugehörigkeit zu Subkorpora bis hin zur Zugehörigkeit zu inhaltlichen Kategorien sind nur bedingt mit internationalen Datenstandards kompatibel (vgl. zu Möglichkeiten und Problemen Rehbein 2017b, S. 174), auch wenn dies für eine Nachnutzung durchaus sinnvoll wäre.
6.5.5 Textauswahl durch maschinelles Filtern Das Prinzip des Filterns ist in den folgenden Arbeitsschritten des Forschungsprozesses weiterhin notwendig. In der Reduktion des Quellenmaterials können hierdurch relevante Texte und Textpassagen im bis dato unbekannten Korpus identifiziert werden. Je nach Korpusgröße kann es zielführend sein, Subkorpora zu bilden. Im vorliegenden Projekt können diese sowohl nach Website oder Akteuren als auch nach Textgattung strukturiert werden. Wiederum ist das Handling der entsprechenden Dateien so zu gestalten, dass keine Dubletten entstehen, sondern die Subkorpora nur virtuell, etwa in Form von Listen, gebildet werden. Maschinelles und manuelles Filtern sind dabei iterativ durch einander bedingt. Je nach gewähltem Zugang zeigen sich unterschiedliche Schwerpunkte. Generische Suchmöglichkeiten, Topic Modeling sowie das Bilden von syntaktischen Profilen wurden in der diesem Beitrag zugrunde liegenden Forschung als vielversprechende Zugänge identifiziert. Mit generischen Suchmöglichkeiten ist es zunächst möglich, die Menge von Treffern für einzelne Begriffe des Wortfeldes oder für das gesamte Wortfeld pro Text auszuwerten. In der Annahme, dass eine hohe Wortdichte eine inhaltlich hohe Relevanz wahrscheinlich
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
133
macht, kann durch eine solche Vorverarbeitung eine Reihenfolge für die manuelle Sichtung der Texte festgelegt werden. Werden die Trefferzahlen allerdings nicht mit der Textlänge normalisiert, so stehen vor allem lange Texte im Mittelpunkt der Aufmerksamkeit. Zudem erfordert die Sichtung wiederum aufwendige manuelle Schritte. Für Distant- Reading-Ansätze, etwa die leicht zugänglichen linguistischen Analysen mit AntConc,18 hat sich gezeigt, dass das Material für ein emergentes Phänomen bereits gut gefiltert sein muss, um das sonst sehr hohe Rauschen zu minimieren. Dennoch stellen beide Verfahren eine grundlegende Möglichkeit dar, ohne weitere Algorithmen einzelne, aussagekräftige Texte zu filtern. Dies ermöglicht eine weiter verbesserte Expertise der Forschenden, sowohl ihren Gegenstand als auch das (unbekannte) Korpus betreffend. Für das Ermitteln von möglichen thematischen Subkorpora und auch für den Ausschluss von wenig bis nicht relevanten Texten eignen sich Zugänge des Topic Modeling. In diesem Verfahren wird ein Zusammenhang zwischen Wörtern angenommen, wenn diese im analysierten Text häufig zusammenstehen (vgl. Ignatow und Mihalcea 2017, S. 157 ff.; zum Verfahren Blei 2012). Als Ergebnis der Modellierung von Ähnlichkeiten in iterativen Durchgängen steht beim Topic Modeling eine Gruppe von Begriffen, die das Topic repräsentieren, diesen wird pro Text eine Relevanz zugewiesen. Topic Modeling wird vor allem als Verfahren zum Explorieren eines Korpus genutzt, wie eine Vergleichsstudie (Du 2019) ergeben hat. Zentral sind dabei Visualisierungen der durch das Verfahren generierten Topics und von deren Verteilung über das Korpus hinweg, um so Auffälligkeiten auch über große Textmengen identifizieren zu können. Es kann so zur Hypothesengenerierung und Korpusexploration genutzt werden. Mit dem Tool Mallet19 erstellte Topic Models ermöglichen es uns, verschiedene Themenbereiche innerhalb des weiteren Bereichs der Telemedizin zu identifizieren bzw. anders zu gruppieren, so etwa die medizinische Versorgung in ländlichen Regionen durch telemedizinische Anwendungen oder die Unterstützung von Diabetespatienten ebenso wie Diskursstrukturen zu Fragen des Datenschutzes. Es ist jedoch notwendig, an Topic Modeling weitergehende Visualisierungen anzuschließen, damit man große Textmengen hinsichtlich ihrer Verteilung auf einzelne Topics überschauen kann. Mit der Analyse von syntaktischen Profilen wird ein anderer Zugang genutzt, unbekannten Text zu erschließen: Nicht der Text, sondern einzelne Wörter stehen im Mittelpunkt. Linguistische Vorverarbeitungen wie Part-of-Speach Tagging und Lemmatisierung sind dafür unerlässlich. Die den einzelnen Wörtern zugewiesenen syntaktischen Dependenzen (vgl. Kilgarriff et al. 2014) lassen Zuschreibungen textübergreifend offensichtlich werden. Ein für die Suche nach syntaktischen Profilen erstelltes Wortfeld zum allgemeineren Themenfeld von Medizin, Technik und Telemedizin umfasst 131 Begriffe (Wortfeld Telemedizin gesamt 15.01.2019). Auf Grundlage dessen können semantische Konstruktionen erfasst werden: Wenn etwa Telemedizin etwas „ermöglicht“ oder in anderen Kontexten „verteufelt“ wird, lässt dies auf klare Wertungen des Phänomens schließen. Siehe https://www.laurenceanthony.net/software/antconc/ [letzter Zugriff: 23.01.2020]. Siehe http://mallet.cs.umass.edu/ [letzter Zugriff: 23.01.2020].
18 19
134
G. Koch und L. Franken
In Sentimentanalysen wird einem Text, seltener einem Absatz oder einem Satz, ein Wert für dessen Tendenz zum Positiven oder zum Negativen zugeschrieben. Die entsprechende Analyseeinheit wird binär positiv oder negativ bewertet, ein Wert für die Stärke dieser Bewertung wird ausgegeben. Es sollen hiermit Meinungen und Gefühle messbar gemacht werden, die im Text vermittelt werden (vgl. Denecke und Deng 2015). Die Reliabilität für die sehr unterschiedlichen Texte des erstellten Korpus ist aktuell noch zu testen. Das Verfahren könnte jedoch Wertungen aufzeigen, die Hinweise auf Akzeptanzproblematiken geben könnten. Für die Darstellung der Bezüge der mittels Crawling analysierten Websites untereinander sowie zur besseren Nachvollziehbarkeit des eigentlichen Crawlens ist eine Netzwerkanalyse mit Gephi20 vielversprechend. Diese Visualisierung entfernt sich jedoch weit vom Text und ist für einen späteren Analyseschritt mit fundierten Kenntnissen des Korpus vorgesehen. Mit all diesen Verfahren verbunden ist ein ständiges Filtern mit dem Ziel, besonders relevante Texte innerhalb des (großen und deshalb nicht manuell zu sichtenden) Korpus zu finden. Iterativ werden damit manuelle Annotationen von bereits gefundenen relevanten Texten realisiert, die insbesondere mit einer maximalen Kontrastierung besonders unterschiedliche Texte einbeziehen, um weiteres Wissen über das Themenfeld zu sammeln und das Vorgehen des maschinellen Filterns zu unterstützen. Damit verbunden ist auch die prinzipielle Offenheit für eine weitere, iterative Korpuserweiterung auf Grundlage neuer Erkenntnisse. Unerlässlich ist dann aber die – wiederum manuelle, computerunterstützte – kontextorientierte Annotation des durch Filtern bearbeiteten Materials. Es ist nicht automatisierbar oder zu ersetzen; man muss das gefilterte Korpus manuell lesen und annotieren, um eine fundierte Analyse vorzubereiten. Deshalb erfolgten die Erprobung und der Vergleich verschiedener Annotationstools von proprietären Programmen der qualitativen Datenanalyse, welche eine Computerunterstützung für Geistes- und Sozialwissenschaftler zugänglich machen und bereits weit verbreitet sind (vgl. Mühlmeyer-Mentzel 2011; Schönfelder 2011; Kelle 2012; Sattler 2014), mit Open-Source-Optionen insbesondere CATMA21 und WebAnno.22 In der Summe bleiben die proprietären Tools in ihrem Funktionsumfang den frei verfügbaren Versionen bisher deutlich überlegen, insbesondere was die Usability und Offenheit der Annotationsformen angeht. Manuelle, bedeutungsorientierte Annotationen erfolgen deshalb weiterhin in MaxQDA23 (vgl. Kuckartz 2010), verbunden mit der Hoffnung, dass Weiterentwicklungen einen Umstieg bald ermöglichen.
Siehe https://gephi.org/ [letzter Zugriff: 23.01.2020]. Siehe http://catma.de/ [letzter Zugriff: 23.01.2020]. 22 Siehe https://webanno.github.io/webanno/ [letzter Zugriff: 23.01.2020]. 23 Siehe https://www.maxqda.de/ [letzter Zugriff: 23.01.2020]. 20 21
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
6.6
135
azit: Automatisierung von Filterprozessen – Erfahrungen F aus der wissenssoziologischen Diskursanalyse
Für einen lösungsorientierten Ansatz zur Anreicherung von qualitativen hermeneutischen Verfahren der Diskursanalyse mit den strukturell arbeitenden Ansätzen von Methoden der Digital Humanities kann als Fazit aufgrund der bisherigen Erfahrungen festgehalten werden: Das Prinzip des Filterns wird in manuellen wie maschinellen Vorgehen zur Komplexitätsreduktion sozialer Wirklichkeit in Forschungsprozessen ständig umgesetzt und ist deshalb eine vielversprechende Perspektive, um die verschiedenen Verfahren zu vergleichen. Manuelles Filtern in automatische Schritte zu übersetzen, ist eine Herausforderung, die vor allem in halbautomatisierten Verfahren einen Mehrwert bringen kann. Für generische Verfahren maschinellen Filterns ist eine produktive Nutzung offensichtlich, sie ist für unstrukturierte, nicht aufbereitete Texte in der Regel jedoch nicht ausreichend. Für andere Analyseverfahren der Digital Humanities ist der Nutzen jeweils kritisch hinsichtlich Aufwand und analytischem Mehrwert zu überprüfen. Notwendig sind auf der Seite der Forschenden spezifische Kompetenzen, damit sie entsprechende Verfahren nachvollziehen und deren Relevanz und Auswirkungen für den eigenen Forschungsprozess beurteilen können. Zusätzlich müssen sie linguistische Zugänge verstehen, um eine stark fragmentierte bzw. kleinteilige Annotation stringent umsetzen oder zumindest deren Spezifika nachvollziehen zu können. Hierfür ist eine Kooperation mit Informatik, Computerlinguistik oder Informationswissenschaften unerlässlich, da die spezifischen Potenziale und Probleme der Korpuserstellung und -auswertung von diskursanalytischem Datenmaterial besondere Weiterentwicklungen des maschinellen Filterns und eine Anpassung der vorhandenen Tools und Skripte notwendig machen. Der gegenwärtige Lerneffekt für wissenssoziologische Diskursanalysen bezieht sich so insbesondere auf die Spezifizierung, wo und wie automatisierte Verfahren in der Diskursanalyse sinnvoll eingebettet werden können, sowie auf die Erfahrungen in der Erprobung verschiedener Ansätze des Filterns inklusive der notwendigen Aufbereitungen des generierten Materials und der iterativ ineinandergreifenden Schritte der manuellen und maschinellen Filterung. Benötigt wird eine Kombination unterschiedlicher Tools und Zugänge, mit denen man verschiedene Modi des Filterns im Verlauf des Forschungsprozesses umsetzen kann. Hierfür sind kaum fertige Lösungen vorhanden, sodass Weiterentwicklungspotenzial besteht, wie die Verfahren des Webcrawling und Scraping exemplarisch zeigen. Effizienzsteigerung oder Qualitätsverbesserung der Analyse sind durch entsprechende Filter nicht notwendig gegeben und müssen immer wieder kritisch überprüft werden. In der Exploration ist im Gegenteil mit einem weitaus höheren Aufwand zu rechnen. Nicht immer ist deshalb ein maschinelles Filtern erstrebenswert. Gerade für überschaubare Fragestellungen und Einzelforschende ohne entsprechende Kompetenzen ist im Gegenteil sogar ein Qualitätsverlust aufgrund der Verschiebung von Arbeitsschwerpunkten hin zu Vorverarbeitungen zu befürchten.
136
G. Koch und L. Franken
Während im manuellen Filtern das Korpus iterativ erweitert wird, gilt es im maschinellen Filtern in der Regel, ein Korpus fortlaufend zu reduzieren. Da auch dieses stets nur einen spezifischen Ausschnitt sozialer Realität festhalten kann, ist die Öffnung für iterative Erweiterungen auch bei maschinellen Verfahren in der wissenssoziologischen Diskursanalyse zentral. Als Lerneffekt für die Digital Humanities kann aktuell vor allem diese Varietät in der Erstellung von Korpora festgehalten werden, die bisher zu wenig interessiert hat, sich in geisteswissenschaftlichen Disziplinen jedoch in verschiedenen Formen findet. Erfahrungen zum Umgang mit iterativ entstehenden Korpora gibt es kaum. Spezifika einer den Forschungsprozess iterativ begleitenden Korpuserstellung sind fortlaufende Filterungen. Die scheinbare Fülle der Informationen im Sinne sogenannter Big Data bestätigt sich bei näherem Ansehen der Daten oft nicht, diese werden aufgrund weniger valider bzw. viabler Textstellen rasch zu ‚Small Data‘, auch wenn sie gerade damit leichter qualitativen Analysen zugänglich sind. Die Pluralität der generierten Korpusbestandteile ist für Diskursanalysen üblich, stellt automatische Aufbereitungsschritte aber vor neue Herausforderungen. Ein Entwicklungsbedarf ist entsprechend vorhanden. Als erste Strategie kann die Kombination unterschiedlicher Analyseverfahren festgehalten werden, die mit verschiedenen Schritten des Filterns je eigene Perspektiven auf das Korpus ermöglichen können. Als vorläufiges Ergebnis ist festzuhalten: Eine Automatisierung von einzelnen Arbeitsschritten ist möglich, allerdings aufwendig. Besonders im Zusammenspiel verschiedener Teilprozesse von Automatisierungen kann eine Ausweitung der Quellengrundlage im Korpus erfolgen, außerdem können bei entsprechender Tool- und Verfahrenskompetenz schneller Einblicke in ein größeres Korpus gewonnen werden. Hierfür sind jedoch Vorarbeiten notwendig, die häufig sowohl das Entwickeln von Verfahren als auch die Vorverarbeitung der entsprechenden Daten umfassen. Manuelle Filterprozesse bleiben dabei aber unerlässlich. Welche Automatisierungen für welche Phase im Forschungsverlauf besonders hilfreich sind, ist weiter herauszuarbeiten. Dabei gilt es auch, die epistemologischen Konsequenzen einer durch maschinelles Filtern veränderten Perspektive auf das eigene Quellenmaterial fortlaufend zu reflektieren.
Literatur Adelmann, B. et al. (2018): Evaluating Part-of-Speech and Morphological Tagging for Humanities’ Interpretation. In: Frank, A. U. et al. (Hg.): Proceedings of the Second Workshop on Corpus- Based Research in the Humanities (CRH-2). Wien: Gerastree Proceedings, S. 5–14 (https://www. oeaw.ac.at/fileadmin/subsites/academiaecorpora/PDF/CRH2.pdf) [letzter Zugriff: 23.01.2020]. Adelmann, B. et al. (2019): Die Generierung von Wortfeldern und ihre Nutzung als Findeheuristik. Ein Erfahrungsbericht zum Wortfeld „medizinisches Personal“. In: Sahle, P. (Hg.): 6. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e. V. (DHd 2019). Digital Humanities: multimedial & multimodal. Frankfurt a. M: Zenodo, S. 114–116 (https://doi.org/10.5281/zenodo.2596095) [letzter Zugriff: 23.01.2020]. Andresen, M./Vauth, M. (2018): Added Value of Coreference Annotation for Character Analysis in Narratives. In: Kübler, S./Zinsmeister, H. (Hg.): Proceedings of the Workshop on Annotation in
6 Filtern als digitales Verfahren in der wissenssoziologischen Diskursanalyse
137
Digital Humanities 2018. Aachen: RWTH Aachen, S. 1–6 (http://ceur-ws.org/Vol-2155/andresen.pdf) [letzter Zugriff: 23.01.2020]. Blei, D. M. (2012): Probabilistic Topic Models. Surveying a Suite of Algorithms That Offer a Solution to Managing Large Document Archives. In: Communications of the ACM 55 (4), S. 77–84. Bryant, A./Charmaz, K. (Hg.) (2007): The SAGE Handbook of Grounded Theory. Los Angeles: SAGE. Denecke K./Deng, Y. (2015): Sentiment Analysis in Medical Settings. New Opportunities and Challenges. In: Artificial Intelligence in Medicine 64 (1), S. 17–27 (https://doi.org/10.1016/j.artmed.2015.03.006) [letzter Zugriff: 23.01.2020]. Du, K. (2019): A Survey on LDA Topic Modeling in Digital Humanities. In: Book of Abstracts. Digital Humanities Conference 2019 (https://dev.clariah.nl/files/dh2019/boa/0326.html) [letzter Zugriff: 23.01.2020]. Foucault, M. (1973): Archäologie des Wissens. Frankfurt a. M.: Suhrkamp. Foucault, M. (1991): Die Ordnung des Diskurses. [1971]. Erweiterte Ausg. Frankfurt a. M.: Fischer. Gaidys, U. et al. (2017): Project Description – hermA: Automated Modelling of Hermeneutic Processes. In: Hamburger Journal für Kulturanthropologie 7, S. 119–123 (https://journals.sub. uni-hamburg.de/hjk/article/view/1213) [letzter Zugriff: 23.01.2020]. Geertz, C. (1973): Ideology As a Cultural System. In: ders.: The Interpretation of Cultures. Selected Essays. New York (NY): Basic Books, S. 193–233. Glaser, B. G. (1978): Theoretical Sensitivity. Advances in the Methodology of Grounded Theory. Mill Valley (CA): Sociology Press. Glaser, B. G./Strauss, A. L. (2010): Grounded Theory. Strategien qualitativer Forschung [1967]. 3. Aufl. Bern: Huber (Gesundheitswissenschaften. Methoden; Programmbereich Gesundheit). Glasersfeld, E. von (1997): Radikaler Konstruktivismus. Ideen, Ergebnisse, Probleme. Frankfurt a. M.: Suhrkamp. Götzö, M. (2014): Theoriebildung nach Grounded Theory. In: Bischoff, C./Oehme-Jüngling, K./ Leimgruber, W. (Hg.): Methoden der Kulturanthropologie. Bern: Haupt, S. 444–458. Ignatow, G./Mihalcea, R. F. (2017): Text Mining. A Guidebook for the Social Sciences. Los Angeles (CA), London, New Delhi: SAGE. Kelle, U. (2012): Computergestützte Analyse qualitativer Daten. In: Flick, U./Kardorff, E. von/ Steinke, I. (Hg.): Qualitative Forschung. Ein Handbuch. 9. Aufl. Reinbek bei Hamburg: Rowohlt- Taschenbuch-Verlag, S. 485–502. Keller, R. (2011): Wissenssoziologische Diskursanalyse. Grundlegung eines Forschungsprogramms [2005]. 3. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften (Interdisziplinäre Diskursforschung). Kilgarriff, A. et al. (2014): The Sketch Engine: ten years on. In: Lexicography 1 (1), S. 7–36 (https:// doi.org/10.1007/s40607-014-0009-9) [letzter Zugriff: 23.01.2020]. Klinke, H. (2017): Information Retrieval. In: Jannidis, F./Kohle, H./Rehbein, M. (Hg.): Digital Humanities. Eine Einführung. Stuttgart: Metzler, S. 268–278. Koch, G. (2015): Kultur digital. Tradieren und Produzieren unter neuen Vorzeichen. In: Bolenz, E./ Franken, L./Hänel, D. (Hg.): Wenn das Erbe in die Wolke kommt. Digitalisierung und kulturelles Erbe. Essen: Klartext, S. 15–28. Koch, G./Franken, L. (2019): Automatisierungspotenziale in der qualitativen Diskursanalyse. Das Prinzip des „Filterns“. In: Sahle, P. (Hg.): 6. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e. V. (DHd 2019). Digital Humanities: multimedial & multimodal. Frankfurt a. M: Zenodo, S. 89–91 (https://doi.org/10.5281/zenodo.2596095) [letzter Zugriff: 23.01.2020]. Kübler, S./Zinsmeister, H. (2015): Corpus Linguistics and Linguistically Annotated Corpora. London, New Delhi, New York: Bloomsbury.
138
G. Koch und L. Franken
Kuckartz, U. (2010): Einführung in die computergestützte Analyse qualitativer Daten. 3. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Kuhn, J. (2018): Computerlinguistische Textanalyse in der Literaturwissenschaft? Oder: „The Importance of Being Earnest“ bei quantitativen Untersuchungen. In: Bernhart, T. et al. (Hg.): Quantitative Ansätze in den Literatur- und Geisteswissenschaften. Systematische und historische Perspektiven. Berlin, Boston: De Gruyter, S. 11–44. https://doi.org/10.1515/9783110523300-002. Manning, C. D./Raghavan, P./Schütze, H. (2009): Introduction to Information Retrieval. Cambridge: Cambridge University Press. McCarty, W. (2004): Modeling: A Study in Words and Meanings. In: Schreibman, S./Unsworth, J./ Siemens, R. G. (Hg.): A Companion to Digital Humanities. Malden (MA): Blackwell (Blackwell companions to literature and culture; 26), S. 254–270. Mikolov, T. et al. (2013): Efficient Estimation of Word Representations in Vector Space (https://arxiv.org/abs/1301.3781) [letzter Zugriff: 23.01.2020]. Mühlmeyer-Mentzel, A. (2011): Das Datenkonzept von ATLAS.ti und sein Gewinn für „Grounded- Theory“-Forschungsarbeiten. In: Forum Qualitative Sozialforschung 12 (1), Art. 32 (http://www. qualitative-research.net/index.php/fqs/article/view/1621/3125) [letzter Zugriff: 23.01.2020]. Rehbein, M. (2017a): Informationsvisualisierung. In: Jannidis, F./Kohle, H./Rehbein, M. (Hg.): Digital Humanities. Eine Einführung. Stuttgart: Metzler, S. 328–342. Rehbein, M. (2017b): Ontologien. In: Jannidis, F./Kohle, H./Rehbein, M. (Hg.): Digital Humanities. Eine Einführung. Stuttgart: Metzler, S. 162–176. Rogers, R. (2019): Doing Digital Methods. Los Angeles (CA), London, New Delhi: SAGE. Sattler, S. (2014): Computergestützte qualitative Datenbearbeitung. In: Bischoff, C./Oehme- Jüngling, K./Leimgruber, W. (Hg.): Methoden der Kulturanthropologie. Bern: Haupt, S. 476–487. Schönfelder, W. (2011): CAQDAS and Qualitative Syllogism Logic. NVivo 8 and MAXQDA 10 Compared. In: Forum Qualitative Sozialforschung 12 (1), Art. 21 (http://www.qualitative-research.net/index.php/fqs/article/view/1514/3134) [letzter Zugriff: 23.01.2020]. Strauss, A. L./Corbin, J. M. (1996): Grounded Theory. Grundlagen qualitativer Sozialforschung. Weinheim: Beltz, PsychologieVerlagsUnion. Truschkat, I./Kaiser-Belz, M./Volkmann, V. (2011): Theoretisches Sampling in Qualifikationsarbeiten. Die Grounded-Theory-Methodologie zwischen Programmatik und Forschungspraxis. In: Mey, G./Mruck, K. (Hg.): Grounded Theory Reader. 2. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften, S. 353–379. Wiechmann, B. (2012): Die Gemeinsame Normdatei (GND). Rückblick und Ausblick. In: Dialog mit Bibliotheken 24 (2), S. 20–22 (https://d-nb.info/1118655095/34) [letzter Zugriff: 23.01.2020]. Wikidata (2019): telemedicine (Q46994). In: Wikidata (https://www.wikidata.org/w/index.php?title=Q46994&oldid=939050513) [letzter Zugriff: 01.08.2019]. Zinsmeister, H. (2015): Chancen und Grenzen von automatischer Annotation. In: Zeitschrift für germanistische Linguistik 43 (1), S. 84–111.
7
Mapping the German Tech Blog Sphere and Its Influence on Digital Policy Adrien Barbaresi und Jens Pohlmann
Inhaltsverzeichnis 7.1 The Concept of Linguistic Corpus 7.2 Addressing the IT-Blog Sphere 7.2.1 Scope of the Study 7.2.2 Operative Definition and Interest 7.2.3 Corpus Building and Characteristics 7.3 A Study on Named Entities in the IT-Blog Corpus 7.3.1 Description 7.3.2 First Study 7.3.3 Second Study 7.4 Studying Law and Policy Making 7.4.1 Subcorpus NetzDG 7.4.2 Stakeholders in the NetzDG Discussion 7.5 Conclusions References
141 142 142 143 145 146 146 147 148 150 151 152 154 155
Abstract
This article features both quantitative and qualitative studies of texts dedicated to the IT world that were published in tech blogs. It confronts close and distant reading on several A. Barbaresi (*) Zentrum für digitale Lexikographie der deutschen Sprache, Berlin-Brandenburgische Akademie der Wissenschaften, Berlin, Deutschland E-Mail: [email protected] J. Pohlmann German Historical Institute, Washington, DC, USA E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_7
139
140
A. Barbaresi und J. Pohlmann
levels: on the one hand by a manual pre-selection of relevant sources and an examination of an ‘offline’ corpus consisting of downloaded web texts indexed locally; on the other hand, by the detection and projection of spatial patterns, as we identified actors through a network of place names associated with centers of political decision-making, economic power, and ultimately power-knowledge. Furthermore, we present ways in which forms of ‘blended reading,’ the combination of statistically based quantitative analysis methods with qualitative approaches of close reading and scholarly exegesis, can help to filter and structure the massive discourse in the IT-blog sphere that is represented in large digital text corpora and accessible to computational methods. Keywords
IT-blogs · Blogosphere · Internet policy · Digital corpora · Corpus linguistic · Distant reading · Blended reading · Free speech · NetzDG
Following the assumption that IT-blogs represent an avant-garde of technologically and socially interested experts, we describe an experimental setting to observe their input on the public discussion of matters situated at the intersection of technology and society. As we need both data and scientific instruments to shed light on this subfield of the digital public sphere, our interdisciplinary approach consists in joining forces on a common basis of texts and tools. The Web features an unparalleled and rapidly evolving diversity of speakers and settings. As such it should be considered as a series of sources rather than as a source in itself. Forms of communication and publication on the Web are also evolving at a fast pace, which makes it difficult for researchers to cope with changes, to describe them, and to work with these resources accordingly; “The Web is different from most previously studied systems in that it is changing at a rate that may be of the same order as, or perhaps greater than, even the most knowledgeable researcher’s ability to observe it” (Hendler et al. 2008, p. 67). These peculiarities conflict with the necessity to establish an agreed scheme for identifying and registering data for scientific research (Sampson 2000, pp. 1347–1348). Furthermore, collecting web documents entails constructing a scientific object that almost instantly turns into a web archive (see Brügger 2018). In that sense, the development and application of schemes and methods that can live up to the potential of this source are needed, especially with regards to the value of scientific deductions and an impact analysis on the general opinion. The major aims of the effort described here are threefold: (1) compiling a text base (for German and English) from a curated list of blogs dedicated to technological topics for lexicographical and linguistic research, as well as (2) conducting a case study on named entities and (3) conducting exemplary studies using the compiled corpus, focusing on
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
141
specific research questions regarding public discourse in Germany and the United States on questions of internet policy.
7.1
The Concept of Linguistic Corpus
A major fault line exists for the linguistic community between general and specific corpora (see Gries 2009, pp. 1232–1233). Since web corpora mostly follow from the existing linguistic tradition, their purpose and their methodology can also be divided into two main categories (see Barbaresi 2015). On the one hand, there are all-purpose, ‘one size fits all’ corpora, often designed to be large and diverse. On the other, there are specific corpora with controlled text inclusions and, at times, rich metadata. These corpora are built with particular research goals in mind, such as online news corpora or variation-aware approaches which take production conditions into account. The distinction between all-purpose and specialized corpora overlaps with the diverging uses of corpora for research purposes. We differentiate between corpus-based studies observing already known phenomena, and more opportunistically-minded research settings (corpus-driven) where size and content diversity allows for better coverage and the use of statistical indicators. The contrast between general-purpose and specific corpora is not clear-cut as these categories are not impermeable: we find corpora that are in-between as well as those that transfer from one category to another due to adjustments in corpus design. ‘Offline corpora’ accessible within or throughout institutions are now standard within the research community. The process notably involves “crawling, downloading, ‘cleaning’ and de-duplicating the data, then linguistically annotating it and loading it into a corpus query tool” (Kilgarriff 2007, p. 148). This procedure relies on the assumption that “the Web is a space in which resources are identified by Uniform Resource Identifiers (URIs)” (Berners-Lee et al. 2006, p. 8). However, the Web is changing faster than the researchers’ ability to observe it (see Hendler et al. 2008, p. 67), and a constant problem faced by web resources resides in meta-information and categorization: Due to the “heterogeneous and somewhat intractable character of the Web” (Bergh and Zanchetta 2008, p. 310), the actual contents of a web corpus can only be listed with certainty once the corpus is completed. In addition, web corpora exemplify “problems of large corpora built in short time and with little resources.” (Baroni and Ueyama 2006, p. 32). The potential lack of information concerning the metadata of the texts is often accompanied by a lack of information regarding the content itself, whose adequacy, focus and quality has to be assessed in a post hoc evaluation (see Baroni et al. 2009, p. 217). Seen from a practical perspective, the purpose of focused web corpora is to complement existing collections, as they allow for better coverage of specific written text types and genres. These web corpora are particularly relevant, since they allow for the monitoring of language evolution based on user-generated content, which displays numerous variants as well as sociolects and idiolects. Methods consisting of “manually selecting, crawling and cleaning particular web sites with large and good-enough-quality textual
142
A. Barbaresi und J. Pohlmann
content” are employed in order to generate specialized corpora (Spoustová and Spousta 2012, p. 311). However, focused crawling does not necessarily involve scrupulous work a priori aside from the necessary prioritization regarding “documents which, according to some metric, have a high relevance” (Biemann et al. 2013, p. 27). Even for comparatively large corpora, focused web corpus construction using pre-selected sources can lead to a higher yield and save time and resources while increasing the text quality of the resulting corpus (see Schäfer et al. 2014). The present use case concerns German, for which historical and contemporary corpora have been built as part of an aggregated lexical information platform (see Geyken et al. 2017), the Digital Dictionary of the German Language (https://www.dwds.de/). Specialized web corpora are built which can then be compared to existing resources such as newspaper and general-purpose corpora (Barbaresi 2016). Among other things, such corpora can be used to search for definitory elements related to newly created words or word senses (see Barbaresi et al. 2018), for example by means of an automated content extraction and manual screening of pre-selected results. Corpus construction, as described in this section, is the basis for much of the work that is done in computational social science projects which aim to analyze public discourse with large amounts of digital texts, often times based on Twitter data, digital or digitized newspaper articles or, as in our particular case, blog entries (see Ramsay 2011; Lemke et al. 2016). Working with digital text corpora of this kind, we can apply methods and tools to examine the ways in which (political) communication is shaped by and taking place on digital platforms in different realms of the digital public sphere (see Grimmer and Stewart 2013). We believe that the discussion on IT blogs and within the IT blog sphere is of particular importance in this regard, since it represents a realm in which the political and societal implications of new technological developments are intensively, elaborately and controversially discussed based on high levels of technological and political expertise. The form of digital discourse analysis that we present in this paper combines elements of a corpus-based approach (see Busse and Teubert 2013) with the idea of the IT-blog sphere being part of the public arena in which different stakeholders aim to position their concerns and to convey a preferred way of framing the respective issue at hand (see Ulrich 2008, pp. 23–24; Keller 2013a, pp. 5–68; 2013b).
7.2
Addressing the IT-Blog Sphere
7.2.1 Scope of the Study We need both data and scientific instruments to shed light on subfields of the digital public sphere such as websites devoted to information technology. A suitable classification of these research objects is paramount, not least due to the importance of text typologies in philology. Blogs seem to be particularly adequate in this regard as “the practice of blogging involves producing digital content with the intention of sharing it asynchronously
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
143
with a conceptualized audience” (boyd 2006, p. 4). Another potential advantage of focused crawls consists of the community-building aspects, as blogs are intricately intertwined in what has been called the blogosphere. The active cross-linking among them helps to “create a strong sense of community” (Glance et al. 2004) and this aspect could be helpful in detecting series of texts on a given topic by following links, that is by way of web crawling, and then analyzing the surfacing hyperlink networks (see Olston and Najork 2010). Since “the most explicit definitions of blogging come from the companies who built tools to support it,” as danah boyd (2006, p. 4) claims, difficulties raised by blogs as research objects are of conceptual and practical nature. First, the definition of what belongs to the genre and its use as a single category is controversial (see Garden 2012). This typology has notably been criticized for not being specific enough, especially concerning the sociolinguistic setting (see Lomborg 2009). A further demarcation can be made between blogs and social networks restricted to a single platform: “They [blogs] differ from community tools because the expressions are captured locally, not in a shared common space” (boyd 2006, p. 11). These local spaces have fewer restrictions for machine-based access but, on the other hand, they provide metadata that is less directly exploitable. Furthermore, they are more difficult to find as they may come from a wide array of sources. In addition, the profusion of user data found on social media platforms can be of great value for companies and researchers alike, but this data may be much harder to extract from particular blogs. Consequently, the extraction of relevant content and metadata is of greatest importance in order to make such web corpora exploitable for research by way of turning them into research objects. Finally, the commonly found term blogosphere suggests a connection that does not necessarily exist, in opposition to the concept of blogipelago, which “reminds us of separateness, disconnection, and the immense effort it can take to move from one island or network to another” (Dean 2010, p. 38). This effort clearly impacts corpus construction by requiring more screening as well as significant ‘island hopping’. This is particularly the case in communities which are fairly small and disconnected from other websites on the topic, e.g. Austrian fashion blogs which appear to refer to each other, but which rarely include links to other similar communities or topics. In the end, it is quite rare to find ready-made resources, especially for topically focused approaches such as our own, so gathering methods and criteria ought to be discussed. Collecting restricted portions of the Web for linguistic research is difficult, but remains possible with sufficient screening.
7.2.2 Operative Definition and Interest Nevertheless, despite being difficult to grasp and having been partly replaced by other publication platforms (mostly social networks), blog posts are still being written and read, which makes it a contemporary research object of interest and value. As “blogs are the bi-product of expression and the medium itself” (boyd 2006, p. 11), we need an operative criterion in order to consider and classify them. From the beginning of research on blogs/
144
A. Barbaresi und J. Pohlmann
weblogs, the main definitory criterion has been their form, a reverse chronological sequence of dated entries and/or the use of dedicated software to articulate and publish the entries, a “weblog publishing software tool” (Glance et al. 2004) or content management system. Blogs are dynamic in nature and in consequence they “differ from static web pages because they capture ongoing expressions, not the edits of a static creation” (boyd 2006, p. 11). Following the research on blogs/weblogs, we define blogs according to their form, consisting of dated entries available online and often managed by a broadly available publishing tool or web space. A fundamental argument in favor of such blog corpora as objects for social science and communication studies research purposes is related to the principles of the ‘Net economy’ and the re-composition of the media landscape it fosters. These new circumstances have given rise to forms of “immaterial labor”, “a social power that is independent and able to organize both its own work and its relations with business entities”, where notions of “leisure time” and “working time” are fused and where the “split between author and audience” is transcended (Lazzarato 1996). In some contexts, the notion of free labor is also relevant to describe “the moment where [the] knowledgeable consumption of culture is translated into productive activities” (Terranova 2000, p. 37). These conditions of text production have to be accounted for, notably because they entail the development of a “‘long tail’ of bloggers who get little or no remuneration” (Rocamora 2018, p. 67). Forms of self-presentation and personal branding in a media-based brand culture are certainly at play in these developments and have to be taken into consideration (see Banet-Weiser 2012; Arvidsson 2006). From a corpus linguistic perspective, the community-building and content publishing among producers-consumers result in a major increase in text production which eventually leads to more efficient corpus construction and potentially to a text collection that is easier to categorize. The IT-blog sphere is highly relevant, as it may have different characteristics than commonly known blog and news outlets, potentially mixing features of both publication types. Specific tech blogs first evolved aside from and in opposition to traditional mass media settings and amateur blogs have been shown to have the capacity to open up public space for the debate of socially relevant issues. Technological questions are indeed not restricted to the world of specialists, precisely since their implications often turn into political and ethical realities that affect society as a whole. However, the small, local communities of the beginnings have mostly been relegated by commercially driven websites targeting passive readers, which certainly has an impact on the content of discussions. More professional ‘tech blog outlets’ may thereby have taken on the status of influential information providers, agenda setters, and gatekeepers. In the German context, Netzpolitik.org, is a good example of such a tech blog outlet that started from a blog or blog-like structure and has, in the meantime, turned into a hybrid between blog and media outlet. Among other things, these kinds of platforms have writers and staff who continuously write posts about tech-related topics. Due to this professionalization, they have become aggregators of tech news and commentators on tech and policy developments who closely follow the experts and decision-makers in the field and whose articles are therefore watched and read by
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
145
more traditional media outlets such as nationwide newspapers and their technology editors. Our assumption is that some of these tech blog outlets may have a recognizable impact on the discussion of these topics in traditional media settings and eventually in policy discussions in political circles due to the attention that they receive from traditional news sources. In the most positive scenario, these outlets and individual tech bloggers may have the capacity to transport the tech expert discourse about matters regarding the impact of technology on society into the mainstream media and help to translate it for a broader societal discussion. Our overall project aims to examine whether these claims can be substantiated.
7.2.3 Corpus Building and Characteristics The discovery of relevant portions of the web is performed semi-automatically by pre-selecting hundreds of sources according to their importance for the topic at hand. By checking the chosen web pages regarding their relevance, it becomes possible to benefit from the insertion into a “web territory” (Cardon et al. 2011) which implies virtual communities as well as a complex adaptation process that is also significant from a linguistic standpoint. Surveys of particular portions of the web can also feature additional criteria such as content licensing, as some public licenses could help contributing back the corpus construction work to the research community. Our primary focus for this study is on generalist blogs featuring news related to information technology (IT) as well as the discussion of laws and regulations. Second, the relevant websites are retrieved starting from their homepage: as potential pages are identified through links and downloaded (i.e. by web crawling), all the content that can be found is archived. Third, important metadata such as the publication date and the main text content for each web page are extracted automatically based on structural patterns as well as heuristic criteria on text and markup. Finally, the resulting text base resides in a subset of web pages which have been found, downloaded and processed; documents with non- existent or missing date or entry content are discarded during processing and are not part of the corpus. Our corpus features a number of prosumer communities, meaning individuals or groups consuming content by reading and producing text, in our case in the form of blog posts or comments done professionally or as a hobby. Studies relying on website publishing and blogging activities have identified a long tail with respect to impact and readership, as it can be assumed that blog audiences follow a power rule: few blogs gather most of the attention while the large majority of blogs does not have many readers. The long tail consists of a significant number of blogs with few, if any, readers. Another factor to be taken into account concerns the move towards other publishing platforms and other content types, i.e. mainly social media and the form of short messages. While younger users may have shifted to other content publishing options, blogs remain a significant tool, be it among those who knew it from earlier times or for those who adopted a multi-platform publication
146
A. Barbaresi und J. Pohlmann
strategy. Overall, a great deal of text is being produced by immaterial laborers and a remarkable amount of interlinking exists (at least in our case of tech blogs posts which are located in between the structure of a blogosphere and a blogipelago). Web pages which choose the blog form are still very much alive, which is why they can be deemed relevant for gathering corpus evidence. Important criteria to establish this data source as a basis for further studies are the careful mapping of relevant portions of the web as well as the ability to extract and pre-process resulting web texts in order to ultimately make them available in clearly describable and coherent collections. The IT-blogs corpus is an example of such an object. For the corpus on German IT-blogs, about 700 web sources have been downloaded, indexed and organized, which yielded about 1,507,701 documents and approximately 917 million tokens. The German IT-blog corpus is available at https://www.dwds.de/d/kweb#it_blogs. For the corpus on U.S. IT-blogs, about 100 different web sources have been downloaded, indexed and organized so far, which yielded about 1,968,177 documents and approximately 1294 billion tokens. The U.S. IT-blog corpus is available at http://kaskade. dwds.de/dstar/it_blogs_en/.
7.3
A Study on Named Entities in the IT-Blog Corpus
7.3.1 Description In digital text corpora and especially literary works, space can be interpreted as patterns spread across texts: “Large source bases are likely to contain ‘meaningful patterns,’ and the ability to examine them, that is, to gain a bird’s-eye view with the assistance of a computer, is tantamount to having a team of readers, even many teams of readers, at one’s disposal” (Wrisley 2017, p. 147). Indeed, looking for patterns is widely considered to be a task for which distant reading and computer-based studies can be very productive. In linguistics, a common criterion consists of frequency-based information. The underlying assumption is that understanding language and literature is not exclusively accomplished by studying individual texts alone, but by aggregating and analyzing massive amounts of data from and about the text in question: since it is impossible for individuals to catch sight of every detail in a large corpus, advocates of distant reading methods employ computational techniques to mine the texts for significant patterns and then use statistical analysis to make statements about those patterns (see Wulfman 2014). Among the tendencies in geographic information retrieval and geocoding (see Melo and Martins 2017), the extraction and normalization of named places, itineraries, or qualitative spatial relations, as well as the extraction of locative expressions are particularly relevant to study text collections. In the field of information retrieval, named entity recognition defines a set of text mining techniques designed to discover named entities, connections and the types of relations between them. The particular task of finding place names in texts (geoparsing or place names extraction) involves first the detection of words and phrases that may potentially be proper nouns and second their classification as geographic references (see Nouvel et al. 2015). After the identification of toponyms, a further step
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
147
(geocoding or toponym resolution) resides in disambiguating and adding geographical coordinates to a place name. Geocoding mostly relies on gazetteers, i.e. geospatial dictionaries containing mostly names, locations, and metadata such as typological information, variants or dates (see Hill 2000). Thus, the process of identifying place mentions in texts and linking them to unambiguous spatial references typically involves three components: gazetteers, toponym detection and disambiguation. Named entities are a challenge for the apprehension of texts by machines, at the same time, they can reveal structural patterns within the text and within instances and actors of the field. Concerning toponyms, it is known from disciplines such as linguistics or anthropology that their relevance exceeds the frame of deictic and indexical functions, as they enfold more than a mere reference in space. In this respect, we set out on a distant reading experiment leading to maps meant to uncover patterns and specificities which are not easily retraceable during close reading. The place names were identified using a named entity recognizer1 and then matched with a gazetteer file containing coordinates in order to draw dots on a map. The scope of the study encompasses place names that could be extracted from texts in German. As one might expect, Central and Western Europe plays a major part in the distribution of locations. Mapping digital collections requires describing the implications of making something visible, knowing that new visualizations are not always scientifically relevant or productive. Maps are relative and subordinated to various purposes, the steps in making a map – selection, omission, simplification, classification, the creation of hierarchies, and ‘symbolization’ – are all inherently rhetorical (see Harley 1989, p. 11). Because of the impact of corporations based in the USA with major actors of the field as well as trend-setters being located on the other side of the Atlantic, especially in the Silicon Valley, we decided to draw a particular map of California in order to cover the necessary place names while being able to depict the distribution at a readable scale.
7.3.2 First Study The first study, as shown in Fig. 7.1, concerns Germany and neighboring countries. As such it is an aggregate of several processing steps, including a typology of place names (depicted by the different colors) and an indicator of frequency (the size of the dots). The map density of names invoked highlights the economic centers on the Rhine and in Southern Germany, while the distinguishable border may be an artifact of mapping due to the higher density of German place names in the gazetteer. The labels are also a proxy for frequency, which shows the relevance of major European cities in our data: Paris, London (as well as England), Zurich, and Barcelona. The comparatively high importance of Berlin in terms of frequency can be explained by the polysemy of the name, being a major center of Germany’s start-up economy and at the same time a center of political decision-making and political influence (see for example the expression das politische Berlin, the political Berlin, which is notably metonymic for policies and legislation). 1
https://nlp.stanford.edu/software/CRF-NER.html
148
A. Barbaresi und J. Pohlmann
Fig. 7.1 Map of European place names found in the corpus, sorted by type, including frequency
7.3.3 Second Study Figure 7.2 displays an outward perspective which allows us to grasp the perception of the Silicon Valley and the prominence of Californian companies for specialized news outlets and ultimately the general public. This German perspective highlights the importance of three main Californian hubs: Los Angeles and its surroundings, the Silicon Valley, and the San Francisco/East Bay metropolitan area. The map also bears witness to the impact of
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
149
Fig. 7.2 Map of place names in California mentioned in German IT-blogs (slightly distorted coastline due to the chosen geodetic projection)
other centers of power (e.g. Sacramento) and power-knowledge (e.g. the University of California). Other places of interest include cultural and touristic sights: Yosemite, Coachella, and Lake Tahoe (not displayed on the map but present a few times in the corpus). One must bear in mind that “computers are lousy readers”, and that “our current digital tools walk a delicate line between analytical power and accessibility” (Wilkens 2011). The finality of text visualizations is neither an apparatus nor a notion of an operational nature. As cartography is not the realization of static maps but rather the description of emergent structures, there is no single or best map. Consequently, the products of machine learning and machine reading can diverge from expectations; there is an estrangement in distant reading experiments which one must face and overcome in order to make proper use of the tools. The object of scientific inquiry does not simply reside in linking text to space, it is tightly linked to the interpretation of texts and maps. Geospatial analysis and spatial representation may indeed be deficient or inadequate. They are rather to be considered as the substrate of interpretable representations which do not follow data but rather interact with them by putting it them in perspective. The results depicted above are first and foremost a validation of content adequacy. The maps are both an index of the place named in the corpus and a summary of the contents seen in a geographical perspective: strictly speaking the text collection seen from above. In this particular respect, place names projected as a whole allow for another point of view of and point of entry to the data. The global profile
150
A. Barbaresi und J. Pohlmann
of the maps turns out to correspond to the original goals of corpus creation, which confirms insights gained from qualitative examination, which cannot pretend to this level of extensivity and thoroughness in reading – in an order of magnitude of more than a million documents. Beyond that, the figures reveal an indexical mental map of what the German- speaking IT-world writes about on the Web, which highlights the centers of political decision-making (e.g. Berlin), economic power (e.g. the Silicon Valley), and ultimately power-knowledge (Foucault 2015 [1975], p. 288–289) (e.g. the University of California).
7.4
Studying Law and Policy Making
Studying public sphere discussions on lawmaking, which involves finding one’s way through convoluted and heterogenous documents, is a task in which philologists and social scientists can be assisted by large specialized text corpora and databases as well as distant reading processes such as topic modeling and outlier detection. In this particular case, texts are indexed using a faceted search engine featuring linguistic annotation which enables text querying for research in lexicography and beyond in the humanities.2 One exemplary topic in the examination of this corpus focuses on the public discussion of the German Network Enforcement Act or NetzDG.3 This controversial anti-hate speech law, which forces social media platforms to take down flagged content that is ‘manifestly unlawful’ within 24 hours of receiving the complaint, has been discussed and criticized in Germany, but has been very much condemned in the United States. The criticism put forward focuses on the abetting of overblocking that may lead to forms of censorship, on the outsourcing of juridical decisions to private companies, and on setting examples for authoritarian regimes’ copycat laws (see Donahoe 2017). The discourse about NetzDG is an extremely relevant case study for the analysis of the ways in which the societal implications of technology are currently discussed and negotiated in the public sphere, especially with regards to the threats that the misuse of social media platforms poses to political decision-making processes in Western democracies. The discourse about NetzDG particularly points to the diverging cultures regarding freedom of expression in Germany and the United States and it illustrates the extent to which the historical roots of these differences inform the current transatlantic debate about the restriction of content online and the regulation of social media platforms (see Nieuwenhuis 2000; Schulz 2018). The debate in itself includes a highly technical vocabulary and the need to transfer knowledge from a small community of experts to the general public.
https://www.dwds.de/ Access to the texts is available for logged-in users. https://www.gesetze-im-internet.de/netzdg/BJNR335210017.html, the English version is available at https://www.bmjv.de/SharedDocs/Gesetzgebungsverfahren/Dokumente/NetzDG_engl.pdf;jsessionid=0A010607FBB6C62D059AEB15046C8660.1_cid334?__blob=publicationFile&v=2
2 3
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
151
7.4.1 Subcorpus NetzDG In order to analyze the discourse in the tech blog sphere about this particular German law, we proceeded by compiling a subcorpus that contains all the blog posts from our overall tech blog corpus that reference the keywords that are connected to the discussion of the law. In our case, we searched for the following terms: ‘NetzDG’ or ‘Netzwerkdurchsetzungsgesetz’ or ‘Gesetz zur Verbesserung der Rechtsdurchsetzung in sozialen Netzwerken’ or ‘Facebook-Gesetz’. We can assume that posts that address issues connected to this law such as hate speech, overblocking, regulation, etc. will mention one of the keywords above, particularly since the NetzDG has become a symbol of potential over-regulation and threats to freedom of expression due to government intervention. The subcorpus NetzDG allows us to further filter and structure the discourse within the tech blog sphere about this law and helps us to identify time frames, bloggers, as well as additional keywords that promise to be of importance for the discussion and therefore justify further examination by close reading and statistical analysis. In this sense, we are using quantitative methods to detect patterns and structures in the text (here in the NetzDG subcorpus) to discover promising elements for further qualitative and quantitative exploration. On the most basic level, the metadata already provides us with very interesting insights into the discourse about the topic. Since the publication date of every blog post is given in the metadata that we collected, we can recognize the times when many blog posts mention ‘NetzDG’ or variants. Based on these observations, we can infer on the time frames when the discussion about this topic was most intense and societally relevant. Figure 7.3 shows data that we collected for a test run based on three German tech blogs (Netzpolitik.org, Heise.de and Golem.de) as well as the Factiva database, which collects newspaper articles.4 For this graph, we counted the amount of publications (blog posts and newspaper articles in the Factiva database) that referenced at least one of our keywords once. The result shows that the discussion about NetzDG peaked at two points in time: June 2017 and January 2018. This is both not very surprising, but also very reassuring at the same time. It is not surprising, since this progression follows the different steps of the enactment of the law and was therefore to be expected. The law was enacted in June of 2017 and it came fully into effect after a transition period on January 1, 2018. The result is reassuring in the sense that it is very plausible that the coverage regarding this piece of legislation peaks at these points in time, covering the legislative process and its consequences. Based on this bird’s eye view, it would make sense to analyze the articles published in June 2017 and January 2018 more closely and to look for more indicators that can provide information on the sort of discussions that happened at these moments in time. It might also be interesting to have another look at the publications from March 2018, since the slight increase in publications at this point does not mirror the legislative process and may therefore hint at relevant events. Many thanks to Kirsten Gollatz and Martin Riedl from the Alexander von Humboldt Institute for Internet and Society (HIIG) for their help with collecting and interpreting this data.
4
152
A. Barbaresi und J. Pohlmann
Fig. 7.3 NetzDG covered in German media outlets, January 2017 to June 2018; number of selected documents per month, n = 1248
7.4.2 Stakeholders in the NetzDG Discussion One way of digging deeper into the given material (data and text) at this point is to search for the named entities that are mentioned most often in the NetzDG subcorpus. In our case, it would be most useful to run a named entity recognition program that focuses on politicians, political parties, companies, and institutions as well as on terms that are related to political/theoretical concepts and approaches. The frequency of stakeholders mentioned (politicians, tech industry firms, or experts in the field of technology, regulation, free speech) can help us to identify important topics, the stakeholders themselves, and, in a second step, the ways in which certain entities and concepts have been employed and potentially instrumentalized during the discussion. As already mentioned, quantitatively analyzing the data is a way for us to detect patterns and structures in order to perform close reading processes as well as further quantitative analysis. This form of “blended reading” (Stulpe and Lemke 2016)5 understood as a combination of qualitative and quantitative approaches also allows researchers to bring knowledge to the table that is not necessarily visible in the raw data such as information about conferences or other relevant events that may have sparked certain discussions or instigated the prevalence of particular stakeholders or terms in the discussion. In order to further exemplify this approach, we will turn to the test run corpus concerning the NetzDG once more. For this trial run regarding political entities, we used a mixed- Thomas Weitin speaks of “Scalable Reading,” but has a similar concept in mind (Weitin 2017). Cp. also Alexander and Biemann (2016). 5
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
153
methods software (MAXQDA) to tag German and international politicians, tech firms, institutions, and political parties and counted the frequency of their occurrence in the given test corpus (Fig. 7.4). It is not astonishing that Heiko Maas figures very prominently in this data set. He was Minister of Justice at the time and initiated the enactment of NetzDG. It is also not very remarkable that chancellor Merkel is mentioned very often, since, as the head of government, she appears in many texts. However, it is telling that three politicians of the German right-wing party Alternative für Deutschland (AfD) are mentioned very often and figure prominently in this data set. In this regard, a look at the numbers of entities mentioned in the NetzDG subcorpus displays the importance of the AfD and its politicians for the ‘NetzDG’ discourse and can be used as an entry point for further research. We will examine to what extent and in which ways the tech blog sphere discussed the strategies with which the AfD attempted to instrumentalize the NetzDG discussion in order to present itself as defenders of free speech in Germany. Of particular importance in this discussion is Beatrice von Storch’s Tweet about the “barbarian, muslim, gang-raping hords of men” that she identified as threats to the security of German citizens and the German state in general (Cp. Jacobsen 2018). In this regard, the statistical analysis can be used as a research tool that helps to identify strands for further analysis and instigate close reading processes, and/or it can be used to back up claims statistically.
Fig. 7.4 Politicians mentioned in German media outlets, January 2017 to June 2018; number of selected documents per month, n = 1248
154
7.5
A. Barbaresi und J. Pohlmann
Conclusions
This article features both quantitative and qualitative studies of texts dedicated to the IT world published online. It confronts close and distant reading on several levels: on the one hand by a manual pre-selection of relevant sources and an examination of an ‘offline’ corpus consisting of downloaded web texts indexed locally; on the other hand, named entities (place names and politicians, political parties, and institutions) are extracted and visualized on maps or their frequency of occurrence is analyzed statistically. Text visualizations are indeed the substrate of interpretable representations which do not follow data but rather confront them by putting them in perspective and trying to overcome the superficiality of computational reading, be it through a flattening constellation or by dealing with the rhizomatic character of texts (see Barbaresi 2018). Looking for spatial patterns and displaying them can be assimilated to the recently coined concept of geocriticism, in the sense that it is not a character-centered or subjective framework. Under this assumption, the emergence of geographical patterns in texts is explicitly encouraged: “Geocriticism is a geo-centered rather than an ego-centered approach; that is, the analysis focuses on global spatial representations rather than on individual ones (a given traveler’s, for example” (Westphal 2014). In this perspective, this article dealt with the detection and projection of spatial patterns, as we identified actors through a network of place names associated with centers of political decision-making, economic power, and ultimately power-knowledge. The particular geography which our data lays bare does not completely overlap with existing centers but rather displays the recent impact of the Net economy. Our mapping of blogs written in German has been performed by manual screening of the IT blogosphere and by actual cartographic maps of extracted place names. The landscape to be observed lies, among other things, between these representations: between the interlinking and referencing within cyberspace and the actual naming of entities located on both sides of the Atlantic. Furthermore, we have presented ways in which forms of “blended reading” (Stulpe and Lemke 2016), the combination of statistically based quantitative analysis methods with qualitative approaches of close reading, and scholarly exegesis, can help to filter and structure the massive discourse that is represented in large digital text corpora and accessible to computational methods. A combination of quantitative and qualitative approaches appears to be best suited to manage these masses of text and data, since it allows us to drill down deep and get to the bottom of politically relevant observations about current forms of discourse and political communication shaped by digital platforms and new media constellations. In this sense, the analysis of the subcorpus on the German NetzDG has confirmed that the frequency of blog posts regarding this topic closely mirrored the legislative process and its consequences. Furthermore, a first examination of the politicians mentioned in this corpus reveals the importance of the German Alternative für Deutschland (AfD) for the discussion of this specific law and helps to define topics for extended qualitative analysis.
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
155
References Alexander, F./Biemann, C. (2016): Digitale Begriffsgeschichte? Methodologische Überlegungen und exemplarische Versuche am Beispiel moderner Netzsemantik. In: Forum Interdisziplinäre Begriffsgeschichte 5, H. 2, pp. 78–96. Arvidsson, A. (2006): Brands: Meaning and Value in Media Culture. London; New York: Routledge. Banet-Weiser, S. (2012): Authentic TM: Politics and Ambivalence in a Brand Culture. New York: New York University Press. Barbaresi, A. (2015): Ad hoc and General-purpose Corpus Construction from Web Sources. Ph.D. thesis, École Normale Supérieure de Lyon. Barbaresi, A. (2016): Efficient Construction of Metadata-enhanced Web Corpora. In: Proceedings of the 10th Web as Corpus Workshop, Association for Computational Linguistics, pp. 7–16. Barbaresi, A. (2018): A Constellation and a Rhizome: Two Studies on Toponyms in Literary Texts. In: Bubenhofer et al. (Eds.): Visual Linguistics. Heidelberg: Heidelberg University Publishing, pp. 167–184. Barbaresi, A./Lemnitzer, L./Geyken, A. (2018): A database of German definitory contexts from selected web sources. In: 11th International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), pp. 3068–3073. Baroni, M./Bernardini, S./Ferraresi, A./Zanchetta, E. (2009): The WaCky Wide Web: a collection of very large linguistically processed web-crawled corpora. In: Language Resources and Evaluation, 43(3), pp. 209–226. Baroni, M./Ueyama, M. (2006): Building general- and special-purpose corpora by Web crawling. In: Proceedings of the 13th NIJL International Symposium, Language corpora: Their compilation and application, pp. 31–40. Bergh, G./Zanchetta, E. (2008): Web linguistics. In: Lüdeling, A./Kytö, M. (Eds.): Corpus Linguistics, An International Handbook. Berlin: Mouton de Gruyter, pp. 309–327. Berners-Lee, T. et al. (2006): A Framework for Web Science. In: Foundations and Trends in Web Science, 1(1), pp. 1–130. Biemann, C. et al. (2013): Scalable Construction of High-Quality Web Corpora. In: Journal for Language Technology and Computational Linguistics, pp. 23–59. Boyd, d. (2006): A Blogger’s Blog: Exploring the Definition of a Medium. In: Reconstruction, 6(4), pp. 1–21. Brügger, N. (2018): The archived web: Doing history in the digital age. Cambridge (MA): The MIT Press. Busse, D./Teubert, W. (2013): Ist Diskurs ein sprachwissenschaftliches Objekt? Zur Methodenfrage der historischen Semantik. In: D. Busse/W. Teubert (Eds.): Linguistische Diskursanalyse: Neue Perspektiven. Wiesbaden: Springer Fachmedien, pp. 13–30. https://doi.org/10.1007/978-3-531-18910-9_1 Cardon, D. et al. (2011): Two Paths of Glory – Structural Positions and Trajectories of Websites within Their Topical Territory. In: Fifth International AAAI Conference on Weblogs and Social Media, pp. 58–65. Dean, J. (2010): Blog Theory: Feedback and Capture in the Circuits of Drive. Cambridge (MA): Polity. Donahoe, E. (2017). Protecting Democracy from Online Disinformation Requires Better Algorithms, Not Censorship. In: Council on Foreign Relations (https://www.cfr.org/blog/protecting-democracy-online-disinformation-requires-better-algorithms-not-censorship) [Accessed 6 January 2020]. Foucault, M. (2015 [1975]). Surveiller et punir. In: Foucault, M., Oeuvres II, Paris: Gallimard, pp. 261–613.
156
A. Barbaresi und J. Pohlmann
Garden, M. (2012): Defining blog: A fool’s errand or a necessary undertaking. In: Journalism, 13(4), pp. 483–499. Geyken, A. et al. (2017): Die Korpusplattform des „Digitalen Wörterbuchs der deutschen Sprache“ (DWDS). In: Zeitschrift für germanistische Linguistik, 45(2), pp. 327–344. Glance, N. et al. (2004): Blogpulse: Automated trend discovery for weblogs. In: WWW 2004 workshop on the weblogging ecosystem: Aggregation, analysis and dynamics, volume 2004. Gries, S. (2009): What is Corpus Linguistics? Language and Linguistics. In: Compass, 3(5), pp. 1225–1241. Grimmer, J./Stewart, B. (2013): Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. In: Political Analysis, 21(3), pp. 267–297. https://doi. org/10.1093/pan/mps028 Harley, J. (1989): Deconstructing the map. Cartographica. In: The International Journal for Geographic Information and Geovisualization, 26(2), pp. 1–20. Hill, L. (2000): Core elements of digital gazetteers: place names, categories, and footprints. In: Borbinha J./Baker T. (Eds.): Research and Advanced Technology for Digital Libraries. Heidelberg, Berlin: Springer, pp. 280–290. Hendler, J. et al. (2008): Web Science: An Interdisciplinary Approach to Understanding the Web. In: Communications of the ACM, 51(7), pp. 60–69. Jacobsen, N. (2018): Nach Hass-Tweet von Beatrix von Storch: Twitter sperrt vorübergehend Konto, Polizei stellt Strafanzeige wegen Volksverhetzung. In: Meedia.De (https://meedia.de/2018/01/02/ nach-hass-tweet-von-beatrix-von-storch-twitter-sperrt-voruebergehend-konto-polizei-stellt-strafanzeige-wegen-volksverhetzung/) [Accessed 6 January 2020]. Keller, R. (2013a): Doing Discourse Research: An Introduction for Social Scientists. London: SAGE Publications Ltd. https://doi.org/10.4135/9781473957640 Keller, R. (2013b): Das Wissen der Wörter und Diskurse. In: Viehöver, W. et al. (Eds.): Diskurs—Sprache— Wissen. Wiesbaden: Springer Fachmedien, pp. 21–49. https://doi.org/10.1007/978-3-658-00493-4_2 Kilgarriff, A. (2007): Googleology is bad science. In: Computational Linguistics, 33(1), pp. 147–151. Lazzarato, M. (1996): Immaterial Labor. In: Virno, P./Hardy, M. (Eds.): Radical Thought in Italy. Minneapolis (MN): University of Minnesota Press, pp. 132–146. Lemke, M. et al. (Eds.) (2016): Text Mining in den Sozialwissenschaften: Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Wiesbaden: Springer VS. Lomborg, S. (2009): Navigating the blogosphere: Towards a genre-based typology of weblogs. In: First Monday, 14(5). Melo, F./Martins, B. (2017): Automated Geocoding of Textual Documents: A Survey of Current Approaches. Transactions. In: GIS, 21(1), pp. 3–38. Nieuwenhuis, A. (2000): Freedom of Speech: USA vs. Germany and Europe. In: Netherlands Quarterly of Human Rights, 18(2), pp. 195–217. Nouvel, D. et al. (2015): Les entités nommées pour le traitement automatique des langues. London: ISTE editions. Olston, C./Najork, M. (2010): Web Crawling. In: Foundations and Trends in Information Retrieval, 4(3), pp. 175–246. Ramsay, S. (2011): Reading Machines: Toward an Algorithmic Criticism. Urbana: University of Illinois Press. Rocamora, A. (2018): The labour of fashion blogging. In: Armstrong, L./McDowell, F. (Eds.): Fashioning Professionals - Identity and Creation at Work in the Creative Industries. London: Bloomsbury, pp. 65–81. Sampson, G. (2000): The role of taxonomy in language engineering. In: Philosophical Transactions of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences, 358(1769), pp. 1339–1355.
7 Mapping the German Tech Blog Sphere and Its Influence on Digital Policy
157
Schäfer, R. et al. (2014): Focused Web Corpus Crawling. In: Proceedings of the 9th Web as Corpus workshop (WAC-9) @ EACL 2014, pp. 9–15. Schulz, W. (2018): Regulating Intermediaries to Protect Privacy Online – The Case of the German NetzDG. Rochester (NY): Social Science Research Network. Spoustová, J./Spousta, M. (2012): A High-Quality Web Corpus of Czech. In: Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012), pp. 311–315. Stulpe, A./Lemke, M. (2016): Blended Reading. Theoretische und praktische Dimensionen der Analyse von Text und sozialer Wirklichkeit im Zeitalter der Digitalisierung In: Lemke, M./Wiedemann, G. (Eds.): Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Wiesbaden: Springer VS, pp. 17–61. Terranova, T. (2000): Free labor: Producing culture for the digital economy. In: Social Text 18(2), pp. 33–58. Ulrich, P. (2008): Diskursanalyse, Diskursforschung, Diskurstheorie: Ein- und Überblick. In: Kritik mit Methode? Forschungsmethoden und Gesellschaftskritik, Vol. 42, pp. 19–31. Weitin, T. (2017): Scalable Reading. In: Zeitschrift für Literaturwissenschaft und Linguistik, 47(1), pp. 1–6. https://doi.org/10.1007/s41244-017-0048-4 Westphal, B. (2014): Foreword. In: Tally, R. (Ed.): Geocritical Explorations: Space, Place, and Mapping in Literary and Cultural Studies. London: Palgrave Macmillan, pp. ix–xv. Wilkens, M. (2011): Contemporary Fiction by the Numbers. https://web.archive.org/ web/20180208085407/http://post45.research.yale.edu/2011/03/contemporary-fiction-by-the-numbers/ [Accessed 6 January 2020]. Wrisley, D. (2017): Locating Medieval French, or Why We Collect and Visualize the Geographic Information of Texts. In: Speculum, 92(1), pp. 145–169. Wulfman, C. (2014): The Plot of the Plot: Graphs and Visualizations. In: The Journal of Modern Periodical Studies, 5(1), pp. 94–109.
8
Politisches Gezwitscher in Text und Bild Multimodale Sentimentanalyse von Microblogs Stefan Ziehe und Caroline Sporleder
Inhaltsverzeichnis 8.1 E inleitung 8.2 Stand der Forschung 8.3 Multimodale Sentiment Analyse 8.3.1 Latent Multimodal Mixing 8.3.2 Textfeature-Extraktion 8.3.3 Bildfeature-Extraktion 8.3.4 Fusion 8.4 Daten 8.4.1 Columbia MVSO Image Sentiment Dataset 8.4.2 Photo Tweet Sentiment Benchmark 8.5 Ergebnisse 8.6 Fallstudie: Brexit und Wahl zum EU-Parlament 2019 8.6.1 Daten 8.6.2 Sentiment und Multimodalität 8.7 Schluss Literatur
160 162 163 163 163 164 165 165 165 166 166 169 169 172 174 175
S. Ziehe (*) Institut für Informatik, Georg-August-Universität Göttingen, Göttingen, Deutschland E-Mail: [email protected] C. Sporleder Institut für Informatik & Göttingen Centre for Digital Humanities, Georg-August-Universität Göttingen, Göttingen, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_8
159
160
S. Ziehe und C. Sporleder
Zusammenfassung Politischer Diskurs findet mehr und mehr (auch) in den sozialen Netzwerken statt. Besonders der Micro Blogging-Dienst Twitter spielt hier eine große Rolle. Für die Analyse von politischen Meinungsbildungsprozessen bietet sich daher eine computergestützte quantitative Auswertung von Micro Blogs an. Dabei ist nicht nur interessant, welche Themen diskutiert werden, sondern auch, wie die Kommunikationsteilnehmer zu diesen Themen stehen (positiv oder negativ). Verfahren der sogenannten Sentiment Analyse sind für Texte relativ gut erforscht. Twitter ist jedoch ein multimodales Medium, in dem insbesondere Bilder häufig zusammen mit Texten verschickt werden. Aufgrund der durch das Micro Blogging erzwungenen Kürze ergibt sich der Gehalt einer Nachricht in diesen Fällen oft erst aus der Kombination von Text und Bild. Eine rein textbasierte Sentiment Analyse liefert daher nur suboptimale Ergebnisse. Der vorliegende Aufsatz stellt ein Verfahren zur multimodalen Sentiment Analyse von Micro Blogs vor. Text- und Bildmerkmale werden dabei in einem Deep-Learning-Modell kombiniert. Das beste vorgestellte Modell erreicht gute Ergebnisse auf einem Benchmark-Datenset (Photo Tweet) und hat eine höhere Genauigkeit als unimodale Modelle. Im Rahmen einer Machbarkeitsstudie wurde das Modell zudem auf eine Tweet-Sammlung zum Brexit und zu den Wahlen für das Europaparlament 2019 angewendet. Schlüsselwörter
Deep Learning · NLP · Sentiment Analysis · Twitter · Brexit · Multimodalität · Social Media
8.1
Einleitung
In den vergangenen Jahren haben sich der öffentliche Diskurs und mit ihm die politische Meinungsbildung mehr und mehr auch in den Bereich der Online-Kommunikation, insbesondere auf Social-Media-Plattformen, ausgeweitet. Der Micro Blogging-Dienst Twitter spielt hierbei eine besondere Rolle, nicht nur für Politiker und Parteien, die Twitter für die direkte Kommunikation mit potenziellen Wählern nutzen, sondern auch für viele politisch interessierte Nutzer, die über dieses Medium miteinander diskutieren. Soziale Medien tragen damit nicht unerheblich zur politischen Meinungsbildung in Teilen der Bevölkerung bei, und eine – aufgrund der Datenmenge notwendigerweise automatisierte – Auswertung von Beiträgen politischen Inhalts ist potenziell interessant für Sozial-, Politik- und Kommunikationswissenschaftler. Beiträge in den sozialen Medien spiegeln oft Tendenzen in der Zufriedenheit mit politischen Parteien wider und helfen, umstrittene oder viel diskutierte Themen zu identifizieren. Auch das Kommunikationsverhalten verschiedener Gruppen lässt sich aus ihrer Interaktion bei Twitter analysieren, z. B. die unterschiedliche Dominanz
8 Politisches Gezwitscher in Text und Bild
161
von Echokammereffekten (vgl. Colleoni et al. 2014) oder die Verbreitung von Gerüchten und Fake News (vgl. Ma et al. 2018). Eine wichtige Rolle spielt dabei die Sentiment Analyse, die es erlaubt, zu identifizieren, ob ein Akteur Zustimmung oder Ablehnung zu einem bestimmten Inhalt signalisiert. Sentiment Analyse für Texte ist ein relativ gut erforschtes Feld. In der Regel wird dabei ganzen Dokumenten oder einzelnen Sätzen ein Polaritätswert (positiv, negativ) zugewiesen. Detailliertere Analysen, in denen neben der Polarität auch der Einstellungsträger („EU commissioner“ in Beispiel (1)) und das konkrete Einstellungsziel („Boris Johnson“ bzw. „Unelected PM“) identifiziert werden, sind deutlich schwieriger. Auch für die Ermittlung feinerer Sentiment Werte, z. B. von Basisemotionen (Angst, Überraschung etc.) gibt es bisher wenig Verfahren. Für die Analyse der vergleichsweise kurzen Micro Blogs ist die Berechnung der Polarität auf Blog-Ebene oft ausreichend. Viele Micro Blogging-Dienste, insbesondere Twitter, erlauben und fördern jedoch multimediale Beiträge, in denen Texte z. B. um Bilder oder Videos erweitert werden. Lee (2015) hat eine Million Tweets von US-amerikanischen Nutzern analysiert und dabei festgestellt, dass 42 % der Tweets ein Bild enthielten. Für den chinesischen Micro Blogging-Dienst Sina Weibo haben Chen et al. (2013) einen ähnlich hohen Prozentsatz ermittelt (45 %). Es ist zudem bekannt, dass multimodale Tweets häufiger weitergeleitet werden als rein textbasierte und damit potenziell eine größere Reichweite haben (vgl. Lee 2015; Wang et al. 2013; Zhao et al. 2012). Bilder tragen meist nennenswert zur Aussage eines Tweets bei. Beispielsweise ist der Text „und wieder ein neuer Morgen“ neutral formuliert, kann aber durch ein begleitendes Bild (wie in Abb. 8.1) eine positive Bedeutung gewinnen. Ebenso kann es sein, dass ein Tweet mit einem relativ neutralen Bild, z. B. von einem Politiker, lediglich über den Text ein positives oder negatives Sentiment zugewiesen bekommt. In diesem Aufsatz stellen wir einen multimodalen Ansatz zur Sentiment Analyse von Micro Blogs vor. Text- und Bildmerkmale werden dabei als Vektoren codiert und kombiniert. Als Lernarchitektur kommen Deep-Learning-Verfahren, d. h. tief geschachtelte neuronale Netze, zum Einsatz. Wir testen und vergleichen verschiedene Modelle und zeigen,
Abb. 8.1 Bild mit positivem Sentiment
162
S. Ziehe und C. Sporleder
dass das beste vorgestellte Modell gute Ergebnisse auf einem Benchmark-Datenset (Photo Tweet) und dabei eine höhere Genauigkeit erzielt als unimodale Modelle. Zur Illustration eines möglichen Anwendungsszenarios testen wir das Modell auf zwei Datensets mit politischen Tweets zum Brexit und zur Europawahl 2019.
8.2
Stand der Forschung
Sentiment Analyse für Textdaten ist ein aktives Forschungsfeld, das speziell die sozialen Medien im Blick hat. Mohammad et al. (2015) analysieren z. B. Tweets, die die US-amerikanischen Präsidentschaftswahlen des Jahres 2012 thematisieren, und lassen die ausgedrückten Emotionen bzw. das Sentiment (positiv, negativ, neutral), den Stil (einfache Frage oder Aussage, Übertreibung, Sarkasmus etc.) und den Zweck annotieren. Sie finden, dass der überwiegende Teil eine (meist negative) Emotion ausdrückt (88 %, davon 48 % ‚Disgust‘) und dem Zweck dient, jemanden oder etwas abzulehnen (58 %). Während das von Mohammad et al. entwickelte Verfahren zur automatischen Emotionserkennung mäßige Ergebnisse liefert, lassen sich Polaritäten in Tweet-Texten schon recht gut erkennen, trotz der Tatsache, dass Tweets aufgrund ihrer Kürze oft recht kryptisch sind. Das beste System im SemEval-2017 Shared Task Sentiment Analysis in Twitter (vgl. Rosenthal et al. 2017) hat bei der dreiklassigen Polaritätserkennung (positiv, negativ, neutral) mit einem Deep-Learning-Verfahren eine Accuracy von 66 % und einen F-Score von 69 % erreicht (Cliche 2017). Diese Ergebnisse sind jedoch in der Regel nur für rein textbasierte Tweets möglich. Die meisten existierenden Sentiment-Analyse-Verfahren beschränken sich auf die Verarbeitung entweder von Text- oder von Bilddaten. Modelle, die beide Modalitäten berücksichtigen, sind noch vergleichsweise selten, können jedoch eine signifikant höhere Genauigkeit bei der Sentiment Vorhersage erreichen als solche, die dies nicht tun (vgl. You et al. 2016). Fast alle multimodalen Verfahren nutzen eine Deep-Learning-Architektur. Solche Verfahren sind herkömmlichen Lernverfahren zwar oft überlegen, aber aufgrund der Vielzahl der möglichen Architekturen auch relativ schwer zu optimieren. Das Ziel dieser Arbeit ist es, verschiedene multimodale Sentiment-Analyse-Verfahren und -architekturen systematisch zu vergleichen und auf ihre Vor- und Nachteile hin zu untersuchen. Das grundsätzliche Schema der Modelle orientiert sich am Latent Multimodal Mixing (vgl. Bruni et al. 2014); hierbei werden zunächst Text- und Bildfeatures extrahiert, als Vektoren codiert und anschließend in einem dritten Schritt auf einen gemeinsamen (multimodalen) Vektorraum abgebildet (Fusion). Aus diesen Vektoren kann dann mit Methoden des maschinellen Lernens das Sentiment berechnet werden. Innerhalb dieses Schemas können beliebige und auch neuartige Kombinationen verschiedener Methoden zur Feature-Extraktion und Fusion verwendet werden. Hierfür gibt es unter anderem folgende Möglichkeiten: • Basierend auf einem existierenden Word-Embedding-Modell, z. B. GloVe (vgl. Pennington et al. 2014), können die Word Embeddings aller Wörter eines Textes auf ver-
8 Politisches Gezwitscher in Text und Bild
163
schiedene Arten zu einem Text Embedding aggregiert werden (z. B. gewichteter Mittelwert, elementweises Minimum/Maximum; vgl. De Boom et al. 2016). • Für die Extraktion visueller Features können bereits existierende Deep-Learning- Modelle zur Bildklassifikation in leicht modifizierter Form wiederverwendet werden (vgl. Campos et al. 2017). • Aus dem Farbhistogramm eines Bildes können statistische Features erster Ordnung berechnet werden. • Der Fusionsschritt besteht aus einer einfachen Verkettung der Text- und Bild-Vektoren; zusätzlich kann auch eine affine Projektion auf einen latenten multimodalen Vektorraum gelernt werden (vgl. Chen et al. 2017). Die Datengrundlage für das Training der Modelle bilden manuell annotierte multimodale Social-Media-Posts u. a. aus dem Photo Tweet Sentiment Benchmark (vgl. Borth et al. 2013) sowie das Columbia MVSO Image Sentiment Dataset (vgl. Dalmia et al. 2016). Aufgrund der unterschiedlichen Größe der Datensätze wird ein Transfer-Learning- Ansatz verfolgt: Die Modelle werden zunächst auf den MVSO-Daten trainiert und anschließend auf den Twitter-Daten evaluiert.
8.3
Multimodale Sentiment Analyse
8.3.1 Latent Multimodal Mixing Um multimodale Daten zu verarbeiten, ist ein entsprechendes semantisches Framework notwendig. Der hier verwendete Ansatz basiert auf Latent Multimodal Mixing (vgl. Bruni et al. 2014) und kann verwendet werden, um Deep-Learning-Modelle zu entwerfen. Die Verarbeitung der Daten erfolgt in mehreren Schritten (siehe Abb. 8.2). Zu Beginn werden sowohl aus dem Text als auch aus dem Bild Feature-Vektoren extrahiert. Die beiden Vektoren werden dann verkettet und in einem Fusionsschritt in einen gemeinsamen multimodalen Vektorraum abgebildet. Im letzten Schritt wird die eigentliche Klassifikation durchgeführt, in diesem Fall mittels einer Softmax-Schicht. Dieses Framework ermöglicht es, in jedem Schritt die Verfahren frei zu wählen und verschiedene Kombinationen zu testen.
8.3.2 Textfeature-Extraktion Die hier verwendeten Verfahren für die Extraktion von Textfeatures basieren auf Word Embeddings. Hierfür bietet sich das GloVe-Verfahren an (vgl. Pennington et al. 2014), da die Autoren auf der GloVe-Website1 bereits auf einem großen Twitter-Corpus trainierte Embeddings anbieten. 1
Siehe https://nlp.stanford.edu/projects/glove/.
164
S. Ziehe und C. Sporleder
Abb. 8.2 Multimodales semantisches Framework, basierend auf Latent Multimodal Mixing
Der Text wird tokenisiert, und die Tokens werden auf ihre jeweiligen Embeddings abgebildet. Die resultierenden Vektoren werden dann aggregiert (vgl. De Boom et al. 2016), damit man einen Feature-Vektor fester Größe erhält. Hier werden zwei verschiedene Aggregationsverfahren verwendet (siehe Abb. 8.3). Im ersten Verfahren wird der Mittelwert aller Word Embeddings berechnet. Das Ergebnis ist insofern für den Text repräsentativ, als es die Summe der quadratischen Distanzen zu allen Word Embeddings minimiert. Im zweiten Verfahren werden das elementweise Minimum und Maximum aller Word Embeddings berechnet und verkettet. Diese beiden Vektoren zusammen sind ebenfalls repräsentativ für den Text, da sie die Ecken des kleinstmöglichen Hyperrechtecks beschreiben, das alle Word Embeddings des Textes enthält.
8.3.3 Bildfeature-Extraktion Für die Feature-Extraktion von Bildern werden zwei Verfahren benutzt. Das erste Verfahren basiert auf der Annahme, dass sich das Sentiment eines Bildes in der Verteilung seiner Farben niederschlägt. Diese Verteilung kann durch verschiedene statistische Eigenschaften der Farbhistogramme für jeden Farbkanal beschrieben werden. In diesem Fall werden die folgenden Eigenschaften als Bildfeatures verwendet: Minimum, Maximum, Mittelwert, Standardabweichung, Schiefe und Shannon-Entropie (vgl. Shannon 1948). Eine weitere Möglichkeit besteht darin, existierende Modelle wiederzuverwenden. Beispielsweise haben Campos et al. (2017) ein Convolutional Neural Network für die Sentiment Klassifikation von Bildern trainiert. Die letzte Schicht dieses Netzwerks, die die Klassifikation vornimmt, kann entfernt und es kann die vorletzte Schicht als Feature- Extraktor benutzt werden. Ihre Aktivierungen stehen in einer engen Beziehung zu dem Sentiment des Bildes, da es durch die Anwendung nur einer einzigen Schicht klassifiziert werden kann.
8 Politisches Gezwitscher in Text und Bild
165
Abb. 8.3 Beispiele für die Extraktion von Textfeatures aus dem Beispielsatz „cats hate bananas“
8.3.4 Fusion Im Fusionsschritt werden die Text- und Bildfeatures auf einen gemeinsamen multimodalen Vektorraum abgebildet. Die einfachste Möglichkeit besteht darin, die Feature-Vektoren zu verketten und ohne weitere Verarbeitung diesen Vektor zu klassifizieren. Zusätzlich kann man aber auch mittels einer Netzwerkschicht eine affine Projektion lernen (vgl. Chen et al. 2017).
8.4
Daten
Die Deep-Learning-Modelle werden mithilfe von zwei bereits existierenden Datensätzen trainiert. Das Columbia MVSO Image Sentiment Dataset (vgl. Dalmia et al. 2016) dient als Trainingsdatensatz, wobei 10 % der Datenpunkte abgespalten werden, um das Modell während des Trainings zu evaluieren. Nach dem Training werden die Modelle dann auf dem Photo Tweet Sentiment Benchmark (vgl. Borth et al. 2013) getestet. Beide Datensätze bestehen aus Social-Media-Posts, die sowohl Bild als auch Text enthalten.
8.4.1 Columbia MVSO Image Sentiment Dataset Das Columbia MVSO Image Sentiment Dataset besteht aus 11.733 Flickr-Posts, die ein Bild und dazugehörige Metadaten einschließlich eines Beschreibungstextes enthalten. Die Posts wurden von drei Personen mit einem Wert zwischen −2 (sehr negatives Sentiment) und 2 (sehr positives Sentiment) annotiert. Für das Training kommen allerdings nur Posts
166
S. Ziehe und C. Sporleder
infrage, die eine klare Polarität haben. Deshalb werden diejenigen verworfen, deren durchschnittliche Bewertung 0 ist oder bei denen die Standardabweichung der Bewertungen größer als 1 ist. Auf diese Weise werden Posts aussortiert, deren Sentiment neutral ist oder bei denen sich die Annotationen nicht einig waren. Zusätzlich werden alle Posts mit leerem Beschreibungstext entfernt. Dadurch bleiben für die Trainingsdaten 7921 Posts mit positivem Sentiment und 833 Posts mit negativem Sentiment. Um dieses Ungleichgewicht auszugleichen, werden negative Posts während des Trainings um den Faktor 5 höher gewichtet.
8.4.2 Photo Tweet Sentiment Benchmark Der Photo Tweet Sentiment Benchmark besteht aus Tweets, die während der US-Präsi dentschaftswahl im November 2012 gesammelt wurden. Die Tweets wurden danach ausgewählt, ob sie sowohl ein Bild als auch einen der folgenden Hashtags enthielten: # abortion, #religion, #cancer, #aids, #memoriesiwontforget, #gaymarriage, #police, # nuclearpower, #globalwarming, #election, #hurricanesandy, #occupywallstreet, #agt, #nfl, #blackfriday, #championsleague, #decemberwish, #obama, #zimmerman, #cairo, #newyork, #android, #iphonefan, #kodak, #androidgame, #applefan. Jeder gefundene Tweet wurde von drei Personen annotiert und in den Datensatz aufgenommen, wenn die Bewertungen übereinstimmten. Insgesamt besteht er aus 603 Tweets, von denen 563 eine lesbare Bilddatei und nichtleeren Text haben. Davon haben 434 Tweets ein positives Sentiment und 129 ein negatives Sentiment. Zusätzlich haben Borth et al. (2013) einen multimodalen Sentiment-Klassifikator basierend auf logistischer Regression trainiert, der eine Treffergenauigkeit von 0,72 erreicht. Dieser kann als Goldstandard dienen.
8.5
Ergebnisse
Für die folgenden Experimente werden Modelle trainiert und getestet, die aus Kombinationen verschiedener Feature-Extraktions- und Fusionsschritten bestehen. Jeder dieser Schritte wird einem Schlüsselwort zugewiesen: • • • • • • •
GloVe-Mittelwert: text_mean GloVe-Min./Max.: text_box Farbhistogramme: image_histograms Wiederverwendetes CNN: image_cnn Fusion durch Verkettung: concat Fusion durch affine Projektion: dense Zusätzliche Dropout-Regularisierung (vgl. Srivastava et al. 2014): dropout
8 Politisches Gezwitscher in Text und Bild
167
Mithilfe dieser Schlüsselwörter werden auch die Modelle benannt. Beispielsweise heißt das Modell, das GloVe-Mittelwerte, Farbhistogramme und Fusion durch Verkettung benutzt, text_mean_concat_image_histograms. Außerdem gibt es drei Modelle, die spezielle Namen verwenden: text_baseline benutzt nur GloVe-Mittelwerte und ignoriert das Bild, image_baseline benutzt nur Farbhistogramme und ignoriert den Text, und sentiment_cnn_only wendet das unmodifizierte CNN-Modell von Campos et al. (2017) auf das Bild an und ignoriert den Text. Nach dem Training wird jedes Modell auf dem Photo Tweet Sentiment Benchmark getestet. Die Ergebnisse sind in Tab. 8.1 und Abb. 8.4 zu finden. Es lässt sich beobachten, dass die folgenden Modelle die Genauigkeit des Goldstandards übertreffen: • • • • • •
text_baseline text_mean_concat_image_histograms text_mean_dense_image_histograms text_box_dense_image_histograms text_mean_concat_image_cnn text_box_dense_image_cnn
Allerdings erreichen viele der Modelle keine hohen Spezifitätswerte (siehe Abb. 8.5), was vermutlich an der ungleichen Verteilung der Sentiments in den Datensätzen liegt. In Tab. 8.1 Testergebnisse aller Modelle. Für jede Metrik ist das beste Ergebnis hervorgehoben Modell image_baseline sentiment_cnn_only text_baseline text_mean_concat_image_ histograms text_mean_dense_image_ histograms text_box_concat_image_ histograms text_box_dense_image_ histograms text_mean_concat_image_ cnn text_mean_dense_image_ cnn text_box_concat_image_cnn text_box_dense_image_cnn text_box_concat_image_ histograms_dropout text_mean_dense_image_ cnn_dropout
Relevanz 0,774 0,813 0,787 0,784
Sensitivität 0,839 0,753 0,896 0,979
F1-Maß 0,805 0,782 0,838 0,871
Spezifität 0,178 0,419 0,186 0,093
Genauigkeit 0,687 0,677 0,734 0,776
0,781
0,970
0,865
0,085
0,767
0,805
0,419
0,552
0,659
0,474
0,779
0,982
0,869
0,062
0,771
0,780
0,972
0,866
0,078
0,767
0,805
0,806
0,806
0,341
0,700
0,818 0,788 0,775
0,578 0,915 0,975
0,677 0,846 0,863
0,566 0,171 0,047
0,575 0,744 0,762
0,816
0,765
0,790
0,419
0,686
168
S. Ziehe und C. Sporleder
Abb. 8.4 Genauigkeit der Modelle und Vergleich mit dem Goldstandard
Abb. 8.5 Spezifität der Modelle
8 Politisches Gezwitscher in Text und Bild
169
einem weiteren Experiment wurden daher zwei weitere Modelle mit zusätzlicher Dropout- Regularisierung (vgl. Srivastava et al. 2014) trainiert, die sich aber ebenfalls so verhalten. Eine weitere interessante Beobachtung betrifft den Trainingsverlauf der Modelle. Es zeigt sich, dass Modelle, die für den Fusionsschritt eine affine Projektion verwenden, einen stabileren Verlauf haben als Modelle, die nur die Feature-Vektoren verketten. Das ist ein Hinweis darauf, dass die zusätzliche Netzwerkschicht gebraucht wird, damit man eine ausreichende Kapazität erreicht (Abb. 8.6).
8.6
Fallstudie: Brexit und Wahl zum EU-Parlament 2019
Im letzten Abschnitt haben wir gezeigt, dass multimodale Sentiment Analyse zu einer höheren Genauigkeit führen kann als unimodale Modelle. In einer Fallstudie haben wir das Modell text_mean_dense_image_cnn_dropout auf zwei Datensätze von Tweets mit politischem Inhalt angewendet. Diese Fallstudie sollte natürlich nicht als vollausgereifte sozial- oder medienwissenschaftliche Studie angesehen werden, sondern soll lediglich dazu dienen, das Anwendungspotenzial einer multimodalen Sentiment Analyse von Micro Blogs zu demonstrieren.
8.6.1 Daten Zwischen dem 15. und dem 25. Mai haben wir über die Twitter-API zwei Millionen englischsprachige Tweets zu den Themen ‚Brexit‘ und ‚EU-Wahlen 2019‘ gesammelt. Im Vorfeld wurden stichprobenartig typische Hashtags und Schlüsselwörter für die beiden Themenbereiche identifiziert und mithilfe der Twitter-API Tweets gesammelt, die diese
Abb. 8.6 Beispielhafter Vergleich der Trainingsverläufe zweier Modelle
170
S. Ziehe und C. Sporleder
Tags und Schlüsselwörter enthielten.2 Für die EU-Wahl waren dies die folgenden drei Hashtags: #EuropeanElections2019, #EUElections2019, #EuropeanElections. Für den Brexit haben wir neutrale und lagerspezifische (Remain vs. Leave) Hashtags identifiziert. Letztere wurden in unserer Stichprobe fast ausschließlich durch Vertreter des jeweiligen Lagers verwendet. Ebenso wurde eine kleine Anzahl von Tags identifiziert, die uns besonders emotional aufgeladen erschienen, insbesondere solche mit abwertenden Namen für den jeweiligen Gegner (z. B. ‚remoaner‘ als Pejorativ für EU-Befürworter). Unsere Hypothese war, dass Tweets mit solchen Hashtags auch einen höheren (vermutlich negativen) Sentiment Wert haben. Bei der Auswahl der Hashtags wurde darauf geachtet, ungefähr gleich viele für beide Lager zu wählen. Zu guter Letzt haben wir Tweets extrahiert, die die Hashtags von Parteien enthalten, deren Programm sich fast ausschließlich auf den Brexit bezieht. Für die Brexit-Befürworter sind dies die UK Independence Party (UKIP) und die Brexit Party, für die Gegner ist dies Change UK. Die vollständige Liste der Hashtags und Schlüsselwörter ist: Neutral • #brexit • Brexit (ohne #) • #EUref • #leave • #remain • #MaysDeal • #nodealbrexit Remain • #peoplesvote • #EURef2 • #PutItToThePeople • #stopbrexit • #stopbrexitnow • #exitbrexit • #RevokeArticle50 • #RevokeA50Now • #RevokeA50 • #RemainBacklash • #RevokeRemainRebuild • #RevoteRevokeRemain • #ProEU • #BinBrexit Dies bedeutet nicht, dass alle solchen Tweets gesammelt wurden, da die Twitter-API unter den Tweets, die die Suchkriterien erfüllen, nochmals zufällig selektiert. 2
8 Politisches Gezwitscher in Text und Bild
171
• #BrexitBus • #RemainerNow Remain (aufgeladen) • #brexshit • #brexshitter • #bollockstobrexit • #brexitshambles • #brexitlies Leave • #WTOleave • #WTObrexit • #WTOBrexitNow • #LetsGoWTO • #GoWTO • #LeaveEU • #leaveeunow • #leavenow • #Leavemeansleave • #BrexitMeansBrexit • #BrexitBetrayal • #respectDemocracy3 • #StandUpForBrexit • #StandUpForDemocracy • #NoDealNoProblem Leave (aufgeladen) • #remoan • #remoaner • #remaniac • #ProjectFear • #RemainLies Brexit-Single-Issue-Parteien • #ChangeUK • #Ukip • #Brexitparty Die Hashtags #respectDemocracy und #standUpForDemocracy muten neutral an, wurden aber im Rahmen der Brexit-Diskussion für den genannten Zeitraum in unserer Stichprobe ausschließlich vom Leave-Lager verwendet.
3
172
S. Ziehe und C. Sporleder
8.6.2 Sentiment und Multimodalität Lediglich 2,5 % der Tweets in unserer Sammlung enthalten ein (statisches) Bild. Weitere 2,5 % bestehen aus animierten GIFs. Dies ist ein deutlich geringerer Anteil als die von Lee (2015) und Chen et al. (2013) genannten Werte von über 40 %. Dies mag an verschiedenen Faktoren liegen. Lees Sammlung enthält ausschließlich Tweets von – an der US- amerikanischen Westküste ansässigen – Nutzern des Buffer-Dienstes, ist thematisch aber nicht weiter eingeschränkt. Chens Daten stammen von Nutzern des chinesischen Dienstes Sina Weibo und sind ebenfalls nicht thematisch gefiltert. Unsere Sammlung dagegen enthält Tweets mit politischem Inhalt von vermutlich zumeist europäischen Nutzern. Es ist möglich, dass politische Tweets allgemein weniger Bilder enthalten und/oder dass sich das Tweet-Verhalten europäischer und US-amerikanischer bzw. chinesischer Nutzer unterscheidet. Der Datensatz besteht zu 49,31 % aus Brexit-Tweets, innerhalb derer der überwiegende Teil (95,74 %) keinem der beiden Lager zuzuordnen war. Dies sind z. B. Nachrichten von Zeitungsverlagen. Von den übrigen Tweets enthielten 90,31 % Hashtags, die darauf hindeuten, dass der Absender den Brexit-Gegnern angehört. Lediglich 9,69 % konnten den Befürwortern zugeordnet werden. Die ungleiche Verteilung der beiden Lager kann zum einen ein Artefakt der Selektionskriterien sein, d. h. möglicherweise waren die von uns ausgewählten Indikator-Hashtags für Leave weniger empfindlich als die für Remain. Es ist aber auch möglich, dass das Remain-Lager im Sammelzeitraum (Anfang Mai 2019) tatsächlich aktiver war. In dieser Phase war die Abstimmung über das von Theresa May ausgehandelte Austrittsabkommen im Parlament des Vereinigten Königreichs bereits mehrfach gescheitert und das ursprünglich geplante Austrittsdatum (29.03.2019) verstrichen. Es gab mehrere Parteiaustritte von Abgeordneten sowohl der Labour Party als auch bei den Tories, die schließlich – im Vorfeld zur EU-Wahl am 26.05.2019 – zur Gründung der proeuropäischen Partei Change UK führten. Nachdem der Brexit lange Zeit als unausweichlich gegolten hatte, schien ein Verbleib in der EU jetzt zumindest nicht mehr ganz ausgeschlossen. Ein Vergleich der Tweets mit moderaten und mit emotional aufgeladenen Hashtags deutet ebenfalls darauf hin, dass die Brexit-Gegner zu diesem Zeitpunkt aktiver und vielleicht auch etwas aggressiver waren als die Befürworter (siehe Abb. 8.7): In beiden Lagern überwiegen die Tweets mit moderaterem Inhalt, der Anteil der aufgeladenen Tweets ist jedoch für Remain etwas höher als für Leave. Es ist bekannt, dass Bilder den emotionalen Gehalt einer Nachricht unterstreichen können und zu diesem Zweck auch oft in Micro Blogs verwendet werden (vgl. Chen et al. 2013). Es stellt sich daher die Frage, ob emotional aufgeladene Tweets öfter bebildert werden als moderate Tweets. Die Abb. 8.8 zeigt den Prozentsatz von Tweets mit Bild für die beiden Lager und für alle Brexit-Tweets. Für Remain und die Gesamtmenge ist der Anteil bebilderter Tweets tatsächlich deutlich höher, wenn der Tweet auch einen aufgeladenen Hashtag enthält. Für Leave ist die Tendenz umgekehrt. Dies mag allerdings an der geringen Datenmenge liegen, die verlässliche Aussagen erschwert. Lediglich 382 Leave- Tweets enthalten aufgeladene Hashtags und nur elf dieser Tweets sind bebildert.
8 Politisches Gezwitscher in Text und Bild
173
Abb. 8.7 Moderate vs. emotional aufgeladene Tweets
Abb. 8.8 Anteil der bebilderten Tweets
Nachdem wir die Tweets in einem ersten Schritt anhand der Verteilung von Bildern und Hashtags ausgewertet hatten, sollten im nächsten Schritt die Sentiment Klassifikationen mit herangezogen werden. Da die multimodale Sentiment Analyse relativ zeitaufwendig ist, haben wir die folgenden Experimente mit einem Sample von 10.000 bebilderten Tweets durchgeführt. Die Abb. 8.9 zeigt die automatisch berechneten Sentiment Werte für die Daten. Die Werte geben an, ob ein Tweet eher positiv oder eher negativ ist. Das Einstellungsziel wird jedoch nicht berechnet. So kann ein positiver Tweet eines Brexit- Gegners eine positive Grundstimmung ausdrücken, z. B. in Bezug auf eine Anti-Brexit-
174
S. Ziehe und C. Sporleder
Abb. 8.9 Verteilung der berechneten Sentiment Werte für das Brexit-Datenset
Demonstration. Es fällt auf, dass mit ungefähr 50 % ein relativ hoher Prozentsatz der Tweets als positiv klassifiziert wurde. Dies ist für politische Tweets ungewöhnlich, da frühere Studien nahelegen, dass für diesen Themenbereich eher negatives Sentiment dominant ist (vgl. Mohammad et al. 2015). Dies kann jedoch auch durch eine gewisse Tendenz des Klassifikators (in Richtung positiver Polarität) bedingt sein. Diese hatte sich bereits in der Evaluation auf dem Foto Tweet Sentiment Benchmark angedeutet. Das Remain-Lager allgemein ist dabei überwiegend positiv gestimmt (54,87 % positive Tweets), während das Leave-Lager in der Tendenz eher etwas negativer ist (46,15 % positiv). Die von uns als emotional aufgeladen klassifizierten Tweets der Brexit-Gegner werden jedoch in der Mehrzahl negativ klassifiziert (49,38 % positiv). Für emotional aufgeladene Tweets der Befürworter ist die Datenmenge zu klein für verlässliche Aussagen. Für die bebilderten Tweets mit Bezug zur EU-Wahl sieht das Ergebnis ähnlich aus: 50,55 % wurden als positiv klassifiziert.
8.7
Schluss
Wir haben einen Ansatz zur multimodalen Sentiment Analyse vorgestellt. Hierbei werden Text- und Bildmerkmal als Vektoren codiert und in einer Deep-Learning-Architektur kombiniert (Fusion). Deep-Learning-Verfahren sind aufgrund ihrer Komplexität und Vielzahl von Parametern nicht leicht zu optimieren. Wir haben daher verschiedene Modelle auf einem multimodalen Benchmark-Datensatz getestet. Dabei hat es sich als sinnvoll herausgestellt, im Fusionsschritt eine affine Projektion zu verwenden, da die bloße Verkettung der Merkmalsvektoren weniger stabil ist. Multimodale Modelle waren unimodalen Modellen überlegen, was darauf hindeutet, dass Text und Bild in Micro Blogs tatsächlich oft
8 Politisches Gezwitscher in Text und Bild
175
komplementär sind und für die Berechnung des Sentiments zusammen betrachtet werden müssen. In einem zweiten Schritt haben wir ein Modell auf zwei aktuelle Datensätze zu den Themen ‚Brexit‘ und ‚EU-Wahlen 2019‘ angewendet, um aufzuzeigen, wie eine multimodale Analyse von Beiträgen in den sozialen Medien aussehen könnte. Dabei hat sich angedeutet, dass politische Tweets im Allgemeinen deutlich weniger bebildert sind als Tweets aus breiteren Themenbereichen. Emotional aufgeladene Tweets werden jedoch tendenziell häufiger mit einem Bild kombiniert als neutrale. Zudem haben wir Hinweise gefunden, dass die Online-Kommunikation der Brexit-Gegner im Untersuchungszeitraum aktiver und optimistischer gestimmt war als die der Befürworter. Obwohl das vorgestellte Sentiment-Analyse-Modell recht gute Ergebnisse liefert, gibt es doch Verbesserungspotenzial. Zum einen besteht aufgrund des unausgewogenen Trainingssets eine Tendenz, positives Sentiment etwas zu häufig vorherzusagen. Auch sind die verfügbaren, manuell annotierten multimodalen Datensätze recht klein, sodass die Erstellung besserer Trainingsdaten sinnvoll wäre. Zudem gibt es sowohl bei der Text- als auch bei der Bildverarbeitung Verbesserungspotenzial, z. B. durch Verwendung von Paragraph Vectors (vgl. Le und Mikolov 2014) oder Hinzuziehen von besseren visuellen Modellen (z. B. zur Objekterkennung).
Literatur Borth, D. et al. (2013): Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs. In: Proceedings of the 21st ACM International Conference on Multimedia. New York (NY): ACM, S. 223–232. Bruni, E./Tran, N. K./Baroni, M. (2014): Multimodal Distributional Semantics. In: Journal of Artificial Intelligence Research 49 (1), S. 1–47. Campos, V./Jou, B./Giró-i-Nieto, X. (2017): From Pixels to Sentiment: Fine-tuning CNNs for Visual Sentiment Prediction. In: Image and Vision Computing 65, S. 15–22. Chen, T. et al. (2013): Understanding and Classifying Image Tweets. In: Proceedings of the 21st ACM International Conference on Multimedia. New York (NY): ACM, S. 781–784. Chen, X./Wang, Y./Liu, Q. (2017): Visual and Textual Sentiment Analysis Using Deep Fusion Convolutional Neural Networks. In: 2017 IEEE International Conference on Image Processing. Proceedings. Piscataway (NJ): IEEE, S. 1557–1561. Cliche, M. (2017): BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs. In: 11th International Workshop on Semantic Evaluation (SemEval-2017). Proceedings of the Workshop. Stroudsburg (PA): ACL, S. 573–580. Colleoni, E./Rozza, A./Arvidsson, A. (2014): Echo Chamber or Public Sphere? Predicting Political Orientation and Measuring Political Homophily in Twitter Using Big Data. In: Journal of Communication 64 (2), S. 317–332. Dalmia, V./Liu, H./Chang, S.-F. (2016): Columbia MVSO Image Sentiment Dataset. In: arXiv.org (arXiv:1611.04455) [letzter Zugriff: 19.02.2020]. De Boom, C. et al. (2016): Representation learning for very short texts using weighted word embedding aggregation. In: Pattern Recognition Letters 80, S. 150–156.
176
S. Ziehe und C. Sporleder
Le, Q./Mikolov, T. (2014): Distributed Representations of Sentences and Documents. In: Xing, E. P./ Jebara, T. (Hg.): The 31st International Conference on Machine Learning (Proceedings of Machine Learning Research; 32), S. 1188–1196. Lee, K. (2015): What analyzing 1 million tweets taught us. In: The Next Web (https://thenextweb. com/socialmedia/2015/11/03/what-analyzing-1-million-tweets-taught-us/) [letzter Zugriff: 15.04.2019]. Ma, J./Gao, W./Wong, K. F. (2018): Rumor Detection on Twitter with Tree-Structured Recursive Neural Networks. In: The 56th Annual Meeting of the Association for Computational Linguistics. Proceedings of the Conference, Bd. 1: Long Papers. Stroudsburg (PA): ACL, S. 1980–1989. Mohammad, S. M. et al. (2015): Sentiment, Emotion, Purpose, and Style in Electoral Tweets. In: Information Processing & Management 51 (4), S. 480–499. Pennington, J./Socher, R./Manning, C. D. (2014): GloVe: Global Vectors for Word Representation. In: The 2014 Conference on Empirical Methods in Natural Language Processing. Proceedings of the Conference. Stroudsburg (PA): ACL, S. 1532–1543. Rosenthal, S./Farra, N./Nakov, P. (2017): SemEval-2017 Task 4: Sentiment Analysis in Twitter. In: 11th International Workshop on Semantic Evaluation (SemEval-2017). Proceedings of the Workshop. Stroudsburg (PA): ACL, S. 502–518. Shannon, C. E. (1948): A mathematical theory of communication. In: The Bell System Technical Journal 27 (3), S. 379–423. Srivastava, N. et al. (2014): Dropout: A Simple Way to Prevent Neural Networks from Overfitting. In: Journal of Machine Learning Research 15 (1), S. 1929–1958. Wang, J. et al. (2013): What on Earth Drive the Propagation of Tweets on Chinese MicroBlog Network. In: Lu, W. et al. (Hg.): Proceedings of the 2012 International Conference on Information Technology and Software Engineering. Berlin, Heidelberg: Springer, S. 55–63. You, Q. et al. (2016): Cross-modality Consistent Regression for Joint Visual-Textual Sentiment Analysis of Social Multimedia. In: Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. New York (NY): ACM. Zhao, X. et al. (2012): Impact of Multimedia in Sina Weibo: Popularity and Life Span. In: Joint Conference of 6th Chinese Semantic Web Symposium and the First Chinese Web Science Conference (https://ink.library.smu.edu.sg/sis_research/1735) [letzter Zugriff: 19.02.2020].
9
Followings, Retweets, Favs Netzwerke der inhaltlichen Rezeption und Affirmation auf Twitter Samuel Breidenbach, Peter Klimczak und Nicolas Schilling
Inhaltsverzeichnis 9.1 T echnische Operatoren als Funktionalisierung der Kommunikation 9.1.1 Technische Funktionen des Kurznachrichtendienstes Twitter 9.1.2 Twitters Operatoren und Öffentlichkeit auf Twitter 9.2 Netzwerkanalysen von Twitter-Daten 9.3 Netzwerk- und Twitter-Crawler 9.4 Netzwerke der gegenseitigen Rezeption und inhaltlichen Affirmation 9.4.1 Methode zur automatisierten Netzwerkerschließung 9.4.2 Funktionsweise des Netzwerkcrawlers 9.4.3 Diskussion der Erhebungsmethode 9.5 Das Twitter-Netzwerk der Identitären Bewegung 9.5.1 Ideologische Verortung und Aktionsformen der IB 9.5.2 Die IB auf Twitter 9.5.3 Ergebnisse der Netzwerkanalyse 9.6 Fazit Literatur
179 179 181 186 189 191 191 192 196 200 200 201 201 206 207
S. Breidenbach (*) · P. Klimczak Fachgebiet für Angewandte Medienwissenschaften, Brandenburgische Technische Universität, Cottbus, Deutschland E-Mail: [email protected]; [email protected] N. Schilling Institut für Informatik, Technische Universität Dresden, Dresden, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Klimczak et al. (Hrsg.), Soziale Medien, ars digitalis, https://doi.org/10.1007/978-3-658-30702-8_9
177
178
S. Breidenbach et al.
Zusammenfassung Der Beitrag stellt ein Verfahren zur Datenerhebung und Analyse eines Twitter-Accounts und seines Umfelds auf der Plattform vor. Beziehungen innerhalb dieses Twitter-Netzwerks sind durch ein reziprokes Followerinnen-Verhältnis und an andere Accounts vergebene Retweets und Favs definiert. Zur Kontextualisierung der Methode werden zuerst die von Twitter zur Verfügung gestellten technischen Operatoren, die es erlauben, Verweise in den Tweet-Texten als Links zu explizieren, vorgestellt und verschiedene Interpretationsmöglichkeiten der Verwendung dieser Operatoren diskutiert. Anschließend werden bereits existierende Ansätze zur Analyse von Netzwerken auf Twitter und zur Datenerhebung mittels (Twitter-)Netzwerkcrawlern beschrieben, bevor im Vergleich die besonderen Eigenschaften des hier entwickelten Verfahrens herausgestellt werden. Die Funktionsweise des Netzwerkcrawlers wird ausführlich vorgestellt, und diese Methode wird in einer Beispielanalyse auf den Twitter-Account der Identitären Bewegung Deutschland angewandt. Schlüsselwörter
Netzwerkanalyse · Netzwerkcrawler · Twitter · Operatoren · Identitäre Bewegung`
Die Visualisierung und Analyse von Netzwerken zählt zu den primären Feldern der Social-Media-Forschung (vgl. Stieglitz et al. 2014, S. 107; Bürger und Dang-Anh 2014, S. 292) wobei in der Praxis sehr unterschiedliche Formen existieren, die unterschiedliche Auffassungen davon haben, welche konkreten Beziehungsverhältnisse als Netzwerk analysiert und gegebenenfalls auch visualisiert werden. Jedwede Verbindung, in der Ursprung und Ziel definierbar sind, genauso wie die ungerichtete Verbindung zweier Entitäten, lässt sich in einem Netzwerkgraphen als Kante zwischen zwei Knoten darstellen: Abhängig vom verwendeten Datenmaterial können im Fall von Twitter etwa die Follower-Beziehungen mehrerer Accounts oder die Retweets oder Mentions eines bestimmten Accounts als gerichtete Verbindungen dargestellt werden (Ursprung = Urheberin1 eines Tweets, Ziel = Account, der den Tweet retweetet hat). Das gemeinsame Auftreten von mehreren Hashtags in Tweets würde hingegen als eine ungerichtete Verbindung im Netzwerkgraphen erscheinen. Auf Grundlage des ersten optischen Eindrucks unterscheiden sich solche unterschiedlichen Netzwerkgraphen kaum – hinsichtlich der aus ihnen ableitbaren Interpretationen hingegen offensichtlich sehr. Angaben wie Hashtags, Mentions oder retweetete Accounts lassen sich aus den vom Twitter-API2 ausgegebenen Daten relativ einfach auslesen und durch die Visualisierung Wir haben versucht konsequent das generische Femininum zu verwenden. Ausnahmen sind lediglich dann vorzufinden, wenn sie grammatisch notwendig waren. 2 Application Programming Interface, eine Schnittstelle über die das Empfangen und Senden von (Twitter-)Daten für Drittanbietersoftware oder selbst programmierte Anwendungen erfolgt. 1
9 Followings, Retweets, Favs
179
ihrer Beziehungen untereinander für die weitere Analyse aufbereiten, weshalb solche Untersuchungen technisch weit weniger anspruchsvoll als etwa Inhaltsanalysen mittels der Bestimmung von Sentiments oder Topics in einem Tweet sind.3 Die verschiedenen Beziehungsverhältnisse wie Followings, Mentions oder Retweets besitzen jedoch ebenfalls große Aussagekraft: Die eher langfristige Follower-Beziehung zweier Accounts bestimmt über einen längeren Zeitraum, wessen Inhalte im Feed eines Accounts angezeigt werden. Die Beziehungen von Accounts, die nur einmalig ein gemeinsames Hashtag verwenden, sich mit diesem performativen Akt aber bewusst an einer gemeinsamen Debatte beteiligen, zeigen hingegen ganz andere Qualitäten. Wegen dieser unterschiedlichen Aussagekraft der verschiedenen darstellbaren Beziehungsverhältnisse werden die Verfahren zur Analyse von Followings, Mentions oder Hashtags in der Praxis häufig kombiniert. Während sich die bisherige Netzwerkforschung anhand von Twitter zumeist auf die Analyse von Ereignissen wie der Kommunikation rund um bestimmte Hashtags konzen triert hat, soll im Folgenden eine Methode zur Netzwerkerhebung und -analyse vorgestellt werden, die sich auf das konkrete Umfeld eines bestimmten Twitter-Accounts bezieht. Hierfür wird ermittelt, mit welchen anderen Userinnen dieser Account – sowie in der weiteren Betrachtung sein Netzwerk – interagiert, indem diese Accounts einander folgen und mittels Twitters technischer Operatoren gegenseitig auf ihre Tweets reagieren. Dafür werden zunächst in Abschn. 9.1 die verschiedenen technischen Operatoren von Twitter in ihren Funktionen für die dortige Kommunikation vorgestellt. Die Beschreibung im Zusammenhang mit dem Phänomen öffentlicher Diskurse auf Twitter soll dabei Aufschluss über ihre spezifische Funktion sowie aus ihrer Verwendung ableitbare Interpretationen von ihnen womöglich zugrunde liegenden Intentionen geben. In Abschn. 9.2 werden verschiedene Verfahren zur Analyse der durch Followings oder Retweets erzeugten Netzwerke sowie in Abschn. 9.3 verschiedene Verfahren zum Crawlen von Netzwerken vorgestellt, um deren spezifischen Mehrwert oder auch Schwachstellen aufzuzeigen, bevor in Abschn. 9.4 ein eigenes Verfahren zur Netzwerkermittlung, -abfrage und -analyse vorgestellt (Abschn. 9.4.1 und 9.4.2) und diskutiert wird (Abschn. 9.4.3). Diese Methode wird in Abschn. 9.5 auf den Twitter-Account der Identitären Bewegung Deutschland angewandt, deren Ideologie und Aktionsformen in Abschn. 9.5.1 kurz kontextualisiert werden.
9.1
echnische Operatoren als Funktionalisierung T der Kommunikation
9.1.1 Technische Funktionen des Kurznachrichtendienstes Twitter Der Kurznachrichtendienst Twitter stellt verschiedene technische Funktionen zur Verfügung, um innerhalb der auf 280 begrenzten Zeichenanzahl eines Tweets verschiedene Vgl. etwa Ziehe/Sporleder im vorliegenden Band, die ein Verfahren zur Bestimmung multimodaler Sentiments auf der Grundlage von Texten und Bildern vorstellen.
3
180
S. Breidenbach et al.
kommunikative Bezüge einzubinden. Diese technischen und zugleich kommunikativen Funktionen, in der deutschen Forschungsliteratur als Operatoren bezeichnet, ermöglichen es, Verweise auf Inhalte oder Personen in der eigenen Kommunikation als Links zu explizieren und/oder gleichzeitig mit anderen Accounts und deren Beiträgen zu interagieren. Für diese technisch geformte, kommunikative Bezugnahme oder Interaktion bietet Twitter folgende Möglichkeiten: Tweets können Hashtags (#), Erwähnungen und Verlinkungen anderer Accounts (Mentions), Weblinks (http://) oder verschiedene Medieninhalte wie Fotos, Videos oder GIFs enthalten. Die Tweets anderer können retweetet werden (RT), wodurch sie nicht nur den Followerinnen des Urheberin-Accounts in ihrem Newsfeed angezeigt werden, sondern auch den Followerinnen derjenigen Accounts, welche den Beitrag retweetet haben. Einzelne Tweets können auf diese Weise prinzipiell (relativ) unabhängig von der Followerinnen-Anzahl des Urheberin-Accounts eine große Reichweite innerhalb von Twitter erreichen. Ähnlich können die Tweets anderer im eigenen Tweet als kommentierter Retweet (Quote) zitiert werden, wobei diese Twitter-Funktion durchschnittlich sehr selten genutzt wird, was auf die stets vorhandene potenzielle Divergenz von technischen Möglichkeiten und spezifischen Nutzungspraktiken technischer Medien verweist. Auf die Beiträge anderer kann geantwortet werden (Reply); diese Antworten werden unterhalb der erweiterten (nach Anklicken des Tweets angezeigten) Ansicht eines Tweets angezeigt. In diese Antworten auf einen bestimmten Tweet wird von Twitter automatisch zu Beginn ein Mention des Accounts, auf dessen Tweet geantwortet wurde, eingefügt. Zuletzt können die Beiträge anderer favorisiert werden (Fav).4 Die Anzahl an jeweils erhaltenen Antworten, Favs und Retweets – jedoch nicht Quotes – wird in jedem Tweet angezeigt. In der gängigen Forschungsliteratur zum Thema der Verbindung dieser Operatoren mit dem Phänomen der Öffentlichkeit auf Twitter werden vor allem die Funktionen des (unkommentierten) Retweets sowie des Einbindens von Hashtags, Mentions und URLs betrachtet. Dies ist wohl dem Umstand geschuldet, dass Twitter die heute zur Verfügung stehenden Funktionen erst nach und nach implementiert hat und sich – wie auch dieser Beitrag zeigen wird – die Bedeutung der Operatoren in den verschiedenen Anwendungspraktiken auf Twitter, die sich je nach spezifischen Userinnen-Gruppen oder auch in einer zeitlichen Entwicklung unterscheiden können, nicht eindeutig festlegen lässt. Das eigene Twitter-Profil ist in zwei Bereiche geteilt: Einerseits gibt es das öffentlich sichtbare5 Profil eines Accounts mit dem Datum der Account-Erstellung und Angaben über die Followerinnen und abonnierten Accounts anderer (Followees) sowie optional einem Profilbild, einem Ort, einem Header-Bild und einer Profilbeschreibung. Daneben enthält der öffentlich sichtbare Bereich des Profils eine chronologische Timeline mit den
Twitters Fav-Button zeigt heute – ähnlich etwa zu Facebooks Like – ein Herz, bis vor einigen Jahren jedoch einen Stern. Twitter selbst benennt die Kennzahl an erhaltenen Favs eines Tweets in den vom API ausgegeben Daten als favorite_count, und auch auf Twitter hat sich diese Bezeichnung bis heute erhalten. 5 Profile können auch geschützt sein und sind dann nur für die bestätigten Followerinnen des Accounts einsehbar. Die Zahl geschützter Profile stellt auf Twitter jedoch nur einen sehr geringen Anteil dar. 4
9 Followings, Retweets, Favs
181
Tweets des Accounts sowie den retweeteten Beiträgen anderer. In einer weiteren Timeline sind die von diesem Account gefavten Tweets anderer einsehbar.6 Im zweiten, nur für die Inhaberin des Accounts sichtbaren Bereich des Profils bildet der eigene Newsfeed, bestehend aus den Beiträgen (Tweets und von ihnen retweeteten Beiträgen anderer) der abonnierten Accounts (Followees), den primären Zugang zur Rezeption der Kommunikation auf Twitter. Dieser Newsfeed wird in der Grundeinstellung durch Twitter algorithmisch entsprechend der Account-Interaktion mit den Beiträgen anderer personalisiert („die besten Tweets zuerst“) und enthält dann auch Beiträge, mit denen die eigenen Followees interagieren.7 Auf Wunsch kann dieser Newsfeed chronologisch angezeigt werden und enthält dann nur die Tweets bzw. Retweets der eigenen Followees; das war bis vor einigen Monaten die Standardansicht des Newsfeeds in Twitters Web-Interface.8 Ein zweiter Zugang zur Rezeption von Beiträgen anderer ist die Erschließung über die Trending Topics,9 von Twitter algorithmisch gewählte aktuelle Trendthemen, oder Twitters Suchfunktion, deren Ergebnisse sich in einer personalisierten („Top-Ergebnisse zuerst“) oder einer chronologischen Ansicht („Neueste zuerst“) anzeigen lassen.10 Neben einigen anderen Funktionen wie dem Schreiben von Direktnachrichten (Direct Messages, DM) zwischen den Accounts bietet der nur für die Inhaberin eines Accounts sichtbare Bereich des Profils den Bereich „Meldungen“, in dem Favs, Retweets, Mentions, Quotes oder Replies anderer Accounts auf eigene Tweets angezeigt werden.11
9.1.2 Twitters Operatoren und Öffentlichkeit auf Twitter Durch Hashtags (#) lassen sich Tweets zu einem gemeinsamen Stichwort über die Twitter- Suchfunktion finden, und sie prägen zumeist die Trending Topics auf Twitter. Zwar ist die Verwendung eines Hashtags ein redundanter Akt, weil jedes Suchwort sich auch ohne Darüber hinaus sind auch andere Informationen wie gepostete Medieninhalte u. Ä. einsehbar. Bspw. „X und Y folgen Z“ oder „X und Y gefällt ein Beitrag von Z“. Von der Rezeptionsseite betrachtet, nähern sich durch Letzteres die Funktion des Favs und des Retweets in Teilen an. 8 Im Newsfeed der eigenen Followerinnen eines Accounts werden allerdings nur dessen eigene Tweets, Retweets und Quotes angezeigt. Replies werden den eigenen Followerinnen nur angezeigt, falls sie auch dem Account folgen, auf dessen Beitrag geantwortet wurde. Ähnlich enthält die Timeline im öffentlich sichtbaren Bereich des Profils nur die Tweets und Retweets eines Accounts. Alle seine Replies werden allerdings im Bereich „Tweets und Antworten“ angezeigt. 9 Ein Ausschnitt der 20 von Twitter ermittelten ‚Trendthemen‘ wird auf der Twitter-Seite des eigenen Profils angezeigt. Die Trends können nach Wunsch geografisch oder entsprechend (selbst gewählten oder ebenfalls algorithmisch ermittelten) eigenen Interessen personalisiert werden. 10 Für eine ausführlichere Beschreibung der verschiedenen Bereiche auf Twitter, die algorithmisch personalisiert werden, vgl. Dang-Anh et al. (2013). 11 Diese Anzeige enthält prinzipiell jede Bezugnahme anderer auf eigene Tweets oder den eigenen Account, kann aber entsprechend eingeschränkt werden, falls die eigenen Beiträge bspw. sehr häufig zitiert (Quote) werden oder viele Replies erhalten. 6 7
182
S. Breidenbach et al.
diese Verschlagwortung über Twitters Suchfunktion auffinden lässt oder zum Trending Topic werden kann (vgl. Halavais 2014, S. 36). Die Verwendung eines Hashtags ist allerdings ein performativer Akt, durch welchen die Referenz der eigenen Kommunikation zu einem bestimmten Schlagwort expliziert wird. Zusätzlich wird das Hashtag zum Link, unter dem sich Twitters Top-Suchergebnisse zu diesem Hashtag finden. In der Twitter-Forschung finden sich verschiedene Interpretationen der Zusammenhänge zwischen dem Hashtag-Operator und dem Phänomen der Öffentlichkeit. Bruns und Burgess (2011, S. 5) bezeichnen die an der Kommunikation rund um ein Hashtag beteiligten Accounts als „Ad Hoc Publics“ (Ad-hoc-Öffentlichkeiten). Zwar erzeuge das Twittern zu einem gemeinsamen Hashtag nicht in jedem Fall einen Diskurs in einem deliberativen Sinne, weil es nicht notwendigerweise auch die Interaktion und Diskursrationalität aller Teilnehmerinnen voraussetzt (vgl. dazu auch Thimm et al. 2012, S. 290). Es existieren jedoch auch viele Fälle, in denen „hashtags are used to bundle together tweets on a unified, common topic, and […] the senders of these messages are directly engaging with one another, and/or with a shared text outside of Twitter itself“ (Bruns und Burgess 2011, S. 5). In solchen Fällen ermöglicht die Funktion des Hashtags, dass eine große Menge an Accounts mit womöglich sehr unterschiedlichen Interessen und Lebensrealitäten direkt miteinander zu einem konkreten Thema des aktuellen gemeinsamen Interesses diskutieren und mit ihren Standpunkten damit auch im breiteren gesellschaftlichen Diskurs wahrgenommen werden – man denke nur an prominente Beispiele wie #meeToo oder #aufschrei. Bruns und Moe (2014) entwerfen ein Drei-Ebenen-Modell der Twitter-Kommunikation: Die Kommunikation kann sich auf einem Mikrolevel der Kommunikation entfalten, wenn zwei Accounts sich über Replies oder Direktnachrichten unterhalten oder einander erwähnen.12 Während Direktnachrichten nur den beiden beteiligten Accounts angezeigt werden, werden die Tweets in Reply-Konversationen im Newsfeed derjenigen Followerinnen angezeigt, die diesen beiden Accounts folgen (und nicht nur einem der beiden). Ähnlich werden Replies eines Accounts an die Tweets anderer in der Profilansicht des antwortenden Accounts nicht in dessen Timeline aller Tweets und Retweets, sondern nur im Bereich „Tweets und Antworten“ angezeigt. In diesem Fall sind die Nachrichten zwischen diesen beiden Accounts (bei DMs) auch nur für die beiden bzw. ihre Replies (ohne Recherche) nur für ihr näheres Twitter-Umfeld direkt sichtbar, weshalb diesen Beiträgen eher die Qualität einer persönlichen als einer an die Öffentlichkeit adressierten Kommunikation zukommt. Das ‚einfache‘ Verfassen von Tweets (oder das Retweeten von Beiträgen anderer), wenn diese allen Followerinnen in deren Newsfeed angezeigt werden, bezeichnen Bruns und Moe (2014, S. 17) als Mesolevel der Kommunikation. Auf dem Makrolevel der Kommunikation wiederum wird ein Tweet durch die Verwendung von Hashtags sichtbar, weil
12 Wie Bruns und Moe (2014, S. 20) schreiben, kann die Erwähnung eines anderen Accounts ähnlich der Funktion des Hashtags auch eine affirmative Referenz auf einen fremden Account darstellen, welche die Bezüge in der eigenen Kommunikation sichtbar macht und als Links expliziert. In diesem Sinne würden Mentions anderer Accounts nicht mehr auf einem Mesolevel der Kommunikation operieren (hierzu gleich im Folgenden).
9 Followings, Retweets, Favs
183
er unter den betreffenden Suchergebnissen auffindbar wird, dem Hashtag insgesamt größere Reichweite auf Twitter verschafft und die gemeinsame Diskussion rund um ein Hashtag um eine weitere individuelle Perspektive ergänzt (vgl. Bruns und Moe 2014, S. 17 f.). Durch die Verwendung verschiedener Operatoren in einem Tweet oder durch das Retweeten eines Beitrags können zudem Verbindungen zwischen den drei Ebenen hergestellt werden, indem etwa ein Tweet, der ein Reply darstellt (Mikroebene) und über die Suche zu einem enthaltenen Hashtag (Makroebene) gefunden wurde, per Retweet an die eigenen Followerinnen gesendet wird (Mesoebene). Maireder und Ausserhofer (2014) betrachten in ihrer Beschreibung die Verwendung von Hashtags, Mentions und Weblinks in einem Tweet sowie die unterschiedlichen, sich daraus ergebenden Verweise in der Kommunikation, die von Twitter automatisch als Links expliziert werden. Die Verwendung eines Hashtags verbindet den Tweet mit einem Thema, bringt dazu weitere Informationen in Umlauf oder zeigt eine Perspektive auf das Thema auf. Außerdem trägt die Verwendung von Hashtags dazu bei, die Kommunikation zu diesem Thema zu strukturieren (vgl. Maireder und Ausserhofer 2014, S. 306 f.). Die Verwendung von Mentions vernetzt den eigenen Beitrag mit den Accounts anderer Personen, macht deren Profil über einen Link erreichbar und der erwähnte Account wird von Twitter (im Bereich „Mitteilungen“ des privaten Profilbereichs) über diese Interaktion informiert. Dies könne dazu beitragen, so Maireder und Ausserhofer (2014, S. 314), die unsichtbaren Schranken zwischen Zentrum und Peripherie in herkömmlichen, ausschließlich massenmedial vermittelten gesellschaftlichen Diskursen zu überwinden. Auch Thimm et al. sind der Meinung, dass durch das Mention „[i]nsbesondere Interaktionen zwischen BürgerInnen und PolitikerInnen […] neue Wege offen[stünden], da der @-Operator Schranken zwischen ihnen öffnet, Responsivität ermöglicht und somit in Twitter ein Verhältnis kommunikativer Parität entsteht“ (Thimm et al. 2011, S. 273) – allerdings zeigt die Nutzungspraxis dieser Twitter-Funktionen, dass sich durch Mentions oder Replies natürlich auch Möglichkeiten zur Provokation anderer Userinnen oder zum Stören von Konversationen bieten, weshalb sich die Interpretation von Thimm et al. (heute) sicherlich nicht auf alle Verwendungsformen übertragen lässt. Die Verwendung von Weblinks erlaubt in der Beschreibung von Maireder und Ausserhofer zuletzt die Verbindung des eigenen Tweets mit Objekten in der Form von Links (http://) auf Zeitungsberichte, Blogposts, Videos etc. Diese technische Funktion ermöglicht das Einbinden externer Information und weiterer Berichterstattung zu einem Thema und kann durch die Kommentierung im Tweet gleichzeitig die Perspektive der Beobachterin auf den Gegenstand sichtbar machen (vgl. Maireder und Ausserhofer 2014, S. 313). Thimm et al. (2011, 2012) entwerfen ein sehr ähnliches Modell und bezeichnen die von den einzelnen Operatoren jeweils gezogenen Verbindungen als Bezug auf Personen (RT, Mention), Inhalte (http://) und Kontexte (#). Neben den Tweets selbst legen die genannten Untersuchungen ihr Augenmerk vor allem auf die Operatoren des Hashtags, des Mentions und des Replies sowie des Weblinks. Thimm et al. (2012) beziehen sich in ihrem Modell der Zusammenhänge zwischen Twitters Operatoren und dem Phänomen der Öffentlichkeit zwar auch auf den Operator des Retweets, deuten ihn allerdings nur als (einfachen) Bezug auf eine Person (Bezug der
184
S. Breidenbach et al.
Retweeterin eines Beitrags auf die Urheberin des Tweets).13 Bruns und Moe (2014) interpretieren den Retweet in seiner Funktion zum Herstellen einer Verbindung zwischen unterschiedlichen Ebenen der Kommunikation im Vergleich zu Thimm et al. (2012) also differenzierter. Die technische Funktion des Retweets wurde von Twitter erst 2009 implementiert (vgl. Paßmann 2018, S. 294). Vorher existierte die Praxis, geteilten Beiträgen manuell ein „RT @mention“ des retweeteten Accounts voranzustellen und den Text des retweeteten Beitrags per Copy-and-paste einzufügen.14 Seit Implementierung des Retweet-Buttons wird der retweetete Beitrag nicht mehr als Tweet eines Accounts (welcher nur das Mention und den Text des Beitrags eines anderen Accounts enthält), sondern in seiner ursprünglichen Form angezeigt und enthält zusätzlich beispielsweise das Profilbild des Accounts. Durch den Retweet-Button wird ein Account zum direkten Verbreiter der Botschaften anderer und tritt nicht mehr selbst als Autor auf. Durch eine hohe Anzahl an Retweets kann der retweetete Beitrag zudem eine hohe Reichweite erzielen, seine Urheberin größere Aufmerksamkeit erhalten und Bekanntheit erreichen.15 Halavais (2014, S. 35) bezeichnet den Retweet zudem als „an affirmation of the contents of a particular tweet“. Etliche Twitter-Accounts weisen in ihrer Profilbeschreibung durch Formulierungen wie „retweet =/= endorsement“ darauf hin, dass ihre Retweets gerade nicht (immer) als inhaltliche Zustimmung gewertet werden dürfen. Werden nur einzelne Beiträge eines Accounts retweetet, erscheint diese Einschränkung auch schlüssig. Die Tatsache, dass es (wie auch die Analyse in Abschn. 9.4.2 und 9.4.3 zeigt) auf Twitter nicht unüblich ist, andere Accounts über einen längeren Zeitraum hinweg sehr häufig zu retweeten, lässt aber annehmen, dass es sich bei dieser Beziehung dann auch um eine Form der inhaltlichen Nähe handelt; unabhängig davon gilt wohl sicher, dass der retweetende Account dem geteilten Beitrag durch die Verbreitung unter den eigenen Followerinnen eine Form der Relevanz beimisst. Seit seiner technischen Implementierung wird die Anzahl an erhaltenen Retweets in jedem Tweet angezeigt – die so entstandene Vergleichbarkeit schreibt ihm einen intersubjektiven Wert zu und erzeugt eine Hierarchie zwischen den Userinnen (vgl. Paßmann
13 Wird ein Beitrag durch einen anderen Account retweetet, erscheint der Beitrag in seiner ursprünglichen Form im Feed aller Followerinnen des Accounts, welcher den Beitrag retweetet hat, die Funktion des Retweets erzeugt aber eigentlich ein Duplikat des geteilten Tweets. Bei einer Datenabfrage wird jeder einzelne Retweet eines Tweets von Twitters API als eigenes Statusobjekt ausgegeben, was eine Rekonstruktion der Verbreitung eines Tweets erlaubt. In diesem Fall machen die Retweets die Beziehung eines Accounts zu den Beiträgen anderer sichtbar. 14 Eine Zeit lang existierten auch andere Formen wie etwa „ReTweet @mention“ oder „retwitter @mention“. Erste Beiträge in dieser Form finden sich auf Twitter seit Mitte 2008, später wurden Retweet-Buttons von Drittanbieterinnen entwickelt, bevor diese Funktion schließlich von Twitter übernommen wurde (vgl. Paßmann 2018, S. 268–283). 15 Für eine ausführliche Beschreibung der veränderten Nutzungspraktiken durch die technische Implikation des Retweet-Buttons vgl. die Monografie von Paßmann (2018), hier besonders S. 290 f., oder auch die kürzeren Beiträge von Thimm et al. (2012, S. 293) sowie Thimm et al. (2013, S. 9–13).
9 Followings, Retweets, Favs
185
2018, S. 313–332): Bei den Retweets hat man es „mit einer zählbaren Einheit zu tun, die als Maßstab für den Erfolg einzelner Äußerungen [fungiert], dessen Grundlage Reichweite ist“ (Paßmann 2018, S. 320 f.). Die Verwendung des Retweets beschreibt er (S. 163) als „funktional gebunden“, was „daher zu wenig situativ flexibler Sinngebung“ führe – der Beitrag wird schlicht den eigenen Followerinnen in ihrem Newsfeed angezeigt, was ihnen kaum Hinweise auf mögliche Interpretationen dieser Handlung gibt. Von allen technischen Funktionen Twitters finden sich in der Literatur kaum Beschreibungen des Fav-Buttons, in Paßmanns ethnografischer Beschreibung hingegen nehmen Favs eine zentrale Rolle ein. Die Anzeige an erhaltenen Favs eines Tweets wurde 2011 in die Plattform integriert und bildet damit neben dem Retweet die zweite von Twitter zur Verfügung gestellte messbare Einheit der Resonanz eines Tweets (vgl. Paßmann und Gerlitz 2014, S. 14). Im Gegensatz zum Retweet zum Zweck der Übermittlung von Tweets an die eigenen Followerinnen ist die Verwendung des Fav-Buttons in der Twitter-Praxis „stark interaktional ausdeutbar“ und hat eine „enorm hohe interpretative Flexibilität“ (Paßmann 2018, S. 148), weil sie je nach Userinnen-Verhalten oder den Konventionen in einer bestimmten Gruppe sehr unterschiedliche Bedeutungen annehmen kann. In Anlehnung an einen humoristischen Blog-Eintrag des Literaturwissenschaftlers Stephan Porombka unterscheidet Paßmann (2018, S. 148 f.) verschiedene Praktiken des Favens, wie etwa den „Impuls-Fav“, der allgemeine Zustimmung bedeutet, den „Häkchen-Fav“, der die Kenntnisnahme eines Beitrags anzeigt, den „Konfetti-Fav“ (das unsystematische Verteilen vieler Favs, um damit Aufmerksamkeit zu erzeugen) oder den „Klickst-Du-Mich- Klick-Ich-Dich-Fav“ als reziproken Austausch von Anerkennung. Es finden sich auf Twitter allerdings auch Accounts, die in ihrer Profilbeschreibung angeben, den Fav-Button in der Funktion eines Lesezeichens zu verwenden. Diese unterschiedlichen Bedeutungen ergeben sich allerdings nicht aus der technischen Funktion des Fav-Buttons selbst, die an sich ebenso wenig Kontextinformation zu möglichen Interpretationen liefert wie der Retweet-Button (außer die Piktogramme auf dem Fav-Button als Herz oder ursprünglich Stern). Die verschiedenen Bedeutungen werden dem Fav-Button durch die Anwenderinnen zugeschrieben. Auch in Bezug auf Retweets existieren unterschiedliche Praktiken, beispielsweise nur ausgewählte Tweets oder in anderen Fällen unsystematisch fast ausschließlich alle Tweets einer kleinen Gruppe von Accounts zu retweeten. Bei diesen unterschiedlichen Praktiken wird der entsprechende Tweet aber immer an die eigenen Followerinnen verbreitet, womit der Retweet also prinzipiell eine Verbreitungsfunktion erfüllt, während beim Fav eher unklar bleibt, warum ein bestimmter Tweet von einem Account auf diese Weise markiert wird. Trotz dieser Polysemie des Fav-Buttons im Vergleich zum eher noch einheitlich interpretierbaren Retweet weist Paßmann beiden gleichermaßen eine tiefe Bedeutungsebene zu: Er beschreibt das Erhalten (bzw. Vergeben) von Retweets und Favs als technisch standardisierten sozialen Austausch von Reaktionen auf die Äußerungen anderer (vgl. Paßmann 2018, S. 324). Der gegenseitige Austausch von Favs zwischen unterschiedlichen Accounts könne eine spezifische Form der Ökonomie darstellen, die von den Beteiligten als Austausch von Gaben und Gegengaben empfunden werde (vgl. Paßmann 2018, S. 161).
186
S. Breidenbach et al.
Bei der Bewertung der erhaltenen Favs eines Tweets muss immer mit einbezogen werden, von wem sie stammen; die Anzahl an erhaltenen Favs eines Tweets kann erst bei größeren Zahlen als relativ unabhängige Messgröße gelten (vgl. Paßmann 2018, S. 160). Erhält ein Tweet also nur einige wenige Favs, muss eher überprüft werden, ob diese von Accounts stammen, mit denen eine langjährige Followerinnen- und „Klickst-Du-Mich- Klick-Ich-Dich-Fav“-Beziehung besteht – erst ab einer größeren Anzahl an erhaltenen Favs, etwa mehreren Hundert oder Tausend, kann der Fav-Count eine relativ objektive ‚Qualität‘ des Tweets beziffern. In Bezug auf die vergebenen Favs, deren Summe als Kennzahl auf den Profilseiten der vergebenden Accounts angezeigt wird, kann allerdings festgestellt werden, dass sie sich zwar teilweise stark unterscheiden – während manche Userinnen kaum oder nur wenige Beiträge faven, tun dies andere zehntausendfach –, dabei aber trotzdem immer einem Prinzip folgen, nämlich dem Verhalten der einzelnen Userin als ‚Häckchen-Faverin‘, ‚Konfetti-Faverin‘ oder ‚Fav-Geizerin‘.16
9.2
Netzwerkanalysen von Twitter-Daten
Die Analyse von Netzwerken findet in der Twitter-Forschung Anwendung auf diverse thematische Gegenstandsbereiche, wie etwa politische Demonstrationen oder massenmediale Ereignisse. Die im Folgenden exemplarisch angeführten Studien unterscheiden sich jedoch genauso bezüglich des verwendeten Datenmaterials sowie der tatsächlich der Netzwerkanalyse zugrunde liegenden Beziehungsverhältnisse, die sich aus Followerinnen- Strukturen oder aus der Verwendung der verschiedenen Twitter-Operatoren (Retweet, Reply, Mention etc.) ergeben. Analysen von Followerinnen-Beziehungen finden sich in den fünf im Folgenden exemplarisch angeführten Studien: Vogler und Rauchfleisch (2017), Fornacciari et al. (2015) und Maireder und Schlögl (2015) untersuchen die Followerinnen-Beziehungen von Accounts, die sich an der Kommunikation um ein Hashtag beteiligten (#ES2050, die zukünftige Energiestrategie der Schweiz, #SamSmith, der 2015 vier Grammy Awards gewann, und #aufschrei, unter dem Betroffene von Sexismus und sexuellen Übergriffen berichteten). Brajawidagda und Chatfield (2012) untersuchen in ihrem Beitrag, inwiefern sich Twitter als Frühwarnsystem im Fall von Naturkatastrophen eignet, und erheben die Followerinnen und Followees aller Accounts, die einen einzelnen Beitrag mit einer Warnung zu einem Tsunami in Indonesien retweeteten. Auf Grundlage dieser Daten ermitteln sie, wie schnell sich die Nachricht im Beitrag auf der Plattform verbreitete und welche Reich
16 Ähnlich scheint es sich auf Twitter mit den abonnierten Accounts einer Userin zu verhalten. Während manche Accounts nur mehreren Dutzenden oder wenigen Hunderten von Accounts folgen, abonnieren andere mehrere Tausend. Manche Accounts teilen in ihrer Profilbeschreibung mit, sie würden bei einem Abonnement ihres Profils im Gegenzug ebenfalls abonnieren. In diesem Fall dient das Abonnieren der Accounts anderer auch (oder: vor allem) dazu, eigene Followerinnen zu ‚sammeln‘.
9 Followings, Retweets, Favs
187
weite sie erreichte. Grandjean (2016) beschreibt in seinem Beitrag die Followerinnen- Beziehungen der Digital Humanities (DH) Community auf Twitter aus rund 2500 Accounts. Die genannten Untersuchungen verbindet, dass sie sich alle auf eine Analyse von Followerinnen-Beziehungen zwischen den erhobenen Accounts stützen und als Teil der Analyse diese Strukturen als Netzwerkgraphen visualisieren. Hinsichtlich der jeweils verwendeten Verfahren zur Datenerhebung unterscheiden sich die Studien hingegen deutlich: Im Fall der Untersuchungen der Kommunikation rund um bestimmte Hashtags oder Suchergebnisse besteht das Datenerhebungsverfahren aus einer (mindestens) zweiphasigen Abfrage, bei der zuerst alle Tweets zum Suchbegriff oder spezifischen Hashtag und später die Followerinnen und/oder Followees aller beteiligten Accounts abgerufen werden. Brajawidagda und Chatfield (2012) erheben die Followerinnen-Beziehungen aller Accounts, welche den betreffenden Tweet mit der Tsunami-Warnung retweetet haben. Die 2500 Accounts der DH Community im Fall von Grandjean (2016) wurden durch einen mehrstufigen Rechercheprozess ermittelt; sie wiesen entweder einen Bezug zu den DH in ihrer Profibeschreibung auf, twitterten zu Hashtags einschlägiger DH-Konferenzen oder konnten durch die Suche nach Stichwörtern mit DH-Bezug ermittelt werden. Ebenso deutlich unterscheiden sich die Studien hinsichtlich der jeweils automatisierten Clusterbildung17 in den Netzwerken: Im Beitrag von Grandjean (2016) erfolgte diese auf Grundlage der in den Tweets (die zusätzlich zu den Followings erhoben wurden) verwendeten Sprache, im Fall von Fornacciari et al. (2015) anhand des Sentiment-Wertes der Tweets mit dem Hashtag #SamSmith, die als Ausgangsdatensatz zur Ermittlung der Accounts dienten, und im Beitrag von Maireder und Schlögl (2015) auf Grundlage der Profilbeschreibungen der Accounts, die im vom Twitter-API ausgegebenen Datenset jedes Tweets enthalten ist. In den genannten Beispielen wurden (außer im Fall von Grandjean mit seiner Kombination von Methoden zur Datenerhebung) die jeweils beschriebenen Accounts dadurch ermittelt, dass sie zu einem Hashtag getwittert oder einen Tweet retweetet hatten. Die Strukturen der Gruppe aller an der Kommunikation zu einem Hashtag beteiligten Accounts oder derjenigen, die (einmalig) einen Beitrag retweeten, sind meist sehr flüchtig, weil sie häufig nur aufgrund einmaliger oder kurzzeitiger Ereignisse entstehen. Allerdings verbindet die Accounts ein gemeinsamer inhaltlicher Bezug zum Hashtag oder retweeteten Beitrag. Die in den genannten Untersuchungen zusätzlich abgefragten Followerinnen- Beziehungen der Accounts hingegen bilden im Vergleich zu diesen flüchtigen Beziehungen relativ stabile Strukturen (vgl. Vogler und Rauchfleisch 2017, S. 1). Laut Maireder und Ausserhofer (2014, S. 62) „lässt die Position eines Accounts im Followernetzwerk Rückschlüsse darauf zu, aus welchen gesellschaftlichen Teilbereichen, politisch-ideologischen Richtungen und Interessengebieten Nutzerinnen und Nutzer Informationen erhalten und Die betreffenden Accounts oder Tweets, werden dabei entsprechend bestimmter Parameter (hier: Sentimentwert oder Sprache der Tweets, bzw. Stichwörter in den Profilbeschreibungen der Accounts) klassifiziert, was in der späteren Graphendarstellung des Netzwerks wiederum bspw. durch eine unterschiedliche Farbe der Knoten visualisiert werden kann. 17
188
S. Breidenbach et al.
wer Informationen von ihnen erhält“. Angaben über die Followees eines Accounts betreffen dabei die Frage, wessen Beiträge im Feed des Accounts angezeigt werden, Maireder und Ausserhofer gehen also davon aus, dass von den Nutzerinnen der Plattform zur Rezeption der Beiträge anderer vor allem der Feed genutzt wird (und nicht etwa die Suchfunktion oder die Trending Topics) und die im Feed angezeigten Beiträge ebenso die inhaltlichen Interessen und Perspektiven dieser Nutzerin widerspiegeln können. Aus den Angaben über die Followerinnen eines Accounts wiederum lässt sich zwar dessen potenzielle Reichweite ableiten, aus dieser lassen sich allerdings keinerlei Aussagen über die Rolle des Accounts in Bezug auf die Kommunikation rund um das spezifische Hashtag als Auswahlkriterium bei der Datenerhebung treffen – genau so wenig über die Interaktionsrate anderer (in Form von RTs, Quotes, Replies). So verfügen etwa die Twitter-Accounts von Vertreterinnen etablierter Massenmedien wie @derspiegel, @zeitonline oder @tagesschau jeweils über mehr als zwei Millionen Followerinnen und erscheinen aufgrund ihrer aktuellen Berichterstattung offensichtlich häufig mit ihren Beiträgen in den Suchergebnissen zu aktuellen Themen. Die konkreten Debatten auf Twitter prägen aber meist persönliche Accounts (sofern nicht die genannten Medien selbst zum Thema der Twitter- Debatte werden), deren Beiträge dann durch eine große Anzahl an Retweets hohe Reichweiten erreichen oder stark diskutiert werden und daraufhin viele Replies erhalten.18 Vogler und Rauchfleisch (2017) ergänzen ihre Beschreibung der Followerinnen- Strukturen rund um die am Hashtag #ES20150 beteiligten Accounts deshalb um eine Visualisierung des Reply-Netzwerks in den erhobenen Beiträgen (sie berücksichtigen also, wer auf wessen Beiträge antwortete) und können damit zeigen, dass die Debatte um das Hashtag #ES2050 vor allem aus einer gegenseitigen Bezugnahme zweier politisch oppositioneller Gruppen bestand, die selbst wiederum an den Rändern des Netzwerkgraphen gegenseitiger Followings verortet waren. Mit einer Visualisierung der Retweets können sie zudem zeigen, wie sich die Tweets einzelner Accounts verbreiteten. Bruns und Sauter (2015) verzichten in ihrer Beschreibung der Verbreitung eines Videos der australischen Premierministerin auf Twitter gänzlich auf eine Erhebung von Followerinnen-Beziehungen. Das später virale Video des australischen Senders ABC zeigt, wie sich die Premierministerin Julia Gillard in einer Parlamentsdebatte über einen Sexskandal des Oppositionsführers und Sexismus in der australischen Politik im Allgemeinen echauffiert. Bruns und Sauter visualisieren ausschließlich das Netzwerk aus Retweets und Replies zwischen den Accounts in den erhobenen Tweets – dies allerdings im Vergleich unterschiedlicher Zeiträume mit mehreren Visualisierungen des Netzwerks im Abstand von jeweils mehreren Stunden. Damit beschreiben Bruns und Sauter zwar kein Netzwerk mit teils mehrjährig stabilen Followerinnen-Strukturen, sondern nur eines mit einer vergleichsweise minimalen temporalen Stabilität. Ihre dynamische Darstellung erlaubt dafür aber sehr präzise Rückschlüsse auf die konkrete Rolle bestimmter Accounts bei der anfänglichen Verbreitung des später viralen Videos und in der begleitenden Twitter-Debatte.
Vgl. hierzu auch Cha et al. (2010).
18
9 Followings, Retweets, Favs
189
In den meisten der genannten Untersuchungen wurden mehrere Formen von Daten – wie die Followerinnen und Followees von Accounts oder einzelne Tweets (zu einem Hashtag oder Suchbegriff) – erhoben, um die Accounts im Netzwerk der Followerinnen- Strukturen zu klassifizieren oder diese Netzwerkdarstellungen um weitere Analysen zu ergänzen. Bruns und Sauter (2015) verwenden in ihrer Analyse ausschließlich Retweets und Replies. Die ausschließliche Beschreibung von Followerinnen-Strukturen scheint also wenig aussagekräftig, um die Bedeutung einzelner Accounts in der konkreten Twitter- Kommunikation zu beschreiben. Mit ihrer zeitlich dynamischen Visualisierung von Re tweets und Replies können Bruns und Sauter zwar sehr präzise die Rolle einzelner Accounts in der Kommunikation beschreiben, dies jedoch nur in Bezug auf ein relativ flüchtiges Ereignis wie das virale Video eines politischen Aufregers.
9.3
Netzwerk- und Twitter-Crawler
Webcrawler dienen im Allgemeinen zur automatisierten Erhebung, Analyse und Speicherung von Inhalten aus dem WWW. Hierfür werden über bestehende Beziehungsverhältnisse Inhalte ermittelt und abgefragt. Webcrawler werden also vor allem im Bereich der Datenauswahl (durch automatisierte Analysen) des zu erhebenden Materials sowie im Bereich der Abfrage der betreffenden Daten (sowie ggf. beim Speichern in einer Datenbank etc.) eingesetzt. Eine spätere Graphenvisualisierung der Verbindungen, über welche die betreffenden Inhalte erschlossen wurden, ist also nur einer der möglichen Anwendungsbereiche eines Netzwerkcrawlers. Zumeist wird ausgehend von einem (oder einer Liste von) Ursprungsknoten (seed node) über bestehende Verweise in den gecrawlten Inhalten – auf Webpages enthalte URLs oder beispielsweise Followerinnen-Beziehungen auf Twitter – das Netzwerk an benachbarten Knoten erschlossen, mit denen der Ursprungsknoten jeweils über eine sogenannte Kante verbunden ist. Dieses Grundprinzip kann für sehr unterschiedliche Zwecke eingesetzt werden, so etwa das möglichst breite Durchsuchen und Abfragen von Web-Inhalten oder – wie im Fall des hier entwickelten Crawlers – das Erheben von Beziehungsverhältnissen einer bestimmten Gruppe von Accounts, die sich der Crawler selbst erschließt. Für die Erschließung dieser Netzwerke existieren verschiedene prinzipiell unterschiedliche Funktionsweisen. Die Methode, die in diesem Beitrag beschrieben wird (Abschn. 9.4), ähnelt am ehesten dem Greedy-Verfahren (vgl. Saroop und Karnik 2011), bei dem alle benachbarten Knoten eines Ursprungsknotens in ein Such-Queue19 geladen werden und
19 Unter einem Such-Queue (englisch: search queue) versteht man eine Liste, in der alle noch zu erhebenden Knoten eines Netzwerks vorgehalten werden. Der jeweils nächste Knoten für die Datenabfrage wird dann mittels unterschiedlicher Verfahren ermittelt. Die im Such-Queue vorgehaltenen Knoten werden auch als ‚sichtbare‘ Knoten bezeichnet, weil bereits eine Beziehung zu ihnen ausgemacht wurde, die betreffenden Daten dieses Knotens aber noch nicht abgefragt wurden, der Knoten also noch nicht ‚besucht‘ wurde.
190
S. Breidenbach et al.
dann die nächsten Knoten für die Abfrage entsprechend dem Maß ihrer Vernetzung im bisher abgefragten Teil des Netzwerks ausgewählt werden. Crawler als Methode zur Datenerhebung nutzt die Twitter-Forschung bereits seit etlichen Jahren. In den im Folgenden exemplarisch angeführten Twitter-Crawlern finden verschiedene Methoden mit teilweise unterschiedlichen Zielsetzungen Anwendung, weshalb die zu erhebenden Daten jeweils nach verschiedenen Parametern eingegrenzt werden: Byun et al. (2012) beschreiben einen Crawler, der rund um vorab definierte Ereignisse (bzw. Stichworte) wie politische Wahlen Tweets und Followerinnen-Beziehungen von Accounts erhebt, die sich zum Stichwort geäußert haben. Das Verfahren ist darauf ausgelegt, über einen langen Zeitraum automatisiert zu arbeiten und möglichst effizient Daten abzufragen, wobei besonders auf den Umgang mit Twitters Rate Limits20 geachtet werden muss. Li et al. (2012) entwickeln mit TEDAS ein technisch sehr elaboriertes Verfahren, das zur Erhebung von Tweets zu bestimmten Ereignissen dient. In ihrem Fall werden die spezifischen Themen durch den Crawler selbst ermittelt, indem über Twitters Stream-API zufällig nach Tweets mit vorab definierten Inhalten (wie „Unwetter“ oder „getötet“) gesucht wird. Der Crawler bewertet sie numerisch und ermittelt daraufhin Tweets mit ähnlichen Inhalten oder aus der geografischen Nähe der Ursprungstweets, die er dann abfragt. Li et al. (2012) und Byun et al. (2012) konzentrieren sich mit ihren Verfahren auf die Erhebung von Tweets zu (vorab definierten oder automatisch ermittelten) Themen. Im Gegensatz dazu existieren jedoch auch eher account- oder gruppenorientierte Ansätze: Bošnjak et al. (2012) entwickeln mit TwitterEcho ein Verfahren zur Erhebung von Tweets einer bestimmten Gemeinschaft auf Twitter, die sich (vorab manuell) nach der in den Tweets verwendeten Sprache sowie nach Angaben in der Profilbeschreibung eines Accounts eingrenzen lässt. TwitterEcho ist wie das Verfahren von Byun et al. (2012) darauf ausgelegt, möglichst langfristig möglichst viele Tweets dieser eingegrenzten Gruppe von Accounts zu erfassen. Ähnlich verfahren Li et al. (2014), die mit ihrem Crawler ebenfalls ausgehend von einzelnen Accounts deren Netzwerk ermitteln. Im Fall von Li et al. dienen als Ursprungsknoten Profile der Plattform Google+, die sowohl ihr Twitter-Profil verlinken als auch Angaben über ihr Anstellungs- bzw. Ausbildungsverhältnis machen. Ausgehend von diesen Ursprungsknoten werden dem Netzwerk weitere Knoten hinzugefügt, die ebenfalls sowohl auf Google+ als auch auf Twitter über ein Profil verfügen und jeweils in Beziehung zu den Ursprungsaccounts stehen. Diese beiden Verfahren verbindet also ihr Fokus auf die Inhalte von bestimmten Accounts, die über bestimmte Verbindungen in diesen Inhalten zu einer Gruppe zusammengefasst werden und deren Beiträge im Weiteren erhoben werden.
Die von Twitters API maximal pro Zeiteinheit ausgegebene Anzahl von Tweets oder anderen Daten; vgl. dazu ausführlicher Breidenbach/Klimczak (Facilitating a Scientific Approach to the Datafication of Society on Twitter, or: How to Catch a Tweeting Bird) im vorliegenden Band. 20
9 Followings, Retweets, Favs
9.4
191
etzwerke der gegenseitigen Rezeption und N inhaltlichen Affirmation
9.4.1 Methode zur automatisierten Netzwerkerschließung Die meisten der in Abschn. 9.2 vorgestellten Ansätze untersuchen das Aufkommen von Tweets zu einmaligen oder kurzzeitigen Ereignissen. Nur Grandjean (2016) beschreibt eine eher langfristig stabile Gemeinschaft aus Twitter-Accounts, die sich durch das gemeinsame Interesse an DH auszeichnet, wobei die zugehörigen Accounts in einem vergleichsweise sehr aufwendigen Rechercheprozess ermittelt werden. Im Folgenden wird hingegen ein Verfahren vorgestellt, welches das durch Interaktionen bekräftigte Netzwerk, dessen Inhalte ein Twitter-Account rezipiert, vollkommen automatisiert erhebt. Als Interaktion gelten dabei die von Paßmann (2018) als Austausch von Gaben und Gegengaben beschriebenen Favs und Retweets. Bezüglich der Rezeption von Inhalten wird der Annahme von Maireder und Ausserhofer (2014) folgend davon ausgegangen, dass die Beiträge der Followees eines Accounts die Inhalte von dessen Newsfeed bestimmen und deshalb auch Rückschlüsse auf die inhaltlichen Interessen der Userin zulassen. In der Analyse wird also ausschließlich die von Bruns und Moe (2014) beschriebene Mesoebene der Kommunikation über Followerinnen-Beziehungen betrachtet. Interaktionen mit den Tweets anderer, denen der betreffende Account nicht folgt, werden in der Analyse ausgeschlossen, weil davon ausgegangen wird, dass eine derartige Interaktion keine längerfristig stabile Beziehung dieser beiden Accounts widerspiegelt und sich der jeweilige Retweet oder Fav auch weniger deutlich als inhaltliche Zustimmung interpretieren lässt. Ebenso gilt als Kriterium der Netzwerkzugehörigkeit, dass die Follower-Beziehungen der Accounts im Netzwerk reziprok sind, also dass die im Graphen visualisierten Accounts, die als über gerichtete Kanten verbundene Nachbarn eines bestimmten Knotens dargestellt werden, diesem auch zurückfolgen. Selbst wenn die Interaktion zwischen benachbarten Knoten in Form von Retweets und Favs nur einseitig erfolgt, ist dabei dennoch gewährleistet, dass die Accounts es akzeptieren, dass sie die Beiträge der jeweiligen Nachbarn in ihrem Newsfeed empfangen und auf Twitter öffentlich als Follower des betreffenden Accounts sichtbar sind. Neben der automatisierten Datenauswahl und -erhebung besteht ein weiterer Unterschied der hier beschriebenen Vorgehensweise im Vergleich zu den in Abschn. 9.2 vorgestellten Ansätzen darin, dass letztlich die in Abschn. 9.5.3 in einem Netzwerkgraphen visualisierten Daten dem gewichteten Beziehungsverhältnis zweier Accounts entsprechen, die bei der Datenerhebung als Bewertungsgrundlage für die Auswahl von Knoten im Such-Queue des Netzwerkcrawlers dienen. Die in Abschn. 9.2 beschriebenen Analysen stützen sich alle auf Datenmaterial, das in den meist zweistufigen Verfahren zur Datenabfrage (Abfrage von Tweets zu einem Hashtag und Abfrage der Followerinnen-Beziehungen aller beteiligten Accounts) vollkommen unabhängig von der in der späteren Analyse als Graph visualisierten Netzwerkstruktur ist. In der hier vorgestellten Methode orientiert sich die Hierarchisierung von Knoten im Such-Queue des Netzwerkcrawlers in der Datenerhe-
192
S. Breidenbach et al.
bung an genau denselben Parametern, die in der späteren Graphenvisualisierung als Teil der Datenanalyse zur Gewichtung der Kanten verwendeten werden und damit die automatisierte Clusterbildung mittels des Force-Atlas-Algorithmus determinieren. Damit unterscheidet sich das vorgestellte Verfahren auch deutlich von den in Abschn. 9.3 beschriebenen Twitter-Crawlern, weil diese vor allem zur Datenauswahl und Datenerhebung und weniger zur Datenanalyse dienen. Im hier vorgestellten Netzwerk-Crawler werden die jeweils nächsten Knoten (also Twitter-Accounts) für die weitere Abfrage nicht (nur) entsprechend ihrer Vernetzung im bisher abgefragten Teil des Netzwerks ausgewählt, wie im Greedy-Verfahren (vgl. Saroop und Karnik 2011). Als Kriterium zur Netzwerkzugehörigkeit dient neben der reziproken Followerschaft beider Knoten ein Mindestmaß an Interaktion (RTs und Favs) eines Accounts mit den Knoten, zu denen eine von ihm ausgehende Beziehung besteht. Der Wert des Knotens im Such-Queue wird anhand des Ausmaßes dieser Interaktion bestimmt. Ähnlich wie in den Verfahren von Li et al. (2014) oder Byun et al. (2012) dient der Crawler also zur Ermittlung einer spezifischen Gemeinschaft auf Twitter. Diese wird allerdings nicht wie im Fall von Li et al. oder Byun et al. nach vorab definierter Sprache, den Interessen oder beruflichen Anstellungsverhältnissen der Userinnen, sondern anhand der reziproken Followerinnen-Beziehung sowie der Interaktion untereinander in der Form von Retweets und Favs eingegrenzt. Das vergleichsweise ‚einfache‘ Verfahren erlaubt jedoch relativ fundierte Einsichten in das ermittelte Netzwerk, weil es sich mit der bloßen Auszählung der vergebenen Retweets und Favs doch auf Kennzahlen mit einer starken inhaltlichen Tiefe stützt, wie die Beschreibung von Twitters Operatoren im Zusammenhang mit dem Phänomen der Öffentlichkeit auf Twitter in Abschn. 9.1.2 zeigt. Als Bewertungsgrundlage für die Netzwerkzugehörigkeit eines Twitter-Accounts werden die abonnierten Accounts (Followees) sowie die an sie vergebenen Favs und Retweets verwendet. Damit soll beschrieben werden, welche Inhalte der Ursprungsknoten – und im Weiteren sein Netzwerk auf Twitter – selbst rezipiert und mit wessen Beiträgen anderer er interagiert. Ausgehend von diesem Ursprungsknoten (K0) ermittelt der Crawler dieses K0-Netzwerk aus den benachbarten Knoten – sowie im Weiteren die Netzwerke dieser Knoten. Dem Crawler wird als einziger Parameter also das Handle eines Twitter- Accounts – in unserem Fall @IBDeutschland – übergeben, während alle weiteren Schritte der Knotenermittlung, Datenabfrage und -speicherung automatisiert erfolgen.
9.4.2 Funktionsweise des Netzwerkcrawlers Im ersten Schritt fragt TwitNetCrawl21 über das Twitter-API das Userinnen-Objekt von K0 ab, in dem beispielsweise Angaben wie das Erstellungsdatum des Accounts oder die Followerinnen-Anzahl zum Zeitpunkt der Datenabfrage enthalten sind. Hierdurch sind diese Daten für spätere Analysen einfach zugänglich. Weil der Zugriff auf Netzwerkstruk Der Programmcode ist öffentlich einsehbar unter https://github.com/breidsam/TwitNetCrawl/.
21
9 Followings, Retweets, Favs
193
turen eines Accounts durch das Twitter-API relativ stark beschränkt ist, werden die Followees von K0 im zweiten Schritt der Datenabfrage mittels eines HTML-Scrapers (durch das Python-Modul Twint)22 ausgelesen. Diese Daten zeigen, wessen Inhalte im Newsfeed von K0 angezeigt werden. Im dritten und vierten Schritt der Datenabfrage werden über das Twitter-API (mittels der user_timeline()- und der favorites()-Funktion des Moduls Tweepy)23 die Tweets (und Retweets) von K0 sowie die von K0 vergebenen Favs (die von K0 gefavten Beiträge anderer) abgefragt. In der daran anschließenden automatisierten Analyse der Tweets von K0 wird quantifiziert, wie häufig der Account mit Retweets auf die Beiträge anderer Twitter-Accounts reagiert; die von K0 selbst verfassten Tweets werden also nicht beachtet. Analog dazu wird in einer Analyse der abgefragten Favs ermittelt, wessen Beiträge von K0 wie häufig gefavt wurden. Als Kriterium der Zugehörigkeit zum Teilnetzwerk von K0 gilt neben dem reziproken Following, dass K0 mindestens einen der Beiträge des jeweils bewerteten Twitter- Accounts einmal retweetet und denselben oder einen anderen Tweet gefavt hat. Der Wert jedes Twitter-Accounts im Teilnetzwerk von K0 bildet sich aus der Summe der jeweils von K0 erhaltenen Favs und Retweets. Im fünften Schritt der Datenabfrage wird (mittels der show_friendship()-Funktion von Tweepy) überprüft, ob das Followerinnen-Verhältnis reziprok ist, ob also die von K0 abonnierten, retweeteten und gefavten Accounts ihm auch zurückfolgen. Accounts, bei denen dieses Kriterium nicht zutrifft, werden aus dem Teilnetzwerk ausgeschlossen. Tab. 9.1 zeigt exemplarisch den Ausschnitt der 20 Accounts mit den höchsten Werten im Teilnetzwerk des Beispiel-Accounts @IBDeutschland (insgesamt umfasst das Teilnetzwerk 48 Accounts). So wurden vom Account der Identitären Bewegung (IB) innerhalb der abgefragten Tweets 269 Beiträge des Vereins @ein_prozent retweetet und 10 gefavt, wodurch die Kante zwischen den Knoten der IB und @ein_prozent das aus der Addition dieser Werte ermittelte Gewicht von 279 erhält. Im weiteren Verlauf wird dieses Verfahren entsprechend der Hierarchie der ermittelten Werte schrittweise auf die Knoten (Twitter-Accounts) aus dem Teilnetzwerk von K0 angewandt. Es erzeugt für jeden weiteren analysierten Knoten (K1, K2 etc.) dessen Teilnetzwerk mit nach Interaktionshäufigkeit hierarchisierten Knoten (K11, K12, K13 etc. bzw. K21, K22, K23 etc.). Nach Abschluss der Auswertung des Teilnetzwerks von K1 werden die Knoten in seinem Teilnetzwerk relativ zum Wert von K1 in das Such-Queue als Liste noch zu analysierender Knoten im Gesamtnetzwerk aufgenommen. Die Erprobungsphase des Netzwerkcrawlers hat gezeigt, dass die Summe an Retweets und Favs, die von einem Twitter-Account an einen anderen vergeben werden, bisher immer unterhalb eines Wertes von 3000 lag (vgl. dazu auch Abb. 9.3).24 Anhand dieses postulierten Siehe https://github.com/twintproject/twint. Siehe http://docs.tweepy.org/en/v3.7.0/api.html. 24 Die maximal ausgegebene Anzahl an Retweets und Favs beträgt insgesamt ca. 6400, es erscheint allerdings unwahrscheinlich (außer vielleicht im Fall automatisierter Accounts), dass alle diese Re tweets und Favs an nur einen oder zwei andere Accounts vergeben werden. 22 23
194 Tab. 9.1 Ausschnitt der ersten 20 Accounts aus dem Teilnetzwerk von @IBDeutschland
S. Breidenbach et al. ein_prozent Martin_Sellner _Laut_Gedacht_ AhaEurope IBSchwaben Identitaere_B IB_Nds IB_NRW __Loewenherz__ identitaere_mv COMPACTMagazin ib_bayern alex_malenki IBBautzen DefendEuropeID lichtmesz IBHessen PatrickLenart WalterSpatz Okzident1
279 223 159 96 87 58 57 51 37 35 35 33 31 30 24 20 20 20 17 17
Ausschnitt der ersten 20 Accounts aus dem Teilnetzwerk von @IBDeutschland
Maximalwertes werden die übrigen Kantenbewertungen im Netzwerk normalisiert. Die Kantenbewertung ergibt sich dann jeweils aus dem Produkt des Gewichts aller Kanten, über die ein Knoten im Netzwerk zum Ursprungsknoten (K0) vermittelt ist: Zur Bestimmung des Kantengewichts eines Knotens aus dem Teilnetzwerk von K1 im Verhältnis zum Gesamtnetzwerk (also des Gewichts der Kante zwischen K11, K12 etc. zu K1 im Verhältnis zum Gewicht der Kante von K1 zu K0, in konkreten Fall etwa @stein_schreibt im Verhältnis zu @ein_prozent im Verhältnis zu @IBDeutschland; vgl. Abb. 9.1) wird die Summe der jeweils erhaltenen Retweets und Favs durch 3000 dividiert, sodass sich ein Wert