Handbuch Sprache im multimodalen Kontext 9783110295740, 9783110296099, 9783110393873

The handbook covers language usage in multi-semiotic textual environments. Integrating linguistic features with images,

608 83 9MB

German Pages 518 [520] Year 2016

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Inhaltsverzeichnis
Einleitung
I. Sprache im Feld multimodaler Kommunikation
1. Multimodalität – Semiotische und textlinguistische Grundlagen
2. Methodological and Theoretical Issues in Multimodality
3. Metapher als multimodales kognitives Funktionsprinzip
4. Typographie – Sprache als Schriftbild
5. Multimodal Interaction – Language and Modal Configurations
II. Zugriffe auf multimodale Verknüpfungen
6. Social Semiotic Multimodality
7. Multimodale Text- und Diskurssemantik
8. Verbal-visuelle Semiotik
9. Verbal-visuelle Rhetorik
10. Pictorial and Multimodal Metaphor
11. Multimodal Critical Discourse Analysis (MCDA)
12. Produktionsforschung
13. Kulturvergleich
III. Aspekte multimodaler Textsorten
14. Multimodale Texttypologie
15. Intersemiotic Complementarity in Print Advertisements
16. A Multimodal Approach to Song
17. Nachrichtenfilme als multimodale audiovisuelle Texte
18. Websites als multimodale digitale Texte
19. Facebook als multimodaler digitaler Gesamttext
20. Foto-Communitys als multimodale digitale Kommunikationsform
21. The Textbook in a Changing Multimodal Landscape
Sachregister
Recommend Papers

Handbuch Sprache im multimodalen Kontext
 9783110295740, 9783110296099, 9783110393873

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Handbuch Sprache im multimodalen Kontext HSW 7

Handbücher Sprachwissen

Herausgegeben von Ekkehard Felder und Andreas Gardt

Band 7

Handbuch Sprache 
im multimodalen Kontext

Herausgegeben von Nina-Maria Klug und Hartmut Stöckl

ISBN 978-3-11-029574-0 e-ISBN [PDF] 978-3-11-029609-9 e-ISBN [EPUB] 978-3-11-039387-3

 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National­ bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2016 Walter de Gruyter GmbH, Berlin/Boston Typesetting: fidus Publikations-Service GmbH, Nördlingen Printing and binding: CPI books GmbH, Leck ♾ Printed on acid-free paper Printed in Germany www.degruyter.com

Inhaltsverzeichnis Nina-Maria Klug/Hartmut Stöckl Einleitung   VII

I

Sprache im Feld multimodaler Kommunikation

Hartmut Stöckl 1. Multimodalität – Semiotische und textlinguistische Grundlagen  John A. Bateman 2. Methodological and Theoretical Issues in Multimodality 

 36

Constanze Spieß 3. Metapher als multimodales kognitives Funktionsprinzip 

 75

Jürgen Spitzmüller 4. Typographie – Sprache als Schriftbild 

 99

Sigrid Norris 5. Multimodal Interaction – Language and Modal Configurations 

II

Zugriffe auf multimodale Verknüpfungen

Carey Jewitt/Berit Henriksen 6. Social Semiotic Multimodality 

 145

Nina-Maria Klug 7. Multimodale Text- und Diskurssemantik  Winfried Nöth 8. Verbal-visuelle Semiotik 

 190

Nadia Koch/Thomas Schirren
 Verbal-visuelle Rhetorik  9.

 217

Charles Forceville Pictorial and Multimodal Metaphor  10.

 3

 241

 165

 121

VI 

 Inhaltsverzeichnis

Andrea Mayr 11. Multimodal Critical Discourse Analysis (MCDA) 

 261

Michael Klemm/Daniel Perrin/Sascha Michel 12. Produktionsforschung   277 Michael Klemm 13. Kulturvergleich 

III

 300

Aspekte multimodaler Textsorten

Ulrich Schmitz 14. Multimodale Texttypologie 

 327

Terry D. Royce 15. Intersemiotic Complementarity in Print Advertisements  Helen Andersson/David Machin 16. A Multimodal Approach to Song 

 348

 372

Werner Holly 17. Nachrichtenfilme als multimodale audiovisuelle Texte  Stefan Meier 18. Websites als multimodale digitale Texte 

 392

 410

Volker Eisenlauer 19. Facebook als multimodaler digitaler Gesamttext 

 437

Christina Margrit Siever 20. Foto-Communitys als multimodale digitale Kommunikationsform  Jeff Bezemer/Gunther Kress 21. The Textbook in a Changing Multimodal Landscape  Sachregister 

 499

 476

 455

Nina-Maria Klug/Hartmut Stöckl

Einleitung

Das vorliegende Handbuch umreißt den aktuellen theoretisch-methodologischen und empirischen Stand der Forschung zu multimodalen Texten und kommunikativen Handlungen. Dies geschieht aus einer prinzipiell multi- und transdisziplinären Perspektive, die ihr sicheres Fundament jedoch in der Sprachwissenschaft hat – hier insbesondere in der Text- und Diskurslinguistik. Die Multimodalitätsforschung ist vergleichsweise jung; trotz einer gewissen Konsolidierung der theoretischen Grundlagen und einer stetigen Etablierung konsensfähiger Begrifflichkeiten in den letzten Jahrzehnten bedarf das Forschungsfeld vor allem einer methodologischen Entwicklung. Nur sie kann den empirisch-analytischen Raum eröffnen, in dem sich systematische und belastbare Erkenntnisse über die Funktionsweisen verschiedener multimodaler Textsorten und Kommunikationstypen, medialer Formate, Gebrauchsdomänen und Handlungskontexte gewinnen lassen. Zu einer solchen methodologischen Grundlegung des Feldes will das Handbuch seinen substanziellen Beitrag leisten, indem es leistungsfähige Ansätze und analytische Modelle für multimodale Kommunikate unterschiedlichster Art kritisch-reflektiert vorstellt und in einem größeren theoretischen Rahmen ordnet und verortet. Hiermit verbindet sich auch die berechtigte Hoffnung, der sprachwissenschaftlich fundierten Multimodalitätsforschung auf diese Weise zu einer stärkeren Konturierung und weiterführenden Kanonisierung ihrer Gegenstände, Paradigmen, Begrifflichkeiten und Methoden zu verhelfen. Multimodale Texte und kommunikatives Handeln beruhen wesenseigen auf der semantischen und funktionalen Verknüpfung bzw. wechselseitigen Integration verschiedener Zeichenmodalitäten  – wie Sprache, Bild, Musik, Geräusch in einem textuellen Rahmen (z. B. in Film, Comic oder illustrierter Zeitschrift). Multimodalität schließt aber auch die Realisierung einer Zeichenmodalität in unterschiedlichen Medien (wie z. B. Sprache in Schrift, Rede und Gesten) sowie auch die Kombination mehrere medialer Formate im Kontext der allgemein wachsenden Medienkonvergenz (z. B. Fernsehen, Lesen, Chatten, Twittern, Skypen) ein. Was legitimiert nun die Betrachtung von multimodalem Text und multimodaler Kommunikation als Gegenstand des Sprachwissens? Inwiefern ist Multimodalität ein notwendiger Bestandteil linguistischer Betrachtungen und Analysen? Zwei grundlegende Argumente lassen sich dafür ins Feld führen. Erstens sind Sprache und ihr Gebrauch selbst intermedial bzw. multimodal verfasst. Das bedeutet: Das virtuelle und abstrakte System der Sprache ist immer nur in verkörperter, medial materialisierter Form als Rede oder Schrift greifbar. Außerdem verbindet sich Sprache in der Kommunikation auf natürlichste Weise mit non-verbalen bzw. paraverbalen Zeichenmodalitäten wie Bild, Musik, Geräusch, Typographie/Layout, Gestik, Mimik etc. So entstehen musterhafte und Textsorten prägende multimodale Verknüpfungen. Zweitens hat die Linguistik ihren Gegenstand im Zuge einer Orientierung am kommunikativen Handeln längst 

VIII 

 Nina-Maria Klug/Hartmut Stöckl

auf (mediale) Kontexte, Text-/Diskurstypen sowie Wissensrepräsentation erweitert. Dabei verfügt sie über differenzierte Begriffssysteme, theoretische Modelle und Methoden, von denen viele auf nichtsprachliche Zeichensysteme und die Funktionsweisen multisemiotischer Gesamttexte übertragen werden können. Das dreiteilig angelegte Handbuch umreißt die Paradigmen einer multimodalen Beforschung von Sprache (I), systematisiert die Methoden der Analyse von semiotisch komplexen Texten (II) und gibt Einblicke in die Funktionsweise konkreter multimodaler Textsorten/Kommunikationstypen (III). Dabei bearbeitet es seine Gegenstände aus unterschiedlichen disziplinären Sichtweisen, von denen einige eher semiotischsystemlinguistischer Natur sind – etwa wenn es um die Spezifik der Zeichenmodalitäten und ihr funktional-semantisches Zusammenspiel geht  –, andere eher pragmatisch-kommunikativer Natur – wenn z. B. bestimmte multimodale Textsorten und Handlungsfelder charakterisiert werden. Vor allem aber baut der Band disziplinäre Bezüge auf und sucht methodische Zusammenhänge und Synthesen, um seinem Gegenstand überhaupt gerecht werden zu können. In vielerlei Hinsicht betreten die einzelnen Kapitel dabei das noch wenig kartographierte Neuland einer Theorie und Analysemethodik für multimodale Kommunikate. Nur so eröffnet sich auch die Möglichkeit, das Forschungsfeld Sprache in ihren Verknüpfungen mit anderen Zeichenressourcen und in konkreten medial und sozial definierten Gebrauchskontexten zu strukturieren und weiterzuentwickeln. Der erste Teil des Handbuchs (I Sprache im Feld multimodaler Kommunikation) umreißt in fünf Kapiteln den größeren theoretischen Rahmen, in dem multimodale Phänomene und Prozesse verortet werden können. Dabei bildet Sprache als zentrales Zeichensystem oder als Archimedium zumeist den jeweiligen Ausgangspunkt der Überlegungen. Kap. 1 (H. STÖCKL/Multimodalität – Semiotische und textlinguistische Grundlagen) erläutert in einem semiotischen Modell elementare Unterschiede in der Funktionsweise der zentralen Zeichenmodalitäten Sprache, Bild, Musik und Geräusch. Außerdem wird der multimodale Text als kohäsives und kohärentes Ganzes konzeptualisiert und ein analytischer Rahmen für multimodale Textsorten beschrieben und illustriert. Kap. 2 (J.A. BATEMAN/Methodological and Theoretical Issues in Multimodality) erörtert die zentralen Begriffe Zeichenmodalität, Medium und multimodales Genre kritisch und bringt sie in vielfältige und systematische Zusammenhänge. Auf dieser Basis entsteht eine Theorie der Multimodalität, die im Kern eine Synthese der drei Modalitätsaspekte Materialität, Lexikogrammatik und Diskurssemantik vorschlägt und empirische Studien leiten kann. Kap. 3 (C. SPIESS/Metapher) behandelt mit der Metaphorik einen zentralen kognitiven Mechanismus, der Bedeutungsübertragungen und Sinnbezüge zwischen unterschiedlichen Zeichenmodalitäten erklärt. Verschiedene Metapherntheorien werden in ihrer historischen Genese und mit ihren jeweiligen Implikationen für eine Modellierung von nicht-literalen, kontextuell und individuell generierten Bedeutung beschrieben und auf ihre Relevanz für multimodale Sinnerzeugung hinterfragt. Kap. 4 (J. SPITZMÜLLER/Typographie) richtet den Blick auf Typographie als eine weitestgehend eigenständige Zeichenmodalität, die 

Einleitung 

 IX

in der umfassenden materiellen Gestalt(ung) eines Texts besteht. Aus kommunikationstheoretischer, interaktions- und rezeptionstheoretischer wie auch vor allem aus textstilistischer Perspektive entsteht eine vielschichtige Auffassung von typographischer Bedeutungsgenerierung und ihrer kontextsensiblen Analyse. Kap. 5 (S. NORRIS/ Multimodal Interaction) schließlich wendet sich der multimodalen Interaktion zu und skizziert auf sozialsemiotischer Grundlage Konfigurationen von Zeichenmodalitäten im praktischen sozialen Handeln. Dabei wird gezeigt, wie Diskursanalyse und visuelle Analyse ineinandergreifen, um das Zusammenspiel der semiotischen Ressourcen auf verschiedenen Ebenen zu beschreiben. Ziel des ersten Teils ist es, wichtige theoretische Positionen und Modellvorstellungen aktueller Multimodalitätsforschung zu referieren und dabei die zentrale Rolle der Sprache in multisemiotischer Kommunikation zu reflektieren. Im zweiten Teil des Handbuchs (II Zugriffe auf multimodale Verknüpfungen) wird eine Auswahl etablierter Methoden zur Analyse multimodaler Texte und Kommunikationsprozesse präsentiert. Die einzelnen methodischen Zugänge schließen einander nicht aus, sondern verhalten sich prinzipiell komplementär zueinander – daher gibt es trotz grundlegender Unterschiede manche Berührungspunkte und Gemeinsamkeiten. Einige methodische Zugriffe sind eher ganzheitlich multimodal ausgelegt und generell konzipiert (wie z. B. die Sozialsemiotik in 6), d. h. sie eignen sich für die Beschreibung jeder Art von Verknüpfung, andere beziehen sich enger auf ausgewählte Modalitäten (z. B. die Rhetorik in 9 auf Sprache und Bild). Unterschiede gibt es auch insofern, als dass einige Methoden auf einen spezifischen Verknüpfungsmechanismus ausgerichtet sind (wie z. B. die Multimodale Metapher in 10), während andere multimodale Bezüge eher integrativ und umfassend betrachten (wie z. B. die Text- und Diskurssemantik in 7 sowie die Diskurskritik in 11). Außerdem stehen stärker strukturalistische, systembezogene Ansätze (wie z. B. die Verbal-Visuelle Semiotik in 8) kontext- und gebrauchsorientierten Zugängen (wie z. B. der Produktionsforschung in 12 oder dem Kulturvergleich in 13) gegenüber. Kap. 6 (C. JEWITT & B. HENRIKSEN/Social Semiotics) skizziert die auf Grundpositionen der funktionalen Linguistik basierende Sozialsemiotik und konzeptualisiert Multimodalität als soziokontextuell und nutzerbestimmtes Design von semiotischen Ressourcen mit ihren jeweiligen Affordanzen. Dieser generalistische Ansatz wird anhand der Social-Collecting-Community-Site Pinterest demonstriert und dient hier zur Beschreibung gender-spezifischer multimodaler Stile. Kap. 7 (N.-M. KLUG/Multimodale Text-/Diskurssemantik) zeigt, wie Wissen und Bedeutung in Text und Diskurs auf multimodale Weise konstituiert und strukturiert werden. Das vorgeschlagene Analysemodell berücksichtigt neben allgemeinen soziokulturellen Kontextfaktoren vor allem die intra-und intertextuelle Entfaltung von Wissensrahmen und deren multimodale Binnenstrukturierung sowie im Speziellen den Gebrauch von Topoi, Schlagwörtern/-bildern und Argumentationsmustern. Es wird anhand ausgewählter Diskurse des Social Advertising eingehend illustriert. Kap. 8 (W. NÖTH/Verbal-Visuelle Semiotik) behandelt die systemischen Unterschiede der Semantik und Pragmatik 

X 

 Nina-Maria Klug/Hartmut Stöckl

von Bild versus Sprache  – d. h. ihre kommunikativen Potenziale und Defizite. Die im Wesentlichen auf der Semiotik von Peirce beruhenden analytischen Kategorien zeichnen ein Bild der generellen Komplementarität der beiden Zeichenmodalitäten, berühren aber auch Fragen nach ihrer Autonomie. Kap. 9 (N. KOCH & T. SCHIRREN/ Verbal-Visuelle Rhetorik) widmet sich ebenso dem Verhältnis und Zusammenspiel von Sprache und Bild, hier aber aus der Sicht der Rhetorik, die als effekt- und adressatenorientierte multimodale Sprechakttheorie verstanden wird. Insbesondere zeigt dieser methodische Zugriff, dass sämtliche rhetorische Grundkonzepte auf die Funktionsweise einzelner Zeichenmodalitäten und ihrer Verknüpfung anwendbar sind und Sprache und Bild in ihrer Wirkung auf das Evozieren modalitätsübergreifender mentaler Bilder abzielen. Kap. 10 (C. FORCEVILLE/Pictorial and Multimodal Metaphor) erläutert die theoretischen und analytischen Grundlagen der konzeptuellen Metapherntheorie und zeigt, wie diese auf den Bereich visueller und multimodaler Metaphern übertragen werden können. Hierbei erweist sich die feingliedrige Unterscheidung diverser Metapherntypen als nützlich für die empirische Forschung, der es vor allem darauf ankommen muss, den komplexen und von Genre wie Handlungskontext abhängigen Interpretationsprozess multimodaler Metaphern zu modellieren. Kap. 11 (A. MAYR/Multimodal Critical Discourse Analysis) erweitert Methoden der Kritischen Diskursanalyse vom sprachlichen Text auf multimodale, bildzentrierte Diskurse. Die analytischen Kriterien (z. B. Handlungsträger, Handlungstypen) sind der Sozialsemiotik und funktionalen Linguistik entlehnt und zielen am Beispiel von audiovisuellen Crime-Diskursen auf die Rekonstruktion von Ideologien und sozialen Machtgefügen. Die Methode demonstriert, wie sich verbale und visuelle Repräsentationsstrategien wechselseitig ergänzen und verstärken. Kap. 12 (M. KLEMM & D. PERRIN & S. MICHEL/ Produktionsforschung) plädiert für die Nützlichkeit einer Erweiterung der Analyse multimodaler Produkte um Aspekte ihrer Produktion (und Rezeption). Mittels der Progressionsanalyse können multimodale Schreib- und Montagehandlungen rekonstruiert und typische multimodale Muster sichtbar gemacht werden. Die Kurzethnographie fragt nach dem Einfluss redaktioneller Kulturen und Routinen sowie nach den subjektiven Theorien für multimodale Designhandlungen. Produktionsanalytische Methoden richten den Blick generell auf die Aushandlungsprozesse multimodalen Textens und deren kulturelle und ideologische Kontexte. Kap. 13 (M. KLEMM/ Kulturvergleich) schließlich illustriert anhand von amerikanischen und deutschen TV-Jahresrückblicken methodische Zugänge zur kulturellen Prägung multimodaler Muster. Sie schlägt sich in der unterschiedlichen Nutzung der Zeichenmodalitäten, in ihrer verschiedenartigen Kombination sowie in divergenten thematischen Wahlen und Strukturierungen nieder. Andersartige Realitätskonstruktionen können so an nationale, redaktionelle und mediale Kulturen rückgebunden werden. Das übergreifende Ziel des zweiten Teils besteht darin, ein breites Spektrum methodischer Annäherungen an multimodale Kommunikation aufzuzeigen und die



Einleitung 

 XI

Beschreibungskraft der verschiedenen Methoden zu erläutern und untereinander vergleichbar zu machen. Dem dritten Teil des Handbuchs (III Aspekte multimodaler Textsorten) liegt die Überlegung zugrunde, dass multimodale Verknüpfungen in starkem Maße vom Diskurstyp oder der Textsorte abhängig sind bzw. überhaupt nur in deren ordnenden Rahmen entstehen. Dieser Teil wird daher von einem grundlegenden Aufsatz zur Anwendbarkeit texttypologischer Kategorien auf multimodale Kommunikate und zum Zusammenhang zwischen Genre und Multimodalität eingeleitet (14). Seinen Abschluss findet der analytische Teil mit Kapitel 21 in einem wiederum eher um Generalisierung bemühten Beitrag, der die historische Veränderbarkeit des kommunikativen Umgangs mit Multimodalität und Richtungen dieses Wandels am Beispiel des Lehrbuchs behandelt. Die übrigen Kapitel des dritten Teils beinhalten Portraits verschiedener multimodaler Textsorten bzw. Kommunikationsformen. Sie zeigen in Fallstudien einerseits die Vielfalt und Kontextsensibilität multimodaler Textstrukturen und multimodalen Handelns, andererseits lassen sie medien- und textsortenübergreifende Gemeinsamkeiten und generelle Prinzipien der Konstitution multimodaler Kommunikate sichtbar werden. Die Auswahl der multimodalen Textsorten oder Kommunikationsformen in 15–20, deren mediale Gebrauchskontexte, multimodale Strukturen und stilistische Merkmale näher beschrieben werden sollen, folgt vier großen multimodalen Texttypen: Print-, Audio-, audiovisueller und digitaler Text. Hier war der Gedanke maßgebend, dass die Verknüpfung der Modes von den jeweils beteiligten Medien vorbestimmt wird. Die gewählten multimodalen Genres repräsentieren je einen medialen Texttyp, setzen aber auch jeweils methodische Schwerpunkte. Kap. 14 (U. SCHMITZ/Multimodale Texttypologie) legitimiert zunächst die Erweiterung des Textbegriffs auf “gemischte”, multisemiotische Kommunikate und zeigt anhand der Vielgestaltigkeit und des Reichtum multimodaler Textproduktion und -rezeption in der gegenwärtigen Kommunikationskultur die Notwendigkeit und den Wert typologischer Ordnung. Dazu werden verschiedene Ansätze vorgeschlagen: auf der Basis der beteiligten Modalitäten, der genutzten Kommunikationsform, oder in einem Mehrebenenmodell nach solchen Kriterien wie u. a. Thema, Funktion, Kontext und Verknüpfungsbeziehungen zwischen den Modalitäten. Kap. 15 (T.D. ROYCE/Intersemiotic Complementarity in Print Advertisements) führt anhand einer multimodalen Mikroanalyse auf sozialsemiotischer Basis die prinzipielle funktional-semantische Komplementarität von Sprache, Bild und Typographie im Werbetext vor Augen. Multimodale Strukturen werden hier vor allem als kohärente Sinnbezüge zwischen einzelnen verbalen und visuellen Zeichen modelliert. Diese hier für Print-Texte demonstrierte Methodik lässt sich in vielen Teilen auf andere mediale Formate (z. B. Film, Website) übertragen und adaptieren. Kap. 16 (H. ANDERSSON & D. MACHIN/A Multimodal Approach to Song) fragen innerhalb eines sozialsemiotisch-parametrischen Ansatzes danach, welche Bedeutungs- und Wirkpotenziale von den diversen Klangqualitäten der Singstimme in Popsongs ausgehen können und wie diese in intermodalen Zusammenhängen mit dem Inhalt des Liedtexts und dem Charakter der 

XII 

 Nina-Maria Klug/Hartmut Stöckl

Musik stehen. Anhand kontrastiver Analysen dreier Lieder zeigen sie sowohl komplementäre und parallelisierende als auch divergente bzw. kontradiktorische Bezüge zwischen den verschiedenen Ressourcen der auditiven Zeichenmodalitäten. Kap. 17 (W. HOLLY/Nachrichtenfilme) behandelt audiovisuelle Kommunikate in ihrer Produktionsgenese aus Agenturmaterial und ihrer multimodalen Bedeutungsentfaltung für den Zuschauer. Mit einem transkriptionstheoretischen Ansatz wird erörtert, wie sich Sprache und Bild wechselseitig semantisieren und dabei die jeweiligen semiotischen Potenziale nutzen und Defizite kompensieren. Bilder authentisieren und dramatisieren die Sachverhalte, Sprache schafft dafür die raumzeitliche Ordnung, benennt, bewertet und erklärt sie. Kap. 18 (S. MEIER/Websites) hinterfragt die Auswirkungen elektronisch-digitaler Textualität und Online-Medialität (unter den Bedingungen zunehmender Vernetzung und Mobilität) auf die Konstitution multimodaler Textsorten. Dazu wird ein Fragenkatalog für empirische Analysen auf mehreren forschungsmethodischen Ebenen entwickelt und eine Typologie für Webseiten vorgeschlagen. Kap. 19 (V. EISENLAUER/ Facebook) charakterisiert Facebook bzw. Social Networking Sites (SNS) allgemein als inhärent hybride Kommunikationsform, bei der die multisemiotischen Praktiken der Nutzer in starkem Maße von den vorgegeben Funktionalitäten der technischen Plattform bestimmt werden. Multimodale Texthandlungsanalysen machen deutlich, wie Nutzer Texte im Wesentlichen dadurch produzieren, dass sie Inhalte und Medien rekontextualisieren. Dabei konstruieren die Textproduzenten ihre Identitäten, indem sie verschiedene Selbstdarstellungstechniken nutzen. Kap. 20 (C. SIEVER/FotoCommunitys) untersucht anhand von Flickr die Rückwirkungen der medialen Eigenschaften von Social-Sharing-Plattformen auf multimodale Praktiken und Textstrukturen – wie z. B. das Taggen und Notizen Anbringen. Beim Taggen von Bildern entsteht multimodale Redundanz, indem Bildinhalte und Wissen über Bilder versprachlicht wird. Notizen hingegen erzeugen komplementäre multimodale Bezüge, weil Ellipsen oder Passivkonstruktionen durch Bildelemente ergänzt werden oder Deiktika auf die Bilder verweisen. Kap. 21 (J. BEZEMER & G. KRESS/The Textbook in a Changing Multimodal Landscape) erklärt Veränderungen im Gebrauch der Zeichenmodalitäten am Beispiel von Schulbuchtexten. Hier haben sozialer und technologischer Wandel in den letzten 85 Jahren zu einer Intensivierung und Diversifizierung von bildlichen Darstellungsformen und von Typographie/Layout geführt. Auch hat sich die Funktionsteilung zwischen Sprache und Bild verschoben, und es sind neuartige multimodale Kombinationen entstanden, in die Video und gesprochene Sprache als weitere semiotische Ressourcen digitaler Lernumgebungen integriert werden. Die Textsortenportraits des dritten Handbuchteils beleuchten analytische Verfahren und deren Potenziale bei der Beschreibung typischer multimodaler Muster. Insofern sind sie an die Methodendarstellung des zweiten Teils rückgebunden. Das vorliegende Handbuch zeichnet sich durch einige Besonderheiten aus, die hier kurz erwähnt werden sollen. Entgegen dem zuweilen praktizierten, forschungspolitisch motivierten linguistischen Imperialismus mischt das Handbuch deutsch

Einleitung 

 XIII

und englischsprachige Beiträge. Dies geschieht im Sinne der Pluralität von Ansichten, Paradigmen und Methoden und bereichert die Aussagekraft des Buches. Obwohl die Wahl der Überschriften und ihre Hierarchien dies nicht immer direkt reflektieren, folgen die verschiedenen Kapitel eines Handbuchteils einer einheitlichen Logik. Dabei haben die Herausgeber u. a. darauf geachtet, dass die historischen Entwicklungslinien von Theorien und Methoden aufgezeigt werden, ihre Elemente und Begrifflichkeiten klar erläutert werden, der heuristische Wert von Paradigmen und methodischen Zugängen an Beispielanalysen verdeutlich wird, und die Leistungsfähigkeit der Ansätze und analytischen Instrumente kritisch reflektiert wird. Selbstverständlich kann ein Handbuch zum Thema Multimodalität keinen erschöpfenden Überblick über alle Felder, Themen und Anwendungsgebiete geben. Wir hoffen dennoch, dass nur wenige blinde Flecken bleiben und eventuelle Ungleichgewichte in der Auswahl durch die Binnenkohärenz der Kapitel und Teile aufgewogen werden. Hält man in einem Handbuch den aktuellen Forschungsstand zu Sprache im multimodalen Kontext fest, so bietet dies auch Gelegenheit zum Ausblick. Für die weitere Entwicklung der linguistischen Multimodalitätsforschung scheinen uns eine Schärfung der verfügbaren Methoden sowie ihre schrittweise Integration in ganzheitliche Modelle sinnvoll. In den theoretischen Grundfragen – wie etwa bezüglich Zeichenmodalität, Medium, multimodale Textualität, Genre etc. – wäre eine begriffliche Harmonisierung sicher von Vorteil, um Kompatibilität und Stringenz der Ansätze zu verbessern. Zudem wissen wir noch zu wenig über die Funktionsweise bestimmter Zeichenmodalitäten, ihre „Grammatiken“ sind z. T. noch nicht geschrieben, was ein Nachdenken über Muster der Zeichenkombination erschwert. Die empirische Arbeit schließlich sollte sich an größeren Korpora orientieren, wo notwendig systematische Transkripte verwenden und ihr Augenmerk vor allem auf textsortenspezifische multimodale Muster richten.



I Sprache im Feld multimodaler Kommunikation



Hartmut Stöckl

1. Multimodalität – Semiotische und textlinguistische Grundlagen Abstract: Dieses Kapitel skizziert einen theoretischen Rahmen für die Betrachtung und empirische Analyse multimodaler Texte. Dabei werden erstens die elementaren Unterschiede in der Funktionsweise der zentralen Zeichenmodalitäten Sprache, Bild und Ton (Musik, Geräusch) erläutert – hier kommen grundlegende semiotische Parameter und Modelle zum Tragen. Zweitens wird der multimodale Text als kohäsives und kohärentes Ganzes beschrieben, das die unterschiedlichen Modalitäten strukturell und funktional integriert. Hier übertrage ich zentrale textlinguistische Kategorien, wie Textsorte, Themen- und Handlungsstruktur oder Kohäsion/Kohärenz etc., und prüfe deren Beschreibungspotenzial für multimodale Artefakte anhand ausgewählter Beispiele. Die Grundthese ist, dass uns Multimodalität immer in Gestalt konkreter multimodaler Genres begegnet, die wir nur produzieren und verstehen können, wenn wir um die Ausdruckspotenziale der Zeichenmodalitäten wissen und die genrespezifische multimodale Textur kennen. 1 Anknüpfungspunkte – Desiderate – Thesen 2 Ein Konzept von ‚Zeichenmodalität‘ 3 Zentrale Zeichenmodalitäten im semiotischen Vergleich 4 Beschreibungsdimensionen des multimodalen Texts 5 Fazit und Ausblick 6 Literatur

1 Anknüpfungspunkte – Desiderate – Thesen Es ist dem rasanten Aufschwung der Multimodalitätsforschung zu verdanken, dass Linguisten heute weder „blind für Bilder“ (Schmitz 2003) noch „besinnungslos“ gegenüber den Zeichenmodalitäten anderer Sinneskanäle, wie z. B. Musik und Geräusch sind. Im Zuge einer konsequenten Orientierung auf den Sprachgebrauch und dank der Hinwendung zu den semiotischen Oberflächen und Körper der Texte (z. B. Kesselheim 2011) sieht man heute alle die Sprache begleitenden Zeichenmodalitäten als ihren notwendigen Ko- und Kontext. Der Stand der Forschung zu multimodaler Kommunikation (s. dieses Handbuch, Jewitt 2014; Björkvall 2012; Norris/Maier 2014) zeigt sich festigende, v. a. sozialsemiotische terminologische Grundlagen, eine zunehmende Inventarisierung der „grammatischen“ Ressourcen einzelner ‚modes‘ und, im Ansatz, die empirische Untersuchung ausgewählter multimodaler Gesamttexte. Trotz aller Fortschritte ist Björkvall (2012, 18) zuzustimmen, wenn er meint, 

4 

 Hartmut Stöckl

dass die Multimodalitätsforschung „[is] still very much an emerging field and there is both room and need for methodological development“. Vor allem die Integration von Zeichenmodalitäten in multimodalen Gesamttexten ist m. E. noch unzureichend beschrieben, so dass die Verknüpfungsmuster von ‚modes‘ und die Prinzipien der intersemiotischen Sinnstiftung einen weitestgehend blinden Fleck markieren. Das Wesen multimodaler Texte besteht darin, dass zumindest zwei Zeichenmodalitäten strukturell und funktional integriert werden bzw. sich ein und dieselbe Modalität in verschiedenen Medien manifestiert (Fricke 2012, 49 f.). So kombiniert ein Film bewegte Bilder und gesprochene Sprache mit Musik und Geräusch; Sprache manifestiert sich zugleich im der Rede und der Gestik. Ist das Phänomen Multimodalität als textuelles und rhetorisches Prinzip der Vielgestaltigkeit von Zeichentypen und ihrer Verknüpfung recht klar umrissen, so ist der Begriff des ‚mode‘ noch ungenügend geklärt. Forceville bringt die Folgen dieses Defizits treffend zur Sprache: if there was no agreement on what constitutes a mode, any dimension of discursive meaning could qualify for modal status, and that would make the concept useless. (Forceville 2014, 51 f., Hervorhebung im Original)

Zwei Herangehensweisen lassen sich diesbezüglich unterscheiden. Die eine vermeidet dezidiert eine klare Unterscheidung von Zeichenmodalitäten, indem sie argumentiert, dass „a mode is what a community takes to be a mode and demonstrates that in its practices“ (Kress 2014, 65). Die andere unterscheidet prototypische Modalitäten (wie Rede, Schrift, Bild, Ton, Gestik, Mimik etc.), die uns als Alltagskategorien vertraut sind, konzediert deren potentielle Überlappungen und mangelnde Trennschärfe, bietet aber auch keine kategoriale Definition. Diese Lücke nehme ich als ersten Anknüpfungspunkt und werde zeigen, wie sich ‚Zeichenmodalität‘ „im Kraftfeld der Konzepte Medium, Kode und Sinneswahrnehmung“ (Klug/Stöckl 2015, 244) klären lässt. Ein zweiter Anknüpfungspunkt ergibt sich aus der Diskussion um die Gemeinsamkeiten und Unterschiede zwischen den Zeichenmodalitäten. Die grundlegende Frage, welche ‚modal affordance‘ (Jewitt/Kress 2003, 14 ff.), d. h. welches distinkte Ausdruckspotenzial die verschiedenen ‚modes‘ haben, welcher Logik (vgl. ‚modal logic‘ – ibid.) sie folgen und über welche semantisch-pragmatische Reichweite (vgl. ‚reach of mode‘  – Kress 2014, 63 f.) sie verfügen, ist bisher ungenügend beantwortet worden. Forceville (2014, 51) sieht deren Klärung aber als wesentlich, wenn er schreibt: If the study of multimodal discourse is to develop into a respectable scholarly humanities discipline, each of the modes/modalities partaking in multimodal discourse must also be theorized separately. The question is thus first of all what, and how, a mode can communicate on its own.

Van Leeuwen (2005a, 73) erkennt daher folgendes Desiderat:



Multimodalität – Semiotische und textlinguistische Grundlagen 

 5

Comparisons between various ‘grammars’ are especially needed. We need to know more about the extent to which different modes can do the same kind of communicative work and about the extent to which they differ in their semiotic potential […].

Ich will in diesem Beitrag einen solchen direkten Vergleich der Zeichenmodalitäten Sprache, Bild, Musik und Geräusch anstellen und aufzeigen, welche semiotischen Basiskategorien und -modelle dazu nützlich sind. Der dritte Anknüpfungspunkt betrifft die oft aber nie systematisch angestellten Projektionen textlinguistischer Konzepte (wie z. B. Genre  – vgl. van Leeuwen 2005a/b; Bateman 2008 oder Kohäsion – vgl. Royce 1998 und Kohärenz – vgl. Stöckl 2012a, 251 ff.) auf multimodale Kommunikate. Die Texthaftigkeit multimodaler Artefakte steht außer Frage (wie auch die von Bildern und Musik für sich genommen), jedoch muss es darauf ankommen, multimodale Textualität zu fassen, indem man ein systematisches Mehr-Ebenen-Modell des multimodalen Text entwickelt, das wichtige Konzepte zueinander in Beziehung setzt. Ein solches Modell will ich in diesem Beitrag auch grob skizzieren, wobei das Augenmerk auf der inhärenten Typen- und Sortenzugehörigkeit multimodaler Texte liegt. Die dargelegten Anknüpfungspunkte und Desiderate lassen sich in zwei Thesen bündeln, die diesen Beitrag leiten sollen: 1. Grundlegende semiotische Konzepte und Modelle sind hilfreich, um die prototypischen Merkmale der verschiedenen Zeichenmodalitäten aufzuzeigen. Ein systematischer ‚mode‘-Vergleich stellt ihre kategorialen Unterschiede in der Funktionsweise und im Ausdruckspotenzial heraus und verdeutlicht die wesenseigene Spezifik jeder einzelnen Zeichenmodalität. Die semiotische Gegenüberstellung basaler Modalitäten führt zwangsläufig auch zu einer Bestimmung des Begriffs der Zeichenmodalität. Solche konzeptuellen Überlegungen begründen unser Wissen über die tatsächlichen Funktionsweisen von Modalitäten im multimodalen Text; insbesondere leiten sie unser Verständnis der zahlreichen ‚mode‘-Überlappungen und -integrationen. 2. Die Kombination mehrerer Zeichenmodalitäten ist ein text-konstitutives Handeln, bei dem die einzelnen ‚modes‘ formal-strukturell und semantisch-funktional in den Gesamttext eingebunden werden. Jeder multimodale Text realisiert eine Textsorte (z. B. Infografik, Zeitungsnachricht, Werbeanzeige), die sich in einem Mehr-Ebenen-Modell beschreiben lässt. Dabei sind textlinguistische Basiskonzepte wie Kohäsion, Kohärenz oder Textstruktur (thematisch, Handlungsstruktur) etc. hilfreich, um multimodale Integration im Gesamttext zu erklären. Von zentraler Bedeutung ist die Frage, wie stark typisiert die einzelnen Modalitäten verwendet werden und wodurch sich die multimodalen Texturen der einzelnen Textsorten unterscheiden. In anderen Worten: Gibt es z. B. ein typisches Werbe-, Zeitungs- oder infographisches Bild? Und inwiefern ist die multimodale Kohärenz einer Infografik distinkt?



6 

 Hartmut Stöckl

2 Ein Konzept von ‚Zeichenmodalität‘ Prinzipiell ruft die Idee einer Synthese mehrerer Zeichenmodalitäten im kommunikativen Gebrauch die typologisierende Frage auf den Plan: Welche Modalitäten gibt es und wie kann man sie voneinander abgrenzen? Dass für die Beschreibung multimodaler Texte generell eine semiotische Perspektive zielführend ist, habe ich a. a. O. (Stöckl 2014) bereits gezeigt. Hier möchte ich einen direkten und systematischen Vergleich zentraler Zeichenmodalitäten anstellen. Dabei beschränke ich mich auf Sprache, Bild, Musik und Geräusch, weil sie im Alltagsverständnis der Zeichenverwender zweifelsfrei als basale Modalitäten gelten können und weil deren Kombination eine einfache aber weithin gültige Typologie multimodaler Texte (Print-Text, Audio-Text, Audiovisueller Text) etabliert (s. dazu Schmitz i. d. B; Stöckl 2012b, 20). Eine solche Engführung schließt zum einen bestimmte für mediatisierte textuelle Artefakte eher randständige Modalitäten der Sinneswahrnehmung wie Geruch, Geschmack oder Taktiles aus. Zum anderen lässt sie solche Zeichenmodalitäten wie Gestik und Mimik, aber auch Typographie oder Intonation/Stimmgestaltung unberücksichtigt, weil diese in dem Sinne peripher und kaum autonom sind, dass sie in andere Modalitäten integriert werden und nur bei der gleichzeitigen Realisierung von Rede, Schrift oder Bild ins Spiel kommen. Für alle typologischen Fragen gilt, dass „many categories allow for subdivisions and, second, that they tend to have fuzzy borders“ (Forceville 2014, 52); Schmitz (i. d. B.) warnt zudem vor „pedantischem Positivismus“. Bevor die Funktionsweisen zentraler Zeichenmodalitäten miteinander verglichen werden, entwickle ich hier zunächst kurz ein Konzept von Zeichenmodalität (s. Abb. 1). In erster Linie wird der Begriff in seinem psychologischen Sinn als Zeichentyp verstanden, der durch die jeweilige Sinnesmodalität oder den Wahrnehmungskanal begründet ist, in denen die Zeichen prozessiert werden. Auf diesem Verständnis fußt auch die ursprüngliche Prägung des Begriffs ‚Multimodalität‘ (van Leeuwen 2011, 549). Koch (1971, 219 ff.) schlägt diesbezüglich fünf große Zeichentypen vor: visuell, auditiv, taktil, olfaktorisch und gustativ (s. auch die Überlegungen von Eco 1977, 174 ff.). Obgleich diese Einteilung valide ist, reduziert sie das Konzept der Zeichenmodalität, vergröbert stark und erweist sich als nicht trennscharf: So ist gesprochene Sprache auditiv, geschriebene hingegen visuell – soll man Sprache deshalb als zwei Modalitäten (Rede und Schrift) auffassen, obwohl ihnen beiden die gleiche Lexik und Grammatik zugrunde liegt? Oder: Bild und Schrift sind klar getrennte Modalitäten, rangieren aber beide als visuelle Zeichentypen. Diese Probleme deuten darauf hin, dass ‚Zeichenmodalität‘ ein breiter gefasstes Konzept ist, das Aspekte der Kodiertheit und der Medialität von Zeichen einschließt.



Abb. 1: Ein Konzept von Zeichenmodalität. Eine Synthese mehrerer Zeichenmodalitäten im kommunikativen Gebrauch wirft die Frage nach ihrer Abgrenzbarkeit und Typologisierung auf. Dieses mehrdimensionale Modell des Konzepts Zeichenmodalität unterscheidet Aspekte der sinnlichen Wahrnehmbarkeit von Zeichen (psychologisch), ihrer strukturierten Kodiertheit (semiotisch) und ihrer materiell-technischen Realisierung (medial).

Multimodalität – Semiotische und textlinguistische Grundlagen   7



8 

 Hartmut Stöckl

Aus semiotischer Sicht scheint vor allem die Zugehörigkeit von Zeichen zu einem Kode oder Zeichensystem der zentrale Aspekt bei der Abgrenzung von Zeichenmodalitäten. Kodiertheit setzt voraus, dass es ein kulturell etabliertes und konventionalisiertes Zeicheninventar gibt, das den Benutzern als Werkzeug für absichtsvolle Kommunikation und praktisches Handeln dient. Die Zeichenrepertoires sind intern strukturiert, d. h. sie verfügen über „Zuordnungsvorschriften“ für Zeichenform und -inhalt sowie über Regeln der Kombinierbarkeit der Zeichen zu größeren Aussageeinheiten. Interne Strukturiertheit lässt sich mit Blick auf Sprache kurz als ‚LexikoGrammatik‘ etikettieren. Morris (1971, 28 ff.) hat die Idee stark gemacht, dass jedes semiotische System, jede Zeichenmodalität, in den Dimensionen Syntax („relations of signs to one another“ – Morris 1971, 28), Semantik („relations of signs to their designata“ – Morris 1971, 35), Pragmatik („relation of signs to their interpreters“ – Morris 1971, 43) funktionieren muss. Die Sozialsemiotik betont, dass Zeichenmodalitäten jeweils über ihnen eigene semiotische Ressourcen verfügen. Unterschiede zwischen Sprache, Bild, Musik, Geräusch etwa sind also demnach daran festzumachen, wie sie sich syntaktisch, semantisch und pragmatisch verhalten und welches ihre spezifischen Ressourcen sind (z. B. Sprache: Zeitformensystem der Verben, Satztypen, Sprechakte vs. Musik: Melodie, Harmonie, Rhythmus, Dynamik etc.). Es ist eine bekannte Tatsache, dass zentrale Zeichenmodalitäten medial unterschiedlich realisiert werden können: Sprache wird gesprochen und geschrieben; Bilder lassen sich z. B. fotografieren, malen oder collagieren etc.; Musik wird gespielt oder notiert. Ganz gleich, wie weit oder eng man Mediales fassen will, ob physikalisch – als materielle Voraussetzung oder technologisch – als technische Hilfsmittel zur Kommunikation bzw. auch handlungsbezogen  – als „sozial konstituierte Verfahrensformen“ (Schneider 2008, 246 f.) der Zeichenverarbeitung, mediale Aspekte haben einen konstitutiven Einfluss auf Struktur und Gebrauch der Zeichenmodalitäten. Medien ermöglichen überhaupt erst die Wahrnehmung und Kodierung von Zeichen, und sie hinterlassen Spuren in den Textsorten und kommunikativen Darstellungsformen. Es verwundert daher nicht, dass der Begriff ‚Zeichenmodalität‘ auch über Mediales definiert worden ist  – etwa, wenn Jewitt/Kress (2003, 1 f.) die „work of culture in shaping material“ hervorheben, die ‚modes‘ erst erschaffen. Allerdings plädiert die Sozialsemiotik für eine Trennung von ‚modes‘ und ‚media‘ (s. z. B. Kress/ van Leeuwen 2001, 21 f.). Die germanistische Medien(text)linguistik schlägt mit ‚Kommunikationsform‘ (z. B. Gespräch, Zeitung, TV, Radio, Ansichtskarte, Plakat, Warenverpackung) ein Konzept vor, in dem alle medial-materiellen, zeitlich-räumlichen und situativen Aspekte von Kommunikation gefasst und typisiert werden können. Diese medialen Rahmen der Zeichenverwendung bedingen auch jeweils verfügbare Zeichenmodalitäten und typische Verknüpfungsmuster (z. B. kombiniert das Radio Rede, Musik und Geräusch). Holly bezeichnet Kommunikationsformen als „medial bedingte kulturelle Praktiken“ (Holly 2011, 155) oder auch als „kommunikative Dispositive, die sich auf der Basis verfügbarer technischer Möglichkeiten und sozialer Bedürfnisse allmählich herausbilden“ (Holly 2011, 155). A. a. O. (Klug/Stöckl 2015, 

Multimodalität – Semiotische und textlinguistische Grundlagen 

 9

245) habe ich dafür plädiert, die Begrifflichkeiten wie folgt zu ordnen: Materialien und Technologien ermöglichen Kommunikationsformen, diese setzen die größeren medialen und situativen Konfigurationen für die Produktion von multimodalen Texten, die wiederum – je nach Sorte – verschiedene Zeichenmodalitäten in unterschiedlichen Verknüpfungen verwenden. Zusammenfassend lässt sich die mehrdimensionale Natur des Konzepts Zeichenmodalität erkennen: Jede Zeichenmodalität ist an einen Kanal der Sinneswahrnehmung gebunden. Sie muss materiell-medial realisiert werden und in einer raumzeitlichen und sozialen Situation verwendet werden. Semiotische Modalitäten verfügen über eine interne Strukturierung, die Bedeutungen, Kombinationsmöglichkeiten und Gebrauchsfunktionen ihrer Zeicheninventare regelt. Aus dieser Auffassung lässt sich der Schluss ziehen, dass bei der Zuordnung von Phänomenen zu modes Vorsicht geboten ist. Farbe z. B. scheint eher Bestandteil, d. h. Ressource von Bild oder Typographie; Film, Comics, Oper, Tanz etc. sind medial bestimmte Kommunikationsformen bzw. ihre multimodalen Textsorten, nicht aber Zeichenmodalitäten. Die Einteilung in übergeordnete Klassen wie etwa verbale, non-verbale und paraverbale Zeichen macht Sinn, wirft aber vor allem die alte logozentrische Frage nach der Rolle der Sprache und nach der Nähe/Ferne anderer Modalitäten zu ihr innerhalb der multimodalen Semiosphäre auf (s. dazu Sebeok 1994, 105 ff.; Eco 1977, 172 ff.)

3 Zentrale Zeichenmodalitäten im semiotischen Vergleich Sinn und Zweck des nun anzustellenden Vergleichs ist es, Gemeinsamkeiten und Unterschiede zwischen zentralen Zeichenmodalitäten aufzuzeigen, indem einzelne semiotische Parameter  – wie z. B. Semiotisierungsgrad, Zeichenkomplexion, Referenzherstellung, Kommunikationsfunktionen – herangezogen und überprüft werden. Der Einfachheit halber werden diese Kriterien in den drei großen Dimensionen Syntax (Form), Semantik (Inhalt), Pragmatik (Funktion) (s. o.) geordnet (s. Tab. 1). Dabei gehören Beobachtungen über die Beschaffenheit der Kodes und zeichentypologische Fragen zu den syntaktischen Aspekten, Aussagen über die Wahrnehmung und die kognitive Verarbeitung der Zeichenmodalitäten zu ihrer pragmatischen Dimension. Im Ergebnis steht ein kontrastives Portrait der jeweils modespezifischen Logik, ihrer Ausdruckspotenziale (und -beschränkungen) sowie der zugrunde liegenden Funktionsweisen.



10 

 Hartmut Stöckl

3.1 Syntax – Beschaffenheit und interne Struktur Zuallererst stellt sich die Frage, über welchen Sinneskanal die Zeichen verarbeitet werden. Während Geräusche rein auditive und Bilder rein visuelle Zeichenphänomene sind, erlauben Sprache und Musik eine duale mediale Realisierung und bedienen daher entweder den auditiven oder visuellen Sinneskanal. Ursprünglich und wesenseigen sind Sprache und Musik phonischer Natur. Mit Schrift und Notation stehen Aufschreibsysteme zur Verfügung, die akustische Phänomene visuell kodieren und erfahrbar machen. Diese Phonographien entreißen Sprache und Musik ihrer zeitlichen Flüchtigkeit; sie ermöglichen und erleichtern das systematische Studium der Zeichenstrukturen. Obwohl Sprache und Musik sehr verschiedene Modalitäten sind, weisen sie also in dieser Hinsicht Parallelen auf. Die gemeinsame Motivation von Schrift und Notation liegt vermutlich in der linearen Syntax der Zeichen von Sprache und Musik, die eine flexible Rekonstruktion und Weitergabe von Textteilen bedingt haben mag. Für Bilder und Geräusche gibt es derartige sekundäre mediale Realisierungen nicht. Semiotisierung bezeichnet den Prozess, in dem ein Rezipient ein beliebiges materielles Phänomen als Zeichenkörper anerkennt und ihm einen bestimmten Inhalt oder Sinn zuschreibt. Damit ist verbunden, dass einzelne Zeichen zu Systemen oder Ressourcen zugeordnet werden und dementsprechend semiotisches Wissen über die jeweilige Zeichenmodalität abgerufen wird. Wir sprechen von Graden der Semiotisierung, um auszudrücken, dass die Sinnstiftung mit Zeichen kein entweder oder, sondern ein mehr oder weniger ist. Manche Modalitäten generieren Sinn fast axiomatisch, automatisiert; bei anderen schreiben wir Sinn erst nach gründlicher Reflexion der Zeichen und ihrer Strukturen zu. Geräusche weisen eine niedrige Semiotisierung auf; wir nutzen sie primär, um unser praktisches Verhalten in den uns umgebenden Situationen auszurichten. Die massenmediale Semiotisierung von Geräuschen, etwa im Film oder Radiotext orientiert sich in starkem Maße an unseren auditiven Umwelterfahrungen. Musik ist in einem höheren Maße semiotisiert, als kulturelles Artefakt deuten wir ihre Zeichen im Rahmen eines komplexeren ‚Texts‘, nicht in Analogie zur Wahrnehmung der uns umgebenden Welt, sondern nach system- und genreimmanenten ‚Regeln‘. Ähnliches lässt sich für Bilder behaupten, wenngleich die Semiotisierung hier in gewissem Maße auf Analogien zwischen Umweltsehen und Bildbetrachten zurückgreifen kann. Die Sprache schließlich weist eine hohe Stufe der Semiotisierung auf. Eigens als Mittel zur effizienten Verständigung geschaffen, verstehen wir Sprache immer nur in einer klaren Kommunikationssituation und einem Ko- und Kontext. Im Unterschied zu Musik, Geräusch und Bild ist die Beschäftigung mit sprachlich kodierten Informationen total – ihr Sinn kann nur aufgrund der weitgehenden Kenntnis des Kodes erschlossen werden. Bei Bildern, Musik und Geräusch scheint eine nur periphere Zuwendung von Aufmerksamkeit möglich – das Lesen der Botschaften nach festen Koderegeln stellt eher eine Ausnahme dar und diese Regeln sind inhärent genre-, situations- und kontextabhängig. Bezüglich des Semiotisie

Multimodalität – Semiotische und textlinguistische Grundlagen 

 11

rungsgrads ergibt sich also ein Kontinuum vom niedrig semiotisierten Geräusch über die im mittleren Maße semiotisierten Modalitäten Bild und Musik bis hin zur hoch semiotisierten Sprache. Der niedrige Semiotisierungsgrad von Geräuschen erklärt sich auch aus der Tatsache, dass es sich bei ihnen im Sinne von Eco (1977, 177 f.) um natürliche und sekundäre Zeichen handelt. Geräusche werden von den Gegenständen unserer Umwelt und im praktischen Alltagshandeln erzeugt ohne kommunikative Absichten zu verfolgen. Erst in sekundärer Weise können sie Funktionen in der Kommunikation übernehmen; dabei ergeben sich ihre einfachen Bedeutungen erst aus dem Gesamttext. Musik, Bild (außer natürlichen und Spiegelbildern) und Sprache hingegen sind vom Menschen geschaffene zeichenhafte Ausdrucksmittel und dienen primär kommunikativen Zwecken. Betrachten wir nun die interne Struktur der Modalitäten. Sprache gilt als Zeichensystem par excellence, weil sie eine große Menge distinkter Einzelzeichen hat (Lexik), die vielfältige und systematische Sinnbezüge (Paradigmatik) zueinander herstellen und nach syntaktischen Regeln (Grammatik) zu größeren Aussageeinheiten verknüpft werden (Syntagmatik). Diese Kombination aus geordnetem Lexikon und expliziter Grammatik macht ganz wesentlich die semantisch-kommunikative Stärke von Sprache aus. Hinzu kommt, dass Sprache ein doppelt gegliedertes Zeichensystem ist: lediglich bedeutungsunterscheidende Sprachlaute kombiniert sie auf der ersten Gliederungsebene zu Morphemen (lexikalisch oder grammatisch) und fügt sie auf der zweiten Gliederungsebene zu Wörtern unterschiedlicher Komplexität. Dieses semiotische Abstraktionsprinzip sorgt dafür, dass man aus einer begrenzten Zahl von Phonemen unendlich viele (lexikalische) Morpheme und Wörter bilden kann. Über eine solche doppelte Artikulation verfügt das Bild nicht. An die Stelle der linearen Verkettung von Einzelzeichen tritt in Bildern die quasi simultan verlaufende Integration visueller Gestalten zu größeren flächig-räumlichen Konfigurationen. Von distinkten Zeichen kann dabei an sich nicht die Rede sein; Eco (1977, 176) spricht von „gradated continua“, d. h. Zeichenangebote, bei denen verschiedene materiell wahrnehmbare Parameter bedeutungsrelevant werden können. Nöth (2011, 307) meint daher, Bilder als „wahrnehmungsnahe Zeichen“ (Sachs-Hombach 2003, 73 ff.) haben eine „iconic syntax“, d. h. die Konfiguration der Bildelemente entspricht der Ordnung der Dinge in den uns bekannten realen oder fiktiven Welten. Zwei syntaktische Prinzipien im Bild sind die meronymische, d. h. auf Teil-Ganzes-Bezügen beruhende Ordnung von Einzelzeichen und die Konvertierung flächiger Zeichen-Arrangements in räumliche Vorstellungen. In Anbetracht dieser syntaktischen ‚Schwächen‘ des Bildkodes spielen Vorwissen, Kontext, Seherfahrungen und inferierende Prozesse beim Bildverstehen eine vergleichsweise große Rolle. Musik verfügt über eine ausgeprägte und komplexe Syntax. Zum einen werden einzelne Töne zu größeren Einheiten, wie Melodien, Themen/Motiven, Sätzen etc. verknüpft (syntagmatisch), zum anderen verbinden sich paradigmatisch ‚passende‘ Töne zu Akkorden oder Harmonien. Hinzu kommt, dass die so entstehenden Zeichenkomplexe z. B. in Rhythmus, Tempo, Dynamik und Instrumentierung ‚flektiert‘, 

12 

 Hartmut Stöckl

d. h. modifiziert werden können. Diese multiplen syntaktischen Dimensionen sind so zentral für die Funktionsweise der Zeichenmodalität Musik, dass man sie in vielleicht zu radikaler Sicht als „ein genuin syntaktisches Gebilde“ sieht, „dessen Bedeutung seine wahrgenommene Syntax ist“ (Faltin 1985, 187). Auch wenn das konstruierende Spiel mit den Strukturen des Klangmaterials wesentlich für die Funktionsweise von Musik ist, kann sich ihre Semantisierung nicht auf das rein Syntaktische beschränken (s. u.). Geräusche schließlich sind einzelne nicht-verbale und nicht-musikalische Schallereignisse (Wolff 1996, 5 f.). Man kann sie zwar paradigmatisch, d. h. nach thematischen Gruppen ordnen (Wolff 1996, 189 ff.), aber – außer rein kumulativ-additiv in „Geräuschatmosphären“ (Wolff 1996, 206) haben sie ein geringes syntaktisches Potenzial. Bedenkt man zudem ihre einfache indexikalische Semantik als raum-zeitliche Verweise auf Dinge, Zustände oder Handlungen, so scheinen Geräusche syntaktisch und semantisch schwach kodiert. Wir haben gesehen: Die vier Zeichenmodalitäten unterscheiden sich bezüglich der internen Struktur ihrer Zeicheninventare und deren ‚grammatischen‘ Funktionsprinzipien deutlich. Diese Unterschiede interpretieren wir als Spezifik, die Auswirkungen auf ihre Verwendung in multimodalen Texten hat. Dass man geneigt ist, die ‚modes‘ als stärker oder schwächer einzustufen, hängt primär mit Urteilen über den Grad ihrer Konventionalität oder Motiviertheit zusammen. Sind die Form-InhaltsZuordnungen der Zeichen willkürlich (arbiträr) und erklärt sich die Funktionsweise des Kodes nicht aus Umwelterfahrung oder Analogien, so ist die jeweilige Zeichenmodalität stark konventionell und nicht motiviert. Die vier Modalitäten ordnen sich auf einer Skala von ‚stark konventionell/kaum motiviert‘ zu ‚schwach konventionell/ stark motiviert‘ wie folgt: Sprache, Musik, Bild, Geräusch. D. h. Sprache und Musik sind konventionell, weil man ihre komplexe und arbiträre Syntax erlernen muss. Bilder und Geräusch hingegen verstehen wir in Analogie zum Umweltsehen bzw. als Anzeichen für die raumzeitliche Präsenz von Objekten und Prozessen; sie sind schwach konventionell.

3.2 Semantik – Bedeutungsgenerierung Peirce hat Bedeutung pragmatisch als „Wirkung (effect) des Zeichens im Bewusstsein eines Interpreten“ (Nöth 1985, 38) verstanden und drei generelle Wirkungsweisen unterschieden. Sie eignen sich, um den prinzipiellen Wirkungsmechanismus jeder Zeichenmodalität zu beschreiben. Emotionale Bedeutungen wecken unmittelbar Gefühle, energetische Bedeutungen bewirken eine Handlung im Sinne einer „körperlichen oder geistigen Anstrengung des Interpreten“ (Nöth 1985, 38) und logische Bedeutungen führen zu einer axiomatischen Korrelation von Zeichenform und -inhalt und zu Veränderungen im Denken und Verhalten. Demnach generiert Musik vorwiegend emotionale Bedeutungen, weil sie Gefühle des Rezipienten evoziert. Juslin/Sloboda (2001, 3) meinen dazu: „emotional experience is probably the main 

Multimodalität – Semiotische und textlinguistische Grundlagen 

 13

reason behind most people’s engagement with music“. Sprache neigt insofern zur logischen Wirkungsweise, als ihre Zeichen automatisch Verknüpfungen von mentalen Konzepten und Referenzobjekten herstellen. Geräusche wirken hauptsächlich energetisch; der Rezipient orientiert an ihnen sein praktisches Handeln und bindet sie über assoziative und kausale Schlüsse an sekundäre Bedeutungen. Bilder werden sowohl logisch als auch energetisch gedeutet. Der Betrachter erkennt in ihnen dank kognitiver Invarianten (visuelles Wissen), Seherfahrung und Darstellungskonvention bestimmte Objekte und Sachverhalte (logisch). Bilder erlauben aber auch assoziative und inferierende gedankliche Operationen, die zu weiteren Deutungen führen (energetisch). Auch wenn Peirce meint, jedes Zeichen könne im Gebrauch alle drei Zeichenwirkungen entfalten, gibt es m. E. für jede Zeichenmodalität jeweils einen dominanten prototypischen Wirkungsmechanismus. In der Semiotik ist die Idee verbreitet, dass man Zeichenarten auch danach differenzieren kann, welche materiell-medialen Eigenschaften des Zeichenkörpers in welchem Maße für Deutung und Verstehen relevant werden. Goodman (1976) spricht in diesem Zusammenhang von syntaktischer Fülle und Peirce unterscheidet Quali-, Sin- und Legizeichen (Nöth 1985, 39). Für Sprache scheint die konkrete Formausprägung (graphisch oder phonetisch) der ‚token‘nebensächlich (abgesehen von paraverbaler Typographie oder Stimmgestaltung). Wesentlich für die Bedeutungsgenerierung ist lediglich das Erkennen des ‚types‘, d. h. das Verstehen der gesetzmäßigen Verbindung von Form und Inhalt. In diesem Sinne ist Sprache abstrakt, die Verwender sind auf wenige, die Bedeutung unterscheidende Formmerkmale fixiert – Sprache gilt als Set von Legizeichen. Im Falle von Bildern, Musik und Geräuschen kann prinzipiell die ganze Fülle der individuellen Formeigenschaften und die Materialität der Zeichen in die Deutung eingehen. Einfach gesagt, spielt für die Sinnstiftung bei diesen Zeichenmodalitäten nicht allein eine Rolle, was gezeigt wird oder zu hören ist, sondern eben auch wesentlich und vordergründig, wie die Objekte visuell (z. B. Farbe) und auditiv (z. B. Instrumentierung) genau beschaffen sind. Im Unterschied zu Sprache kann man daher Bilder, Musik und Geräusch auch als Zeichenmodalitäten bezeichnen, deren Singularität (Sinzeichen) und Qualität (Qualizeichen) semantisch relevant ist – sie sind syntaktisch dicht(er) und voll(er). Am grundlegendsten für die semantische Funktionsweise von Zeichentypen ist sicherlich ihr „Objektbezug“ (Nöth 1985, 39 f.), d. h. die Art und Weise der Bezugnahme von Zeichen auf die zu bezeichnenden Konzepte und Sachverhalte. Danach hat Peirce Ikone, Indices und Symbole unterschieden (Chandler 2007, 36–38). Auch wenn es Mischformen gibt, lässt sich jede Zeichenmodalität einem dominanten Objektbezug zuordnen. So gilt Sprache als überwiegend symbolisch, denn hier besteht eine willkürliche Zuordnung von Zeichen zu Referenzobjekten. Nur ein kleiner Teil des sprachlichen Repertoires funktioniert ikonisch (Lautmalerei) oder indexikalisch (deiktische Ausdrücke). Bilder sind typische Ikone: ihre Zeichen ähneln den Objekten, die sie abbilden, im Sinne einer Analogie von Umweltsehen und Bildbetrachtung. Manche Bilder erlangen durch häufigen Gebrauch sekundäre symbolische 

14 

 Hartmut Stöckl

Bedeutungen in bestimmten Kontexten. Musik und Geräusch eint ihr indexikalischer Charakter. Ihre Zeichen sind relativ unbestimmte Symptome für emotionale Befindlichkeiten und Stimmungen (Musik) oder Hinweise auf Objekte, Zustände und Handlungen (Geräusch), die durch Kontiguität oder Kausalität motiviert sind. Musik kann aber auch ikonisch funktionieren, wenn sie Naturphänomene nachahmt; Geräusche können symbolische Bedeutungen erwerben (z. B. Glocken für Tod). Schließlich gilt es, die spezifischen Ausdruckspotenziale der Zeichenmodalitäten zu vergleichen, d. h. jeweils zu fragen, welche Bedeutungen oder Aussagen sich gut, schwer oder gar nicht kommunizieren lassen. Die Semantik der Sprache wird dabei zumeist als beinahe unbeschränkt gesehen. Dies lässt sich einerseits mit der internen Struktur und den Ressourcen des linguistischen Systems begründen. Hier ist insbesondere an die doppelte Gliederung, an klare grammatische Kategorien (wie Tempus, Kasus oder Modus) und an das große Inventar distinkter autosemantischer Zeichen, aber auch an das eindeutige Anzeigen von Sprechakten und deren illokutiver Kraft zu denken. Andererseits sieht man sprachliche Ausdrucksgewalt darin, dass „not only every human experience but also every content expressed by means of other semiotic devices can be translated into the terms of verbal language“ (Eco 1977, 172). Die große effability (Eco 1977, 172) von Sprache ist aber dennoch nicht total: Obwohl prinzipiell mit willkürlichen Zeichen die ganze Vielfalt realer wie fiktiver Wahrnehmungen und Denkwelten darstellbar wird, tut sich Sprache z. B. schwerer mit der Schilderung räumlicher Objektanordnungen und physischer Details wie auch mit der Beschreibung komplexer Sinneswahrnehmungen (Geschmack, Geruch und Klang). Das Ausdruckspotenzial von Bildern ist zunächst insofern eingeschränkt, als sie prinzipiell nur Visuelles/Sichtbares darstellen können. Der Merkmalsreichtum der dargestellten Objekte führt andererseits zu einem Bedeutungsüberschuss; zudem sorgt die „syntactic indeterminacy“ (Messaris 1997, xff.) für eine Vagheit der Aussagen in Bildern. Im Vergleich mit Sprache (Stöckl 2004, 94 ff. u. 245 ff.; Nöth 2011, 307 ff.) treten einige bildliche ‚Schwächen‘ zutage; diese beziehen sich meist auf das Fehlen entsprechender grammatischer Kategorien. So können Bilder Verneinungen, logische Verknüpfungen von Sachverhalten, Modalität (Wirklichkeitsbezug und Sprechereinstellung), deiktische Verweise oder direkte und explizite Sprechakte (vgl. hierzu die gegenteiligen Meinungen in Nöth 2011, 309 f. vs. Schmitz 2007) nicht (klar) ausdrücken. Die semantische ‚Stärke‘ von Bildern liegt in ihrem graphischen Darstellungsreichtum, der informatives Explorieren wie auch konnotative Bedeutungen und emotionale Anmutungen ermöglicht. Von einer Semantik der Musik zu reden, ist problematisch, weil ihr die Fähigkeit zur Darstellung fehlt  – man bescheinigt ihr bestenfalls eine „ephemere denotative Kraft“ (Karbusicky 1990, 11). „Musik als Zeichensystem in spé“ (Karbusicky 1987, 241) wird individuell verschieden und in starker Abhängigkeit von Erfahrungen, Einstellungen, Stimmungen wie auch von Wissen über Musikgenres und -kulturen semantisiert. Wenn Musik auch nicht – wie Sprache und Bild – denotieren kann, so schreiben Hörer ihr Sinn zu, indem sie musikalische Strukturen, Themen oder Genres als asso

Multimodalität – Semiotische und textlinguistische Grundlagen 

 15

ziative Verweise auf Bewusstseinsinhalte, Orte oder Ereignisse deuten. Als expressive Zeichenmodalität macht Musik Gefühlszustände und seelische Befindlichkeiten erlebbar. Insgesamt scheint das adäquate Einpassen von Musik in soziale Kontexte oder Gesamttexte eine der wesentlichen Umgangsweisen mit Musik. Das semantische Potenzial von Geräuschen ist stark eingeschränkt, weil sie ‚nur‘ auf Objekte, Handlungen oder Zustände verweisen können und weil sie keiner Syntax unterworfen sind. Geräusche zu ‚verstehen‘, bedeutet den raum-zeitlichen Bezug zum jeweiligen Referenzobjekt herzustellen und dessen Präsenz zur Kenntnis zu nehmen. Daher haben Geräusche meist die Funktion, Sachverhalte und Handlungen zu authentifizieren und sie situativ zu verorten. Ein erweitertes Bedeutungspotenzial ergibt sich, wenn Geräusche nicht nur indexikalisch-assoziativ (z. B. Ticken für Uhr), sondern übertragen-symbolisch (z. B. Ticken für Zeit, Schicksal) oder intertextuellgattungsspezifisch (z. B. Action-Film-Atmo) verwendet werden. Eine Semantik der Geräusche lässt sich modellieren, wenn man sie in eine enzyklopädische Ordnung von Geräuschfamilien bringt, die auf den klanglich-materiellen Eigenschaften oder den thematischen Verwendungsbereichen der Geräusche basieren. Im Unterschied zu Sprache, Bild und Musik hat das Geräusch keine kommunikative Autonomie. Da Geräusche nur in Verbindung mit anderen Zeichenmodalitäten funktionieren können, hängen deren Gebrauchs- und Wirkungsweisen immer von den Strukturen des Gesamttexts ab. Zusammenfassend zeigen sich auf der semantischen Ebene erneut deutliche modalitätsspezifische Unterschiede. Sie betreffen die Zeichenwirkungen, die Art und Weise, wie die materiell-medialen Zeichenkörper zur Bedeutungsgenerierung verwendet werden, die Objektbezüge sowie generelle Potenziale und Defizite der Modalitäten beim Herstellen von Sinn. Die Unterschiede in der Semantik von Zeichentypen sind mit den vergröbernden Begriffsdichotomien vage vs. präzise, eindeutig vs. mehrdeutig und zuverlässig vs. unzuverlässig beschrieben worden (Nöth 1985, 96 u. 54). Diese stellt man sich jedoch vielleicht besser als gradierte Skalen vor. Musik z. B. kann als vergleichsweise unzuverlässige Modalität gelten, weil sie zur Denotation nicht fähig ist. Alle Zeichenmodalitäten können eindeutig oder mehrdeutig sein, allerdings scheint z. B. das Bild inhärent mehrdeutig(er) als z. B. Sprache. Mehrdeutigkeit ist gegeben, wenn Zeichen zugleich mehrere Denotate bezeichnen. Vagheit schließlich – hier ist die Bestimmung des Umfangs der Denotatklasse von Zeichen schwierig – ist ein generelles und graduierbares Phänomen für alle Modalitäten.

3.3 Pragmatik – Zeichenverarbeitung und kommunikative Funktion Die pragmatische Dimension umfasst die Art und Weise der Wahrnehmung und mentalen Verarbeitung sowie die Gebrauchsfunktionen einer Zeichenmodalität. Hier zeigen sich wiederum klare Unterschiede auf verschiedenen Ebenen. 

16 

 Hartmut Stöckl

Betrachten wir zunächst die Perzeption und Kognition, so erscheint Sprache aufgrund ihrer bindenden Linearität als vergleichsweise zeitaufwändige Modalität. Die abstrakte, willkürliche und wahrnehmungsferne Natur ihrer Zeichen hat zudem zur Folge, dass weniger Sinneseindrücke für die mentale Verarbeitung und das Behalten zur Verfügung stehen. Damit Laut- oder Buchstabenkombinationen Sinn bekommen, bedarf es seitens der Rezipienten einer Umkodierung. Er muss die Zeichen, die den Objekten seiner Umwelt nicht ähneln, in Anschauung und sensorisches Erleben transponieren, um ihnen Sinn zu geben. Bilder hingegen verfügen über wahrnehmungsnahe Zeichen, die im Unterschied zu Sprache ganzheitlich-simultan wahrgenommen werden. Außerdem verfügen Bilder über einen großen visuell-graphischen Merkmalsreichtum, der die Wahrnehmung befördert und Erinnern begünstigt. Diese Eigenschaften führen zu einer Überlegenheit von Bildern gegenüber Sprache, die Schnelligkeit und Effektivität von Verarbeitung und Behalten aber auch die Unmittelbarkeit der Wahrnehmungseindrücke betrifft. Für die Perzeption von Musik ist sowohl die lineare (z. B. Melodien, Motive) als auch die ganzheitliche Dimension (Akkorde) relevant; dies potenziert das Wahrnehmungserlebnis. Unsere auditive Wahrnehmung lässt sich im Unterschied zur visuellen nicht ‚ausschalten‘. Daraus kann man schließen, dass akustische Mittel „noch unterschwelliger und emotionaler wirken“ und „für die Aufmerksamkeitssteuerung eine stärkere Wirkung als Bilder“ (Holly 2004, 47) haben. Im Vergleich mit den anderen Zeichenmodalitäten scheint die Wirkungskraft von Musik besonders rasch, intensiv und unmittelbar. Die Zielorientierung der Musik auf Bewegung und Gefühl hebt Engel (1990, 55 f.) hervor, wenn er die perzeptiv-kognitiven Wirkungen von Musik als „rein emotionell sensitiv-physiologisch-motorisch erregte Affekte“ bezeichnet. Geräusche schließlich haben eine vergleichsweise geringere Chance überhaupt wahrgenommen zu werden, weil der Mensch meist in komplexen Geräuschkulissen agiert und darauf aus ist, Geräusche bewusst auszublenden. Dieser unterbewussten Wahrnehmung muss ein hypertrophes Sound-Design in Film oder Radio z. B. entgegenwirken. Während die Perzeption von Geräuschen darin besteht, eine auditive Gestalt aus dem Klangfluss zu isolieren, erschöpft sich ihr Verstehen auf das Erkennen der jeweiligen Verweisfunktion. Für die Beschreibung von Kommunikationsfunktionen stehen v. a. Hallidays Metafunktionen (Halliday 1978) sowie Bühlers und Jakobsons Sprachfunktionen (Bühler 1934/1990; Jakobson 1960) zur Verfügung. Nach Hallidays metafunctional principle muss jede Zeichenmodalität drei Grundfunktionen erfüllen: Weltausschnitte und konzeptuelle Logik repräsentieren (ideational), soziale Bezüge zwischen den Kommunizierenden gestalten (interpersonal) und die Botschaft intern strukturieren (textual). Bei einem Vergleich ergeben sich aber deutliche Unterschiede: So sind Sprache und Bild in allen drei Dimensionen pragmatisch funktionsfähig, Musik und Geräusch hingegen nicht. Musik hat zwar ein großes textbildendes Potenzial, taugt aber nicht zur Darstellung und ist kaum zur Beziehungsgestaltung fähig. Geräusche sind in ihrer Darstellung auf den raumzeitlichen Verweis zu einem Objekt etc. eingeschränkt; in der interpersonellen und textuellen Funktion versagen sie fast gänzlich. 

Multimodalität – Semiotische und textlinguistische Grundlagen 

 17

Bei der Anwendung von Bühlers Kommunikationsfunktionen (Darstellung, Ausdruck, Appell) zeigen sich modalitätstypische Dominanzverhältnisse. Obwohl generell appell- und ausdrucksfähig liegt die pragmatische Domäne von Sprache und Bild in der Darstellung (s. o.). Musik hingegen dient primär der expressiven Entäußerung des Senders (Ausdrucksfunktion) und Geräusche werden im weitesten Sinne als Appell gedeutet, so sie nicht allein die Präsenz eines Objekts anzeigen (s. o.). Jakobson fügt den Funktionen Bühlers zwei wichtige hinzu, die metakommunikative und die poetische. Erstere bezeichnet die Fähigkeit von Zeichen, den verwendeten Kode zu thematisieren und zu kommentieren. Zur Metakommunikation ist nur die Sprache fähig. Bilder, Musik und Geräusche können ihre interne Strukturiertheit nicht reflektieren. Die poetische Kommunikationsfunktion bezieht sich auf die Möglichkeit, die Form einer Botschaft im Verstehen vordergründig zur Geltung kommen zu lassen. Dieses auch als Ästhetisierung von Kommunikation bekannte Phänomen (Stöckl 2013, 99 ff.) schließt vor allem das Spiel mit Formen und Strukturen einer Botschaft ein. Wir hatten bereits argumentiert, dass der visuelle und auditive Formenreichtum der Gestaltung bei Bild und Musik (bei Geräuschen weniger) eine tragende Rolle für die Sinnstiftung spielt. Daher lässt sich die poetische Funktion als ein Wesensmerkmal piktorialer und musikalisch-tonbildender Botschaften verstehen. Natürlich ist Sprache zur poetischen Kommunikation grundsätzlich in der Lage, neigt aber zumindest im Gros der informativen Gebrauchstextsorten des Alltags weniger dazu. Abschließend will ich fragen, zu welchen typischen Kommunikationsaufgaben sich die vier Zeichenmodalitäten in Gesamttexten eignen und diese nach Möglichkeit syntaktisch oder semantisch begründen. Sprache dient aufgrund ihrer „great articulatory and combinational flexibility“ (Eco 1977, 172) vor allem dazu, Geschehnisse und Prozesse in ihrer zeitlichen Abfolge zu schildern (Narration). Ebenso hat Sprachliches einen großen Vorteil bei der Erklärung logischer Zusammenhänge (Explikation) und der Konstruktion von Argumentationen. Zum Vorteil gereichen der Sprache bei all diesen Aufgaben eine flexible und klare Referenz auf Sachverhalte (der/ein Wein, dieser Wein dort, Rot-/Weißwein, Chardonnay, 2006er Bordeaux etc.), Aussagen verknüpfende Wortarten (deshalb, weil, aufgrund) sowie die Fähigkeit, die Intention einer Aussage (erlauben, bitten, versprechen etc.) zu erkennen zu geben. Bilder als wahrnehmungsnahe visuelle Zeichenkonfigurationen haben ihre Stärken beim Vor-Augen-Führen von Objekten und ihrer Lage im Raum. Ihr semantischer Überschuss, ihre Mehrdeutigkeit und Offenheit eignen sich zudem für konnotationsreiche Botschaften, die, besonders wenn visuelle Schlüsselreize bedient werden, ein hohes emotionales Aktivierungspotenzial haben. Aufgrund ihrer Eigenschaft, visuelle Realität zu simulieren, können manche Bildtypen auch zur Handlungsanleitung verwendet werden. Musik wird einerseits als eigenständiger Text, andererseits in „dienender Funktion“ (Holly 2004, 49) verwendet. Für sich allein kann sie eine Reihe spezifischer Funktionen übernehmen, wie z. B. eine sozial-kommunikative  – d. h. Gebrauch in 

18 

 Hartmut Stöckl

bestimmten gesellschaftlichen Gruppen und zu definierten Anlässen (rituell-magisch, Feiern, Tanz, Sport etc.) und eine individualpsychologische  – d. h. die persönliche Befindlichkeit zu regulieren (entspannen, unterhalten, aktivieren etc.) (vgl. dazu Bullerjahn 2001, 56). Gerade weil Musik semantisch defizitär ist und nichts darstellt, entlastet sie vom Faktisch-Informativen anderer Zeichenmodalitäten. Musik erbaut uns, „weil unser Gehör nicht dazu verpflichtet ist, in jeder Tonformel ein ‚Zeichen‘ zu dechiffrieren“ (Karbusicky 1987, 229). In multimodalen Gesamttexten kann Musik verschiedene Funktionen übernehmen: z. B. den Text strukturieren, eine Grundstimmung erzeugen, Personen oder Handlungen charakterisieren u. a. (vgl. Holly 2004, 49 ff.; Stöckl 2007, 195 f.). Aufgrund ihrer syntaktischen und semantischen Eigenschaften scheinen Geräusche funktional relativ eingeschränkt und sind allein kaum textbildend. Allerdings verweisen sie effektiv auf Orte, Situationen und Handlungen – auch und gerade bei Abwesenheit einer bildlichen oder sprachlichen Darstellung. Historisch gesehen ist die Bedeutung des sound design (Flückiger 2007) gestiegen; der Variationsreichtum der klanglich-materiellen Gestalt von Geräuschen hat medientechnisch bedingt zugenommen und sie haben sich vom Rand in das Zentrum der Semiosphäre bewegt. Trotz ihrer semiotischen Defizite reichern Geräusche multimodale Gesamttexte (Film, Radio) mit „Ausdrucks- und Informationswert“ (Flückiger 2007, 142) an, der u. a. darin besteht, dass sie den Realitätseindruck verstärken, Vorstellungen evozieren, Teil bzw. Auslöser von Handlungen sind oder Aufmerksamkeit lenken und die Darstellung dramatisieren (s. Wolff 1996, 258 ff.; Stöckl 2007, 196 f.). Tab. 1: Dimensionen und Kriterien zur Differenzierung von Zeichenmodalitäten SYNTAX

SEMANTIK

PRAGMATIK

Sinneskanal Semiotisierung Interne Struktur

Zeichenwirkung Qualität/Singularität Objektbezug Ausdruckspotenzial

Wahrnehmung Kognition Kommunikative Funktion Potenziale/Defizite

3.4 Der Wert semiotischer Vergleiche und Typologien Mit Hilfe einzelner Vergleichskriterien der Dimensionen Syntax, Semantik und Pragmatik haben wir Unterschiede der Zeichenmodalitäten Sprache, Bild, Musik und Geräusch herausgearbeitet (s. Tab. 1). Dabei zeigt sich: Sie folgen einer unterschiedlichen internen Logik, haben verschiedene semantische Reichweiten und erlauben je spezifische kommunikative Funktionen. Zunächst scheinen die gewählten Kriterien gut zum Vergleich geeignet. Ihre Anwendung auf andere Zeichenmodalitäten sollte daher problemlos möglich sein.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 19

Insofern ist mit dem vorgeschlagenen Raster ein systematisches Fundament für die Beurteilung der semiotischen Potenziale und ‚Grammatiken‘ von modes gelegt. Eine gewisse Schwäche mag man in der strukturalistischen Vorgehensweise sehen, die suggeriert, die Kategorien wären trennscharf und distinkt. Wir haben aber gesehen, dass dies nicht immer der Fall ist: z. B. können Bilder, Musik und Geräusch symbolisch, indexikalisch und ikonisch verwendet werden. Solche Unschärfen deuten auf die interne Heterogenität der Zeichenmodalitäten, vor allem was ihren Gebrauch angeht. Diesem Problem bin ich begegnet, indem Redundanzen eingebaut sind (Kriterien und Ebenen überlappen teilweise) und die Abstufung von Merkmalen nach typischen Gebrauchsformen vorgenommen wird. Eine zweite Schwierigkeit besteht darin, dass viele der verwendeten Kriterien primär an der Funktionsweise von Sprache ausgerichtet sind. Sie dient (zwangsläufig) als semiotisches „modelling system“ (Sebeok 1994, 117 ff.), so dass man den hier angestellten Vergleich als ‚logozentrisch‘ bezeichnen könnte. Ich habe es vermieden, von Stärken oder Schwächen im Sinne der sprachähnlichen Leistungsfähigkeit einer Zeichenmodalität zu sprechen und stattdessen jeweils mode-Spezifisches und -Typisches hervorgehoben. Ob und inwiefern es richtig ist, Sprache als semiotisch starkes „Gravitationszentrum“ (Krämer 2005, 153) oder „Archimedium“ (Jäger 2002, 34) zu sehen, das kann letztlich nur ein Blick auf die tatsächliche multimodale Praxis in Gebrauchsdomänen und Textsorten zeigen. Diesem Beitrag fehlt nun noch die textlinguistische Perspektive. Nach der Erörterung der Spezifik einzelner Zeichenmodalitäten bleibt jetzt zu fragen, wie sie multimodale Texte bilden und wie man diese beschreiben kann.

4 Beschreibungsdimensionen des multimodalen Texts 4.1 Multimodale Textualität Obwohl es mit Blick auf das Alltagskonzept von Text (d. h. sprachlich und schriftlich verfasst) kontraintuitiv scheinen mag, Infografiken, TV-/Radiowerbespots, Webseiten oder Opern als Texte zu bezeichnen, kann die Betrachtung von Multimodalität m. E. theoretisch sinnvoll nur im Rahmen eines semiotisch erweiterten Textbegriffs erfolgen, wie ihn Fix (2001) fordert. Sie schreibt: „Texte müssen als Komplexe von Zeichen verschiedener Zeichenvorräte betrachtet werden“ (Fix 2001, 118). Dafür spricht eine Reihe von Gründen: Erstens reklamieren Sprache, Bild und Musik für sich bereits Textstatus, da sie zentrale Kriterien der Textualität erfüllen; sie sind also zugleich eigenständige Texte und Textteile in multimodalen Gesamttexten. Zweitens macht gerade die Verknüpfung der Zeichenmodalitäten das Spezifikum von Multimodalität



20 

 Hartmut Stöckl

aus – diese Verbundenheit von semiotisch unterschiedlich konstituierten Textteilen lässt sich nur als kohäsive und kohärente Bezüge zwischen Textelementen deuten. Drittens schließlich argumentiert Posner (1991, 46), dass Gegenständen dann Textstatus zukommt, wenn sie als Artefakte absichtsvollem kommunikativem Handeln entspringen und ihnen als kodierten Instrumenten eine kulturell abgesicherte Funktion und Bedeutung zukommt. Ein multimodaler Text ließe sich also als Zusammenschluss mehrerer unterschiedlicher Zeichenmodalitäten zu einem kohäsiven und kohärenten Ganzen definieren, dessen musterhafte Inhalts- und Handlungsstruktur sowie Verwendungsweisen der Modalitäten typisierten Gebrauchssituationen entspringen und bestimmte kommunikative Funktionen erlauben. Einen textlinguistischen Rahmen zur Behandlung von Multimodalität legt die noch wichtigere Tatsache nahe, dass Produzenten wie Rezipienten ein klares Bewusstsein davon benötigen, welchen Typ oder welche Sorte Text sie gestalten bzw. verstehen. Textbenutzer fällen nämlich vordergründig keine pauschalen Textualitätsurteile; vielmehr müssen sie sicher gehen, dass ein multimodaler Text so beschaffen ist, dass er als Exemplar eines Typs oder einer Sorte erkannt und gedeutet wird. Diese Idee der Typisiertheit und Musterhaftigkeit von Texten in Abhängigkeit von Situation/Kontext, Inhalt, Medium oder Funktion liegt neben Texttyp und -sorte (Schubert 2012, 96 ff.) auch den Begriffen Genre, Register und Stil (Biber/Conrad 2009) zugrunde (s. u.). Dass das Textherstellen wie auch das Textverstehen in essentieller Weise Typisierungsleistungen voraussetzt und diese ein Grundbedürfnis im Umgang mit Kommunikationsangeboten darstellen, zeigt sich u. a. auch in den Namen, die wir (multimodalen) Texten geben – z. B. Live-Ticker (Situation), Expertenrunde (Kontext), Kochshow (Inhalt), Radio-Interview (Medium), Infografik (Funktion/Modalität). Zuletzt stellt Kesselheim (2011) die Frage, wie wir die Textsortenzugehörigkeit in der Rezeption bestimmen und behauptet, sie wird beim Lesen konstruiert, und zwar dadurch, dass wir bei der Lektüre eine große Bandbreite von Hinweisen auf Textsortenzugehörigkeit auswerten“ (Kesselheim 2011, 362 f.); und weiter: „Textsorten ergeben sich also aus expliziten Textsortenhinweisen und der musterhaften Ausprägung anderer Textualitätshinweise (Kesselheim 2011, 364).

Solche Hinweise auf (multimodale) Textsorten beziehen wir prinzipiell aus drei miteinander in Beziehung zu setzenden Quellen: den Strukturen und Verwendungsweisen der einzelnen Zeichenmodalitäten, der wahrnehmbaren Textoberfläche inklusive Aspekten der Situation und Materialität sowie dem Erfahrungswissen über Textmuster und -verwendungen (vgl. Kesselheim 2011, 339 f.). Ich plädiere hier dafür, Multimodalität nicht als kategoriales, sondern als ein typisiertes Textphänomen zu sehen; Multimodalität zu verstehen bedeutet multimodale Textsorten/Genres differenzierend wahrzunehmen.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 21

4.2 Textklassifikation und multimodaler Text Auffassungen über Kommunikationstypen oder Arten von Texten machen zwei Grundannahmen. Erstens: Textsorten beruhen auf Wissen über typische Korrelationen zwischen externen Situationen/Funktionen und internen Texteigenschaften. In diesem Sinne sind Genres soziokognitive Größen, die uns Orientierung bieten; einerseits als Erwartungen in der Rezeption, andererseits als Muster in der Produktion und Gestaltung. Beides gibt unserem Umgang mit Texten einen organisierenden Rahmen. Zweitens: Textsorten sind komplexe Phänomene, die auf mehreren Ebenen und mit Hilfe diverser Kriterien zu beschreiben sind. Diese Poly-Dimensionalität erlaubt auch eine Gewichtung der verschiedenen Merkmale und hilft, Textsorten als prototypisch organisierte Kategorien zu charakterisieren (Sandig 2000)  – d. h. mit jeweils typischen und weniger typischen Exemplaren. Lomborg (2014, 45) sieht Genres (= Textsorten) als „socio-cognitive devices for sense-making in everyday life“ und streicht drei grundsätzliche Ebenen ihres Funktionierens heraus (Lomborg 2014, 45–48). Aus pragmatischer Sicht bestehen Textsorten erstens aus musterhaften Abfolgen von kommunikativen Handlungen. In kognitiver Perspektive erscheinen Textsorten zweitens als musterhafte Konfigurationen von Wissensbeständen. Drittens sind Textsorten in sozialer Hinsicht semiotische Instrumente, die stets in Abhängigkeit von Situation bzw. Kontext gestaltet werden. Hinzu kommt der wichtige Gedanke, dass es trotz aller „normative orientations within a social situation“ (Lomborg 2014, 46) neben einer prototypischen Umsetzung des Musters auch starke Variationsgrade, Individualisierungen und Hybridisierungen von Textsorten gibt. Die drei Komponenten Handlungsstruktur, Themenstruktur und Kontextsensitivität liegen allen Ansätzen zur Textklassifizierung zugrunde, sie werden aber in den Modellen jeweils verschieden gewichtet. In der systemisch-funktionalen Linguistik werden unter dem Begriff Genre vor allem die stages, d. h. die einzelnen kommunikativen Handlungen hervorgehoben, die in einer Textsorte in je typischer Weise strukturiert sind. Sie dienen einer übergeordneten sozialen Aktivität, wie z. B. dem Erklären oder dem Überzeugen, und zeichnen sich jeweils durch markante sprachliche Muster aus (vgl. Muntigl 2011, 317). Die funktionale Linguistik hat auch den Gedanken stark gemacht, dass Kulturen letztlich durch die miteinander in vielfältigen Bezügen stehenden Textsorten, also durch in Familien, Netzen oder Gruppen organisierte Textsortenrepertoires konstituiert werden (Martin/Rose 2008, 235 ff.). Ohne einen Einbezug multimodaler Texte sind diese Repertoires und Kulturen nicht denkbar. Das Konzept Register betont in neueren Ansätzen (Biber/Conrad 2009, 6–11) den systematischen Zusammenhang zwischen Aspekten der Situation und den sprachlichen Mitteln. Die Gestaltung einer Textsorte resultiert hier funktional aus situativen Faktoren und diese Sicht muss für multimodale Textsorten auf typische Ressourcen aller beteiligten Zeichenmodalitäten ausgeweitet werden. Der Register-Perspektive



22 

 Hartmut Stöckl

auf Textsorten kommt zugute, dass sie über ein komplexes Bild aller situativen Faktoren verfügt (s. Martin/Rose 2008, 36–47). An dem Stil-Begriff scheiden sich die Ansichten; klar ist nur, dass Stilmerkmale auf allen Textbeschreibungsebenen relevant werden können und somit Teil eines Konzepts von Textsorte sind. Während die anglistische Linguistik dazu neigt, Stil als Resultat individueller oder sozialer ästhetischer Vorlieben zu sehen und nicht als direkte Funktion des situativen Kontexts (Biber/Conrad 2009, 72), tendiert die germanistische Linguistik eher zu der Auffassung, es gibt Textsortenstile, die dann – im Sinne von Register (s. o.) – typische Gestaltungsmittel beinhalten. Es spricht m. E. viel dafür, Stile als Bezeichnungen für Sub-Textsorten (sub-registers/sub-genres) zu reservieren, die dadurch zustande kommen, dass Textsortenmuster variierend durchgeführt werden. Anzahl und Art der Stile einer Textsorte bestimmen dann, wie sie intern strukturiert ist; d. h. ob die betreffende Textsorte über einen klaren Prototyp verfügt und welche peripheren Typen sie hat. Multimodale Stile, etwa für Zeitungsartikel, Werbeanzeigen oder Infografiken (s. u.) sind u. a. von medialen und sozialen Faktoren bedingt – wie z. B. Material, Technologien oder Trends, Einstellungen und Präferenzen von Agenturen.

4.3 Multimodale Textsortenanalyse – Ein Modell Ganz gleich wie man Textsorte fasst, wichtig scheint ein Modell, das konkrete (multimodale) Textsorten auf möglichst vielen Beschreibungsebenen zu charakterisieren vermag. Das hat sich bewährt und entspricht den oben erläuterten Vorstellungen zur Textklassifikation. Traditionell (z. B. Heinemann/Heinemann 2002, 144 ff.) kommen dabei vergröbernd die folgenden Grunddimensionen zum Einsatz: Situation/Kontext, Inhalt, Handlung (Funktion), Form (Struktur, Gestaltung, Formulierung etc.); diese können flexibel spezifiziert werden. Für multimodale Textsorten stellt sich nun die Frage, ob und wie die Parameter adaptiert oder erweitert werden müssen. Muntigl (2011, 333) argumentiert, dass wir aufgrund der multimodalen Konstruktion von Genres ein Modell benötigen, das „zeigen kann, wie Genres als multi-modaler Prozess entstehen“. Van Leeuwen (2005a, 80) meint, „the generic structure of the text is […] multimodally realised“ und unterscheidet diesbezüglich zwei Grundkonstellationen. Entweder werden für verschiedene funktionale Handlungsabschnitte (stages) unterschiedliche Zeichenmodalitäten gewählt – z. B. kann ein Online-Nachrichtentext das Authentifizieren einer berichteten Tatsache mit einem Bild oder Videoclip bewerkstelligen (statt mittels eines sprachlichen Zitats). Hier entsteht eine Textstruktur, in der sich die modes abwechseln. Oder: ein funktionaler Abschnitt kann durch eine gezielte Kombination von modes realisiert werden – z. B. konstruieren moderne Werbeanzeigen ihre Argumentation nicht rein sprachlich, sondern verbal-visuell. Hier besteht die Textstruktur aus einer Abfolge semiotisch gemischter stages. Insgesamt kann man m. E. eher von einer integrativen Mischung der Zeichenmodalitäten in multimodalen Textstrukturen ausgehen, so dass „these different modes fuse (Hervorhebung im Original) 

Multimodalität – Semiotische und textlinguistische Grundlagen 

 23

in the realisation, rather than that they have distinct functional roles to play“ (van Leeuwen 2005a, 80). In jedem Falle muss es darauf ankommen, das Zusammenspiel aller beteiligten Zeichenmodalitäten in der Struktur und Gestaltung des multimodalen Texts als Funktion von typischen Kontext- und Situationsfaktoren beschreiben und so zur Charakterisierung einer spezifischen multimodalen Textsorte gelangen zu können. Auf diesen Grundüberlegungen aufbauend, will ich im Folgenden ein kompaktes heuristisches Modell zur Analyse multimodaler Textsorten vorschlagen und illustrieren (s. Abb. 2). Dabei nutze ich allgemein akzeptierte Kriterien bzw. Ebenen der Beschreibung (Kesselheim 2011) und adaptiere sie für die Bedingungen multimodaler Textualität. 1. Gliederung/Abgrenzung: Texte signalisieren durch diverse Mittel ihre interne Gliederung in größere oder kleinere Textteile. So lassen textgraphische oder -rhythmische Ressourcen eine Binnenstruktur entstehen, die dem Rezipienten in der Wahrnehmung als sortentypische multimodale Gestalt oder Konfiguration bewusst wird und die Grundlage für die Ordnung von Handlungen und Themen schafft. Aber auch nach außen markieren Texte ihre Grenzen gegenüber benachbarten Kommunikationsangeboten in Textsortennetzen, Sendungsstrukturen oder Programmflüssen – etwa durch Linien, Rahmen, Texturwechsel, akustische Signale oder Pausen etc. 2. Handlungsstruktur: Wenn es stimmt, dass Textsorten vor allem durch bestimmte Abfolgen oder Anordnungen von funktionalen Handlungsabschnitten gekennzeichnet sind, so muss eine multimodale Analyse bestimmen, wie sich die Zeichenmodalitäten auf diese ‚stages‘ verteilen. Oder anders: Die pragmatischen Leistungen der einzelnen ‚modes‘ und deren Gewicht und Status für das übergeordnete Handlungsziel (z. B. Erklären, Instruieren) sind zu ermitteln. Dabei stellt sich die theoretisch noch ungeklärte Frage, ob alle Zeichenmodalitäten überhaupt kommunikative Handlungen im Sinne von Sprechakten ausführen können (s. dazu z. B. van Leeuwen 2005b, 122). 3. Themenstruktur: Unter dem Aspekt ihrer Repräsentationsfunktion sind Texte Konfigurationen von Teilthemen, die in einer größeren Struktur entfaltet und geordnet werden. Für multimodale Texte soll untersucht werden, welche Teilthemen die einzelnen Zeichenmodalitäten zum Gesamttext beitragen und wie sie in der Kombination der Zeichentypen strukturiert werden. Hier ist nach den Koreferenzen von Textelementen über die Grenzen von ‚modes‘ und deren Organisation in Wissensrahmen zu fragen. 4. Multimodale Verknüpfung: Im Kern einer multimodalen Textsortenanalyse muss die Frage stehen, wie die beteiligten Zeichenmodalitäten verknüpft sind. Darauf geben Themen- und Handlungsstruktur nur zum Teil eine Antwort. Der genaue Blick auf die Bezüge zwischen den Modalitäten erhellt, welche Elemente sich in welcher Weise kohäsiv oder kohärent zueinander verhalten und welche pragmatischen oder rhetorischen Funktionen die Modalitäten in wechselseitiger Bezogenheit füreinander übernehmen. 

24 

 Hartmut Stöckl

Abb. 2: Multimodale Textsortenanalyse. Dieses Modell der multimodalen Textanalyse nutzt tradierte linguistische Beschreibungskriterien wie z. B. Kontext/Situation, Inhalt, Funktion, Form/Struktur und adaptiert sie für die Untersuchung multimodaler Textualität. Die Infografik demonstriert die Analyseebenen bzw. -schritte des Modells (s. 1–5) anhand der Werbeanzeige Volkswagen Front Assist. It knows what’s ahead (s. Abb. 4) und illustriert deren Ergebnisse.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 25

5. Intertextualität: Wie ein Text intern strukturiert und multimodal verfasst ist, hängt auch von seinen Bezügen zu benachbarten Zeichenangeboten ab. Hier ist darauf zu schauen, welche expliziten Verweise auf Nachbartexte vorkommen und welche gestalterischen Ähnlichkeiten zwischen dem aktuellen und verwandten Texten es gibt. Man mag die Kriterien anders einteilen oder weitere hinzunehmen – aber mit diesem Grundraster haben wir m. E. die wesentlichen Elemente eines multimodalen Textsortenmodells beschrieben. Zu bedenken bleibt dabei, dass die einzelnen Beschreibungsebenen nur in der Analyse zu trennen, in den Prozessen des Textherstellens und -verstehens aber ineinander verwoben sind. Wichtig ist auch, dass diese textinternen Charakteristika sortenbildend gestaltet werden, indem sie jeweils auf die situativen Faktoren zugeschnitten werden. Unter diesen text-externen Charakteristika kommt der Textfunktion, d. h. dem kommunikativen Zweck der Sorte das größte Gewicht zu. Alle Situationsfaktoren sind in dem übergeordneten Begriff der Kommunikationsform aufgehoben (s. Kap. 2).

4.4 Empirische textsortenkontrastierende Multimodalitätsanalyse Im Folgenden sollen drei multimodale Textsorten der Kommunikationsform Zeitung/Zeitschrift (Print) – Nachricht (Abb. 3), Werbeanzeige (Abb. 4) und Infografik (Abb. 5) – mit Hilfe des vorgestellten Modells analysiert werden. Das Ziel besteht darin, die Eignung der Kriterien zu überprüfen und zu zeigen, wo genau die Unterschiede zwischen den multimodalen Textsorten liegen und wie sie in der Konstitution der Texte zustande kommen. Insbesondere ist es interessant, die durch die einheitliche Kommunikationsform bedingten Gemeinsamkeiten gegen die sortenbedingten Unterschiede abzuwägen. Die drei Textsorten zeigen eine je eigene multimodale Gliederung: Die Nachricht (s. Abb. 3) besteht aus Überschrift, Textkörper, Bild und Bildunterschrift. Die Anzeige (s. Abb. 4) gliedert sich in die (vier) Bilder, die Schriftzeile und das Logo. Die Infografik (s. Abb. 5) ist in Textkörper, Bild, Namen-/Zahlen-Etiketten und weißes Schriftband geteilt. Die Textteile der multimodalen Gestalt werden durch verschiedene textgraphische Mittel signalisiert, wie z. B. Schriftstil und -größe, Linien/Rahmen sowie Form und Farbe, und durch Positionierung konfiguriert. Diese Ressourcen gibt die Kommunikationsform vor, sie werden aber so verwendet, dass (wieder)erkennbare Textformen entstehen. Die Abgrenzung der Texte gegenüber benachbarten Kommunikationsangeboten ist durch Texturunterschiede der Flächen bzw. durch Abstände und Rahmen gegeben. Für die Nachricht scheint typisch, dass trotz Abgrenzung auch Bezüge zu angrenzenden Texten ermöglicht werden; die bebilderte Hauptnachricht



26 

 Hartmut Stöckl

stellt einen graphischen Konnex mit dem thematisch verwandten, rechts stehenden Kommentar her.

Abb. 3: Hollande und Sarkozy in der Stichwahl (Frankfurter Allgemeine Zeitung FAZ 23.04.2012, Titelseite/Ausschnitt)

Die textgraphische Konturierung einer sortentypischen Gestalt bildet die Basis für die Etablierung von Handlungs- und Themenstruktur. In der Nachricht (s. Abb. 3) kündigt die Überschrift den Inhalt an (Wahl in FR), der Textkörper berichtet die Details, das Bild führt einen Akteur vor Augen und die Bildunterschrift nimmt eine Bewertung vor und ergänzt Details. Die Anzeige (s. Abb. 4) beinhaltet drei funktionale Abschnitte: die vier Bilder präsentieren Tarot-Karten, die Schriftzeile beschreibt und bewertet ein Merkmal des Autos und der Slogan fasst verallgemeinernd zusammen und schließt den Text ab. Für die Infografik (s. Abb. 5) ergeben sich die folgenden Teilhandlungen: der Textkörper stellt Fragen (Mordrisiko, Mordraten), das Bild zeigt einen Mord, die Namen-/Zahlen-Etiketten beantworten die Fragen, indem sie nennen und quantifizieren, das weiße Schriftband gibt Quellen und Autoren an. Gemeinsam ist den multimodalen Textsorten also, dass sie die einzelnen Handlungen (stages) klar auf die Modalitäten verteilen und dass Sprache dabei eine zentrale Stellung einnimmt, wenn ihr Status auch anteilsmäßig verschieden ist (am geringsten in der Anzeige). Unterschiedlich fällt aber die Beziehung der modes zueinander aus (s. u.). Dies lässt den Schluss zu, dass multimodale Textsorten eine jeweils spezifische Matrix funktionaler Abschnitte haben und diese in je eigener, sorten-typischer Weise auf die Modalitäten verteilen. Gleiches lässt sich für die Themenstruktur sagen. Eine narrative Matrix in der Nachricht (s. Abb. 3) beinhaltet das Hauptereignis (Überschrift) und seine Details 

Multimodalität – Semiotische und textlinguistische Grundlagen 

 27

(Textkörper, Bild, Bildunterschrift); dabei wählt das Bild den Hauptakteur und bewertet ihn in der Bildunterschrift. So folgt die multimodale Themenentfaltung einer Ganzes-Teil-Struktur. Die Themenstruktur der Anzeige (s. Abb. 4) beruht auf einer argumentativen Matrix, indem sie zwei scheinbar inkompatible Themen (Tarot-Spiel und Kfz-Sicherheitssystem) verbindet und durch das Logo auf die Marke VW bezieht. Hier muss Multimodalität für den Vergleich der Themen sorgen und ihren logischen Konnex herstellen. Die Infografik (s. Abb. 5) gehorcht einer explikativen Matrix; in ihr erklären Bild und Namen-/Zahlen-Etiketten das Thema Gewaltverbrechen, indem sie Quantitäten lokalisieren. Multimodalität gewährleistet hier Übersichtlichkeit und das selektive Explorieren der Daten.

Abb. 4: Volkswagen Front Assist. It knows what’s ahead. VW, DDB London UK, (Lürzer’s Archiv 4/2012, 26, 4.1235)

Die Verknüpfung der Zeichenmodalitäten lässt sich als eine spezifische Form von Kohäsion und Kohärenz verstehen, bei der Form- und Bedeutungszusammenhänge sowie Sinnkontinuitäten zwischen semiotisch unterschiedlich konstituierten Textteilen hergestellt werden. Die Konnektivität und Vernetzung von Sprache, Bild, Textgraphischem und Musik/Geräusch folgt dem generellen Prinzip der intersemiotischen Komplementarität (Royce 1998), nach dem sich die einzelnen modes gegenseitig ergänzen und zur Sinnstiftung wechselseitig aufeinander angewiesen sind. Auch bedeutet die Annahme einer multimodalen oder intersemiotischen Kohäsion (Stöckl



28 

 Hartmut Stöckl

2012a, 251 ff.), dass es in der Struktur der Texte „Kontaktstellen“ (Stöckl 1997, 143) oder „edit points“ (van Leeuwen 2005b, 184) gibt, an denen sich Zeichen unterschiedlicher Modalitäten (z. B. Wörter oder Bildelemente etc.) explizit oder implizit aufeinander beziehen und so eine Junktion (Wetzchewald 2012, 233–238) oder ein cohesive tie (Halliday/Hasan 1976) entsteht. Folgt man der textlinguistischen Theorie, so lassen sich zumindest drei große Typen multimodaler Textkonnektivität unterscheiden und als analytische Instrumente verwenden. Lexikalische Kohäsion (s. Schubert 2012, 46 ff.) stellt Beziehungen zwischen eigenständig bedeutungstragenden Zeichen her, d. h. z. B. zwischen Lexemen, darstellenden Bildelementen, verweisenden Geräuschen und symbolischer Musik. Hier können Elemente wiederholt bzw. paraphrasiert werden, zueinander in intersemiotic sense-relations stehen (wie z. B. Antonymie, Hyperonymie oder Meronymie) und als Kollokationen (im Sinne von Halliday/Hasan 1976) oder „lexical sets“ (Schubert 2012, 54) in assoziativen Feldern oder Sachgruppen verknüpft sein. Grammatische Kohäsion (s. Schubert 2012, 32 ff.) ist stärker in der spezifischen Funktionsweise von Sprache verankert, lässt sich aber auch auf intermodale Konnektivität projizieren. Hierzu gehören alle Zeichen, die auf andere Textelemente verweisen können, wie z. B. Demonstrativ- und Personalpronomina, elliptische Strukturen, Parallelismen und Konjunktionen. ‚Grammatisch‘ kohäsiv wirken aber auch solche textgraphischbildlichen Mittel wie Pfeile, Linien, Balken, Rahmen, Farben und alles, was für einen formalen Zusammenhalt der Modalitäten sorgt. Kohärenz schließlich wird vom Rezipienten als Sinnkontinuität eines Textes durch aktives Interpretieren und Inferieren unter bestimmten Wissensvoraussetzungen und Kontextannahmen hergestellt (Schubert 2012, 65). Insofern ist sie formal nicht direkt repräsentiert, wird aber insbesondere durch Mittel der lexikalischen Kohäsion signalisiert. Kohärenz kann im multimodalen Text zum einen als logisch-semantische Relationen zwischen Propositionen, d. h. sogenannte relational propositions (Mann/ Thompson 1986) oder discourse relations (Renkema 2004, 108 ff.) modelliert werden. So z. B. kann ein Bild die logische Folge einer sprachlich ausgedrückten Ursache sein. In ähnlicher Weise hat man versucht, rhetorische Figuren (z. B. Metapher) als mentale Operationen zwischen Aussagen in verschiedenen Zeichenmodalitäten zu beschreiben (s. Gaede 1981; Bonsiepe 1965/1996). Zum anderen lässt sich Kohärenzaufbau dadurch zeigen, dass einzelne Elemente verschiedener Zeichenmodalitäten in bestehende Wissensrahmen und mentale Skripte (frames/scripts) passen, die so multimodal präsentierte Inhalte integrieren. Im Folgenden will ich – aufbauend auf den erörterten Theorien von Kohäsion/Kohärenz – illustrieren, wie multimodale Verknüpfungen in den drei Textsortenbeispielen funktionieren.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 29

Abb. 5: Murder International!, GOOD Worldwide Inc. & Chris Korbey, USA 2009 (www.good.is/infographics, s. Korpus in Stöckl 2012c)

In der Nachricht (s. Abb. 3) entsteht grammatische Kohäsion in erster Linie durch das Personalpronomen ihn in der Bildunterschrift, das zugleich auf das zentrale Bildelement wie auch auf den Namen Hollande in Über- und Unterschrift rekurriert. Die Linie unterhalb von Nachricht und Bild ‚unterstreicht‘ die formale Zusammengehörigkeit. Ein lexikalischer Konnex kommt in zweifacher Weise zustande: Die bewertende Formulierung Alle Blicke sind auf ihn gerichtet wird im Foto bildlich paraphrasiert; dabei stehen ‚Blick‘ und ‚Kameras‘ in metonymischem Sinnbezug. Zudem liefert die Bildunterschrift Lexeme, die im Bild nicht erfahrbare Informationen geben (Sonntag, nach der Stimmabgabe = Zeit, in Tulle in Zentralfrankreich = Ort) und in das vom Thema vorgegebene und im Text elaborierte Begriffs-Set Wahl passen. Schließlich legen diese inhaltlichen Bezüge eine relationale Proposition des ‚Background‘ nahe, d. h. die Bildunterschrift enthält Hintergrundinformationen zum im Bild Dargestellten und kontextualisiert es so. Rhetorisch fällt die bedeutungsspielerische Literalisierung des metaphorischen Ausdrucks Alle Blicke sind auf ihn gerichtet im Bild auf. Vielleicht am stärksten für multimodale Kohärenz sorgt das Bildmotiv, das einen Hauptakteur im dem Text zugrunde liegenden Skript Präsidentenwahl zeigt. Rezipienten verfügen diesbezüglich über stereotypes Wissen und deuten die Stimmabgabe des Favoriten als herausgehobenes Ereignis in der Narration der Nachricht. Die Werbeanzeige (s. Abb. 4) erhält grammatische Kohäsion mittels des Relativpronomens what, das auf die Bildinhalte hinweist. Formal werden Schrift und Bild 

30 

 Hartmut Stöckl

nur dadurch in Beziehung gebracht, dass sie auf dem gleichen texturierten Untergrund montiert sind. Lexikalische Kohäsion ist signalisiert, indem die vier Kartenbeschriftungen (learner driver, old lady, courier, van man) Kohyponyme zum Oberbegriff ‚Personen (im Straßenverkehr)‘ bilden und damit die vier Einzelbilder konzeptuell zu einer Sachgruppe bündeln und auf what rekurrieren lassen. Das Verstehen der Anzeige beruht auf zwei Inferenzen: Erstens, die dargestellten Personen sind die Objekte, die das Front Assist beispielsweise erkennt. Zweitens, der Text öffnet mit Bild(ern) und Sprache zwei an sich zusammenhangslose Wissensrahmen (Tarot-Karten = Wahrsagen, Front Assist = Sicherheitssystem), die bei näherer Überlegung in einen antonymischen Sinnbezug (Ungewissheit vs. Gewissheit) zu setzen sind. Diese Frame-Antithese legt den argumentativen Schluss nahe, dass man sich auf Front Assist verlassen kann, weil es Gefahren nicht wahrsagt, sondern erkennt. Die relationale Proposition, die hier zustande kommt, ist die der Elaboration; die Bilder geben illustrative Beispiele. In der Infografik (s. Abb. 5) sorgen die Interrogativpronomina where (in the world) und which (countries) für grammatische Kohäsion, da die im Bild ‚aufgestellten‘ Schilder Ländernamen und Zahlen beinhalten und somit die Fragen beantworten. Der Bildbegleittext und die Etiketten haben die gleiche graphische Form, zudem korrelieren lowest und highest mit den Farben hellblau und rot sowie Zahlen mit Schildergrößen – auch dadurch entsteht formale Kohäsion. In lexikalischer Hinsicht zeigt der Text multimodale Kohäsion durch ausgedehnte hyponymische Sinnbezüge und lexikalische Felder (countries – USA, Malta, Ireland etc.; homicide rates/murders per 100.000 people – 0.7, 45.7 etc.). Intermodale Kohärenz ergibt sich hier dadurch leicht, dass ein Wissensrahmen (Mordratenverteilung) sprachlich wie bildlich aktiviert und dann konsequent durch Daten (Orte und Zahlen) gefüllt wird. Der Text folgt dem rhetorischen Grundmuster der Frage-Antwort, das sich auf die Modalitäten verteilt. Das Hintergrundbild kann mit Blick auf den Begleittext als Restatement (being stabbed by a murderer), die Schilder als lokalisierende und quantifizierende Elaboration verstanden werden. Die drei multimodalen Textsorten unterscheiden sich auch in ihrer Intertextualität. Die Nachricht verweist explizit (Fortsetzung Seite 2, Vorteil Hollande) auf die benachbarten Texte Bericht und Kommentar, mit denen sie ein thematisches Textsortennetz bildet. Die Werbeanzeige beinhaltet keine expliziten Intertextualitätshinweise. Das Markenlogo VW und der Begriff Front Assist können aber als implizite Verweise auf andere Textwelten (Markenkommunikation, technische Dokumentation, Technikjournalismus) gedeutet werden. Die Infografik zeichnet wiederum ein expliziter Intertextualitätsverweis aus, in diesem Falle auf die verwendeten Quellen (Sources), die für ihre Qualität und Aussagekraft wichtig sind.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 31

5 Fazit und Ausblick Abschließend will ich zusammenfassen, welche Haupterkenntnisse über Multimodalität die dargelegten theoretischen Reflexionen und praktischen Analysen bringen. Dabei ist zunächst zu fragen, was sich aus den exemplarischen Textsortenanalysen lernen lässt. Der Vergleich der drei Beispiele liefert sowohl typische Merkmale multimodaler Texte allgemein als auch Hinweise auf Spezifika der Sorten. Zuallererst bedingt die Kommunikationsform Zeitung/Zeitschrift eine textgraphische Binnengliederung, die den Raum einer Seite in textsortentypischer Weise zu wiedererkennbaren Gestalten konfiguriert. Texte audiovisueller Kommunikationsformen z. B. müssen hingegen den linear-zeitlichen Fluss der Zeichen rhythmisch konturieren und nutzen dazu Charakter und Tempo der Musik, Sprechgeschwindigkeit und -rhythmus oder den Schnitt der bewegten Bilder. Die Handlungs- und Themenstruktur der Sorte und des konkreten Exemplars bestimmt dabei – wie die Beispiele zeigen – die graphische Gliederung der multimodalen Texte. Für die Strukturierung von Handlungen und Themen wiederum ist die Textfunktion, d. h. der Texttyp maßgebend. Hier scheint es jeweils eine entsprechende funktionale Matrix zu geben (d. h. z. B. zugrunde liegende narrative, argumentative oder explikative Muster), die einen größeren organisierenden Rahmen für semantische und pragmatische Strukturierungsentscheidungen vorgibt. Bezüglich der Verknüpfung der Zeichenmodalitäten zur Herstellung von intermodaler Kohäsion/Kohärenz gibt es die markantesten Unterschiede zwischen den Textsorten. So kann v. a. lexikalische Kohäsion unterschiedlich dicht (d. h. mit wenigen oder vielen Elementen) und mit verschiedenen Mitteln (Paraphrase vs. Sachgruppe vs. Hyponymie) hergestellt werden. Außerdem resultieren aus den inhaltlichen Bezügen der Modalitäten unterschiedliche relationale Propositionen (z. B. Background) und verschiedene rhetorische Muster (z. B. Metapher), die textsortenprägend sein können. Schließlich scheint die Art und Weise, wie Frames oder Skripts signalisiert und aufgebaut werden, ein klares differenzierendes Kriterium für multimodale Textsorten. Während für Nachricht und Infografik Frame- bzw. Skriptkontinuität typisch sind, zeigt die Werbeanzeige Divergenz bzw. kalkulierte semantische Gegensätze. Die drei Beispielanalysen legen aber auch sortenübergreifende Gemeinsamkeiten in der multimodalen Verknüpfung nahe; diese betreffen die grammatische bzw. formale Kohäsion. In den sprachlichen Begleittexten gibt es jeweils Ausdrücke (Pronomina), die auf die Bilder verweisen und so explizite intermodale Bezüge herstellen. Außerdem verhelfen verschiedene graphisch-bildliche Mittel (Farbe, Form, Größe, Linien, Textur) den Modalitäten zu einem formalen Zusammenhang, so dass eine einheitliche textgraphische Gestalt entsteht. Das Konzept der multimodalen Textsorte folgt dem Grundgedanken, dass die Strukturierung und semiotische Gestaltung einer Sorte durch die jeweils relevanten Aspekte der Situation – vornehmlich durch die Funktion – geprägt und typisiert werden. Diese typisierende Prägung erfolgt auf zwei großen Ebenen: Erstens bezieht 

32 

 Hartmut Stöckl

sie sich, wie oben gezeigt, auf die Verknüpfung der Modalitäten bzw. die Herstellung von intermodaler Kohäsion/Kohärenz, zweitens aber auch auf den Gebrauch der einzelnen Modalitäten für sich. So muss man fragen, wie Sprache in den verschiedenen Textteilen einer Nachricht, Werbeanzeige oder Infografik typischer Weise gebraucht wird. Genauso ist zu fragen ist, welche Gestaltungsmerkmale ein Nachrichten-, Werbe- oder infographisches Bild auszeichnen. Dabei ist prinzipiell von einer Vielfalt der Muster auszugehen, die um einen Prototypen herum organisiert sind. Für diese Variabilität der Gestaltung multimodaler Textsorten und ihrer einzelnen Zeichenmodalitäten kann m. E. der Begriff des Stils (d. h. multimodale Textsortenstile) sinnvolle Anwendung finden. Blicken wir schließlich auf die Prozesse des Verstehens und der Produktion von multimodalen Texten, so legen die Ausführungen in den Kapiteln 3 und 4 die Notwendigkeit einer Dreifachkompetenz nahe. Rezipienten müssen – um multimodale Zeichenangebote sinnvoll interpretieren zu können – 1) einzelne Zeichenmodalitäten in ihren syntaktischen, semantischen und pragmatischen Dimensionen different verstehen (semiotische Kompetenz), 2) formale, inhaltliche und funktionale Zusammenhänge zwischen den Zeichenmodalitäten erkennen (integrative Kompetenz) und 3) die typisierte, musterhafte Verwendung der Modalitäten als einer Textsorte und einem Stil zugehörig deuten (Textsortenkompetenz). Für die weitere Entwicklung der Multimodalitätsforschung machen die hier dargelegten Konzepte, Modelle und Reflexionen zwei Paradigmen stark: Einerseits ist die kontrastive Erforschung multimodaler Textsortenrepertoires geboten, um der situativ-funktionalen Wandelbarkeit multimodaler Gestaltung und historischen Veränderungen multimodaler Textsortenstile nachgehen zu können. Andererseits benötigen wir mehr Produkt-, Produktions- und -rezeptionsforschung zum multimodalen Text, damit wir die inhaltlich-funktionalen Besonderheiten der Modalitäten und ihre daraus resultierenden Gebrauchsweisen noch besser verstehen lernen.

6 Literatur Bateman, John (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal Documents. Basingstoke. Biber, Douglas/Susan Conrad (2009): Register, Genre, and Style. Cambridge. Björkvall, Anders (2012): Multimodality. In: Jan-Ola Östmann/Jeff Verschueren (eds.): Handbook of Pragmatics. Amsterdam, 1–20. Bonsiepe, Gui (1965/1996): Visuell-verbale Rhetorik. Über einige Techniken der persuasiven Kommunikation. In: Gui Bonsiepe (Hg.): Interface – Design neu begreifen. Mannheim, 85–103. Bühler, Karl (1934/1990): Theory of Language. The Representational Function of Language. Amsterdam. Bullerjahn, Claudia (2001): Grundlagen der Wirkung von Filmmusik. Augsburg. Chandler, Daniel (2007): Semiotics. The Basics. London. Eco, Umberto (1977): A Theory of Semiotics. London/Basingstoke.



Multimodalität – Semiotische und textlinguistische Grundlagen 

 33

Engel, Hans (1990): Sinn und Wesen der Musik. In: Karbusicky 1990, 50–60. Faltin, Peter (1985): Bedeutung ästhetischer Zeichen, Musik und Sprache. Aachen. Fix, Ulla (2001): Zugänge zu Stil als semiotisch komplexer Einheit. In: Eva-Maria Jakobs/Annely Rothkegel (Hg.): Perspektiven auf Stil. Tübingen, 113–126. Flückiger, Barbara (2007): Sound Design. Die virtuelle Klangwelt des Films. Marburg. Forceville, Charles (2014): Relevance theory as model for analysing visual and multimodal communication. In: David Machin (ed.): Visual Communication. Berlin/Boston, 51–70. Fricke, Ellen (2012): Grammatik multimodal. Wie Wörter und Gesten zusammenwirken. Berlin/ Boston. Gaede, Werner (1981): Vom Wort zum Bild. Kreativ-Methoden der Visualisierung. München. Goodman, Nelson (1976): Languages of Art. An Approach to a Theory of Symbols. Indianapolis. Habscheid, Stephan (Hg.) (2011): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York. Halliday Michael A. K. (1978): Language as Social Semiotic. The Social Interpretation of Language and Meaning. London. Halliday, Michael A. K./Ruqayia Hasan (1976): Cohesion in English. London. Heinemann, Margot/Wolfgang Heinemann (2002): Grundlagen der Textlinguistik. Interaktion – Text – Diskurs. Tübingen. Holly, Werner (2004): Fernsehen. Tübingen (Grundlagen der Medienkommunikation, 15). Holly, Werner (2011): Medien, Kommunikationsformen, Textsortenfamilien. In: Habscheid, 144–163. Jäger, Ludwig (2002): Transkriptivität. Zur medialen Logik der kulturellen Semantik. In: Ludwig Jäger/Georg Stanitzek (Hg.): Transkribieren Medien/Lektüre. München, 19–41. Jakobson, Roman (1960): Closing statement. Linguistics and poetics. In: Thomas A. Sebeok (ed.): Style in Language. Cambridge, 350–377. Jewitt, Carey (2014): The Routledge Handbook of Multimodal Analysis. 2nd edition. London/New York. Jewitt, Carey/Gunther Kress (eds.) (2003): Multimodal Literacy. New York. Juslin, Patrik N./John A. Sloboda (2001): Music and Emotion. Theory and Research. Oxford. Karbusicky, Vladimir (1987): Zeichen und Musik. In: Zeitschrift für Semiotik 9 (3–4), 227–249. Karbusicky, Vladimir (Hg.) (1990): Sinn und Bedeutung in der Musik. Texte zur Entwicklung des musiksemiotischen Denkens. Darmstadt. Kesselheim, Wolfgang (2011): Sprachliche Oberflächen. Musterhinweise. In: Habscheid, 337–366. Klug, Nina-Maria/Hartmut Stöckl (2015): Sprache im multimodalen Kontext. In: Ekkehard Felder/ Andreas Gardt (Hg.): Handbuch Sprache und Wissen. (Handbücher Sprachwissen – HSW, Bd. 1). Berlin/Boston, 242–264. Koch, Walter A. (1971): Varia Semiotica. Hildesheim (Studia Semiotica Series Practica, 3). Krämer, Sybille (2005): Das Medium zwischen Zeichen und Spur. In: Gisela Fehrmann/Erika Linz/ Cornelia Epping-Jäger (Hg.): Spuren Lektüren. Praktiken des Symbolischen. München, 153–166. Kress, Gunther (2014): What is mode? In: Jewitt, 60–75. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Leeuwen, Theo van (2005a): Multimodality, genre and design. In: Sigrid Norris/Rodney H. Jones (eds.): Discourse in Action. Introducing Mediated Discourse Analysis. London/New York, 73–94. Leeuwen, Theo van (2005b): Introducing Social Semiotics. London/New York. Leeuwen, Theo van (2011): Multimodality and multimodal research. In: Margolis/Pauwels, 549–569. Lomborg, Stine (2014): Social Media, Social Genres. Making Sense of the Ordinary. New York. Lürzer’s Archiv. Werbung aus aller Welt. Nr. 4/2012. Mann, William C./Sandra A. Thompson (1986): Relational propositions in discourse. In: Discourse Processes 9, 57–90.



34 

 Hartmut Stöckl

Margolis, Eric/Luc Pauwels (eds.) (2011): The Sage Handbook of Visual Research Methods. Los Angeles etc. Martin, J. R./David Rose (2008): Genre Relations. Mapping Culture. London. Messaris, Paul (1997): Visual Persuasion. The Role of Images in Advertising. London. Morris, Charles (1971): Writings on the General Theory of Signs. Edited by Thomas A. Sebeok. The Hague/Paris. Muntigl, Peter (2011): Genre. In: Habscheid, 314–336. Nöth, Winfried (1985): Handbuch der Semiotik. Stuttgart. Nöth, Winfried (2011): Visual semiotics. Key features and an application to picture ads. In: Margolis/ Pauwels, 298–316. Norris, Sigrid/Carmen Daniela Maier (2014): Interactions, Images and Texts. A Reader in Multimodality. Berlin/Boston. Posner, Roland (1991): Kultur als Zeichensystem. Zur semiotischen Explikation kulturwissenschaftlicher Grundbegriffe. In: Aleida Assmann/Dietrich Harth (Hg.): Kultur als Lebenswelt und Monument. Frankfurt a. M., 37–74. Renkema, Jan (2004): Introduction to Discourse Studies. Amsterdam. Royce, Terry (1998): Synergy on the page. Exploring intersemiotic complementarity in page-based multimodal text. In: JASFL Occasional Papers 1, 25–48. Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft. Köln. Sandig, Barbara (2000): Text als prototypisches Konzept. In: Martina Mangasser-Wahl (Hg.): Prototypentheorie in der Linguistik. Anwendungsbeispiele – Methodenreflexion – Perspektiven. Tübingen, 93–112. Schmitz, Ulrich (2003): Blind für Bilder. Warum sogar Sprachwissenschaftler auch Bilder betrachten müssen. LAUD Papers Series A: General & Theoretical Papers 581. Duisburg/Essen. Schmitz, Ulrich (2007): Bildakte? How to do things with pictures. In: Zeitschrift für Germanistische Linguistik 35, 397–418. Schneider, Jan Georg (2008): Spielräume der Medialität. Linguistische Gegenstandskonstitution aus medientheoretischer und pragmatischer Perspektive. Berlin. Schubert, Christoph (2012): Englische Textlinguistik. Eine Einführung. 2. Aufl. Berlin. Sebeok, Thomas A. (1994): Signs. An Introduction to Semiotics. Toronto/Buffalo. Stöckl, Hartmut (1997): Werbung in Wort und Bild. Textstil und Semiotik englischsprachiger Anzeigenwerbung. Frankfurt a. M. Stöckl, Hartmut (2004): Die Sprache im Bild. Das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Berlin/New York. Stöckl, Hartmut (2007): Hörfunkwerbung – „Kino für das Ohr“. Medienspezifika, Kodeverknüpfungen und Textmuster einer vernachlässigten Werbeform. In: Kersten Sven Roth/Jürgen Spitzmüller (Hg.): Textdesign und Textwirkung in der massenmedialen Kommunikation. Konstanz, 177–202. Stöckl, Hartmut (2012a): Werbekommunikation semiotisch. In: Nina Janich (Hg.): Handbuch Werbekommunikation. Sprachwissenschaftliche und interdisziplinäre Zugänge. Tübingen, 243–262. Stöckl, Hartmut (2012b): Medienlinguistik. Zu Status und Methodik eines (noch) emergenten Forschungsfeldes. In: Christian Grösslinger/Gudrun Held/Hartmut Stöckl (Hg.): Pressetextsorten jenseits des ‚News‘. Medienlinguistische Perspektiven auf journalistische Kreativität. Frankfurt a. M., 13–34. Stöckl, Hartmut (2012c): Finanzen visualisieren – Die Text-Bild-Sorte Infografik. In: OBST Osnabrücker Beiträge zur Sprachtheorie 81, 177–199. Stöckl, Hartmut (2013): Ästhetik und Ästhetisierung von Werbung. Begriffliche, forschungsmethodische und medientheoretische Überlegungen. In: Hartmut Stöckl



Multimodalität – Semiotische und textlinguistische Grundlagen 

 35

(Hg.): Werbung – Keine Kunst!? Phänomen und Prozesse der Ästhetisierung von Werbekommunikation. Heidelberg, 89–116. Stöckl, Hartmut (2014): Semiotic paradigms and multimodality. In: Jewitt, 274– 286. Wetzchewald, Marcus (2012): Junktoren zwischen Text und Bild – dargestellt anhand der Unternehmenskommunikation im Internet. Duisburg. Wolff, Harald (1996): Geräusche und Film. Materialbezogene und darstellerische Aspekte eines Gestaltungsmittels. Frankfurt a. M.



John A. Bateman

2. Methodological and Theoretical Issues in Multimodality Abstract: The current state of the art in multimodality appears to be reaching a consensus concerning several central methods and perspectives that need to be applied in its study. This offers an appropriate starting point for the reassessment of some foundational issues concerning the definition and combination of modalities. This is an important step to take at this time because, despite a wealth of experience now gained in this endeavour, core uncertainties remain. This chapter proposes some clarifications of the notions of semiotic modes, media and genres intended to help recast issues as more specific empirical challenges requiring detailed analysis, both corpus-based and experimental. The essential idea is that re-constructing semiotic modes as theoretically tightly interwoven bundles of material, form and dynamic discourse semantics provides a suitable foundation both for fine-grained empirical analysis and for multimodally-aware definitions of media and genres. The chapter motivates this position in some detail, offering illustrations of the treatment of multimodal media and genres that it supports. 1 Introduction: The Need for Method 2 Defining Semiotic Modes 3 Semiotic Modes and ‘Text Dynamics’ 4 Media and Genres 5 The Multimodal Description of Text and Image Combinations 6 Conclusions 7 References

1 Introduction: The Need for Method As well documented by this handbook, multimodality, as both a range of phenomena to be investigated and as a field of inquiry, is currently enjoying considerable growth and increasing recognition. Journals traditionally concerned with issues of combinations of, for example, visual and verbal material – such as Visual Communication or Text & Image – are now being joined by new journals with multimodality explicitly part of their respective charters  – such as Multimodal Communication (De Gruyter) and the Journal of Multimodal Communication Studies (Posnań and Warsaw Universities). An increasing number of valuable introductions to the ‘state of the art’ of multimodality are also now available (Machin 2014; Stöckl 2014, this volume; Klug/Stöckl



Methodological and Theoretical Issues in Multimodality 

 37

2015; Żebrowska 2014). Together, these efforts show a striking degree of convergence, often across quite diverse disciplinary starting points. Some of the characteristic assumptions and orientations now emerging in this ‘consensus view’ of multimodality include the necessity of paying close attention to the use of multiple modes by communicators in concrete contexts of production and reception (Bucher 2011) and a growing awareness of the importance of well articulated models of text, discourse and textual/discoursal semantics (Stöckl 2006; Bateman/ Wildfeuer 2014a; Klug this volume). In many respects, this can be characterized as a long overdue re-emphasis of dynamics and use-in-context as central concerns for both pragmatics and semantics. Many approaches thus describe themselves as pragmatic or pragma-semantic in orientation, seeking accounts of how the interpreters of multimodal artefacts and performances go about that interpretation, making reference to formal, cultural, social and contextual properties as required. For multimodality as such, however, the primary research issue across all approaches remains the core question of just how it can be that information in different modes operates together – i.e., how do disparate message components with potentially very different properties combine to produce ‘more’ than what can be achieved in isolation (cf. Lemke 1998; Liu/O’Halloran 2009; Holly 2009). Striking here is that despite a wealth of experience now gained both within and across disciplines, many basic questions concerning modalities and their combinations are still only answered in a programmatic, impressionistic fashion. Moreover, the interrelationships between characterizations of modes and arguably broader constructs such as media, genre, materiality, design and many more remain unclear, with proposals cross-cutting one another and exhibiting an extreme fluidity with respect to how the principal terms are employed. The vast majority of multimodal analyses are still found in the form of discussions of individual texts couched as ‘running commentaries’ in which combinations of different expressive resources are noticed and discussed on a case-by-case basis. Such discussions are in considerable danger of being ad hoc – a critique made forcibly for discourse analyses by Halliday (1994, xvi) and of multimodal discussions more specifically by Forceville (2007) – primarily due to a lack of appropriate methodological guidance. Moreover, for accounts that do attempt to apply or define more general frameworks in their analyses of mode interactions – approaches drawing, for example, on rhetoric (Koch/Schirren this volume), on cognitive models of metaphor (Forceville this volume), on functional discourse semantics (Liu/O’Halloran 2009; Royce this volume), on text linguistics (Stöckl this volume; Klug this volume), on formal discourse semantics (Wildfeuer 2012; 2013b) as well as more traditional (but still very relevant) applications of semiotics as such (e.g., Nöth this volume) – only limited contact has been achieved to date with the empirical validation and generation of testable predictions essential for progress. Thus, while current approaches have certainly allowed a host of revealing applications and descriptions of multimodal artefacts and performances to be pursued, deficient empirical foundations 

38 

 John A. Bateman

continue to render them considerably less revealing than they will need to be in the future for progress to be made. Moving beyond more conjectural characterizations requires recasting issues as empirical questions. However, in many areas of multimodality, we are quite far away from being able to achieve this. This chapter will argue that two main reasons for the gap between theory and empirical investigation can be found in, first, a lack of clarity in the central theoretical constructs employed and, second, corresponding weaknesses in the methodologies for analysis that are available. The chapter therefore attempts to contribute to applied semiotics and, more specifically, to methodology in applied semiotics. We need to establish analytic guidelines that encourage even individual text analyses to feed into more general bodies of results and to encourage subsequent empirical probing. In this, we are entirely in agreement with Stöckl (this volume) when he cites Björkvall that multimodality “[is] still very much an emerging field and there is both room and need for methodological development” (Björkvall 2012, 18). This is a rather more pressing issue than the host of current research into multimodality might lead one to believe. There are, in fact, considerably fewer guidelines for directing practical investigation along productive lines than commonly assumed. Whereas for linguistic materials we have detailed and specific models of the phenomena involved and their interrelationships, outside of the linguistic system accounts quickly become schematic and ‘gappy’. Analysis then in turn becomes opportunistic and ‘running commentaries’ are a natural outcome. For more revealing and reliable analyses of any object of investigation, more structured approaches to characterizing multimodal artefacts and processes that complement and augment existing accounts are necessary. And for this task, more rigorous definitions of central terms such as semiotic mode are going to be unavoidable (cf. Klug/Stöckl 2015). Providing a tighter analytic scheme for addressing multimodality of all kinds is then the most specific and immediate goal of the present chapter. Weaker suggestions that semiotic modes arise as a product of, or as support for, analysis or that they have flexible and fluid boundaries are conducive neither to the development of sound methodologies nor to reproducible analyses. Achieving more analytic and definitional precision should not only promote more revealing characterizations of the basic issue of how modes combine but also help significantly with occurrences previously seen as problematic when framed more loosely in terms of multimodality. Such occurrences include alleged cases of hybridity (i.e., combinations across genres, media, modes), of modes cross-cutting sensory channels (e.g., are spoken language and written language a single verbal mode?), and of media ‘embedding’ (e.g., is a dance shown in a photograph appearing in a narrative film displayed on a smartphone an instance of a semiotic mode of ‘dance’ or not? – and recursively: of film, of photography etc.) – all classical examples drawn on when arguments in favour of maintaining a certain looseness in definitions of multimodality are



Methodological and Theoretical Issues in Multimodality 

 39

made. Our approach will be quite the reverse: it is only with more precision that such complex phenomena can be addressed productively.

2 Defining Semiotic Modes We begin, therefore, by making explicit the basic horizon within which the kind of semiotic artefacts and performances that we are interested in can appear. For the purposes of the present chapter, this involves all cases where language combines with visual, acoustic, and other materially-present signifying practices. Such practices are often characterized in terms of semiotic modes (Kress 2014; Stöckl 2014), a concept which, as Klug/Stöckl (2015) explain, nowadays typically synthesises at least aspects of materiality and mediality, ‘codality’, sensory modalities, processing mechanisms, and socio-cultural conventions. It will require considerable attention to detail to show how these aspects might work together productively. For this, we will proceed in terms of an ontological analysis of what constitutes a semiotic mode. Ontological is used here in the sense of determining what has to be available for there to be semiotic modalities of the kind that are of interest to us at all as well as what internal organizations such modalities must exhibit. The resulting framework will then be used to cast some light on a range of current open issues and questions in multimodality research and, more specifically, to suggest how certain analytic methodologies then follow. In addition, since this is necessarily a semiotic endeavour, we will also note on the way points of connection or overlap with more traditional semiotic accounts (e.g., Saussure, Peirce, Hjelmslev) in order to aid comparison and to make explicit the framework’s connections with necessary semiotic foundations.

2.1 Ontological Foundations for Semiotic Modalities In any foundational discussion of semiotic modes, it is important to emphasise the status of modes as interpretative practices constructed and maintained by communities of users (Goodman 1969; Bateman 2011). The following observation from Kress and colleagues brings out the consequences of this particularly well: […] the question of whether X is a mode or not is a question specific to a particular community. As laypersons we may regard visual image to be a mode, while a professional photographer will say that photography has rules and practices, elements and materiality quite different from that of painting and that the two are distinct modes. (Kress et al. 2000, 43)

Although, as in the case of verbal language, the particular community involved can turn out to be quite large, this question must always be posed – at least abstractly – 

40 

 John A. Bateman

as an empirical issue. That is: we must first look to see if there appear to be some expressive resources that are being employed systematically in some specific context and only then proceed to attempts to identify and characterize those resources. This leads naturally to questions concerning the communities within which the systematic practices take place. That the community concerned with verbal language turns out to have arisen evolutionarily to span the entire species rather than as a more socio-culturally and temporally restricted subgroup makes no difference to this basic methodological stance. Indeed, a reoccurring theme in the discussion will be that research still too often relies on ‘accepted distinctions’ that are themselves in need of more stringent empirical probing. A second necessary starting point to be anchored into the account at the outset is that of the materiality that is employed by the community of users engaged in meaning-making. The materials that can be put to use of this kind are extremely varied, but require minimally that they are sufficiently ‘controllable’ as to admit of purposeful articulations – otherwise it would not be possible for them to function as the material carriers of ‘semiotically-charged’ distinctions. This control may be exercised not only by the physical actions of the members of the community – e.g., by using their vocal chords for producing sounds via manipulations of the shape of the mouth, by performing particular bodily gestures or movements, or by forming lines in the sand with fingers, etc.  – but by any of the physical-technological processes available to that community – e.g., by using burned sticks to draw on the wall of a cave, a particular kind of printing press to produce a newspaper, or a combination of whiteboard, whiteboard marker, spoken language, gesture, screen and video projectors for an audiovisual PowerPoint or Keynote presentation. For want of a better, or more general or neutral term, the material employed for meaning making will be called the canvas; the material that is actually available for meaning making is then the virtual canvas (or virtual artefact: Bateman 2008, 16–17, 192) formed by combining physical materiality with corresponding technological means of articulation. The articulations made are then available for serving as the ‘physical’ (i.e., perceptible) record of semiotic ‘decisions’ and so can be used by any member of the relevant community as evidence of those decisions being ‘in effect’. Comparisons can (and should) be drawn here with Hjelmslev’s ([1943] 1961, 54–55) discussion of expression-purport. Perhaps due to the duality that he wished to uphold between his expression and content planes, Hjelmslev’s notion is more tightly bound to semiotic distinctions than our intended use of the virtual canvas. Even prior to being employed for semiotic reasons, a virtual canvas admits a range of affordances – i.e., it can be ‘bent’ or ‘cut’ in some ways rather than others. This is seen as an important contribution of materiality in its own right. As noted particularly for non-linguistic semiotic modes by Stöckl (this volume), this emphasis on material also reinstates several of Peirce’s less commonly used semiotic categories as crucial for our understanding of how semiotic modes operate: in particular, the qualisign (perceptual qualities) and the sinsign (instances within 

Methodological and Theoretical Issues in Multimodality 

 41

which perceptible qualities are manifest) are appropriately placed at the centre of processes of both producing and interpreting signifying practices. Moreover, and also connecting more closely to corresponding semiotic foundations (cf. Nöth this volume; Peirce 1931–1958, §§ 2.275–2.308), such materials do not come readily divided up according to sensory channels. This is a rather different position to that adopted in much of the multimodality literature, where distinctions are often drawn along sensory channel boundaries. This naturally leads to information offerings relying on vision being characterized as distinct to those relying on sound or touch. Fricke (2013), for example, elevates this to a categorial distinction between what she terms narrow and broad multimodality. Broad multimodality is when a number of semiotic codes are active within a single sensory channel – as traditionally suggested for pictures and texts – while narrow multimodality requires multiple sensory channels. In this view, face-to-face spoken language is consequently seen as multimodality in the narrow sense, while illustrated documents, for example, may only be multimodal in a broad sense. Although not explicitly stated within this line of argument, it does not take many more turns of the screw to arrive at the suspicion that face-to-face interaction is perhaps to be seen as ‘proper’ multimodality, while other forms may only be multimodal by extension. In contrast to this, the framework proposed here seeks to maintain a more open orientation to all possible forms of multimodality. Individual sensory channels or biophysical distinctions between sensory channels are not granted any definitional role as far as our ontological characterization of semiotic modes is concerned. Ongoing work on perception and its neuro-cognitive foundations also supports denying traditional sensory channels theoretical primacy. Strong interactions and interconnections between sensory channels are observed at very early stages in processing (e.g., Clark 2011; Seeley 2012; Kluss et al. 2012) and so when attention turns to how we use any information being encountered, assumptions of boundaries between senses become both theoretically and practically problematic. An example of this is McGurk/MacDonald’s (1976) well known result in spoken language perception that certain aspects of the acoustic signal and visually accessible lip shapes combine to the extent that different sounds may be heard, i.e., a visual shape co-determines the perceived acoustic event. The previously common restriction of the material relevant for spoken language to the audio channel is therefore a considerable simplification – a point already emphasised by Hjelmslev ([1943] 1961, 103). Broader discussions of synaesthesia and complex embodied responses to the apparently audiovisual medium of film all move in similar directions (Sobchack 2004). Thus, semiotic modes as brought into being by communities of users need not respect sensory compartmentalization. Materiality may involve any combination of sensory channels and so even individual semiotic modes may be multisensorial. It is, again, an empirical issue to investigate just which dimensions of materiality are being drawn on by any particular semiotic mode.



42 

 John A. Bateman

2.2 Shaping Material Articulations Although links between sensory modalities and semiotic modalities are often drawn, it is also always accepted as uncontroversial that there is something ‘more’ to a semiotic mode that is not exhausted by identifying the sensory channel. Simply imposing some articulations on a material is not then of itself sufficient – the articulations imposed must be recognisable as instances of reoccurring patterns known to the community of users involved (i.e., Peircean legisigns). Collections of distinguishable marks with particular meanings-in-context (e.g., traffic lights, patterns of sticks left at decision points to indicate which path to follow, etc.) might then be said to make up ‘sign repertoires’. In the model proposed here, however, rather than adopting the metaphor of the ‘code book’ or sign catalogue that places prominence on individual signs, we draw further on linguistic insights and consider sign-vehicles, i.e., particular physically accessible traces, to be characterizable only in terms of sets of minimal distinctions – that is, distinctions made in the material must recognizably correlate with differences between semiotic events that the community of users is concerned with distinguishing. The description of this collection of distinctions is then ‘wrapped around’ materiality as a semiotic ‘stratum’ in its own right; we return to the overall architecture of this model below. This ‘negative’ definition of the signs of signification goes back to Saussure ([1915] 1959) rather than Peirce and is developed further in the ‘algebraic semiotics’ of Hjelmslev ([1943] 1961). ‘Marks’ made in some material do not then correspond directly to referents; it is only distinctions between marks that support the recognition of distinctions between semiotic categories. This means that we can characterize any non-material semiotic contribution in terms of paradigmatic and syntagmatic axes of organization  – i.e., paradigmatic systems of choice together with a syntagmatic organization for re-expressing, or ‘re-coding’ paradigmatic selections in structural configurations. These structural organizations typically provide both constituency and structural dependencies  – structural complexity is thus intrinsically part of the model and is always a possibility. Furthermore, following Halliday (e.g., 1978, 128–129), paradigmatic distinctions can be organized into hierarchies of more or less specific, but nonetheless abstract, semiotic choices The purpose of the structural configurations is then to leave traces in distinctions drawn in material form, while the paradigmatic description provides an organizational structure for the ‘space’ of semiotic decisions available within any semiotic resource. Folding this arrangement back into the Peircean categorization above, this means that we can also consider the paradigmatic organization as a characterization of the organization of legisigns (cf. Bateman 2013, 261–263) – a modelling alternative that has received rather little attention in the Peircean tradition previously. A further consequence of Kress and colleagues’ observation above, however, is that not all semiotic modes as employed by recipients are equally finely articulated in terms of their syntagmatic and paradigmatic organizations. This means that it is also 

Methodological and Theoretical Issues in Multimodality 

 43

often helpful to apply a topology over such organizations characterized in terms of the continuum drawn by Kress/van Leeuwen (2001, 113) between lexically-organized semiotic resources and grammatically-organized semiotic resources. Lexically-organized semiotic resources consist of collections of signs with little additional organization – the distinguishable signs may be simply ‘listed’. In contrast to this, grammatically-organized semiotic resources place their distinguishable signs within a productive system of meaning potential. It is this that provides the power to compose simpler signs into complex signs employing structural mechanisms analogous to those of grammar. Lexically-organized semiotic resources thus exhibit a shallow paradigmatic organization, whereas grammatically-organized resources may exhibit considerable depth in paradigmatic organizations supported by correspondingly complex syntagmatic structures enabling entire complexes of semiotic choices not only to be deployed but also to be reliably recognised.

2.3 Using Material Articulations The last fundamental ingredient for our definition of semiotic modes is provided by a further abstract stratum of discourse semantics. The task of discourse semantics within any semiotic mode is to relate particular deployments of ‘semiotically-charged’ material to their contexts of use and the communicative purposes they can take up. Thus: the discourse semantics of a semiotic mode provides the interpretative mechanisms necessary for relating the particular forms distinguished in any semiotic mode to their contexts of use and for demarcating the intended range of interpretations of those forms. Such interpretations can vary with respect to just how tightly constrained they are intended to be, stretching from the very specific to rather more abstract ‘guidelines’ for interpretation. Although individual semiotic modes can vary with respect to just how much work they make their discourse semantics do, we nevertheless consider an ordering of some directions for interpretation as definitional for the kind of artefacts or performances with which we are concerned. Many traditional models or approaches to multimodality have posited a more direct relationship between signs (formed out of some material) and meanings for those signs. And, for some very simple semiotic modes at the lower bound of what we are defining here as semiotic modes at all, this may be adequate. In such cases we have formally trivial interpretative requirements where the meanings of the distinguishable signs may be characterized independently of particular contexts of use. For example, within a particular culture, a red traffic light will always mean stop; we do not need to consult some text history of the sequences of reds and greens that have occurred to make this assignment of meaning – although, of course, it may well be possible for different communities of users to construct other meanings, such as, for example, ‘red means speed up and try and get by in any case’ (cf. Kress/van Leeuwen



44 

 John A. Bateman

2001, 8–9). Such alternatives are also, however, generally independent of text context, i.e., previous sequences of reds and greens. The code-based view appears in many accounts as a general model for semiotic systems as such, even though its separation of signs from use gives rise to a host of problems and misconceptions – probably the most damaging of which has been the separation of code and inference (for further discussion, see Tseng/Bateman 2012; Bateman/Wildfeuer 2014a). Those who believe (correctly) in the importance of inference mechanisms in interpreting meaning may take (incorrectly) the notion of code to exclude such processes. This has in turn led to doubts about the applicability of semiotic approaches to a broad variety of non-verbal media. In contrast, the definition proposed here insists on a more indirect relationship between material traces and attributions of meaning which always involves notions of inference and, moreover, distinct kinds of inference depending on the levels of semiotic abstraction involved. This naturally focuses attention more on cases where compositionality, in its traditional linguistic sense, constitutes a major principle of organization within both the mid-level and discourse semantic semiotic strata. Cases in which materially manifested distinctions construct a ‘lexicon’ with relatively fixed ‘meanings’ which do not operate compositionally (i.e., a code without inference) are of less concern precisely because they do not offer sufficient means for more complex meaning making. We therefore consider the presence of a discourse semantics stratum to be the hallmark of semiotic modes ‘proper’. Without a discourse semantics, a semiotic mode can only be effective within very particular contexts of use with little possibility of extension – we might speak in such cases of semiotic proto-modes analogously to Halliday’s (1978, 121) description of the semiotically simpler earlier phases of language in children as protolinguistic. In contrast to this, the additional stratification provided by a discourse semantics allows semiotic configurations to generalize across different contexts by providing guidance schemes for contextual interpretations. In previous accounts, much of the work that we assign here to the discourse semantics stratum has been assumed to be part of the task of general accounts of pragmatics or communication-in-context. This has led to the contributions of potentially diverse discourse semantics not receiving the close scrutiny they demand in the operation of individual semiotic modes and their combinations. It also leaves the contextually-driven production of ‘differing meanings’ for ‘fixed signs’ an open problem with few proposals for explicit mechanisms. The situation is in fact entirely analogous to that in the study of discourse and text, where it has also taken substantial work to reveal how particular mechanisms of discourse construction can be beneficially recast in the form of dynamic semantics rather than being left to generic pragmatics or problem solving (cf. Kamp 1981; Wildfeuer 2013a). The essential notion of discourse semantics that we build on is that it is possible to isolate a particular class of inferences which function specifically to mediate between compositionally constructed semantic specifications and more abstract contextual or individual knowledge (Asher/Lascarides 2003; Wildfeuer 2013a). This means that discourse in 

Methodological and Theoretical Issues in Multimodality 

 45

the sense we intend with discourse semantics, operates on a local, individual text-oriented level (Martin 1992). It is then complementary to the broader kinds of discourse that, following Foucault, are taken to operate within (and thereby define) cultures at large (Kress/van Leeuwen 2001; Klug this volume) – we emphasize, therefore, that we see discourse semantics as additional to pragmatic inferences and discourse ‘in the large’, not as a replacement for such processes. The inclusion of a stratum of discourse semantics is fundamental for our framework and has consequences at every level, both for description and method. Consider, for example, the longstanding debate as to whether images can ‘stand alone’ as autonomous communicative artefacts without verbal support (cf. Barthes 1964, 10–11). Although the denial of this possibility is a cornerstone of many ‘logocentric’ approaches, Nöth (this volume) shows how the adoption of a Peircian perspective reveals any blanket rejection to be ill founded. Following Peirce’s characterization of signification, the question reduces to the types of signs that would be necessary to allow pictures to function ‘on their own’. According to traditional wisdom, images – at least pictorial images – are iconic: i.e., they signify by virtue of resemblance. But then, in order to function communicatively, they need to be embedded in propositions or arguments that fix their intended communicative role. As Nöth explains, in Peircean terms in order to move the interpretations of pictures towards particular statements, assertions, etc. (and hence for them to function ‘autonomously’ for the communicative purposes generally attributed to language), it is necessary for them to be assigned contributions ‘within’ more complex sign configurations. Thus, an image by itself may not ‘explicitly’ communicate whether it is a reference to some particular in the world (i.e., its indexicality status is established) or whether the image is intended as an assertion, a promise, an example, and so on (i.e., its dicent status as a proposition that may contribute to an argument is unclear). Nöth then argues that the extra information necessary for making such commitments can be provided from many sources, including the knowledge of recipients. Explicit verbal information is not then required. In the framework given here, the question is similarly seen as ill founded: any semiotic mode can be autonomous – indeed, that is part of the definition of mode since the possibility of ‘autonomous’ use is intrinsic to the nature of a discourse semantics. Moreover, it is precisely the discourse semantics of any semiotic mode that is generally responsible for allowing the ‘growth’ of information or signification potential characterized in the Peircean account by an assignment to different sign ‘types’, or ways of being signs. This means that each semiotic mode may, by definition, involve a full range of semiotic distinctions as these have generally been conceived, including, for example, iconic, indexical and symbolic signs (Nöth this volume). Questions of resemblance, of indexicality and of their symbolic nature are then necessarily secondary since, again in general, they can in any case only be derived by application of the corresponding discourse semantics. Thus, the ‘decision’ that something is to be interpreted as an index, i.e., as a reference to an entity in the world, or as a diagram, 

46 

 John A. Bateman

graph, etc. is primarily a discourse decision. Discourse semantics in general offer explicit models of the mechanisms that are responsible for managing this process. The invisibility of discourse semantics in semiotic accounts hitherto has given rise to substantial, if sometimes productive, ambiguities in traditional semiotic analyses. It is, however, the presence of a discourse semantics that can now provide the mechanisms necessary for the context and knowledge-based resolution of such ambiguities. We see this development as being entirely compatible with Peirce’s notion of semiosis. The explicit treatment of discourse semantics now fills in this notion with more formalised principles that can more readily be operationalized for empirical exploration. This returns us finally to several essential issues of method. First, discourse semantics are defined in such a way as to provide (more or less modular) theories of the domains they cover. These theories can be richly structured and so provide the necessary organization for defining combinations and correlations across modes in terms of structured mappings of the kind used in metaphor theory (cf. e.g., Forceville this volume) or cognitive blending (cf. Fauconnier 1997); we address the formal underpinnings of such mechanisms in some detail in Kutz et al. (2014) and will make several references to such structural mappings in our examples below. Second, the inclusion of discourse semantics opens up the possibility of allowing the artefacts and performances analysed to contribute more to their analysis themselves  – precisely because discourse semantics incorporate the crucial operations of textuality. We consider textuality to occur when artefacts and performances provide more or less explicit cues for guiding their own interpretation, both at the more general level of text types and genres and at the very specific level of how the text unfolds from clause to clause (cf. Kesselheim 2011; Bateman/Kepser/Kuhn 2013; Stöckl this volume). This is then a more refined and focused methodological contribution to analysis than is possible when talking simply of pictures (images) and words, etc. Indeed, the functioning of textuality in this sense was the original motivation of including explicit specification of discourse semantics in accounts of verbal language (cf. Kamp 1981). We now extend this basic insight to semiotic artefacts and performances in general.

2.4 Semiotic Modes Defined: Ramifications and Consequences Our basic account of semiotic modes has now combined a location for fine-grained detail concerning the workings of a discoursal component without seeing the semiotic modes themselves as separated from their supporting materiality. For these components to work together, we arrange them analogously to the view of the linguistic system proposed, for example, within systemic-functional socio-semiotics – i.e., again following principles proposed by Hjelmslev, each semiotic mode is itself seen as a stratified system. First, a material substrate must be fixed as an essential component for any semiotic mode; this material may itself stretch over diverse sensory channels. 

Methodological and Theoretical Issues in Multimodality 

 47

Second, a mid-level, ‘mediating’ stratum provides more (i.e., grammar-like) or less (lexicon-like) compositionally functioning structural possibilities capable of drawing ‘functionally’-motivated differentiations in form. Third and finally, ‘above’, or ‘surrounding’ these levels of semiotic abstraction, we place our more abstract stratum of (local) discourse semantics, which operates abductively on the descriptions of the lower levels of abstraction; this means that, in contrast to the rather different appropriation of the word stratum in Kress/van Leeuwen (2001, 4), we retain the semiotic sense of strata as tightly and formally interrelated descriptions at different hierarchically ordered levels of abstraction.

Fig. 1: Abstract definition of a semiotic mode. All semiotic modes combine three semiotic ‘strata’: material substrate, technical features (abbreviated as ‘form’) and discourse semantics.

The stratified model as a whole is depicted graphically in figure 1: working ‘upwards’ in abstraction here we see, first, materiality; second, form organized along the paradigmatic and syntagmatic axes organizing the ‘technical features’ of the mode; and third, discourse semantics. We now take this model, derived from both functional linguistics and formal approaches to discourse, and apply it across all semiotic modes regardless of their specific materialities. By virtue of the three semiotic strata, all semiotic modes necessarily involve qualities of perception, lexicogrammatical organization, and discourse mechanisms. These distinctions are not then simply terminological – different facets of multimodality so defined may be distinguished more precisely according to the differing mechanisms that apply. For example, the lower two semiotic strata are related semiotically by realization, or ‘manifestation’ – that is: the patterns of a semiotic mode are realised in material features. This is quite different to the formal relations that hold between these levels and the stratum of discourse semantics, which operate in terms of defeasible rules of interpretation. These formal properties help us subsequently to make particular modelling decisions rather than others when attempting to characterize the semiotic behaviour of some body of data. Whenever we find signs of abductive



48 

 John A. Bateman

reasoning at work, we know we have to consider locating those phenomena at least at the semiotic stratum of discourse semantics. This helps us distinguish different interacting components of explanations more appropriately within a complete description. The decomposition of semiotic modes also allows us to clarify the status of the various types of artefacts or performances covered. As an example we can consider the pre-theoretical notions of a semiotic mode of language and a semiotic mode of pictures. These are now termed pre-theoretical because the work of exploring to what extent single semiotic systems are operative or not still needs to be done, rather than assumed. Many researchers point out that language and pictures appear to differ with respect to how ‘close to perception’ they are (cf. Sachs-Hombach 2003, 73); others have made comments building on Goodman’s (1969, 136, 153) notion of the density of semiotic systems – dense schemes, such as pictures, take ‘every’ distinction present in material to be significant, others, such as language, impose an abstracting frame over variation so that many unique events can be grouped together for the purpose of meaning making (cf. Koch 1971). Where we can now go further is: (a) making explicit that the degrees of density relied upon are defined by the semiotic modes employed – which is similar to Goodman’s invocation of abstract symbol systems, and (b) for some semiotic modes (generally precisely those that are ‘closer to perception’) the actual material units that will be selected are partially a result of discourse interpretation, rather than being an ‘input’ to such interpretation (cf. Bateman/Wildfeuer 2014a, 190–192). Particularly this latter property, made possible by the addition of a discourse semantics, changes considerably how we conduct analyses of multimodal artefacts and performances and characterize how the contributions of distinct semiotic modes may combine. In Bateman/Wildfeuer (2014b, 376–378), for example, we present a discourse semantic analysis of an illustration of the conventionality of signs used in comics by McCloud (1994, 128). In several panels, McCloud shows how essentially the same slightly curved lines can be used in one case to indicate smoke from a pipe and, in another, to show the unpleasant smell of a pile of garbage. The fact that the signs being used are very similar goes further than simply indicating conventional decoding – what is necessary is that readers attempt to find discourse interpretations (in the form of specifiable discourse structures) which succeed in maximizing the discourse’s overall coherence. The presence of the curvy lines in the panel and their spatial location sets discourse hypotheses concerning what is most likely related to what – the acceptance of a discourse relation then establishes abductively a plausible way of binding the information into the growing discourse. This is completely typical of the operation of discourse semantics and how it can function to pick out signs from what is potentially on offer in the material. In the case of the curvy lines, if there were no convincing discourse interpretation, it would be possible for them to be seen as adding depth to the background or even not to be seen at all. Such interpretations may also be subject 

Methodological and Theoretical Issues in Multimodality 

 49

to empirical investigation, for example by exploring the allocation of attention within the image during perception by means of eye-tracking. The bundling according to three semiotic strata is therefore intended to characterize differences between semiotic modes more clearly, to allow exploration of their properties, to provide improved recognition criteria and, last but in the context of multimodality anything but least, to formalise their combinations and interactions. This in turn helps us to move away from isolated statements of interrelationships and towards more systemic characterizations of the workings of semiotic mode combinations as wholes.

3 Semiotic Modes and ‘Text Dynamics’ The description of semiotic modes now introduced has repeatedly mentioned the central role of discourse semantics for the account. The notion of dynamic semantics as the foundation for this discourse semantics has also been emphasized. This is fully in line with the emerging consensus view that semiotic modes be examined in their concrete contexts of use. In this section, we show this further by describing how the incorporation of mechanisms for dynamic discourse interpretation takes on more of the work of characterizing combinations of semiotic modes and their meanings than can be appropriately covered without such mechanisms. Many semiotic-oriented approaches to multimodality proceed by calling for investigations of the ‘semiotic resources’ that individual modalities offer. Kress/ van Leeuwen (2006 [1996]) have been particularly prominent in promoting such a view, although it is common in most accounts that take their lead from socio-semiotics (Halliday 1978). When this is approached as providing static descriptions of resources, however, those description can readily become skewed in the following fashion. Semiotic resources are first organized as static classifications. Then, when the analyst is confronted with a multimodal artefact or performance to analyse, it will be noted that particular combinations of properties seem to be doing semiotic work. These combinations are subsequently included in the description of the modes that are assumed to be operative. However, since there is no model of dynamics, these properties are actually back-imported to form part of the description of the modes that appear to be using them. The consequence of this is that the contents of semiotic modes are progressively widened in order to cover the many combinations of resources that occur in real instances of multimodal artefacts and performances. This descriptive widening inevitably leads to cases of overlap and fuzzy boundaries, as well as single sets of resources apparently serving roles in different modes, since they arise out of the fact of semiotic resources co-occurring in use. The dynamicity of combining distinct modalities is replaced by modalities where the work of combination has already been ‘smuggled in’.



50 

 John A. Bateman

A further consequence of this has been criticized at length by Bucher (2011). When considering combinations of semiotic modes in any artefact or performance, if the meanings of any elements being combined themselves depend on the particular multimodal context in which they appear, then characterizations that focus on the individual modalities involved will simply fail to address the core research question of how meaning arises in multimodal contexts. The step of relating elements has already presumed that the elements related ‘have’ the meanings that they are accorded by virtue of their mutual occurrence – however, since those elements may quite possibly not have had those meanings outside of that context, any such account is circular. In short, the combination of meanings is assumed to be a fact of grammar to be read off the co-occurrence of elements rather than a result of the formation of discourse hypotheses. An in many ways similar conclusion can be read from Stöckl’s (2004) particularly detailed and useful characterization of semiotic modes and their interrelations. Stöckl classifies modes drawing on several contributing perspectives, including the sensory channels involved, medial variants of semiotic modes (e.g., written, spoken), peripheral modes (e.g., modes depending on the existence of other modes – such as the dependence of typography on written language or of intonation on spoken language), as well as the internal organization of modes in terms of the structural configurations they rely upon (sub-modes) and the perceptual qualities that allow them to be produced and recognised (features). Several of these correlate with the semiotic strata we have introduced – for example, features correspond to the distinguishable properties of materials, while sub-modes correspond to the particular patterns that semiotic modes impose on that material, “the building blocks of a mode’s grammar” (Stöckl 2004, 14–15), within our middle semiotic stratum; we return to the question and position of medial variants below when we have introduced media and their place in the model as a whole. Then, While it is certainly true that modes have their individual characteristics (semiotically, semantically and cognitively) which pre-determine how they can be deployed in a textual structure, the dynamics of meaning-making must be given due emphasis. (Stöckl 2004, 27) […] text is the locus where all modes, sub-modes and features are realised. So it is the dynamics of text production and reception, the complex chain from discourse to design to production and distribution (Kress/van Leeuwen 2001, 1–23) that determines how we deploy modal resources and how they in turn are construed in reception. (Stöckl 2004, 15)

Drawing on the multiply-stratified view of semiotic modes presented here will now help us develop a more explicit account of how this might operate. It achieves this by splitting descriptions across, on the one hand, more static components of semiotic modes – i.e., the resources which define them individually – and, on the other hand, more dynamic components that operate to combine meanings.



Methodological and Theoretical Issues in Multimodality 

 51

A crucial foundation stone for this process is provided by the link we maintain with materiality as an inalienable part of each and every semiotic mode. Whenever accounts relax this link, problems for characterizing the dynamics of multimodal meaning making arise precisely because a critical source of communication across modes is removed. Given this, it is interesting how many accounts are still willing to countenance according materiality only a secondary role. Many authors, including Kress and van Leeuwen, suggest that it is natural, almost definitional, for semiotic modes to “los[e] their tie to a specific form of material realization” (Kress/van Leeuwen 2001, 22) – a position more reminiscent of the views of Saussure and Hjelmslev, where the acceptance of materiality was marginal at best (cf. Hjelmslev [1943] 1961, 105), than would be expected from Kress and van Leeuwen’s claim of a renewed focus on materiality. Some semiotic traditions then go further and work with an explicit distinction between multimodality and multicodality (Weidenmann 1995; Dölling 2001): the former corresponds to the physical material and its perception through sensory channels; the latter picks up the non-material, semiotic contribution. Discussions of multimodality and hybridity then address questions of whether single codalities might be used across different (sensory) modalities, of how distinct codes may be combined or hybridise, and so on. This superficially more precise formulation obscures crucial differences between semiotic modes, however. When materiality is factored out of the equation, the challenge of combining or relating semiotic codes reduces to a purely formal operation of aligning distinct semiotic resources. Considered abstractly, it is always possible to construct formal correspondences across such codes (cf. Kutz et al. 2014) but, separated from their materiality, there is little guidance for just which correspondences are appropriate or necessary for any particular multimodal text at hand and which not. In contrast to the ‘separationist’ view, therefore, we take the position that the contribution of materiality must be accepted in its own right – after all, many aspects of perception have evolved precisely in order to give meaning of a rather direct nature to our perceptual experiences (cf., e.g., Matthen 2005); this should not then be overlooked or downplayed when attempting comprehensive accounts of multimodality. We therefore consider it more plausible that semiotic modes will always bring with them the ‘textural’ resistances of their materialities. Combining semiotic modes must then respond to the issue of matching and reconciling differences in material affordances. This promises interesting new sources of insight for just which combinations of modes may ‘work’ and which may not, and why (cf., e.g., Björkvall/Karlsson 2011). Methodologically, the constant co-presence of materiality when attempting analyses employing semiotic modes insists that we always anchor our descriptions first and foremost in the material distinctions that can be motivated by the assumption of semiotic modes. We can suggest something of the consequences of this by briefly considering the analysis of a case similar to the curvy lines interpretation from McCloud that we passed over briefly above, combined with some other plausible cases of semiotic modes. Figure 2 shows a constructed composite ‘image’ inspired by some discus

52 

 John A. Bateman

sions of multimodality and advertisements in the literature (cf. Forceville 1996) that will support the discussion. The point of this simple example will be to show how the analysis of an artefact should be driven by the artefact itself (i.e., be bottom-up) as far as possible, and how in addition this also plays an important role in helping select both the top-down interpretations using discourse semantics and the dynamic construction of meaning during discourse interpretation.

Fig. 2: A constructed image combining several potential sources of semiotic interpretation

We will not overly problematize the issue of which semiotic modes apply in the present case; some further examples discussed below will bring this methodological step out more clearly. What must be emphasised already here, however, is that we at no point consider a methodological question such as what semiotic mode is this representation? as a sensible place to begin. Our analytic approach must be more circumspect, first looking for evidence of semiotic modes that may be being deployed in the material under analysis. Assuming a semiotic mode to hold is then, as suggested above, an abductive hypothesis in its own right. Then, under the assumption that some semiotic modes apply, we proceed with the analysis under that assumption and attempt to maximise the coherence of the object under study. It is generally possible – and in practice very likely – that there will be multiple semiotic modes at work in any artefact or performance we are investigating and it will be their shared materiality that guides their combination. In the present case, then, we can probably safely assume via the visual over-codings present that there is some use of written language (since the letter forms are visually salient) as well as some use of pictorial representations (since there is distribution of information spatially that is not motivated, or ‘claimed’, by the assumption of written language). Both of these, in this case trivial, assumptions remain abductive hypotheses since they could turn out to be wrong. They are ‘working explanations’ for the material form and necessarily have as consequence an always preliminary character.



Methodological and Theoretical Issues in Multimodality 

 53

This notion of ‘so far unclaimed’ information in the artefact is very important for driving analyses: whenever there is unclaimed information, this is an explicit indication (also methodologically) that there is more interpretative work that needs to be done. We can start with the word apparently given in the lower portion of the ‘image’. Given the assumption that this is a piece of written language, we can apply the semiotic resources of typography. We can note in passing that the occurrences in the typographical representation are not entirely motivated by, for example, the need to spell out the word cheese – there are two many ‘e’s. One of the semantic interpretations of typography is that a correlation can be constructed with the sound system of spoken language. Now the sound system has various properties that the typographical system does not have. Some of these revolve around properties of continuous sounds such as vowels: for example, vowel length – length is a continuous physical quality. One communicative goal might be then to represent this continuous physical quality with the non-continuous resources of typography. Several solutions could be derived: for example, stretching the visual representation so that spatial extent correlates with (e.g., in Peircean terms, is a metaphor for) temporal extent. Such a distortion, although certainly sometimes used, may come at the cost of legibility. The present solution is to employ repetition of the written form of the vowel. There is then the discourse hypothesis that the number of letter forms for the vowel will correlate with the length of the pronounced vowel sound. This is a possible hypothesis for anyone familiar with typography and the linguistic sound system and relies only on fairly mundane commonalities in the materialities employed (a more is more-metaphor). Discussions of this and similar techniques in phonology and morphology have long been framed in linguistic discussions in terms of iconicity (Jakobson 1965); here we go back to the origins of this terminology to draw more explicitly on Peirce’s three distinct types of iconic signs (cf., e.g., Hiraga 1994). Most spatial ‘deformations’ of typography can consequently be characterized in this fashion: the general discourse task is to hypothesize other domains with which the spatial properties of the visual typographic representation can be placed in correspondence. Moreover, such domains may equally well be under the control of further semiotic modes, which provides a strong material basis for mappings between the resources co-deployed. The kind of relation posited here is then rather different to notions of hybridity or mixing commonly considered. For example, both Mitchell (2005, 261) and Krämer (2006, 80), albeit in rather different ways, talk of actual uses of visuality and language mixing their contributions in various proportions or ratios. Visuality and language are seen as theoretically distinct conceptual poles, but then mix in use (cf. Stöckl 2004, 27). The position here is that it is unnecessary (and often confusing) to see semiotic modes as mixing in this way. Even when deployed in the service of concrete artefacts or performances, the semiotic modes maintain their distinctive contributions. The combination of information that occurs is then a product of the operation of the distinct discourse semantics applying and does not require a mixing of the semiotic modes themselves – whatever that might mean. 

54 

 John A. Bateman

Nevertheless, if the design decision of the present case relating repeated elements to length were used in some community with sufficient regularity, then it could also become part of the semiotic resource of typography directly – in this case, the repeated ‘e’s would be read as lengthening of the corresponding vowel without recourse to external information. In this case we have an extension of the mid-level semiotic stratum since the pattern has become part of the ‘code’ rather than being a discourse hypothesis. Empirical investigation might then reveal that for different readers (for example, by age or reading habits) or in different genres, the degree of association between this typographical property and its interpretation turns out to be different, thus providing evidence for the semiotic placement of the interpretative procedures being deployed. Moving on with the current example, the typographic system does not, however, lay any claim to the fact that in the artefact under discussion the baseline of the written word is not a straight line. This is still ‘unclaimed’ information. Returning to a pictorial interpretation of the artefact there are again several hypothesis that can be made. In the general case, as we will see below, these hypotheses are influenced considerably by genre concerns. For the present, we will simply note that one potential interpretation is that a Gestalt form reminiscent of a face or a smiley is on hand. Now, if this discourse interpretation is hypothesized, then certain correlations between, and segmentations of, visual qualities abductively follow. In particular, the two round elements (actually originally designed to depict plates of spaghetti) and the curved form below them are mapped to two eyes and a smiling mouth respectively. Again, there is no necessity in this assignment: if a reader does not see the connection then the correlations are not constructed. Whether or not this Gestalt reading is followed is again something that can be empirically investigated in concrete cases of reception. Our concern must be to set out the space of discourse interpretations possible and what follows when particular paths are taken up rather than others. If the connection is made here, then the correlations will hold – it is at this point that the indeterminacy collapses. If we assume in the present case, therefore, that this hypothetical interpretation is being followed, then the typographically expressed curve of the word cheese receives an explanation as the upwardly curving line of a mouth. As before, this is an abductive discourse hypothesis attempting to find the best explanation (Peirce) of the data on hand and, in other contexts of interpretation, quite different readings of the slope might be made preferable. There is no need to predefine any particular meaning for the slope – indeed, there is no need to predefine it as a relevant visual property of the image at all as its relevance (or not) is established during discourse interpretation. As usual in such cases, then, the meaning of the artefact largely resides in the connections constructed abductively during discourse hypothesis formation. These connections offer an explicit representation of the commonly claimed meaning multiplication at work in multimodal artefacts (cf. Lemke 1998), characterizing mode combinations as dynamic processes of text construction and reception rather than 

Methodological and Theoretical Issues in Multimodality 

 55

as static or pre-given inter-relationships across codes or semiotic resources. The curve, for example, does not have any such meaning as mouth or smile outside of its context of use in this concrete text; nevertheless the mechanisms by which these meanings emerge during dynamic discourse interpretation are not erratic or tied to specific cases. There is also no need to add these possibilities to the description of some individual semiotic mode of typography; the mechanisms of discourse interpretation are sufficient for establishing the iconic mappings (in the Peircian sense of structural relationships) that are required during the process of maximizing discourse coherence. We will see several more cases of the top-down role of discourse semantics for perception and segmentation below. This example again emphasizes, however, that any organization of semiotic modes around sensory channels is going to be of limited relevance during analysis  – information may be combined as required by the discourse semantics of any mode, regardless of which sensory modalities that involves. The issues during analysis are more concerned with the more fine-grained claims that any mode makes of the material being deployed. Less fine-grained selections of material  – whether these are the four (language, image, music, noise) of Stöckl (this volume) or the five (written language, spoken language, static images, dynamic images, sound) of Schmitz (this volume) – will always then tend to leave gaps when confronted with actual artefacts or performances to be analysed.

4 Media and Genres Semiotic modes never occur on their own, outside of a context of use; similarly, they never occur without being used for some communicative purpose. When studying semiotic modes in use, therefore, we need to have a suitable framework that characterizes how they are embedded into contexts of use and into the concrete artefacts or performances within which they operate. Within the current framework, these tasks are managed primarily in terms of media and genres, which we now introduce.

4.1 Media and Communicative Forms When examining any artefact or performance, it was suggested above that any number of semiotic modes may be operative and careful empirical analysis is necessary to distinguish them. This follows from the fact that materials (both actual and virtual) are able to support a host of simultaneously co-varying dimensions. This does not mean, however, that we must always start from scratch – it is certainly possible to determine likely constraints both on the semiotic modes that may apply and on their precise manner of application. Perhaps the most prominent source of such constraint is the



56 

 John A. Bateman

medium within which the artefact or performance is couched. Medium-specificity as such is then also a necessary component of multimodal analysis – that is: just which modes may be operative and how they are combining may exhibit medium-specific properties and so knowing more about the medium can help guide subsequent empirical investigation. That certain semiotic modalities regularly combine and others not is itself a socio-historically constructed circumstance, responding to the uses that are made of some medium, the affordances of the materialities being combined in that medium and the capabilities of the semiotic modes involved. Under this view, a medium is best seen as a historically stabilised site for the deployment and distribution of some selection of semiotic modes for the achievement of varied communicative purposes. For example: books are a medium, traditionally mobilizing the semiotic modes of written text, typography, page layout and so on. When we encounter a book, we know that certain semiotic modes will be likely, others less likely, and others will not be possible at all (at least not directly – more on this below). This relationship between media and semiotic modes is suggested graphically in figure 3 and, in the suggestive phrasing of Winkler (2008, 213), we can consider any medium as a biotope for semiosis.

Fig. 3: Relation between semiotic modes and media

Media have a further range of interesting properties that are useful when we wish to reflect on their development and application over time as well as helping directly with the questions and problems of multimodality. The first property we discuss follows straightforwardly from, on the one hand, the capability of semiotic modes to be multisensorial and, on the other, the possibility that particular media may not provide full sensorial access to the options a semiotic mode in principle spans. This situation is quite common and is often linked with technological developments where the deficits of a new medium are more than counterbalanced by new capabilities (consider, for



Methodological and Theoretical Issues in Multimodality 

 57

example, the respective introductions of the printing press, the telephone and the web). It is this potential mismatch between the material of the semiotic mode and that provided by some medium that gives rise to the phenomenon of medial variants used by Stöckl (2004) in his characterization of semiotic modes introduced above. It also covers the possibility of broad re-use of particular techniques or mechanisms, such as representational pictures that may be drawn, painted, sketched with a mouse, etc. – all very different media but sharing sufficient overlap in the distinctions expressed to allow transfer and alignment of semiotic mode use. In such situations we will refer to media as being depictive, adopting this term as a generalization of its more common usage with respect to pictorial representations. The nature of pictorial depiction is still subject to considerable controversy and debate; we will not engage with this discussion here, however, even though much would be gained by applying the view of semiotic modes we have presented. A useful bridge is provided by Newall (2003), who observes: Pictures regularly depict other pictures. Paintings or drawings of galleries, studios, and other interiors, for instance, often depict pictures hanging on walls or propped on easels. (Newall 2003, 381)

Newall then proceeds to discuss what kinds of properties are possible for the depicted pictures, concluding by and large that those properties are actually (some subset of) the properties of the depicting artefact, rather than of the artefact being depicted. Newall’s characterization of depiction then in many places comes suggestively close to how we have introduced semiotic modes: A system of depiction, for the purposes of this essay, is a practice that determines the features of a picture’s surface that bear on its content. […] A particular system of depiction, as I have defined it, is distinguished by the type of features it determines to be content-bearing. (Newall 2003, 384)

We now generalize beyond the pictorial case and rely upon the full range of material features that a collection of semiotic modes may mark out for use. Media can then be said to operate depictively when their (virtual) material  – i.e., the materials formed by the combination of the materials of their contributing semiotic modes and their technical capabilities – offers sufficient foundation for the application of semiotic modes from other media. Such cases do not require any exact equivalence in material form: all that is necessary is the availability of some ‘subslice’ of material distinctions sufficient for attaching or linking into the distinctions of the depicted semiotic modes. This provides a ready place for the phenomenon mentioned at the outset of a dance being shown as a photograph within a film and so on as well as such nowadays everyday phenomena as reading a digital version of a newspaper in a web browser. The virtual canvas created by current web browser technology is very different to that created by print technology and we are therefore dealing with 

58 

 John A. Bateman

quite different media. There is, however, still sufficient commonality to offer material support that is in many ways overlapping (although there are still many differences, cf. Bateman et al. 2004). In a similar vein, Stöckl (2014, 276) suggests differentiating between the medium (e.g., i-Pad) and communicative forms (e.g., Holly 2011, 155) – e.g., newspapers, radio, e-mail, etc. – in order to describe this phenomenon. Medium as we are using it here is then often closer to communicative form in intention than physical material. This is a general problem to be faced with content-flexible technical devices: the i-Pad would not then be a medium in our sense, but more a possible virtual canvas that might be employed by a variety of media. Stöckl then also prefers to see film, comics, opera, dance, etc. as medially restricted communicative forms rather than semiotic modes in their own right. The communicative forms set the medial and situational configurations for the production of multimodal texts, which, according to their text types, bring different semiotic modes together. Within our present framework, we consider these largely empirical issues. We do not yet know whether ‘film’ or ‘comics’, for example, contribute their own semiotic modes – although there appear to be good arguments that at least some of the regularities and specific workings of these media offer good candidates for semiotic mode status. The identity criterion to be applied is always that of finding an appropriate discourse semantics that explains how particular slices of patterns through the employed material are to be related and contextualized. In all cases, however, there will also be other semiotic modes that apply over the ‘same’ material, drawing on different slices in order to carry their own signifying practices. Discussion concerning the appropriate use and definition of terms like media continues (cf. Posner 1986; Dürscheid 2005; Schneider/Stöckl 2011) and so we will not enter into this particular facet of the challenge further here. More important for our current purposes is not the terminological labelling, but rather the ontological structure of the model as a whole and the relationships between its parts and processes – i.e., how the identified components function together and which networks of dependencies hold. In this respect, at least the functioning of media or communicative forms in relation to our definition of semiotic modes should now be clearer. As long as we maintain the entire structural ensemble of modes-within-media as set out so far, we will be in a better position to track the kinds of meanings being made, including those occurring within media depictions. This allows us to avoid assuming hybrids or fuzzy boundaries that are not present and which are not necessary for characterizing the multimodal meaning at work. Depiction thus provides a necessary barrier that prevents treatments of semiotic modes and their combinations unravelling  – that is: just because a photograph is shown within a film, or a newspaper on an i-Pad, does not mean that we suddenly stop having the expected and conventionalized properties of photographs or newspapers and how these media employ semiotic modes to make meanings. There is no ‘combination’ of semiotic modes intrinsically involved in such cases. Although more 

Methodological and Theoretical Issues in Multimodality 

 59

creative combinations can then be generated (e.g., the increasingly frequent ‘trick’ in film of having the contents of a photograph move, or allowing zooming and hyperlinking on an i-Pad), this alters the medium depicted and in so doing brings different semiotic modes together in the service of communication. Other cases of medium depiction are also useful to discuss. One relatively simple class includes notations. For example, the use of braille as a printed form of representation for written language involves a medium that is different to that of regular print. However, the distinctions that are drawn in the material of that medium are sufficient to cover the distinctions drawn in at least the written alphabetic form of verbal language and so allow a straightforward transference to another material carrier with usefully different affordances. Whether or not any further semiotic modes have grown with respect to this medium would require empirical investigation – involving established practice and communities of users. Certain correlates, for example, of typographic layout could be expected to serve a function, just as positions and divisions (by tactile perception) within the ‘page’ space. There is in this case, then, no reason not to consider application of many of the semiotic modes related to the use of printed language to the medium of braille publications. Other examples of notation would be the use of a light source for Morse code or the representation of music that occurs in sheet music – again, the question of whether additional semiotic modes specific to these medial forms have emerged is always an empirical question. For Morse code, this appears unlikely – for sheet music, quite possibly. The situation is very different when we compare static image and moving image, classified as medial variants by Stöckl (2004). Here the semiotic potential of the media supporting these two kinds of image differs so substantially that there are almost certainly separate systems (at least in part) in operation. More on the potential course of semiotic development of spoken and written language is suggested in Bateman (2011); while the emergence of distinct semiotic modes for film is taken up in Bateman/Schmidt (2012, 130–144). For our present concerns, we will focus below more on some of the other uses that can be made of a material supporting visual perception, such as those observed in cases of so-called text-image relations.

4.2 Multimodal Genres Whereas a collection of modes may regularly be mobilised within a medium, just what is done with those modes requires a more general level of description still: that of ‘text type’, or genre. It is possible for an in principle unrestricted range of genres to be carried within any medium, although here, as elsewhere, there may well be, and most often are, conventional restrictions or associations that arise during their use over time. In other words, particular socio-cultural periods will employ different media for different ranges of genres, not because this is necessary but as part of the



60 

 John A. Bateman

ways in which meaning distinctions are established and signalled in a culture in any case. Thus books are a medium, traditionally mobilizing the semiotic modes of written text, typography, page layout and so on – however, as remarked above, it is possible for an unrestricted range of genres to be carried within this medium. One such genre might, for example, be a factual report; others are biographies, school textbooks and so on. Another rather different medium is that of newspapers: newspapers are distinct from books in that they have different modes of distribution and consumption, although the semiotic modes drawn upon largely overlap with those found in books. Again, there are many genres that may be employed within the newspaper medium and these, by and large, do not overlap with those occurring in books. It does not therefore make sense to talk of newspapers or books (or web pages!) ‘being’ genres, but it does make sense to ask what kinds of genres typically appear in these media. As argued in Bateman (2014a), information that is inherent in the medium should not be considered as offering an identifying feature for some presumed variety of genre in that medium. Appropriate considerations of genre need to be clear concerning the purpose for which genre classifications are being pursued. One of the most general such purposes is that set out by Lemke: “Co-generic texts are privileged intertexts for each other’s interpretation” (Lemke 1999) – in other words, knowing something about the genre of some text offers useful ways of considering the properties of other, (generically) related texts and of distinguishing those texts as a family from non(generically) related texts. Genre-attribution thus brings with it a horizon of expectation (Todorov 1990): given the decision to consider a text in the terms of some genre, the reader/ hearer/viewer should then be in a position to make a variety of predictions concerning how that text is organized, what it is for, and so on. This is then as clearly relevant for multimodal artefacts and performances as it is for purely textual artefacts. Indeed, without a genre allocation, it is often not possible to provide a sensible description of a text, multimodal or not, at all. Here we restrict our discussion of genre to locate it within our general framework for multimodality. Genres thus define families of artefacts or performances as being similar in some respects of organization and form. Moreover, in addition to this, common to most definitions of genre is the presupposition that the families of texts picked out as generically-related should form a socially significant class – that is, in order to qualify as a genre there must not only be formal similarities, but also some recognition in society at large that the genre ‘exists’ and does some specifically recognisable social ‘work’ (cf. Miller 1984; Swales 1990 and many more). This makes genre much more than a passive classificatory device: the existence of a genre in a culture is considered a relatively stable communicative strategy both for achieving some relevant social purposes and for allowing its practitioners to display that they are attempting to achieve those purposes. This adds a psychological or strategic function to genre use (Bhatia 1993, 13), while others see the entire repertoire of genres that are 

Methodological and Theoretical Issues in Multimodality 

 61

available as an effective way of characterizing the discourses constituting a society or community as a whole (cf. Martin/Rose 2008). In certain respects, genres resemble the lexicon in that they are constituted by restrictions in the options that a semiotic system makes available in general. They are, however, very much more abstract and can call upon restrictions in almost all areas of the semiotic systems they are built on. For this reason, we characterize genres graphically in figure 4 as a ‘cloud’ of possibility that surrounds and permeates media (and their contained semiotic modes). Thus genres might, on the one hand, be sufficiently general that they may be employed across a range of different media – narrative might be a candidate for such an abstract genre; on the other hand, they might be specific to particular semiotic modes within particular media.

Fig. 4: Relation between semiotic modes, media and genres

Moreover, for genre theories that allow internal generic structures, or generic stages, individual components of genres may themselves adopt differing combinations of semiotic modes, giving rise to internally diverse multimodal genres (Lemke 2005; van Leeuwen 2005, 80). Subsequently, specific genres may become more general over time as their social function is found useful, or general genres might become more specialised, as their social function becomes restricted in application. Again, it is always an empirical issue just how particular genres develop and change over time and the purpose of a framework such as that presented here is to provide the theoretical space within which such changes can be described and tracked.



62 

 John A. Bateman

5 The Multimodal Description of Text and Image Combinations We have now introduced a rather general framework for exploring multimodal phenomena. In this section, we illustrate the abstract framework in use. In particular, we will address the question of text-image relations, since this is an area that, on the one hand, is considered by almost all who work on the theory and foundational underpinnings of multimodality and, on the other, is a case where a rather straightforward assumption concerning the nature of the ‘two’ modes being combined proves particularly prevalent. We will use this to argue that a more differentiating account of the relationships within and between semiotic modes, as well as their appropriate embedding in media and use by genres, is crucial for moving towards more adequate characterizations of the phenomena and mechanisms involved. One of the most detailed accounts of text-image relations is the classification network proposed by Martinec/Salway (2005) on the basis of examples from newspapers, textbooks, advertisements, diagrams, etc. Martinec and Salway go so far as to claim: The system may need modifying as our sample of image-text combinations increases; however, even if the relations that we are writing about can be further subclassified and genre-, or register-specific realizations added, we surmise that the outline of the basic system will probably stay as it is. (Martinec/Salway 2005, 341)

Martinec and Salway’s classification is indeed very general as it draws primarily on the distinctions found useful in systemic-functional grammar for describing semantic relations between grammatical clauses; a detailed introduction to this, and several other schemes for describing text-image relations is given in Bateman (2014b). A more worrisome possibility not addressed by Martinec and Salway is, however, that the outline of their system may indeed stay as it is – not because it already characterizes the data but because it fails to engage with the data it is purporting to describe. In this case, there may never be evidence that the classification needs to be changed since it can, due to its generality, always be ‘made to fit’. This is a consideration that needs to be raised for all general proposals for text-image relation classifications and is not specific to Martinec and Salway. The methodological issue remains as always one of making explicit just how categories and classifications are to be motivated and evaluated. Even the starting assumption that an investigation of text-image relations has already clarified just which semiotic modes are being brought together  – i.e., ‘language’ and ‘image’ – is premature in several respects. For example, we have argued that semiotic modes may well introduce structured entities (their syntagmatic organization) with mode-specific discourse semantic relations holding within those structures. Until this information has been uncovered, it is unlikely we will be in a good 

Methodological and Theoretical Issues in Multimodality 

 63

position to state what relations may be holding between the elements placed in structural configurations. If we consider the contrasting situations of (i) the layout on the page of elements in a comic or graphic novel, (ii) the layout on the page of elements in a newspaper, or (iii) the layout on the page of a tourist guide giving us information about a tourist attraction, it should be clear that very different kinds of discourse semantic relations apply. In fact: the discourse relations holding for comics and graphic novels overlap with relations found in other narrative communicative forms (cf. Cohn 2013b; Bateman/Wildfeuer 2014a); those found on the newspaper employ the spatial distribution of elements on the page for the expression of, among other things, news salience (cf. Bateman/Delin/Henschel 2004); while the discourse interpretations of elements related by spatial proximity in the tourist guide are often captured well by accounts of multimodally extended notions of rhetorical organization, in particular Rhetorical Structure Theory (RST: Mann/Thompson 1988) as described in Bateman (2008, 151–163). Within each of the ‘orchestrating’ modes at work here there will typically be many occurrences of items that draw on written language and items that are image-like. Whether these are best described with reference to a mode-independent classification system is then, at best, an open issue at this time. We suggest here, therefore, that we would be better off, at least methodologically, first paying close attention to the explicit identification of both genre and the semiotic modes that are at work in any objects of analysis. To show this, we will briefly consider analyses of the four contrasting cases of apparent co-occurrences of ‘text’ and ‘images’ shown in figure 5. For the purposes of the present discussion, these examples are all relatively simple but should nevertheless allow the desired points to be made. The first two examples are drawn from a sequence of instructions (Ikea) for an item of home furniture; the third one is from a scientific journal article (Nature 365, Svoboda et al., 1993); and the fourth one is an adapted version of a comics panel (Fletcher Hanks, Fantastic Comics # 15, 1941).



64 

 John A. Bateman

Fig. 5: Four examples of text and various kinds of image occurring together

5.1 Visual Procedural Instructions To begin, a concern might be raised with respect to the first two examples that it is unclear whether we are dealing with text-image relations at all, since many of the non-textual components are clearly diagrammatic. This takes us directly to the assumption that we already know what semiotic modes are relevant and which not. Instead, we choose to move the entire discussion to the level of semiotic modes and address this question very differently: we do not assume a priori that we already know what is to be allocated to text or to image (cf., e.g., Bateman 2014b, 12–18 and Elleström 2014, 2). The question of what semiotic mode(s) apply is prior. As suggested above, this is also necessary in order even to segment the relevant units of analysis  – to talk of text and image wherever they might be found in the visual field is too weak, as different semiotic modes might be doing quite different things with the available ‘space’ of the canvas. As the artefacts examined become more complex and other orchestrating modes are mobilised, this becomes an ever more central issue for effective analysis. For examples (a) and (b) we clearly need to consider the genre of procedural instructions in order to situate them appropriately. Moreover, within procedural instructions there are typically distinct genre stages with differing functions and properties. Informally we can draw attention to the existence of at least three main 

Methodological and Theoretical Issues in Multimodality 

 65

stages: general information, the component parts of the item to be constructed, and the instructions themselves. For the cases at hand, this is also evidently a multimodal genre in that the realizations of the stages draw freely on diagrammatic and textual representations. For the text-image question, therefore, the issue is what relations do we find between such diagrammatic and textual elements in this context of use. The depiction in (a) is drawn from the genre stage of setting out the component parts that are required (and so should be present) for the construction to succeed. This probably already gives us sufficient information to decode the intended meaning of the text-image combinations present, even without prior knowledge of how such multimodal procedural instructions are constructed. The communicative function of this genre stage can be glossed (also multimodally) as an assertion of the form “the following components are part of what you are building” plus a ‘table’ showing how the components appear, their company part numbers, and how many there are of each. The communicative functions are also fairly self-evident: the appearance is shown so that the user can find them, their quantity can also help identify the intended parts as well as clearly help determine whether any are missing, while the part number might be used for ordering replacements. The instructions evidently assume that all the parts are present because the official part number information is made nonsalient by the selection of a (very) small font; we will not discuss this further here. Considering the relation between the remaining textual element, “10x”, and the ‘image’, we can note that they are placed in proximity to one another and so it is likely that they are to be interpreted with respect to each other. However, the relations that come into question are not those of the comic page, newspaper or tourist guide mentioned above. Thus, however this particular artefact is working, the significance it is ascribing to proximity differs to that exhibited in these other cases. In terms of Salway and Martinec’s classification, the relationship would probably be classified as some further subtype of elaboration and as the text being subordinate to the image (since it is the image that is clearly ‘nuclear’). The particular meaning of the “10x” is then that there are ten of the items so depicted. But this follows directly from the communicative functions to be achieved in this genre stage; there is very little else that could be intended. Knowing (or hypothesizing) the organization of the genre stage then provides the necessary information for explicating the text-image relation holding. This is very similar in form to Bucher’s (2011, 129) critique of Salway and Martinec’s account – Bucher argues that it is the practical task of communication that determines multimodal use and coherence and not the presence of general classifications of possible text-image relations. Thus, relations cannot be worked out on the basis of the elements, but must be traced back to what communicators are trying to do with the elements they mobilise (Bucher 2011, 131–132). This indeed appears to be the case, although here we look to the account of genre to provide information about just what actions might be relevant. That is: in order to understand the text-image relation, we need to understand what the genre stage is doing; when we have understood this, we know the text-image relation. We can then at that stage give a classification in 

66 

 John A. Bateman

terms of Salway and Martinec’s (or any other) categories, but those categories would not have helped us determine the genre stage and so appear to operate more as post hoc labels rather than as explanatory mechanisms. Where our framework and that of Bucher’s differ, however, is in the presence of the discourse semantics stratum: whereas Bucher places the task of interpretation in pragmatics and, more specifically, general theories of action, we retain the guidance aspects of the organization of the artefacts themselves (i.e., their textuality) as a part of discourse semantics. This means, quite concretely for analytic method, that we take the proximity relationship in the artefact as a semiotic resource directing attention to the need to provide an explanation for that proximity, and the possible explanations are offered by the relations given by the discourse semantics of the mode. As we shall see when we turn to the other examples, we consider it beneficial to avoid general problem-solving in such cases because what can be done with the material distinctions is often already tightly constrained by what the semiotic mode allows. We have spent some time on this simplest of examples because already in the second case, we are confronted with a very similar appearing text-image relation with a very different semantics. In (b), the “4x” now indicates that the depicted action has to be performed four times. This information is, however, again available from the different communicative function of this genre stage. Here the instructions are concerned with actions, what is being acted on, the tools to be used, the locations and directions of the actions, etc. rather than static descriptions of parts. It is then natural that information concerning objects, instruments, locations and frequency or number be given. The solutions at work here for these communicative tasks are highly conventionalized – so much so that we may well talk of a semiotic mode of graphical instructions, with its own rather limited range of discourse relations and lexicogrammatical building blocks (cf. Schumacher 2013). Moreover, this mode is again an orchestrating mode since its raw materials are diagrammatic representations, typically drawn in perspective, plus limited textual annotations. It also includes graphically expressed information concerning direction of movements (as in the bold circular arrow shown below the screw), paths of movement (shown by the thin lines passing from screws through holes), as well as zoom-ins to provide important detail – a semantic relation that is very frequent in instructions of this kind. Here it is also interesting that the graphical realization of the zoom-in is almost identical to the form that functions as speech balloons in comics. In the present semiotic mode and generic stage, however, it clearly has nothing to do with speech balloons. In short, therefore, the kind of relationships between text and image in the first two cases are very specific and quite distinct from how captions of visuals are generally used – if the image in (a) was instead being used in an encyclopaedia on tools, for example, the text would most likely present a linguistic label for the depicted object, which is not what occurs here; and the second case is different again. Although in both these cases it may be possible to select a relation from Salway and Martinec, this 

Methodological and Theoretical Issues in Multimodality 

 67

classification appears to do rather little work as far as explaining the construction of multimodal meaning is concerned.

5.2 Scientific Visualizations and Graphs In depiction (c), we see another genre and yet another semiotic mode at work. The ‘image’ here is a very specific type of diagram with its own further conventions and restrictions – that is, more precisely stated, the Gestalt form of the visual representation makes a conventionally motivated abductive hypothesis that we are dealing with a graph a good line of inquiry to follow. The kinds of meanings made within such representations are again very specific. The labels on the axes, for example, are not identifying what the lines are, they identify what kinds of values and measurement units apply to values that may appear in the graph body. The numbers aligned with designated places on the axes are also not only identifying those places but setting up a correspondence between a continuous space on the graph and a continuous range of values – values that may be read for points in the graph body by their vertical or horizontal alignment. With highly specialised tasks of this nature, it is again questionable to what extent general talk of text-image relations is going to be appropriate. The graph is also clearly assertional, although ascertaining what precisely it is asserting is, in this case, helped considerably by the text of the main article: in fact, the paper wants to claim that the relation between displacement and the output voltage from the identified device (the interferometer) is linear up to around 150nm. We thus find a standard usage of rhetorical relations as covered by, for example, Rhetorical Structure Theory (Mann/Thompson 1988) – in this case an evidence relation needs to be constructed by the reader between the elements of the text and the graph. However, in order to function as evidence, the graph must be abductively assumed to be asserting that the relationship between input and output is as shown – if this were not an assertion, it could not function as providing evidence. As discussed above with respect to the autonomy of images and Peirce’s characterizations of types of signs, this argumentative force is only possible when images receive suitable additional support – and that support comes here again from the discourse semantics (captured in part by Rhetorical Structure Theory) and its use within a particular genre.

5.3 Visual Narrative: Comics Panels Finally, in depiction (d), we appear at first glance to have moved back to more familiar text-image territory with two instances of what are often considered as text-image relationships: one with the caption and one with the speech balloon. However, here again the fact that we are now apparently in the specific communicative form of comics with their accompanying rather specific semiotic modes raises doubts about 

68 

 John A. Bateman

the value of a generic classification. Indeed, the caption in the present case is very different in function to those, for example, found in newspapers or even in the graph description from the previous example. This can be verified by the simple procedure of exploring different placements of the caption with respect to the material it is being related to. In depiction (c), the caption could be placed anywhere in close proximity to the graph – the semiotic mode at work would still assign the same labelling function to graph and caption regardless; in the case of the comics panel, this is not the case. In essence, the different function of the comics panel is one of placing time-indexed descriptions on a temporal path that is as far as possible tied to the reading path. The caption should not then be read ‘around’ the same time as the panel is examined: it needs to be read before that panel as preparation for its content. This can also be corroborated by examining the content of panels that do appear in other spatial locations with respect to the panel they are connected with: their content changes according to the precise temporal placement. Thus captions can usefully be seen, at least in certain respects, as further panels that happen to be expressed using words rather than images. This means that, even though the captions appear to be classifiable according to Martinec and Salway’s scheme (in fact usually as enhancements of time), their role for the comic and its narrative is even more determinate. These more specific relations could be added to Martinec and Salway’s network – indeed, some versions of text-image relation classifications already contain similar categories (cf. Bateman 2014b, 208–211). But it is not in general true that such a temporally specific relation can be expressed visually by spatial proximity between a text fragment and an image: it only holds for comics (and perhaps some other strongly temporal communicative forms: more empirical study would be necessary). To add this possibility to a general characterization of text-image relations, therefore, adds uncertainty where, in most cases, there is none. The discourse semantics of the semiotic mode deployed may already have provided sufficient mechanisms for interpretation. The other instance of a text-image relation, the speech balloon, is also often added into classifications of text-image relations as if this were a straightforward step (cf. Martinec/Salway 2005, 352). It is certainly true that most readers, regardless of whether or not they are well practiced in the comicbook medium, will recognise speech balloons and their general intent of expressing that someone is saying something. Indeed, readers who are not familiar with comics may make an interpretation that the speech balloon is a kind of graphical notation for a verbal expression of the form the indicated character says X. This does not require the reader to go beyond the semiotic mode of verbal language, probably augmented with some assumptions concerning the second-order semiotic mode of typography. A similar reading in terms of a notation might be assumed for thought bubbles. For such readers, there is no particular semiotic mode for comics as such and the text-image relationship dissolves to a shorthand form for connecting speakers and thinkers to the corresponding texts.



Methodological and Theoretical Issues in Multimodality 

 69

Speech balloons are, however, native to the media of comics and graphic novels, although other media can of course depict them and, in so doing, quote their usage in comics. Readers sophisticated in the reception of comics may then act differently to the naive readers posited above. Cohn (2013a), for example, argues that comics have developed a particular productive system for interfacing textual contributions and the pictorially-displayed information in panels. To capture this, he classifies such co-occurrences along two parallel dimensions: root awareness and adjacent awareness. These paradigmatic options are expressed, or realised, in a visual syntagmatic configuration described as Carrier–Tail–Root. The standard cases of speech balloons and thought bubbles are then simply realizations drawn from this semiotic resource. The productivity of the system stems from the fact that the syntagmatic configuration allows a variety of semantic configurations to be composed, including cases where the agent involved is absent or where the tail is omitted, as in onomatopoeic uses of language such as Bang!, etc. or, indeed, captions. The former case would be one where there is no root awareness (because there is no one producing the sound as a communicative act in the first place) but adjacent awareness because all in the panel can hear the indicated noise; the latter case would be neither root awareness nor adjacent awareness because the contents of the caption are (in general) non-diegetic and not accessible to the participants in the storyworld. This system is then a proposal for a semiotic mode of comics, one that is also orchestrating in function and which brings quite medium-specific relations to bear – relations that only partially overlap with the simple assumption that speech balloons are shorthand for locutions. This emphasizes again that analyses need to address artefacts and performances together with the diverse user communities that engage with those materials, as well as with the multimodal genres being performed, since it is unlikely that these interpretative possibilities are relevant for, for example, newspapers, scientific papers, or procedural instructions.

6 Conclusions This chapter has set out a differentiated framework for considering the phenomena typically discussed under the rubric of multimodality. The framework binds together materiality, ‘lexicogrammatically’ organized technical features of form, and discourse semantics in order to characterize signifying practices in general. It was suggested that this degree of differentiation is important in order to avoid conflating rather different processes and to open up analysis methodology so that the detailed styles of working of particular artefacts, performances, media and genres can be probed more effectively. The present account therefore differs in several respects from previous views of semiotic modes. Working with the framework means, for example, that there are



70 

 John A. Bateman

going to be many, ‘smaller’ semiotic modes operating in a semiotic artefact or performance than typically revealed by broader, sensory channel views. Assigning priority to sensory channels when distinguishing modes is not then seen as methodologically helpful for the central multimodal task of explaining how combinations of modes function productively to produce meaning. Only when attention is turned to the micro-level of individual semiotic modes do we find the necessary level of detail for formalizing and empirically investigating how meanings are being combined and constructed in multimodal use. In emphasizing the role of discourse semantics, the approach can also be seen to favour a more explicit characterization of the textual functioning of multimodal artefacts and performances. This contrasts with and complements what may be termed pragmatic approaches, which tend more to see multimodality as problem-solving in the context of individual communicative situations – thereby aligning the operation of multimodality more to Saussure’s notion of parole. While much can be done with such problem-solving approaches, they do not always lead to appropriate characterizations of how strongly conventionalized mode combinations operate nor to more refined accounts of how the artefacts and performances themselves can be structured as texts to guide interpretation, both within and across modes.

7 References Asher, Nicholas/Alex Lascarides (2003): Logics of conversation. Cambridge. Barthes, Roland (1964): Elements of Semiology. London. Translated by Annette Lavers and Colin Smith. Bateman, John A. (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal documents. Basingstoke. Bateman, John A. (2011): The decomposability of semiotic modes. In: Kay L. O’Halloran/Bradley A. Smith (eds.): Multimodal Studies. Multiple Approaches and Domains. London, 17–38. Bateman, John A. (2013): Dynamische Diskurssemantik als allgemeines Modell der Semiose. Überlegungen am Beispiel des Films. In: Zeitschrift für Semiotik 35 (3–4), 249–284. Bateman, John A. (2014a): Genre in the age of multimodality. Some conceptual refinements for practical analysis. In: Paola Evangelisti Allori/John A. Bateman/Vijay K. Bhatia (eds.): Evolution in Genres. Emergence, Variation, Multimodality. Frankfurt a. M., 237–269. Bateman, John A. (2014b): Text and Image. A Critical Introduction to the Visual/Verbal Divide. London/New York. Bateman, John A./Judy L. Delin/Renate Henschel (2004): Multimodality and empiricism. Preparing for a corpus-based approach to the study of multimodal meaning-making. In: Eija Ventola/ Cassily Charles/Martin Kaltenbacher (eds.): Perspectives on Multimodality. Amsterdam, 65–87. Bateman, John A./Matthis Kepser/Markus Kuhn (2013): Film, Text, Kultur – Beiträge zur Textualität des Films. In: John Bateman/Matthis Kepser/Markus Kuhn (Hg.): Film, Text, Kultur. Beiträge zur Textualität des Films, Marburg (Textualität des Films 1), 7–29. Bateman, John A./Karl-Heinrich Schmidt (2012): Multimodal Film Analysis. How Films Mean. London. Bateman, John A./Janina Wildfeuer (2014a): A multimodal discourse theory of visual narrative. In: Journal of Pragmatics 74, 180–218.



Methodological and Theoretical Issues in Multimodality 

 71

Bateman, John A./Janina Wildfeuer (2014b): Defining units of analysis for the systematic analysis of comics. A discourse-based approach. In: Studies in Comics 5 (2), 371–401. Bhatia, Vijay K. (1993): Analysing Genre.Language Use in Professional Settings. Harlow, U.K. Björkvall, Anders (2012): Multimodality. In: Jan-Ola Östmann/Jeff Verschueren (eds.): Handbook of Pragmatics. Amsterdam, 1–20. Björkvall, Anders/Anna-Malin Karlsson (2011): The materiality of discourses and the semiotics of materials. A social perspective on the meaning potentials of written texts and furniture. In: Semiotica 187 (1/4), 141–165. Bucher, Hans-Jürgen (2011): Multimodales Verstehen oder Rezeption als Interaktion. Theoretische und empirische Grundlagen einer systematischen Analyse der Multimodalität. In: Hans-Joachim Diekmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 123–156. Clark, Austen (2011): Cross modal links and selective attention. In: Fiona MacPherson (ed.): The Senses. Classic and Contemporary Philosophical Perspectives. Oxford/New York, 375–395. Cohn, Neil (2013a): Beyond speech balloons and thought bubbles. The integration of text and image. In: Semiotica 197, 35–63. Cohn, Neil (2013b): Visual narrative structure. In: Cognitive Science 37 (3), 413–452. Dölling, Evelyn (2001): Multimediale Texte. Multimodalität und Multicodalität. In: Ernest W.B. Hess-Lüttich (Hg.): Medien, Texte und Maschinene. Wiesbaden, 35–50. Dürscheid, Christa (2005): Medien, Kommunikationsformen, kommunikative Gattungen. In: Linguistik online 22 (1), www.linguistik-online.de/22_05/duerscheid.html. Elleström, Lars (2014): Media Transformation. The Transfer of Media Characteristics Among Media. Basingstoke. Fauconnier, Gilles (1997): Mappings in Thought and Language. Cambridge. Forceville, Charles J. (1996): Pictorial Metaphor in Advertising. London. Forceville, Charles J. (2007): Book Review. Multimodal transcription and text analysis. A multimedia toolkit and coursebook by Anthony Baldry and Paul J. Thibault. In: Journal of Pragmatics 39 (6), 1235–1238. Fricke, Ellen (2013): Towards a unified grammar of gesture and speech. A multimodal approach. In: Cornelia Müller et al. (eds.): Body – Language – Communication/Körper – Sprache – Kommunikation. Berlin/New York (Handbücher zur Sprach- und Kommunikationswissenschaft/ Handbooks of Linguistics and Communication Science (HSK) 38/1), 733–754. Goodman, Nelson (1969): Languages of Art. An Approach to a Theory of Symbols. London. Halliday, Michael A. K. (1978): Language as Social Semiotic. London. Halliday, Michael A. K. (1994): An Introduction to Functional Grammar. 2nd. ed. London. Hanks, Fletcher (1941): The Stardust Sixth Column: The World Invaders. Fantastic Comics (1939 series) #15 (February 1941), 31–39. New York. Hiraga, Masako K. (1994): Diagrams and metaphors. Iconic aspects in language. In: Journal of Pragmatics 22, 5–21. Hjelmslev, Louis ([1943] 1961): Prolegomena to a Theory of Language. Madison, Wisconsin. Translated by F.J.Whitfield. Holly, Werner (2009): Der Wort-Bild-Reißverschluss. Über die performative Dynamik der audiovisuellen Transkriptivität. In: Helmuth Feilke/Angelika Linke (Hg.): Oberfläche und Performanz. Tübingen, 93–110. Holly, Werner (2011): Bildüberschreibungen. Wie Sprechtexte Nachrichtenfilme lesbar machen. In: Hans-Joachim Diekmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 235–256. Jakobson, Roman (1965): Quest for the essence of language. In: Diogenes 13, 21–37.



72 

 John A. Bateman

Kamp, Hans (1981): A theory of truth and semantic representation. In: Jeroen A.G. Groenendijk/T.M.V. Janssen/Martin B.J. Stokhof (eds.): Formal Methods in the Study of Language (Mathematical Centre Tracts Vol. 136). Amsterdam, 277–322. Kesselheim, Wolfgang (2011): Sprachliche Oberflächen. Musterhinweise. In: Stephan Habscheid (Hg.): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York, 337–366. Klug, Nina-Maria/Hartmut Stöckl (2015): Sprache im multimodalen Kontext. In: Ekkehard Felder/Andreas Gardt (Hg.): Handbuch Sprache und Wissen. Berlin/Boston (Handbücher Sprachwissen – HSW 1), 242–264. Kluss, Thorsten et al. (2012): Investigating the in-between. Multisensory integration of auditory and visual motion streams. In: Seeing and Perceiving 25 (1), 45–69. Koch, Walter A. (1971): Varia Semiotica. Hildesheim. Krämer, Sybille (2006): Die Schrift als Hybrid aus Sprache und Bild. Thesen über die Schriftbildlichkeit unter Berücksichtung von Diagrammatik und Kartographie. In: Torsten Hoffmann/Gabriele Rippl (Hg.): Bilder. Ein (neues) Leitmedium?, Göttingen, 79–92. Kress, Gunther (2014): What is mode? In: Carey Jewitt (ed.): The Routledge Handbook of Multimodal Analysis, 2nd. ed. London, 60–75. Kress, Gunther et al. (2000): Multimodal Teaching and Learning. London. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Kress, Gunther/Theo van Leeuwen (2006 [1996]): Reading Images. The Grammar of Visual Design. London/New York. Kutz, Oliver et al. (2014): E pluribus unum. Formalisation, use-cases, and computational support for conceptual blending. In: Tarek R. Besold/Marco Schorlemmer/Alan Smaill (eds.): Computational Creativity Research. Towards Creative Machines (Atlantis Thinking Machines 7), 167–196. Lemke, Jay L. (1998): Multiplying meaning. Visual and verbal semiotics in scientific text. In: J.R. Martin/Robert Veel (eds.): Reading Science. Critical and Functional Perspectives on Discourses of Science. London, 87–113. Lemke, Jay L. (1999): Typology, Topology, Topography. Genre Semantics. MS University of Michigan. http://www-personal.umich.edu/~jaylemke/papers/Genre-topology-revised.htm. Lemke, Jay L. (2005): Multimedia genre and traversals. In: Folia Linguistica XXXIX (1–2), 45–56. Leeuwen, Theo van (2005): Multimodality, genre and design. In: Sigrid Norris/Rodney Jones (eds.): Discourse in Action – Introducing Mediated Discourse Analysis. London, 73–94. Liu, Yu/Kay L. O’Halloran (2009): Intersemiotic texture. Analyzing cohesive devices between language and images. In: Social Semiotics 19 (4), 367–388. Machin, David (2014): Multimodality and theories of the visual. In: Carey Jewitt (ed.): The Routledge Handbook of Multimodal Analysis. 2nd. ed. London, 217–226. Mann, William C./Sandra A. Thompson (1988): Rhetorical structure theory. Toward a functional theory of text organization. In: Text 8 (3), 243–281. Martin, James R. (1992): English Text. Systems and Structure. Amsterdam. Martin, James R./David Rose (2008): Genre Relations. Mapping Culture. London/New York. Martinec, Radan/Anthony Salway (2005): A system for image-text relations in new (and old) media. In: Visual Communication 4 (3), 337–371. Matthen, Mohan (2005): Seeing, Doing, and Knowing. A Philosophical Theory of Sense Perception. Oxford. McCloud, Scott (1994): Understanding Comics. The Invisible Art. New York. McGurk, Harry/John MacDonald (1976): Hearing lips and seeing voices. In: Nature 264 (5588), 746–748.



Methodological and Theoretical Issues in Multimodality 

 73

Miller, Carolyn R. (1984): Genre as social action. In: Quarterly Journal of Speech 70, 151–167. Mitchell, W.J.T. (2005): There are no visual media. In: Journal of Visual Culture 4 (2), 257–266. Newall, Michael (2003): A restriction for pictures and some consequences for a theory of depiction. In: The Journal of Aesthetics and Art Criticism 61 (4), 381–394. Peirce, Charles Sanders (1931–1958): Collected Papers of Charles Sanders Peirce. Cambridge, MA. Posner, Roland (1986): Zur Systematik der Beschreibung verbaler und nonverbaler Kommunikation. Semiotik als Propädeutik der Medienanalyse. In: Hans-Georg Bosshardt (Hg.): Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann. Berlin/New York, 267–313. Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft. Köln Univ., Habil.-Schr.–Magdeburg. Saussure, Ferdinand de ([1915] 1959): Course in General Linguistics. London. Edited by Charles Bally and Albert Sechehaye. Translated by Wade Baskin. Schneider, Jan Georg/Hartmut Stöckl (Hg.) (2011): Medientheorie und Multimodalität. Ein TV-Werbespot – Sieben methodische Beschreibungsansätze. Köln. Schumacher, Peter (2013): A pattern language for pictorial assembly instructions (PAIs). In: Information Design Journal 20 (2), 111–135. Seeley, William P. (2012): Hearing how smooth it looks. Selective attention and crossmodal perception in the arts. In: Essays in Philosophy 13 (2), 498–517 http://commons.pacificu.edu/ cgi/viewcontent.cgi?article=1434&context=eip. Special issue: Aesthetics and the Senses edited by Cynthia Freeland. Sobchack, Vivian (2004): Carnal thoughts. Embodiment and moving image culture chap. In: What my Fingers Knew. The Cinesthetic Subject, or Vision in the Flesh, 53–84. Berkeley/Los Angeles/ London. Stöckl, Hartmut (2004): In between modes. Language and image in printed media. In: Eija Ventola/ Cassily Charles/Martin Kaltenbacher (eds.): Perspectives on Multimodality. Amsterdam, 9–30. Stöckl, Hartmut (2006): Zeichen, Text und Sinn – Theorie und Praxis der multimodalen Textanalyse. In: Eva Martha Eckkrammer/Gudrun Held (Hg.): Textsemiotik. Studien zu multimodalen Texten, Frankfurt a. M., 11–36. Stöckl, Hartmut (2014): Semiotic paradigms and multimodality. In: Carey Jewitt (ed.): The Routledge Handbook of Multimodal Analysis. 2nd. ed. London, 274–286. Svoboda, K./C.F. Schmidt/B.J. Schnapp/S.M. Block (1993): Direct observation of kinesin stepping by optical trapping interferometry. In: Nature 365 (6448), 721–727. Swales, John M. (1990): Genre Analysis. English in Academic and Research Settings. Cambridge. Todorov, Tzvetan (1990): Genres in Discourse. Cambridge. Tseng, Chiaoi/John A. Bateman (2012): Multimodal narrative construction in Christopher Nolan’s Memento. A description of method. In: Journal of Visual Communication 11 (1), 91–119. Weidenmann, Bernd (1995): Multicodierung und Multimodalität im Lernprozess. In: Ludwig J. Issing/P. Klimsa (Hg.): Information und Lernen mit Multimedia. Weinheim, 65–84. Wildfeuer, Janina (2012): Intersemiosis in film. Towards a new organisation of semiotic resources in multimodal filmic text. In: Multimodal Communication 1 (3), 233–304. Wildfeuer, Janina (2013a): Formale Zugänge zur Diskursanalyse. In: Zeitschrift für Semiotik 35 (3–4), 393–417. Wildfeuer, Janina (2013b): Trompeten, Fanfaren und orangefarbene Tage. Zur Intersemiose in Die fabelhafte Welt der Amélie. In: Lars C. Grabbe/Patrick Rupert-Kruse/Norbert M. Schmitz (Hg.): Multimodale Bilder. Zur synkretistischen Struktur des Filmischen. Darmstadt, 81–101.



74 

 John A. Bateman

Winkler, Hartmut (2008): Zeichenmaschinen: oder warum die semiotische Dimension für eine Definition der Medien unerlässlich ist. In: Stefan Münker/Alexander Roesler (Hg.): Was ist ein Medium? Frankfurt a. M., 211–222. Żebrowska, Ewa (2014): Multimodal messages. In: Journal of Multimodal Communication Studies 1, 8–15.



Constanze Spieß

3. Metapher als multimodales kognitives Funktionsprinzip Abstract: Im Rahmen kognitiver Metapherntheorien werden Metaphern als essenzielle Phänomene aufgefasst, die das menschliche Denken, Sprechen und Handeln maßgeblich bestimmen. Sie lassen sich als mentale Projektionsstrukturen bzw. -prozesse beschreiben, die in unterschiedlichen Zeichenmodalitäten realisiert werden können. Dabei erscheinen Metaphern in unterschiedlichen Formen, sind kontextabhängig und je nach Situation nehmen sie unterschiedliche Funktionen im Kommunikationszusammenhang ein. 1 Sprache und Kognition 2 Zum linguistischen Metaphernbegriff 3 Funktionen von Metaphern 4 Zusammenfassung 5 Literatur

1 Sprache und Kognition Seit der Auseinandersetzung mit kognitiven Theorien im Rahmen der linguistischen Thematisierung von Metaphern wird die Frage diskutiert, inwiefern Metaphern rein mentale Strukturen darstellen oder eher als sprachliche Phänomene aufzufassen sind. Während Lakoff/Johnson (1980) beide Ebenen – Sprache und Kognition – nicht getrennt betrachten bzw. bei ihnen in verschiedenen Zusammenhängen der Status von Sprache und konzeptueller Metapher unklar bleibt – haben sich in der Pragmalinguistik Ansätze herauskristallisiert, die die mentalen Prozesse und Strukturen konzeptueller Metaphern annehmen bzw. voraussetzen und die sprachliche Ausprägung metaphorischer Sprachverwendung als Spur mentaler Prozesse begreifen (vgl. Schwarz-Friesel 2015), durch die auf die mentalen Prozesse und Strukturen geschlossen werden kann. Demzufolge wird differenziert in konzeptuelle Metapher und sprachliche bzw. semiotische Realisierung der Metapher. Ausgangspunkt für linguistische Untersuchungen stellt somit die metaphorische Sprachverwendung dar, die vereinfachend auch als Metapher bezeichnet werden soll. Im Folgenden soll es zum einen um die Metapher als Konzept und als mentaler Prozess gehen, zum anderen wird immer wieder auch auf metaphorische Sprachverwendungen Bezug genommen, durch die auf mentale Prozesse geschlossen wird. So geht es hier einerseits um die den metaphorischen Ausdrucksverwendungen zugrundeliegenden mentalen Struk-



76 

 Constanze Spieß

turen und Prozesse und um die Funktionen von Metaphern in kommunikativen und insbesondere in multimodalen Zusammenhängen andererseits. Metaphern als mentale Projektionen realisieren sich in unterschiedlichen Zeichenmodalitäten, nicht nur in der Sprache, wenngleich aber der Sprache eine zentrale Rolle zukommt. So werden sie u. a. durch Bilder (vgl. Kienpointner 2007; Fahlenbrach 2010), Gesten (vgl. Cienki/Müller 2010), Musik (vgl. Zbikowski 2010) oder gar durch Kombination bzw. im Zusammenspiel der verschiedenen Zeichenmodalitäten wie z. B. durch Text-Bild- oder aber Gespräch-Gesten-Bezüge (vgl. Kienpointner 2007; vgl. Weidner 2015) realisiert. Einen guten Überblick über non-verbale Metapherntypen und -verwendungsbereiche gibt Kövecses (2010, 63–73). In allen Zeichenmodalitäten kann die kognitive Struktur des Projektionsprozesses nachvollzogen werden, wobei der soziopragmatische Kontext eine relevante Größe für das Verständnis des kognitiven Projektionsprozesses darstellt. Die Realisation metaphorischer Prozesse durch unterschiedliche Zeichenmodalitäten lässt die Metapher als eine multimodale Konstruktion deutlich werden. Sprache ist insofern zentral, da für die Erläuterung der grundlegenden Projektionsprozesse der Metapher Sprache unabdingbar ist, egal in welcher Zeichenmodalität oder in welchen Kombinationen von Modalitäten die Metapher realisiert wird. Aus diesem Grund wird im Folgenden zwangsläufig die sprachliche Realisation von Metaphern im Vordergrund stehen.

2 Zum linguistischen Metaphernbegriff 2.1 Theoretische Zugänge zur Metapher Es existieren zahlreiche Metaphernbegriffe, wenngleich in der aktuellen linguistischen Diskussion um Metaphorik kognitive Modelle, angereichert um pragmatische Aspekte und Faktoren, dominant vertreten werden. Bei der Auseinandersetzung mit metaphorischen Theorien spielen zwei aus der Antike stammende Theorien, die auf Aristoteles und Quintilian zurückgehen, eine wichtige Rolle (vgl. Weinrich 2010). Es handelt sich dabei um die Substitutions- und die Vergleichstheorie. Auf sie wird immer wieder in kritischer Auseinandersetzung Bezug genommen. Einflussreiche Metapherntheorien, die pragmatische Aspekte hervorheben und sich z. T. kritisch mit der Substitutions- und Vergleichstheorie auseinandersetzen, sind die Interaktionstheorie, die Bildfeldtheorie oder die Relevanztheorie. Aufgrund ihrer Bedeutsamkeit für die Metaphernforschung sollen die genannten Theorien kurz vorgestellt werden, darum wohl wissend, dass es zahlreiche weitere Theorien zur Metapher gibt und ein Überblicksartikel nicht allen Theorien gerecht werden kann (vgl. hierzu Rolf 2005).



Metapher als multimodales kognitives Funktionsprinzip  

 77

2.1.1 Substitutions- und Vergleichstheorie: Aristoteles und Quintilian Seit der Antike existieren theoretische Auseinandersetzungen um das Phänomen der Metapher. Besonders prominent sind die antiken Theorien von Aristoteles (1982) oder Quintilian (2001a, b), die Metaphern zum einen als Substitutionen für wörtliche Redeweisen erfassen oder aber Metaphern als verkürzte Vergleiche beschreiben. Grundlage für diese Theorien ist die Auffassung, dass Metaphern ein Äquivalent haben, das die bezeichnete Sache entweder wörtlich fasst oder dass durch die Metapher auf Ähnlichkeiten bzw. Analogien zwischen zwei Dingen/Sachverhalten im Sinne eines komprimierten Vergleichs verwiesen wird (vgl. Aristoteles 1982; Rolf 2005; Weinrich 2010). Black (21996a, 61 ff.) ordnet die Vergleichstheorie der Substitutionstheorie unter, was u. a. durch Liebert (2008) kritisiert wird. Liebert sieht bereits bei Aristoteles einen weiten Metaphernbegriff als gegeben an, der von der Analogiebildung durch den Metaphorisierungsprozess ausgeht und nicht ausschließlich in einem verkürzten Vergleich zu sehen ist (vgl. Liebert 2008, 745–746). Dass die Engführung von Metaphern auf Substitutionen oder verkürzte Vergleiche zu kurz greift, zeigen verschiedene Positionen, die sich von diesen beiden Theorien abgrenzen bzw. die diese Theorien um einige Faktoren ergänzt und modifziert haben (vgl. beispielsweise Black 21996a und b) und in diesem Zusammenhang vor allem auf kognitive Modelle Bezug nehmen (s. u., vgl. Liebert 1992 oder Jäkel 1997). Kognitive Modelle (s. u.) haben nicht nur einen großen Einfluss auf die linguistische Theoriediskussion, sondern auch auf die Sozialwissenschaften (vgl. Junge 2011, 2014) oder die Philosophie (vgl. Gehring 2013). Bevor auf dezidiert kognitive Modelle eingegangen wird, sei hier auf wenige, sehr einflussreiche Konzepte verwiesen, die einen vorwiegend pragmatischen Hintergrund haben, die sich zudem von der klassischen Substitutions- und Vergleichstheorie abgrenzen und zum Teil den Aspekt der Kognition implizit thematisieren.

2.1.2 Interaktionstheorie nach Richards und Black Im Anschluss an Richards hat Black metaphorische Prozesse als interaktive Prozesse charakterisiert. Mit seinem Modell kommt die dynamische Struktur von Metaphern zur Geltung. Er unterteilt die Metapher in zwei Bereiche, in den Fokusbereich und den Rahmenbereich. So geht er davon aus, dass Fokus und Rahmen beim Prozess der Metaphorisierung in Interaktion treten. Durch die Interaktion der beiden Bereiche entstehen neue Bedeutungen (vgl. Black 21996a, b). Durch die Entstehung neuer Bedeutung im Rahmen von Metaphorisierungsprozessen werden zugleich neue Handlungskontexte geschaffen, die wiederum Ausgangspunkte für weitere Metaphorisierungshandlungen darstellen können. Black geht davon aus, dass während des Projektionsprozesses von semantischen Aspekten assoziative Implikationen auf den zu metaphorisierenden Gegenstand angewendet 

78 

 Constanze Spieß

werden (vgl. Black 21996a,b). Hier kommt deutlich die pragmatische Perspektive zum Vorschein, insofern für das Verstehen von Metaphern der situative Kontext eine zentrale Rolle spielt. Zugleich kann der Ansatz Blacks als eine frühe Form der Beschreibung kognitiver Prozesse gesehen werden, wenngleich Black diesen freilich nicht in der ausgeprägten Weise wie Lakoff/Johnson (1980) konturiert. Dennoch ist sein Ansatz der Interaktionstheorie sehr gut mit dem Ansatz der kognitiven Metapherntheorie Lakoff/Johnsons (1980) vereinbar. So konstatiert Black im Anschluss an Richards: Ich wende mich nun einem Typ von Untersuchung zu, den ich Interaktionstheorie der Metapher nenne. […] Beginnen wir mit der folgenden Aussage: ‚Auf die einfachste Formulierung gebracht, bringen wir beim Gebrauch der Metapher zwei unterschiedliche Vorstellungen in einen gegenseitigen aktiven Zusammenhang, unterstützt von einem einzelnen Wort oder einer einzelnen Wendung, deren Bedeutung das Ergebnis der Interaktion beider ist.‘ (Richards 1936, zitiert nach Black 21996a, 69).

Black beschreibt in seiner Revision der Interaktionstheorie den Implikationszusammenhang der Metapher als Projektionsprozess (vgl. Black 21996b, 392–396).

2.1.3 Bildfeldtheorie nach Weinrich In seiner Theorie über die Metapher entwickelt Weinrich ein Verständnis von Metaphern, das auf eine besondere Relevanz des Kontextes abzielt. So schreibt er: Eine Metapher, und das ist im Grunde die einzig mögliche Metapherndefinition, ist ein Wort in einem Kontext, durch den es so determiniert wird, dass es etwas anderes meint, als es bedeutet. Vom Kontext hängt wesentlich ab, ob eine Metapher sich selber deutet oder rätselhaft bleibt. Eine starke Kontextdetermination zwingt auch das fremdeste Wort in den gemeinten Sinnzusammenhang. (Weinrich 1983, 334)

Damit bindet Weinrich das Verständnis von Metaphern notwendigerweise an den Kontext. Er geht soweit, dass er sagt: „Wer jedoch eine Metapher von jeglichem Kontext (und dazu ist natürlich immer auch ein Situationskontext zu rechnen) zu entblößen versucht, zerstört damit die Metapher“ (Weinrich 1967, 5). Obwohl Weinrich von der Determinationserwartung, die durch die metaphorische Gebrauchsweise durchkreuzt wird, ausgeht und die Kontextualität betont, betrachtet er Metaphern als semantische Phänomene. Durch die Betonung der Kontextualität und der Rezipientenerwartungen ist jedoch bereits eine pragmatische Perspektive inhärent. Die Kontextualität der Metapher charakterisiert er analog zum Wortfeld als Bildfeld.



Metapher als multimodales kognitives Funktionsprinzip  

 79

2.1.4 Relevanztheorie nach Sperber/Wilson Die Relevanztheorie bezieht sich nicht nur auf Metaphern. Grundaussage der Relevanztheorie im Hinblick auf Metaphorik ist, dass beim Verstehen von Metaphern diejenige Bedeutung relevant gesetzt wird, die für das kontextuelle Verständnis wichtig ist. Sperber/Wilson (22010) gehen also von kontextuellen Bedeutungen aus, die mehr oder weniger vage sein können. Sie sprechen von einem „loose talk“ und identifizieren diesen als besten Weg, optimale Relevanz zu erreichen (vgl. Sperber/Wilson 2 2010). Lexeme können also prinzipiell verschiedene Bedeutungen haben, die sich aus dem Kontext ergeben. Der Grundgedanke ihrer Auffassung von Metaphern ist, dass Metaphern eine Form von vager Kommunikation darstellen. Rolf (2005) konstatiert, dass Sperber/Wilson „von einem Kontinuum aus[gehen], bei dem das Wörtliche am einen, das Metaphorische am anderen Ende steht. Metaphorische Äußerungen weisen den größten Grad von Sinn-Auflockerung auf“ (Rolf 2005, 153). Demzufolge wäre es sinnvoll, nicht in einen wörtlichen und nicht-wörtlichen Sprachgebrauch zu differenzieren, vielmehr entfaltet jede Verwendung des gleichen Ausdrucks ein anderes Konzept, abhängig vom situativen Kontext. Die Rede von der Wörtlichkeit führt insofern nicht weiter, als die Frage aufgeworfen wird, was denn überhaupt die wörtliche Bedeutung eines Ausdrucks ist und wann diese zum Einsatz kommt.

2.2 Metapher und Kognition Während pragmatisch orientierte Modelle ihren Fokus nicht auf die den metaphorischen Äußerungen zugrunde liegenden kognitiven Prozesse legen oder diese –wie bei Richards und Black nur am Rande berühren  –, sondern die Funktionalität der Äußerungen im situativen Kommunikationszusammenhang betrachten, geht es kognitiven Ansätzen darum, die mentalen Prozesse sowie die mentale Struktur von Metaphern offenzulegen. Ein sehr einflussreicher und bis heute rezipierter Ansatz stellt die kognitive Metapherntheorie von Lakoff/Johnson (1980) dar. Um die der konzeptuellen Metapher zugrunde liegenden Prozesse zu erläutern, greifen Lakoff/Johnson zum einen auf die Gestalttheorie, zum anderen auf die Prototypentheorie, die Theorie kognitiver Bereiche oder die Frametheorie zurück, ohne aber ausführliche theoretische Diskussionen zu führen. In ihrem vielbeachteten und sehr einflussreichen Werk Metaphors We Live by legen Lakoff/Johnson eine Theorie der Metapher vor, die davon ausgeht, dass Metaphern unser alltägliches Denken, Handeln und Sprechen prägen. Für das kognitive Metaphernmodell nach Lakoff/Johnson (1980) grundlegend ist die Auffassung, dass [t]he concepts that govern our thought are not just matters of the intellect. They also govern our everyday functioning, down to the most mundane details. Our concepts structure what we perceive, how we get around in the world, and how we relate to other people. Our conceptual system



80 

 Constanze Spieß

is largely metaphorical, then the way we think, what we experience, and what we do every day is very much a matter of metaphor. (Lakoff/Johnson 1980, 3)

In diesem Rahmen werden Metaphern als konzeptuelle Phänomene begriffen, die sich als spezifische mentale Projektionsstrukturen beschreiben lassen und die Lakoff/Johnson (1980, 81) als Gestalten oder Lakoff (1987) auch als Idealisierte Kognitive Modelle (IKM) bezeichnen (vgl. Lakoff 1987, 68). Metaphern stellen demnach Kategorien dar, die prototypisch strukturiert sind (vgl. hierzu auch Baldauf 1997).

2.2.1 Metaphern als Gestalten Bei der Konturierung ihres kognitiven Metaphernverständnisses gehen Lakoff/ Johnson (1980) davon aus, dass menschliches Denken und Handeln grundsätzlich in Form von Gestalten strukturiert ist, die als Ganzes wahrgenommen werden (vgl. hierzu auch Liebert 1992, 12–28). Dementsprechend fassen sie im Rahmen ihrer kognitiven Metapherntheorie Metaphern als Gestalten auf, deren Bedeutung sich nicht einfach aus der Addition der sie konstituierenden Teile ergibt, sondern vielmehr ergibt die Gestalt als eine Ganzheit eine bestimmte Bedeutung. Grundlegend hierfür ist die Annahme, dass menschliches Denken und Handeln prinzipiell in Form von Gestalten strukturiert wird. Metaphern als sprachliche Gestalten werden dementsprechend nicht in ihren Einzelelementen wahrgenommen, sondern als Ganzes. Die Gestaltpsychologie geht davon aus, dass Gestalten als Figuren wahrgenommen werden, die sich von einem Grund abheben (vgl. Lakoff/Johnson 1980, 81, 85, 117 und 224 sowie die Ausführungen von Liebert 1992, 22–28). Erfahrung und Gestalt stellen Grundbegriffe des gestaltpsychologischen Paradigmas dar. Die menschliche Erfahrung ist nach Lakoff/Johnson (1980) die Basis für das menschliche Konzeptsystem und für die Wahrnehmung von Metaphern als Gestalten. Jede Erfahrung, jedes Wahrnehmen und Erkennen wird dabei als perspektivisch begriffen (vgl. Liebert 1992, 25). Dementsprechend sind auch Metaphernkonzepte als Gestalten aufzufassen, die perspektivisch wahrgenommen werden (vgl. Liebert 1992, 22–30). Metaphern als Gestalten werden teilweise durch andere Gestalten strukturiert, was als Mapping bezeichnet wird (vgl. Liebert 1992, 25). So konstatieren Lakoff/Johnson (1980, 85): There are also complex gestalts, which are structured partially in terms of other gestalts. These are what we have been calling metaphorically structured concepts.

Drei Prinzipien kommen hierbei zur Geltung. Zum einen spielt zuvorderst das gestalttheoretische Prinzip der Übersummativität eine entscheidende Rolle. Dieses Prinzip besagt, dass Gestalten in ihrer Ganzheit Eigenschaften/Bedeutungsaspekte zueigen sind, die über die Summe der einzelnen Eigenschaften/Bedeutungsaspekte hinausreichen. Zum zweiten sind Gestalten entsprechend dem gestalttheoretischen Gesetz



Metapher als multimodales kognitives Funktionsprinzip  

 81

der Transponierbarkeit als Ordnungsmuster auf mittlerer Abstraktionsebene zu sehen. Gestalten werden demzufolge unabhängig von der konkreten Realisierung einem Muster zugeordnet; d. h. trotz unterschiedlicher Materialität sind Gestalten identifizierbar, vergleichbar mit dem in der Argumentationsanalyse gängigen Toposbegriff (vgl. Wengeler 2003, vgl. hier Liebert 1992, 16 f.). Und zum dritten kann das gestalttheoretische Prinzip der Übertragbarkeit von Eigenschaften der einen Gestalt auf die einer anderen Gestalt als grundlegend für Metaphorik gelten. Es wird von Lakoff/Johnson auf Metaphern angewendet. Die gestalttheoretischen Prinzipien der Übersummativität und Übertragbarkeit stehen demzufolge in einem engen Zusammenhang (vgl. Liebert 1992, 25).

2.2.2 Zur Struktur von Metaphern Die mentale Struktur von Metaphern beschreiben Lakoff/Johnson (1980) als einen Projektionsprozess, bei dem zwei voneinander unabhängige konzeptuelle Bereiche aufeinandertreffen und miteinander in Interaktion treten. Die Metapher lässt sich dementsprechend in einen Quell-, oder Herkunftsbereich (Source-Domain) und einen Zielbereich (Target-Domain) differenzieren. Während des Projektionsprozesses werden beide Bereiche miteinander in Verbindung gebracht; so werden Aspekte aus dem Quell-, oder Herkunftsbereich bzw. der Source-Domain auf den Zielbereich bzw. die Target-Domain projiziert. Diesen Prozess, der mehr oder weniger komplex sein kann, nennen sie auch Mapping und er findet immer vor dem Hintergrund mentaler Wissensstrukturen statt. Durch die Projektion von Aspekten/Eigenschaften eines Konzepts auf ein anderes Konzept (Mapping) werden Korrelationen zwischen den sonst voneinander unabhängigen Konzepten hergestellt, die vorher noch nicht bestanden, wodurch Ähnlichkeiten zwischen mindestens zwei Bereichen durch den Metaphorisierungsprozess hergestellt werden (vgl. hierzu auch Kövecses 2010, 79–82). Die im Metaphorisierungsprozess hergestellten Ähnlichkeiten beruhen auf Korrelationen zwischen (mindestens) zwei (Erfahrungs)Bereichen. Ausschlaggebend für die Bestimmung von Ähnlichkeiten sind dabei Eigenschaften, die sich aus der Interaktion der beiden Konzepte ergeben und Bedeutungen erst generieren. Hintergrund dieser Metapherntheorie stellt eine kognitive Auffassung von Bedeutung dar, die zum einen auf Langackers kognitive Bereiche, auf Roschs Prototypentheorie sowie auf Fillmores Frametheorie rekurriert (vgl. Langacker 1986; Fillmore 1985; Rosch 1978). Lakoff/Johnson gehen in diesem Zusammenhang im Anschluss an Rosch (1978) von einer prototypischen Struktur von Kategorien aus. Unter Konzeptualisierung wird dementsprechend eine kognitive Leistung verstanden, nach der die alltäglichen Erfahrungen und Wahrnehmungen kategorisiert werden müssen. Konzepte bilden nach Lakoff/Johnson (1980) die Struktur, innerhalb derer Kategorisierung möglich ist und die die Kategorisierungen im Einzelnen steuern. Kategorien folgen dabei einer prototypischen Struktur, sie sind prinzipiell offen, kontextuell gebunden, flexibel 

82 

 Constanze Spieß

und können erweitert werden (vgl. Rosch 1978). Lakoff (1987) stellt schließlich die genannten Ansätze in seinem Ansatz des Idealisierten Kognitiven Modells (IKM) in einen Zusammenhang. Lakoff konstatiert: The main thesis of this book is that we organize our knowledge by means of structures called idealized cognition models or ICMs, and that category structures and prototype effects are byproducts of that organization. (Lakoff 1987, 68; Hervorhebung im Original)

Realität wird dabei erfasst durch gestalthafte Erfahrung; Erfahrungen wiederum werden prototypisch kategorisiert. Als Grundeinheiten menschlichen Denkens, die Kategorien definieren und strukturieren, differenziert Lakoff diese in fünf Typen: a) bildschematische IKMs, b) propositionale IKMs, c) metaphorische IKMs, d) metonymische IKMs und e) symbolische IKMs (vgl. Lakoff 1987, 68–69). Die Theorie der IKMs wird von Lakoff also auch auf den Bereich der Metaphorisierung angewendet. Baldauf erläutert IKMs als „ein gestalthaftes Hintergrundwissen (ähnlich den kognitiven Bereichen Langackers), welches aus physischen und sozialen Erfahrungen hervorgeht. Sie werden als Grundeinheit menschlichen Denkens und damit als Grundgröße kognitiver Semantik verstanden“ (Baldauf 1997, 72). Ähnlich den IKMs kann zur Erklärung auch der Framebegriff herangezogen werden. Frames stellen das notwendige Hintergrundwissen dar. Sie sind, so Ziem, Speicherorte für stereotypes Wissen, das als Strukturfolie abrufbar ist (vgl. Ziem 2008). Unter Kognitiven Bereichen ist alles „für die Konstitution von Bedeutung relevante enzyklopädische Wissen“ zu verstehen (Baldauf 1997, 38), das je nach Situation unterschiedlich komplex sein kann. Die hier kurz dargestellten drei Termini, kognitive Bereiche, Frames und IKMs können als Bezugsrahmen aufgefasst werden, die je nach Autor und Konzeption unterschiedliche Wissensebenen umfassen, so z. B. Weltwissen, Erfahrungswissen, Vorwissen, Präsuppositionen. Sie geben den Hintergrund oder die Strukturfolie für die Bedeutungsfixierung von Metaphern ab. Baldauf beschreibt diese Bezugsrahmen „als holistische Gestalten […], aus denen das Bezeichnete als Profil hervortritt, während der Rest der Gestalt als Basis, bestehend aus dem nötigen Hintergrundwissen, das Verständnis sichert.“ (Baldauf 1997, 39)

2.2.3 Blending als komplexe Projektionsstruktur Wie bereits angedeutet ist die Grundstruktur des kognitiven Metaphernmodells nach Lakoff/Johnson (1980) als ein Projektionsprozess aufzufassen, der mehr oder weniger komplex ist. Während einfache Projektionsprozesse unidirektional sind und Aspekte von Konzept A auf Konzept B projizieren, gestaltet sich der Projektionsprozess bei komplexen Metaphern anders. Bereits Black (21996a, b) ist im Anschluss an Richards (1936) davon ausgegangen, dass bei der Metaphorisierung mindestens zwei Bereiche



Metapher als multimodales kognitives Funktionsprinzip  

 83

in Interaktion treten und daraus neue Bedeutungen entstehen, wobei nicht nur vom Quellbereich Bedeutungsaspekte übertragen werden. Vielmehr ist auch der Zielbereich beteiligt. Es kommt sozusagen zu einem Wechselspiel zwischen Quell- und Zielbereich, bei dem ein dritter Bereich entsteht. Fauconnier/Turner (1998) haben diesen komplexen Prozess als Blending bezeichnet. Beim Blending kommt es zu einer Vermischung von Bedeutungsaspekten sowohl des Herkunfts- als auch des Zielbereiches, so dass in einem dritten Bereich, dem blended space, eine neue Bedeutung entsteht. Fauconnier/Turner (1998) resümieren: The argumentation often takes the following specific form: a particular process of meaning construction has particular input representations; during the process, inferences, emotions and event-integrations emerge which cannot reside in any of the inputs; they have been constructed dynamically in a new mental space  – the blended space  – linked to the inputs in systematic ways. (Fauconnier/Turner 1998, 135)

Diese wechselseitigen kognitiven Prozeduren finden in „mental spaces“ statt. Mental spaces sind partielle, emergente kognitive Repräsentationseinheiten, die wiederum durch Frames oder kognitive Modelle strukturiert werden, die sich aber erst im Prozess der Bedeutungserzeugung aufbauen, kurzlebig und dynamisch sind (Fauconnier/Turner 1998, 137, vgl. Ziem 2008, 378–379), wie auch Musolff (2007) konstatiert: A particular characteristic of blending theory is that in the ‚mental space‘ model, semantic ‚material is projected from both the source and target spaces to the blend‘ (Grady, Oakley and Coulson 1999: 103); in other words, it allows metaphor theory to account for the construction of new meaning that incorporates aspects of both input and target spaces without being ontologically compatible with either of them. (Musolff 2007, 68) In the terminology of blending theory this conclusion could be reformulated as an assertion that the knowledge ‚schemas‘ that are made accessible by the target input inform the access to schemas for the source input and, if necessary, override their ‚cognitive topology.‘ (Musolff 2007, 69)

Dass die Blending Theorie nicht erst durch Fauconnier/Turner erfunden wurde, machen Nerlich/Clarke (2003) deutlich, wenngleich Fauconnier/Turner maßgeblich dazu beitrugen, dass diese Position prominent Eingang in kognitionslinguistische Studien gefunden hat. Bereits Weinrich (1983, 1967) sowie Black (21996a, b) im Anschluss an Richards (1936) zeigen in ihren Ausführungen, dass Metaphern nicht unbedingt ein unidirektionaler Projektionsprozess zugrunde liegen muss. Die komplexe Bedeutung von Metaphern muss sich demnach nicht nur unidirektional – vom Herkunftsbereich auf den Zielbereich – ergeben, sondern wird vielmehr aus beiden/ mehreren Bereichen gespeist.



84 

 Constanze Spieß

2.2.4 Metaphorisierungsrichtungen Schon Aristoteles und Quintilian haben Klassifikationen von Semantisierungs- bzw. Metaphorisierungsprozessen vorgeschlagen, die als Metaphorisierungsrichtungen bezeichnet werden können. Im Anschluss an Quintilian spricht Weinrich im Kontext von Übertragungsrichtungen bei Metaphern 1. vom Belebten auf Belebtes [Beispiel: Der Mensch ist ein gefährliches Tier], 2. von Unbelebtem auf Unbelebtes [Beispiel: Das Auto ist ein Schiff], 3. von Belebtem auf Unbelebtes [Beispiel: Knochen aus Glas], 4. von Unbelebtem auf Belebtes. [Beispiel: Der Embryo ist ein Ersatzteillager] (Weinrich 2010, 1180, Beispiele C.S.)

Und Aristoteles schreibt in der Poetik: [e]ine Metapher […] die Übertragung eines Wortes (das somit in uneigentlicher Bedeutung verwandt wird), und zwar entweder von der Gattung auf die Art, oder von der Art auf die Gattung, oder von einer Art auf eine andere, oder nach den Regeln der Analogie (Aristoteles, Poetik 1457b)

Es lassen sich bezüglich der Typen von Metaphorisierungsprozessen kaum generelle Aussagen machen. Dennoch können von den Sprachteilhabern präferierte spezifische Metaphorisierungsrichtungen und -pfade festgestellt werden. – Abstraktes wird durch Konkretes (Politische Entscheidungen als Naturkatastrophe: Stammzellforschung als Dammbruch), – Nicht-Räumliches durch Räumliches (Politik als Landschaftsraum: ethische Landschaften), – Zeitliches durch Räumliches (Zeit als Raum: Zeitraum), – Kognitives durch Sinnliches (Verstehen als sinnliche Wahrnehmung; z. B. haben die Verben begreifen, erfassen, beleuchten neben der sinnlichen auch eine kognitve Bedeutung), – Belebtes durch Unbelebtes (Mensch als Ware: Embryonenherstellung), – Unbelebtes durch Belebtes (Fahrzeuge als Körper: am Kopf des Zuges) metaphorisiert.

2.3 Formen von Metaphern Metaphern können sprachlich und nicht-sprachlich in verschiedenen Formen erscheinen (Kövecses 2010, 63), vom Einzelwort bis hin zu satzübergreifenden Konstruktionen; in anderen Zeichenmodalitäten können sie in Karikaturen (vgl. Kienpointner 2007), in Musik (Zbikowsli 2010) und in Werbeplakaten (vgl. Forceville Kap. 10, in diesem Band) sowie in Gesten (vgl. Cienki/Müller 2010; Müller/Cienki 2009) oder aber in bildender Kunst realisiert sein (vgl. Fehse 2014). In vielen Fällen werden unterschiedliche Zeichenmodalitäten kombiniert, häufig handelt es sich um Text-Bild

Metapher als multimodales kognitives Funktionsprinzip  

 85

oder Text/Gespräch-Gesten-Bezüge, so dass Sprache eine zentrale Rolle spielt, zumal dann, wenn die zugrunde liegenden Metaphernstrukturen erläutert werden. Weinrich bezeichnet die Metapher gar als ein „Stück Text“ (Weinrich 1967, 5). Metaphern können als einfache Einzellexeme, als Simplizia, Derivationen oder Komposita, auftauchen, aber auch komplexere grammatische Strukturen annehmen (vgl. Braun 2009). Diskutiert wird zudem, inwiefern Ebenen unterhalb des Einzellexems einen metaphorischen Status haben (vgl. Goschler 2008, 36). Skirl/Schwarz-Friesel (2013) differenzieren in Substantivmetaphern, Adjektivmetaphern und Verbmetaphern und zeigen daran die verschiedenen formalen Möglichkeiten für Metaphern auf. Köpcke/ Spieß (2013) haben unterschiedliche Determinationsverhältnisse aufgeführt. Danach können Metaphern als Komposita, als Attributsrelationen, Verb-Adverb-Verbindungen, Verb-Objekt-Verbindungen, als Prädikative oder als Subjekt-Prädikat-Relation in Erscheinung treten. Braun spricht im Rahmen der syntaktischen Ebene von Satzmetaphern, Satzgliedmetaphern, Prädikatsnomenmetaphern oder Prädikatsmetaphern (Braun 2009, 59). Die folgende Übersicht (s. Tab. 1) gibt einen Einblick in die Vielgestaltigkeit von sprachlich realisierten Metaphern. Die Beispiele entstammen dem Bioethikdiskurs um Stammzellforschung (vgl. Spieß 2011). Tab. 1: Übersicht über die formalen Determinationsrelationen von Metaphern Relation

Beispiel

Komposita

Universalbaustein (des Menschen) (SZ 26.1.99)

Attributsrelation

Zellen, die universell sind… Zerschlissene Gewebe (SZ 26.1.99)

Prädikative

Sie sind unsterblich (Spiegel 48/1998, Johann Grolle)

Verb-Adverb-Relation

…, denn diese Stammzellen gelten als nahezu unsterblich (FAZ 31.5.01)

Subjekt-Prädikat-Relation

Als ‚Schatzhaus der Möglichkeiten‘ und ‚Goldminen‘ priesen Thomsons Kollegen die Zellen, die er in seinem Labor gewonnen hat. (Spiegel 48/1998, Johann Grolle)

Verb-Objekt-Relation

… und daher zu einer unerschöpflichen Spenderquelle für die Organe transplantierende und die Gewebe erneuernde Medizin werden sollen. (FR 20.6.01)

Eine Beschreibung der Metaphern ausschließlich nach ihrer Form kann jedoch die spezifische Metaphorizität nicht erfassen, wenngleich die Form bei der Bedeutungskonstitution eine relevante Rolle spielt. Zur Ebene der formalen Beschreibung müssen weitere Ebenen hinzutreten.



86 

 Constanze Spieß

2.4 Zur sozio-pragmatischen Erweiterung des kognitiven Metaphernbegriffs Sowohl die pragmatische als auch die kognitive Perspektive auf Metaphern greift je für sich allein zu kurz (vgl. hierzu auch Goschler 2008). So nehmen pragmatische Modelle keinen Bezug auf die kognitiven Prozesse, rein kognitive Modelle (wie z. B. bei Lakoff/Johnson 1980) dagegen blenden soziopragmatische und kulturelle Faktoren aus. Und eine rein an der Form orientierte Beschreibung (s. o.) lässt nicht direkt auf die Bedeutung der Metaphern schließen. Neben dem Nachvollzug der kognitiven Prozesse sind v. a. soziopragmatische und kulturelle Faktoren essentiell für das Verständnis von Metaphern, so ergibt sich der Sinn von Metaphern erst kontextuell bzw. kann die Bedeutung von Metaphern nur innerhalb von Kontexten adäquat erfasst werden (vgl. Weinrich 1983 und 1967). Für zahlreiche linguistische Zusammenhänge ist ein Metaphernmodell/-begriff leitend, der sich zum einen an kognitiven Modellen orientiert, zum anderen aber soziopragmatisch verankert ist. Gegenwärtig geht man davon aus, dass in der Metapher sowohl formale, kognitiv-semantische wie auch pragmatische Aspekte zusammenlaufen, wie Köller konstatiert: Jeder, der das Phänomen Metapher zur Strecke zu bringen versucht, sieht sich zugleich auch vor das Problem gestellt, das Phänomen Sprache theoretisch zu bewältigen. Sofern man nach der sinnbildenden Kraft der Sprache fragt, stößt man unausweichlich auch auf das Metaphernproblem, in dem alle semantischen, syntaktischen und pragmatischen Ordnungsstrukturen der Sprache irgendwie zusammenlaufen. (Köller 2004, 591)

Metaphern können als „Sedimente kollektiven Wissens, die dem Linguisten die Strukturen des Diskurses wahrhaft bildlich vor Augen führen“ aufgefasst werden (Spitzmüller 2005, 191). Dabei gelten sie als sozial verankert. Nach Pielenz (1993, 132) sind Metaphern als ein „Fundus der Tradition und auch der Innovation einer Sprachgemeinschaft“ aufzufassen. Dieser Fundus bewahrt Vorstellungen, sozial-historische Erfahrungen einer Gesellschaft bzw. Kultur, durch den Gebrauch wird dieser Fundus aber zugleich auch modifiziert (vgl. Pielenz 1993, 132 f.). Damit sind Metaphern aber nicht universell gültig, wie es Lakoff/Johnson (1980, Philosophy in the flesh) aufgrund des Bezugs auf Körpererfahrung sehen (1999, 17). Lakoff/Johnson (1999) geht es dabei um die Dominanz des Körpers und der neuronalen Effekte, die den Menschen determinieren, wenn sie schreiben. Reason and conceptual structure are shaped by our bodies, brains, and modes of functioning in the world. Reason and concepts are therefore not transcendent, that is, not utterly independent of the body. ( Lakoff/Johnson 1999, 128).

Kulturelle Aspekte blenden sie zwar nicht völlig aus, sie kommen aber nur ganz am Rande als mögliche Einflussfaktoren für die Überformung universell gültiger Metaphern zur Geltung (vgl. Lakoff/Johnson 1999, 25, 102 oder 128; Kövecses 2010, 195–



Metapher als multimodales kognitives Funktionsprinzip  

 87

213). Zahlreiche diskursanalytische Untersuchungen haben jedoch gezeigt, dass der Faktor der Kulturalität und Kontextualität für die jeweilige Ausprägung und Bedeutung der Metapher (und auch der Metonymie) von großer Relevanz ist (vgl. Musolff 2015; Czachur 2015). Eine um kommunikativ-pragmatische Aspekte erweiterte Perspektive auf Metaphern geht von der lebensweltlichen Verankerung von Metaphern aus und bezieht zudem die Funktionalität von Metaphern in konkreten Handlungskontexten in die Analyse mit ein. Darunter fallen dann Faktoren wie die kulturelle Gebundenheit, die situative und kontextuelle Verortung, der Rezipientenzuschnitt bzw. der Adressatenzuschnitt. Notwendig ist eine pragmatische Erweiterung insofern, als die Bedeutung von Metaphern erst durch den Kontext, und nicht kontextentbunden, erfahren werden kann und Metaphern selbst handlungskonstituierend sind. Damit eng zusammen hängt das Verständnis von Metaphern.

2.5 Metapher und Verstehen Immer wieder wird diskutiert, warum Metaphern verstanden werden, wenn zwei eigentlich voneinander unabhängige Konzepte aufeinandertreffen. Die unterschiedlichen theoretischen Ansätze geben auf diese Frage verschiedene Antworten. So gehen Sperber/Wilson (22010) beispielsweise davon aus, dass es unterschiedliche Wortgebräuche gibt, die durch den Kontext bestimmt werden. Ebenfalls spricht Weinrich von der Kontextdetermination der Metapher. Aus pragmatischer Perspektive lässt sich das Verständnis von Metaphern durch die Relevanz des Kontextes sowie durch die Funktion der Aussage im Kommunikationszusammenhang erklären. Mit Grice (1989) kann zudem argumentiert werden, dass der Mensch trotz der scheinenden Nichtpassung von zwei Konzepten bestrebt ist, die Kommunikation aufrecht zu erhalten. Hörmann spricht in diesem Zusammenhang von der „Sinnkonstanz“, unter der er folgendes versteht: Der akzeptable Zustand ist gefunden, wenn die gehörte Äußerung so auf eine Welt bezogen werden kann, daß sie in ihr sinnvoll ist. Unsere subjektive Ansicht von der Welt (und nicht eine linguistische Kompetenz!) entscheidet also über die Akzeptabilität. (Hörmann 41994, 209)

Bezüglich sprachlicher Metaphern werden schon von der grammatischen Struktur bestimmte Erwartungen erzeugt, die ein bestimmtes Verständnis nahelegen. So wird bei einer Subjekt-Prädikat-Relation impliziert, dass Subjekt und Prädikat semantisch zueinander passen. Wenn etwas aber im wörtlichen Sinn nicht zueinander passt, wird durch Schlussprozesse versucht, die semantische Inkongruenz aufzuheben, indem bestimmte, zueinander passende semantische Aspekte in der Kommunikationssituation hervorgehoben werden. Dies soll an einem Beispiel aus dem Bioethikdiskurs um die Stammzellforschung verdeutlicht werden:



88 

 Constanze Spieß

Als ‚Schatzhaus der Möglichkeiten‘ und ‚Goldminen‘ priesen Thomsons Kollegen die Zellen, die er in seinem Labor gewonnen hat. (Spiegel 48/1998, Johannes Grolle)

Das Konzept Zelle wird mit den Konzepten Goldmine und Schatzhaus in Verbindung gebracht. Aufgrund unseres Weltwissens wissen wir, dass Zellen winzige, körperliche bzw. körperkonstituierende Teile und weder Schatzhäuser noch Goldminen (abstrakt also Räume) sind, die Gold oder Schätze bergen. Nach Grice (1989) wird aber davon ausgegangen, dass der Textemittent etwas zum Ausdruck bringen möchte, sonst wäre diese Ausdrucksweise nicht gewählt worden. Weiter ist allgemein bekannt, dass Goldminen und Schatzhäuser etwas Wertvolles bergen können. Die Ausdrucksweise Schatzhäuser der Möglichkeiten gibt zudem zu erkennen, dass es sich um etwas handeln muss, das noch passieren kann/wird, jedenfalls noch nicht realisiert wurde, sonst würde nicht die Ausdrucksweise Möglichkeiten gewählt werden. Die Eigenschaft, die Goldminen und Schatzhäusern zueigen ist, muss also auf die Stammzelle zutreffen bzw. mit einem Aspekt von Stammzellen zusammenpassen. Eigenschaften wie ‚wertvoll‘, ‚Schätze bergend‘ können insofern auf Stammzellen bezogen werden, als Stammzellen Heilungschancen für bislang unheilbare Krankheiten zugeschrieben werden. Solche möglichen Heilungschancen stellen einen gesellschaftlich allgemein anerkannten hohen Wert dar. Heilungschancen sind demnach wertvoll für die Menschheit, da sie Leid verhindern oder beenden können. Die Verbindung der Ausdrücke Schatzhaus und Goldmine mit Stammzelle führt somit zu einer erweiterten Bedeutung. Hörmann beschreibt den Prozess des Verstehens wie folgt: Wenn Verstehen ein ‚Sinn-Verleihen durch Hineinstellen in einen Zusammenhang‘ ist, so gewinnt es einen konstruktiven Aspekt: es ist mehr als Rezeption. Der Hörer konstruiert aus dem, was die Äußerung anregt und möglich macht, aus seiner Kenntnis der Situation, aus seiner Welterkenntnis und aus seiner Motivation einen sinnvollen Zusammenhang. Das Erreichthaben eines solchen Zusammenhangs geht einher mit dem subjektiven Gefühl ‚jetzt habe ich es verstanden‘ und der damit gekoppelten Überzeugung, wenn es erforderlich wäre, adäquat handeln zu können. (Hörmann 41994, 137)

2.6 Metaphorisierungsmechanismen: Hiding und Highlighting Ein weiteres Charakteristikum des Metaphorisierungsprozesses, das unmittelbar das Verstehen von Metaphern beeinflusst, besteht darin, dass die Metapher bestimmte Aspekte hervorheben und andere in den Hintergrund treten lassen kann. Dies resultiert daraus, dass Konzept A Konzept B nur partiell strukturieren kann; bei einer kompletten Strukturierung lägen gleiche Bereiche vor. Der Metapher kommt damit eine Filterfunktion zu, denn nur bestimmte Bedeutungsaspekte eines Bereiches/Konzeptes treten in den Vordergrund (highlighting), andere kommen überhaupt nicht zur Geltung (hiding) und treten in den Hintergrund.



Metapher als multimodales kognitives Funktionsprinzip  

 89

Die Prinzipien Hiding und Highlighting gelten als Metaphorisierungsmechanismen oder -prinzipien, die sprachlich als Perspektivierungsprinzipien (u. a. von Köller 2004) aufgefasst werden, weil mit ihnen durch das Hervorheben von Aspekten/Eigenschaften bei gleichzeitiger Vernachlässigung bestimmter Eigenschaften und Aspekte während des Metaphorisierungsprozesses Sachverhalte perspektiviert werden. Dadurch stellt die Verwendung von Metaphern immer schon eine wertende Handlung dar, da Wertungen aufgrund der Filterfunktion den Metaphern inhärent sind. Metaphern können dementsprechend gut zu persuasiven Zwecken eingesetzt werden. Insbesondere im öffentlich-politischen Kommunikationsbereich sind Persuasionshandlungen charakteristische sprachliche Handlungen, die häufig durch Metaphern realisiert werden (vgl. hier z. B. Spieß 2011; Schwarz-Friesel 2015). Pielenz (1993, 100) spricht in diesem Zusammenhang von der Filterfunktion der Metapher, die sich durch Projektion von Aspekten des einen Konzepts auf ein anderes Konzept ergibt. Konzepte können zudem immer nur partiell andere Konzepte metaphorisch strukturieren, weil es keine komplette Passung von Eigenschaften und Bedeutungsaspekten gibt. Würden alle Aspekte und Eigenschaften total passen, würde es sich um identische Konzepte handeln, was bei Metaphorisierungen nicht der Fall ist. Vielmehr ist es so, dass das eine Konzept vom anderen aus verstanden wird bzw. dass durch die Verschmelzung von Bedeutungsaspekten aus beiden Bereichen ein dritter, neuer Bereich (Blend) entsteht (vgl. Fauconnier/Turner 2008).

2.7 Metapher zwischen Innovation und Konventionalisierung Metaphern, die häufig verwendet werden, gerinnen im Laufe der Zeit je nach Gebräuchlichkeit zu festen, lexikalisierten Bedeutungsstrukturen. Ihre Metaphorizität wird nicht mehr unbedingt wahrgenommen. In diesem Zusammenhang wird vielfach diskutiert, ob es sich bei verfestigten und lexikalisierten Metaphern überhaupt noch um Metaphern handelt (vgl. hierzu auch Müller 2008). Böke (1996) wie auch Pielenz (1993) schlagen vor, die Bedeutung von Metaphern auf einer Skala anzuordnen. Das eine Ende der Skala ist mit dem Merkmal Innovation verknüpft, das andere Ende mit dem Merkmal der Konventionalität. Müller (2008, 8) spricht von „Sleeping and Waking Metaphors“. Metaphern lassen sich dann je nach Gebräuchlichkeit auf diesem Kontinuum als mehr oder weniger verfestigt bzw. konventionalisiert beschreiben. Pielenz konstatiert: Die bisherige Dichotomie zwischen lebendiger Metapher mit ihren verschiedenen Synonymen poetisch, originell, imaginativ etc. und schlafender Metapher, austauschbar mit tot, konventionell, fest etc., ist nicht kategorisch zu verstehen, sondern beschreibt vielmehr die Endpunkte eines Kontinuums der Metaphorizität, das am Kriterium der Usualität gemessen wird. (Pielenz 1993, 110–111)



90 

 Constanze Spieß

Die Metaphorizität bereits verfestigter Metaphern kann wieder deutlicher wahrgenommen werden, wenn die Metapher im Gebrauch modifiziert und dadurch neue Aspekte hinzugefügt werden. Ad-hoc Metaphern dagegen sind neue Metaphern, die durch ihre Ungewöhnlichkeit Aufmerksamkeit erregen. Ad-hoc-Metaphern sind in jedem Fall stärker kontextdeterminiert als bereits gebräuchliche bzw. konventionalisierte Metaphern, d. h. sie können nur durch den Kontext verstanden werden. Metaphorische Neuschöpfungen sind vergleichsweise selten, häufiger kommen aber kreative Erweiterungen von Metaphern vor, wenn zum Beispiel bereits konventionalisierte Metaphern hinsichtlich eines oder mehrerer Aspekte erweitert werden (vgl. hierzu Böke 1996, 446 ff.; Pielenz 1993; Spieß 2011). Kriterium für die Konventionalität oder Kreativität von Metaphern ist deren Usualität. Je metaphorischer ein Ausdruck , desto geringer ist seine Usualität. Lebendige Metaphern also, die sich durch ein hohes Maß an Metaphorizität auszeichnen, sind durch ein Minimum an Usualität gekennzeichnet. Schlafende Metaphern hingegen besitzen ein Maximum an Usualität (Pielenz 1993, 111).

Pielenz gibt jedoch zu bedenken, dass die Usualität nur auf der Token-Ebene beschrieben werden kann, dementsprechend kann auch die Konventionalität und Kreativität von Metaphern nur auf Token-Ebene zugeschrieben werden.

3 Funktionen von Metaphern Metaphern erfüllen bestimmte Funktionen in kommunikativen Zusammenhängen, die als kommunikative Leistungen beschrieben und differenziert werden können. Die Funktionen von Metaphern verweisen in besonderer Weise darauf, dass das menschliche Denken, Handeln und Sprechen metaphorisch strukturiert ist. Die zentralen Funktionen und Leistungen lassen sich folgendermaßen bündeln:

3.1 Bennenungsfunktion Nicht selten werden Metaphern verwendet, um neue Sachverhalte zu benennen und damit semantische Lücken zu schließen. Insbesondere bei technischen Innovationen kann diese Funktion beobachtet werden, vor allem im Hinblick auf die Vermittlung von Techniken an ein breites Publikum. Die Ausdrücke Gentaxi, Datenexplosion, Embryonentransfer sind etablierte Beispiele dafür.



Metapher als multimodales kognitives Funktionsprinzip  

 91

3.2 Funktion der Bedeutungskonstitution Neben der Bezeichnungs- oder Benennungsfunktion, die Metaphern zukommt, fungieren sie aus semasiologischer Perspektive aber auch bedeutungskonstitutiv. Mit dem Phänomen werden in kommunikativen Zusammenhängen Bedeutungen hervorgebracht. So werden mit der Verwendung von Metaphern neue Bedeutungen erzeugt oder es werden bestehende Bedeutungen modifiziert. Beispiel (1) zeigt, welche Bedeutung von Politik in der spezifischen Situation der Griechenland-Krise diskursiv erzeugt wird: (1) „Brüssel  – Es ist ein gewaltiges Erdbeben, das an diesem Donnerstagvormittag Europa erschüttert. Das Epizentrum liegt im Brüsseler Büro von Kommissionspräsident JeanClaude Juncker. „Grexit“, das Wort für ein Aus Griechenlands in der Euro-Zone, fällt in diesem Raum zum ersten Mal. Seit sechs Uhr sitzen die Fachleute von Kommissionen, Europäischer Zentralbank (EZB) und Internationalem Währungsfonds (IWF) zusammen.“ (Stuttgarter Nachrichten, 26.6.2015)

Politik wird in diesem Kontext als Naturkatastrophe konzeptualisiert. Mit dieser Konzeptualisierung werden kontextbedingte Schlussprozesse in Gang gesetzt, die Politik mit den Bedeutungsaspekten ‚nicht beeinflussbar‘, ‚unbeherrschbar‘, ,ungeordnet/ ungeregelt‘ oder ‚gefährlich‘ in Verbindung bringen.

3.3 Fokussierungsfunktion und Persuasionsfunktion Mit den beiden metaphorischen Mechanismen des hiding und highlighting liegen zwei Grundprinzipien von Metaphorisierungsprozessen vor, die dafür verantwortlich sind, dass mittels der verwendeten Metapher spezifische Aspekte fokussiert werden. Damit zusammen hängt zugleich die Funktion der Perspektivierung von Sachverhalten, die daraus resultiert, dass Konzepte immer nur partiell andere Konzepte metaphorisch strukturieren können. Fokussierte Aspekte können in kommunikativen Situationen persuasiv zum Einsatz gebracht werden. Metaphern sind dementsprechend besonders gut für Persuasions- und Evaluationshandlungen geeignet. Pielenz (1993, 100) spricht diesbezüglich von der Filterfunktion der Metapher, Köller (2004) schreibt Metaphern eine Perspektivierungsfunktion zu, wie Beleg (2) aus dem Stammzelldiskurs verdeutlicht. (2) „Embryonen sind längst schon ein Abfallprodukt – Überbleibsel der Sehnsucht nach einem Kind. […] Jetzt sind aber Embryonen zu einem Abfallprodukt der Forschung geworden. […] Aus den übrigen züchteten sie Stammzellen, die als mögliche Heilsbringer für Kranke gehandelt werden.“ (SZ, 13.7.2001)



92 

 Constanze Spieß

Mit der Metaphorisierung des Embryos als ein Produkt wird auf die Verwertbarkeit des Embryos fokussiert; Aspekte der Kontingenz des Menschen oder der menschlichen Würde werden dagegen ausgeblendet. Die Bewertung des Embryos als ein Produkt wird im Stammzelldiskurs u. a. dazu genutzt, für die Akzeptanz von Stammzellforschung zu werben.

3.4 Sachverhalts-/Wissenskonstituierung Wenn neue Techniken durch Metaphern benannt werden, werden mit der sprachlichen Benennung zugleich Sachverhalte und damit Wissen konstituiert. Dabei wird der Sachverhalt perspektiviert (vgl. Köller 2004). Die Perspektivierung wird deutlich, wenn es für einen Sachverhalt unterschiedliche Benennungen gibt, was häufig bei umstrittenen Techniken der Fall sein kann. So werden im Diskurs um Stammzellforschung Stammzellen zum einen mit dem Ausdruck menschliches Leben bezeichnet, zum anderen mit den Ausdrücken Jungbrunnen, Alleskönner, Rohstoff oder Lebenselixier. (3) „Jungbrunnen für Zellen – Japanische und US-amerikanische Forscher können Zellen mithilfe von schwacher Zitronensäure in einen embryonalen Zustand zurückversetzen. Gelungen ist die Verjüngung bei Mäusezellen, meldet das Fachmagazin „Nature“. Die Eigenschaften dieser Zellen ähneln embryonalen Stammzellen.“ (Kurier, 29.1.2014)

3.5 Wissensvermittlung und Veranschaulichung von Wissen Neben der Sachverhaltskonstitution spielt die Veranschaulichung von komplexen Vorgängen durch Metaphern eine wichtige Rolle. Metaphern eignen sich in besonderer Weise dazu, solche Vorgänge zu veranschaulichen, was u. a. mit der Struktur des Metaphorisierungsprozesses, in dem zwei voneinander unabhängige Konzepte zueinander in Beziehung gesetzt werden, zusammenhängt. Durch die Inbezugsetzung werden Bedeutungsaspekte entweder von einem Bereich auf den anderen übertragen oder Bedeutungsaspekte beider Bereiche in einem dritten Bereich miteinander verschmolzen. Metaphern haben somit eine erkenntnisfördernde Funktion. Prototypischerweise wird bei der Metaphorisierung Abstraktes durch Konkretes veranschaulicht, was z. B. beim Metaphernkonzept Gehirn als Computer deutlich wird. Die Komplexität der Vorgänge im Gehirn wird durch den Bereich Computertechnik, der aus der Alltagserfahrung bekannt ist, plausibilisiert und veranschaulicht, wie folgendes Beispiel zeigt: (4) „Aber wo sitzen diese Informationen, wie werden sie gespeichert? Und woher weiß das Gedächtnis, was es sich merken muss und was nicht? […] Die allermeisten Bilder, Geräusche und Gerüche merken wir uns aber überhaupt nicht. Das Gehirn wäre sonst überfor-



Metapher als multimodales kognitives Funktionsprinzip  

 93

dert. Nur ein kleiner Teil der Eindrücke schafft es ins sogenannte Arbeitsgedächtnis – und selbst davon wird das meiste nach wenigen Minuten von neuen Eindrücken überschrieben.“ (Dein Spiegel 2/2013)

3.6 Textorganisation, Konstitution von Textkohärenz Wie bereits im Abschnitt zu den Formen von Metaphern deutlich geworden ist, können Metaphern ganze Texte strukturieren bzw. organisieren und so die Kohärenz des Textes gewährleisten. Häufig werden dabei unterschiedliche Metaphern miteinander vernetzt, die dann wiederum durch den Kontext semantische Erweiterungen erfahren. Weinrich spricht sogar davon, dass „eine Metapher […] folglich nie ein einfaches Wort, immer ein  – wenn auch kleines  – Stück Text [ist]“ (Weinrich 1967, 5). Beleg (1) (s. Kap. 3.2) ist ein Beispiel dafür, dass Metaphern kontextabhängig sind. Erst die Sätze 2 und 3 des Textauszugs konstituieren Satz 1 als metaphorische Ausdrucksweise.

3.7 Kognitive Wissensstrukturierung Metaphern können in unterschiedliche Ebenen differenziert werden. Auf der untersten Ebene, die zugleich auch die sprachliche Realisation umfasst, finden sich die Metapherntoken. Von ihnen aus kann auf die Konzepte geschlossen werden bzw. die Token können Konzepten zugeordnet werden. Verschiedene Konzepte (Types) wiederum bilden einen Metaphernbereich (vgl. hierzu Liebert 1992). Ein Beispiel soll dies verdeutlichen: Dem Metaphernbereich der Bewegungsmetaphern gehört das Konzept Entscheidungen sind Wege an. Das Konzept wird innerhalb von Diskursen bzw. im Sprachgebrauch in verschiedene Types differenziert. So können Wege als Hindernisse, als Königswege, als Sackgassen oder als Umwege konzeptualisiert werden. (5) „Manche, wie der Kölner Neurophysiologe Jürgen Hescheler, beteiligen sich sogar mit Ideen an der öffentlichen Debatte, die nicht nur originell erscheinen, sondern bei manchen sogar die Hoffnung auf Bahnbrechendes, wenn nicht einen ‚Königsweg‘ in der Stammzellforschung keimen lassen.“ (FAZ 25.1.02) (6) „Wer die Frage zu klären sucht, wann das Leben beginnt, befindet sich bereits in einer Sackgasse.“ (FAZ 8.8.01) (7) „Robert Koopmann von der Welthandelsorganisation wies denn auch darauf hin, dass weltweit einheitliche Handelsregeln noch immer das Ziel sein sollten. Der Weg über TTIP, so wurde deutlich, ist hingegen ein Umweg, dessen Erfolg für weitere Länder von zahlreichen Faktoren abhängen wird.“ (Die Presse, 31.8.2015)



94 

 Constanze Spieß

3.8 Metaphern als verdichtete Argumentationen Metaphern ist, so Schwarz-Friesel (2015) oder Pielenz (1993), ein gewisses Inferenzpotenzial inhärent, was wiederum mit der spezifischen Projektionsstruktur zusammenhängt. Pielenz (1993, 105–108) kommt zu dem Schluss, dass mit dem Metaphorisierungsprozess Schlussprozesse in Gang gesetzt werden. Ihnen kann somit eine Argumentationsfunktion zugeschrieben werden, da sie strukturell Argumentationen ähneln. Damit Metaphern verstanden werden können, wird von einem Bereich auf einen anderen mithilfe von Schlussregeln geschlossen. Folgendes Beispiel verdeutlicht die Argumentationsfunktion von Metaphern: (8) „Mit der Zulassung des Imports embryonaler Stammzellen bricht der Damm. Dessen muß sich jeder bewußt sein, der zum jetzigen Zeitpunkt für die Zulassung plädiert.“ (FAZ 28.1.2002c)

Die Metapher der Damm bricht impliziert, dass unter bestimmten Bedingungen (die Zulassung des Imports embryonaler Stammzellen) eine große Gefahr für die Menschheit droht. Mit Dammbrüchen werden negative Folgen assoziiert, gegen die etwas getan werden muss. Die Inferenz, die durch die Metapher in Gang gesetzt wird (und immer auch kontextabhängig ist) könnte lauten: Weil eine große Gefahr droht, muss etwas dagegen unternommen werden.

4 Zusammenfassung Mit der Metapher liegt ein Phänomen vor, das in seiner Erscheinungsweise durchaus komplex ist, das aber unabhängig von verschiedenen Modalitäten, in denen sich Metaphern realisieren können, als kognitiver Prozess aufgefasst wird. Die sprachlichen und nicht-sprachlichen Metaphernrealisationen lassen auf mentale Strukturen und Prozesse schließen, die als unidirektionale oder bi- bzw. pluridirektionale Projektionen beschrieben und mit den Konzepten des Mapping oder Blending erfasst werden können. Mittlerweile konnte durch zahlreiche linguistische empirische Studien belegt werden, dass die mentalen metaphorischen Prozesse dabei immer schon von soziopragmatischen Faktoren abhängig und für das Verständnis von Metaphern notwendig sind (vgl. Liebert 1992; Böke 1996, 1997; Kuck/Römer 2012; Spieß 2011, 2012, 2014). Aus diesem Grund haben sich zur linguistischen Beschreibung von Metaphern Metaphernmodelle etabliert, die sich einerseits am kognitiven Paradigma orientieren, dieses aber um soziopragmatische Faktoren erweitern, um Metaphern in ihrer Komplexität adäquat beschreiben zu können. Insbesondere die unterschiedlichen Funktionen von Metaphern verweisen darauf, dass sie sowohl das Denken, als auch das Sprechen und Handeln prägen, beeinflussen und perspektivieren. So werden durch Metaphorisierungen bestimmte Aspekte von Sachverhalten hervorge

Metapher als multimodales kognitives Funktionsprinzip  

 95

hoben, andere dagegen vernachlässigt. Metaphern eignen sich dementsprechend gut für persuasive Zwecke. Dessen sollte man sich immer, gerade auch in vermeintlich objektiven Kontexten der Wissensvermittlung, bewusst sein. Im Kontext multimodaler Kommunikation stellen sprachliche Metaphern eine Realisationsmöglichkeit unter vielen dar. Müller (2008, 32) spricht gar davon, dass Metaphern modalitätsunabhängig sind und sich in vielen Modalitäten zeigen können, worauf bislang auch verschiedene andere Studien aufmerksam gemacht haben (vgl. u. a. Kienpointner 2007; Zbikowski 2010; Forceville 2010 und i. d. B.). Die Vielgestaltigkeit metaphorischer Realisierungsformen (u. a. auch durch die Kombination verschiedener Zeichenmodalitäten) bietet genügend Anlass zu weiterer Forschung.

5 Literatur Aristoteles (1982): Poetik. Hrsg. u. übers. v. Manfred Fuhrmann. Stuttgart. Baldauf, Christa (1997): Metapher und Kognition. Grundlagen einer neuen Theorie der Alltagsmetapher. Frankfurt a. M. u. a. Black, Max (21996a): Die Metapher. In: Anselm Haverkamp (Hg.): Theorie der Metapher. Darmstadt, 55–79. Black, Max (21996b): Mehr über die Metapher. In: Anselm Haverkamp (Hg.): Theorie der Metapher. Darmstadt, 379–413. Böke, Karin (1996): Überlegungen zu einer Metaphernanalyse im Dienste einer „parzellierten“ Sprachgeschichte. In: Karin Böke u. a. (Hg.): Öffentlicher Sprachgebrauch. Praktische, theoretische und historische Perspektiven. Georg Stötzel zum 60. Geburtstag gewidmet. Opladen. Braun, Christian (2009): Die Metapher im Koordinatenfeld ihrer Merkmale. Eine syntaktische Klassifikation. In: Sprachwissenschaft 34, 31–72. Cienki, Alan/Cornelia Müller (2010): Metaphor, gesture, and thought. In: Gibbs (ed.), 483–501. Czachur, Waldemar (2015): Semantischer und funktionaler Wandel von Metapher und Metonymie. Polnische Wirtschaft im deutschen Mediendiskurs zur Wirtschaftskrise. In: Spieß/Köpcke (Hg.), 227–246. Fahlenbrach, Kathrin (2010): Audiovisuelle Metaphern. Zur Körper- und Affektästhetik in Film und Fernsehen. Marburg. Fauconnier, Gilles/Mark Turner (1998): Conceptual integration networks. In: Cognitive Science 22 (2), 133–187. Fauconnier, Gilles/Mark Turner (2008): Rethinking metaphor. In: Gibbs (ed.), 53–66. Fehse, Beatrix (2014): Kunstwerke ‘lesen’ und verstehen – ja, geht denn das? Ein Modell zur Identifikation und Analyse von Metaphern in Text-Bild-Gefügen. In: Roll, Heike/Spieß, Constanze (Hg.): Kunst durch Sprache – Sprache durch Kunst. OBST 84, 75–98. Fillmore , Charles (1985): Frames and semantics of understanding. In: Quaderni die Semantica 6 (2), 222–254. Forceville, Charles (2010): Metaphor in pictures and multimodal representations. In: Gibbs (ed.), 462–482. Forceville, Charles/Eduardo Urios-Aparisi (eds.) (2009): Multimodal Metaphor. Berlin/New York. Gehring, Petra (2013): Die Metapher zwischen den Disziplinen – Methodenpluralismus in der Metaphernforschung. In: Marie Lessing/Dorothee Wieser (Hg.): Zugänge zu Metaphern –



96 

 Constanze Spieß

Übergänge durch Metaphern. Kontrastierung aktueller disziplinärer Perspektiven. München, 13–28. Gibbs, Raymond (ed.) (2010): The Cambridge Handbook of Metaphor and Thought. Cambridge. Goschler, Juliana (2008): Metaphern für das Gehirn. Eine kognitiv-linguistische Untersuchung. Berlin. Grady, Joseph/Todd Oakley/Seana Coulson (1999): Blending and metaphor. In: Raymond Gibbs/ Gerard Lessing (eds.): Metaphor in Cognitive Linguistics. Elected Papers from the Fifth International Cognitive Linguistic Conference Amsterdam, July 1997. Amsterdam, 101–124. Grice, Herman P. (1989): Logic and Conversation. In: Herman P. Grice (ed.): Studies in the Way of Word. Cambridge, 22–40. Hörmann, Hans (41994): Meinen und Verstehen. Grundzüge einer psychologischen Semantik, Frankfurt a. M. Jäkel, Olaf (1997): Metaphern in abstrakten Diskursdomänen. Eine kognitiv-linguistische Untersuchung anhand der Bereiche Geistestätigkeit, Wirtschaft und Wissenschaft. Frankfurt a. M. u. a. Junge, Matthias (Hg.) (2011): Metaphern und Gesellschaft. Die Bedeutung der Orientierung durch Metaphern. Wiesbaden. Junge, Matthias (Hg.) (2014): Methoden der Metaphernforschung und –analyse. Wiesbaden. Kienpointner, Manfred (2007): Visuelle Metaphern. Antike Vorlagen, zeitgenössische Adaptierungen. In: Martin Korenjak/Stefan Tilg (Hg.): Pontes IV. Die Antike in der Alltagskultur der Gegenwart. Innsbruck/Wien/Bozen, 215–227. Köller, Wilhelm (2004): Perspektivität und Sprache. Zur Struktur von Objektivierungsformen in Bildern, im Denken und in der Sprache. Berlin/New York. Köpcke, Klaus-Michael/Constanze Spieß (2013): Metaphern als Gelenkstück eines integrativen Sprach- und Literaturunterrichts. In: Arne Ziegler/Klaus-Michael Köpcke (Hg.): Schulgrammatik und Sprachunterricht im Wandel. Berlin/Boston, 253–285. Kövecses, Zoltán (2010): Metaphor. A Practical Introduction. Oxford. Kuck, Kristin/Römer, David (2012): Metaphern und Argumentationsmuster im Mediendiskurs zur Finanzkrise“. In: Peltzer, Anj/Lämmle, Kathrin/Wagenknecht, Andreas (Hg.): Krise, Cash & Kommunikation. Die Finanzkrise in den Medien. Konstanz/München, 71–93. Langacker, Ronald (1986): An introduction to cognitive grammar. In: Cognitive Science 10, 1–40. Lakoff, George (1987): Woman, Fire, and Dangerous Things. What Categories Reveal about the Mind. Chicago/London. Lakoff, George/Mark Johnson (1980): Metaphors We Live by. Chicago. Lakoff, George/Johnson, Mark (1999): Philosophy in the Flesh. The Embodied Mind and its Challenge to Western Thought. New York. Liebert, Wolf-Andreas (1992): Metaphernbereiche der deutschen Alltagssprache. Kognitive Linguistik und die Perspektiven einer kognitiven Lexikographie. Frankfurt a. M. u. a. Liebert, Wolf-Andreas (2008): Metaphernforschung. In: Fix, Ulla/Ungeheuer, Gerold/Wiegand, Herbert Ernst (Hg.): Handbücher zur Sprach- und Kommunikationswissenschaft. Band 31, Rhetorik und Stilistik, 743–757. Müller, Cornelia/Alan Cienki (2009): Words, gestures, and beyond. Forms of multimodal metaphor in the use of spoken language. In: Charles Forceville/Eduardo Urios-Aparisi (eds.): Multimodal Metaphor. Berlin/New York, 297–328. Müller, Cornelia (2008): Metaphors dead and Alive. Sleeping and Waking. A dynamic View. Chicago. Musolff, Andreas (2007): Popular science concepts and their use in creative metaphors in media discourse. In: Metaphorik.de 13, 66–86. Online unter: http://www.metaphorik.de/13/ [zuletzt abgerufen am 1.9.2015]



Metapher als multimodales kognitives Funktionsprinzip  

 97

Musolff, Andreas (2015): Metaphern. Quellen von Missverständnissen im interkulturellen Diskurs. In: Spieß/Köpcke (Hg.), 247–265. Nerlich, Brigitte/David D. Clarke (2003): Blending the past and the present. Conceptual and linguistic integration, 1800–2000. In: René Dirven/Ralf Pörings (eds.): Metaphor and Metonymy in Comparison and Contrast. Berlin/New York, 555–593. Pielenz, Michael (1993): Argumentation und Metapher. Tübingen. Quintilian (2001a): The Orator`s Education Books 1–2. Edited and Translated by Donald A. Russell. Cambridge. Quintilian (2001b): The Orator`s Education Books 6–8. Edited and Translated by Donald A. Russell. Cambridge. Richards, Ivor (1936): Philosophy of Rhetoric. Oxford. Dt.: Die Metapher. In: Anselm Haverkamp (Hg.) (21996): Theorie der Metapher. Studienausgabe. Darmstadt, 31–52. Rolf, Eckard (2005): Metaphertheorien. Typologie, Darstellung, Bibliographie. Berlin/New York. Rosch, Eleanore (1978): Principles of categorization. In: Rosch, Eleanore/Lloyd, Barbara (eds.): Cognition and Categorization. Hillsdale/New Jersey, 27–48. Schwarz-Friesel, Monika (2015): Metaphern und ihr persuasives Inferenzpotenzial. In: Spieß/Köpcke (Hg.), 143–160. Skirl, Helge und Monika Schwarz-Friesel (2013): Metapher. 2. Aufl. Heidelberg. Sperber, Dan/Deirdre Wilson (22010): A deflationary account of metaphors. In: Gibbs (ed.), 84–105. Spieß, Constanze (2011): Diskurshandlungen. Theorie und Methode linguistischer Diskursanalyse am Beispiel der Bioethikdebatte. Berlin/Boston. Spieß, Constanze (2012): Metaphern als Sprachstrategien – Zur sprachlichen Manifestation von Konflikthaftigkeit im Stammzelldiskurs. In: Constanze Spieß (Hg.): Sprachstrategien und Kommunikationsbarrieren. Zur Rolle und Funktion von Sprache in bioethischen Diskursen. Bremen, 177–200. Spieß, Constanze (2014): Diskurslinguistische Metaphernanalyse. In: Matthias Junge (Hg.): Methoden der Metaphernforschung und -analyse. Wiesbaden, 31–60. Spieß, Constanze/Klaus-Michael Köpcke (2015): Metapher und Metonymie. Theoretische, methodische und empirische Zugänge. Eine Einführung in den Sammelband. In: Spieß/Köpke, 1–21. Spieß, Constanze/Klaus-Michael Köpcke (Hg.) (2015): Metapher und Metonymie. Theoretische, methodische und empirische Zugänge. Berlin/Boston. Spitzmüller, Jürgen (2005): Metasprachdiskurse. Einstellungen zu Anglizismen und ihre wissenschaftliche Rezeption, Berlin/New York. Weidner, Beate (2015): prodesse et delectare, wenn Lanz kocht! Kommunikative Verfahren der Herstellung von Infotainment in einer TV-Kochsendung. In: Cölfen, Hermann (Hg.): Brot und Spiele – Sprache, Kochen und Essen. OBST 87, 177–201. Weinrich, Harald (1983 [1963]): Semantik der kühnen Metapher. In: Haverkamp, Anselm (Hg.): Theorie der Metapher. Studienausgabe. Darmstadt, 316–339. Weinrich, Harald (1967): Semantik der Metapher. In: Folia Linguistica 1, 1–17. Weinrich, Harald (2010): Art. Metapher. In: Joachim Ritter u. a. (Hg.): Historisches Wörterbuch der Philosophie. Volltext CD-Rom des Gesamtwerkes. Wengeler, Martin (2003): Topos und Diskurs. Begründung einer argumentationsanalytischen Methode und ihre Anwendung auf den Migrationsdiskurs (1960–1985). Tübingen. Zbikowski, Lawrence (2010): Metaphor and music. In: Gibbs (ed.), 502–524. Ziem, Alexander (2008): Frames und sprachliches Wissen. Kognitive Aspekte der semantischen Kompetenz. Berlin/New York.



98 

 Constanze Spieß

Quellen [Spiegel 48/98] Grolle, Johann (1998): Es gibt kein Halten mehr. In: Der Spiegel 48/1998, 272–276. [SZ 26.1.99] Goldhahn, Sabine (1999): Blut entsteht aus Hirn. Möglicher Einsatz für Embryonenforschung. In: Süddeutsche Zeitung Nr. 20 (26.01.1999), V2/9. [FAZ 31.5.01] Müller-Jung, Joachim (2001): Bioingenieure im Rausch der Geschwindigkeit. In: Frankfurter Allgemeine Zeitung Nr. 125 (31.05.2001), S. 21. [FR 20.6.01] Kettner, Matthias (2001): Keime der Vernunft? Von den Stammzellen zur Moral der Faszination. In: Frankfurter Rundschau Nr. 140 (20.06.2001), S. 17. [SZ 13.7.01] Wormer, Holger (2001): „Abstürze auf einer glitschigen Piste“. Empörung über die Herstellung von Embryonen für die Forschung. US-Firma bestätigt auch Klon-Versuche. DFG-Präsident Winnacker sieht rein kommerzielle Interessen. In: Süddeutsche Zeitung Nr. 159 (13.07.2001), S. 6. [FAZ 8.8.01] Schmoll, Heike (2001): Sackgasse der bioethischen Debatte. In: Frankfurter Allgemeine Zeitung Nr. 182 (08.08.2001), S. 1. [FAZ 25.1.02] Müller-Jung, Joachim (2002): Ein Königsweg zu Stammzellen? Die Vorschläge für ethisch unverfängliche Lösungen wuchern. In: Frankfurter Allgemeine Zeitung Nr. 21 (25.01.2002), S. 46. [FAZ 28.1.02] Müller, Peter (2002): Dammbruch. In: Frankfurter Allgemeine Zeitung Nr. 23 (28.01.2002), S. 12. [Stuttgarter Nachrichten 26.6.15] Drewes, Detlef (2015): Grexit oder nicht? Der Griechenland-Krimi. Online unter: http://www.stuttgarter-nachrichten.de/inhalt.grexit-oder-nicht-der-griechenlandkrimi.62b35aac-1892-4afd-9497-996d141d5291.html [zuletzt zugegriffen am 1.9.2015] [Die Presse, 31.8.2015] Unsicherer Weg zu einer gerechteren Welthandelsordnung. Online unter: http://diepresse.com/home/alpbach/4810729/Unsicherer-Weg-zu-einer-gerechterenWelthandelsordnung?from=suche.intern.portal. [Kurier 29.1.2014] Jungbrunnen für Zellen. Online unter: http://kurier.at/lebensart/gesundheit/ jungbrunnen-fuer-zellen/48.786.722 [zuletzt abgerufen am 1.9.2015]



Jürgen Spitzmüller

4. Typographie – Sprache als Schriftbild Abstract: Dieser Artikel bietet einen Überblick über sprachwissenschaftliche Zugänge zu Typographie. Er erläutert, was in den verschiedenen linguistischen Teildisziplinen, die sich mit dem Thema befassen, unter Typographie verstanden und wie sie kommunikationstheoretisch eingestuft wird. Weiterhin werden die Entwicklung der verschiedenen Forschungsvarianten sowie deren markanteste Positionen und wichtigste Konzepte skizziert. Ziel des Artikels ist die Darstellung und Kontrastierung der unterschiedlichen Perspektiven und kommunikationstheoretischen Positionen, von denen aus „Sprache als Schriftbild“ linguistisch betrachtet wird und betrachtet werden kann, sowie die Erläuterung der Implikationen, die sich aus diesen Positionierungen ergeben. Hierfür werden die verschiedenen Positionen und Konzepte im letzten Teil des Artikels an einem Beispiel illustriert und bewertet. 1 Einleitung 2 Linguistische Typographieforschung 3 Exemplifizierung und Vergleich 4 Abschließende Diskussion und Fazit 5 Literatur

1 Einleitung 1.1 Sprache als Schriftbild – Schriftbild als Sprache? Seit gut einem Jahrzehnt ist in der Linguistik – insbesondere in der Textlinguistik und Textstilistik, der Medienlinguistik, der Werbesprachforschung, der Textrezeptionsforschung, der Sprachkulturgeschichte, der Schriftlinguistik und neuerdings auch in der Soziolinguistik – ein stetig steigendes Interesse an der ‚Bildlichkeit‘ der Schrift zu konstatieren. Nachdem materielle Aspekte der Kommunikation und damit auch die Typographie unter anderem durch den Genfer Strukturalismus und seine Anhänger als für den „einzige[n] wirkliche[n] Gegenstand“ (de Saussure [1916] 1967, 279) der Linguistik, das Sprachsystem, „gänzlich gleichgültig“ (de Saussure [1916] 1967, 143) eingestuft und für Jahrzehnte systematisch aus dem Gegenstandsbereich der Sprachwissenschaft ausgelagert wurden (vgl. Spitzmüller 2013a, 82–106), ist dies eine durchaus bemerkenswerte Entwicklung. Das ‚Schriftbild‘ wird von immer mehr Linguistinnen und Linguisten als ein zu Sprache gehörendes Phänomen und mithin als Teil des Gegenstandsbereichs ihres Fachs aufgefasst. Das hat zweifellos wesentlich damit zu tun, dass zu diesem Gegenstandsbereich, anders als es der Genfer Struk

100 

 Jürgen Spitzmüller

turalismus mit bekanntlich vor allem heuristischer Intention bestimmt hat, seit der ‚pragmatischen Wende‘ zunehmend Aspekte der Sprachperformanz gezählt werden. Der (linguistische) Gegenstand Sprache wird somit längst nicht mehr nur als eine abstrakte, medienindifferente Größe bestimmt, sondern auch als mediale, materielle Realisierung. Und so betrachtet muss Sprache dann eben auch materiell und konkret ‚erscheinen‘, als artikulierte Lautfolge, als motorisch produzierte Geste oder eben als manuell oder technisch erzeugtes Schriftbild. Wenn Typographie als linguistischer Gegenstand Relevanz erlangt, dann ist damit aber natürlich mehr gemeint, als dass sie einfach nur die ‚Verkörperlichung‘ geschriebener Sprache ist, die „unverzichtbare Lebensgrundlage [des Textes], der Ort und der Stoff seiner Existenz“ (Stöckl 2004b, 15). Relevant wird sie deshalb, weil sie ein deutbares „Gewand“ des Textes sein kann, eine „gestaltbare Hülle“, aus der sich unter anderem „Rückschlüsse auf die Botschaft, den Textproduzenten und seine kommunikative Situation und Wirkungsabsichten“ (Stöckl 2004b, 15–16) ziehen lassen. Relevant wird sie also, weil sie selbst nicht nur Sprache sichtbar macht, sondern durch die Art und Weise, wie das geschieht, die Rezeption geschriebener Sprache in der einen oder anderen Weise mitbestimmt. In welcher Weise das geschieht, ist nun allerdings eine in der Forschung umstrittene Frage. Ebenso umstritten ist, welchen funktionalen Status man der Textgestalt zuschreiben sollte. Ist Typographie ein sekundärer oder subsidiärer Modus des Geschriebenen, die den verbal konstituierten ‚Sinn‘ von Texten gewissermaßen nur verschärft, oder ist sie ein System eigenen Rechts? Ist Typographie ein stilistisches Para-Phänomen, dessen Deutung nur kontextuell und intermodal (mit Bezug auf den verbal konstituierten ‚Sinn‘) erklärbar ist, oder ist das Schriftbild selbst eine Art Sprache mit eigenen, kontextabstrakt bestimmbaren Regeln (einer „Grammatik“, wie es Kress/van Leeuwen 2006, allerdings sehr metaphorisch, mit Blick auf visuelle Gestaltung insgesamt ausdrücken)? Solche Fragen sind auch wichtig hinsichtlich der (noch zu entwickelnden) Methodologie einer an Typographie interessierten Linguistik. Wenn Typographie als Sprache konzipiert wird, dann verbindet sich damit die Annahme (bzw. die Hoffnung), dass dieser Gegenstand mit den tradierten, an verbaler Sprache entwickelten Konzepten, Theorien und Methoden der Linguistik untersucht und beschrieben werden kann. Es verbindet sich damit auch der Anspruch, dass die Linguistik aufgrund ihrer Expertise in Sachen Sprache zu Typographie etwas Fundiertes sagen kann. Wenn Typographie hingegen als etwas Eigenständiges, mit Sprache im Sinne des linguistischen Gegenstands nicht unmittelbar Vergleichbares, aber dennoch zum Gegenstandsbereich der Linguistik Gehörendes verstanden wird, so ist damit die Aufforderung verbunden, dass das Fach sein Methodenspektrum erweitern muss, um andere als verbale Modalitäten beschreiben zu können. Damit verbindet sich die Annahme, dass das akkumulierte Wissen der Disziplin zur Beschreibung dieses Gegenstands nicht ausreicht, dass die Linguistik also zum einen auf externe Expertise angewiesen ist, zum anderen auch neue Erkenntniswege zu beschreiten bereit sein muss. In der Praxis sind die Positionen zwar nicht so binär aufteilbar, sondern sie liegen, wie immer in diszipli

Typographie – Sprache als Schriftbild 

 101

nären Kontroversen, auf einem Kontinuum zwischen den beiden skizzierten Modellpositionen verteilt. Die Implikationen, die mit der Tendenz zur einen oder anderen Position verbunden sind, lassen sich aber in der Forschungsdiskussion dennoch gut erkennen. Was nun aber ist Typographie? In den Texten, die sich mit dem Thema befassen, wird dieser Terminus nicht einheitlich und häufig auch nicht terminologisch präzise gebraucht. Daher soll er nun, bevor die Forschungsdiskussion im nächsten Abschnitt genauer dargelegt wird, erläutert und differenziert werden.

1.2 Typographie: Textgestaltung und Textgestalt Typographie (von griechisch τύπος ‚Buchstabe, Zeichen‘ und γράφειν ‚ritzen, schreiben‘) bezeichnet zwar ursprünglich nur ein spezifisches Druckverfahren, nämlich den Hochdruck mit wiederverwendbaren, beweglichen Lettern (vgl. Brekle 1997). In dieser spezifischen Lesart wird der Ausdruck heute aber sowohl in der gestaltungstheoretischen als auch in der linguistischen Fachliteratur nur noch selten verwendet (wenn in letzterer, dann vor allem in mediengeschichtlichen Darstellungen; vgl. etwa Brekle 1994). Als Resultat einer umfassenden, vor allem mediengeschichtlich bedingten Begriffserweiterung (vgl. dazu Wehde 2000, 3–5; Spitzmüller 2012b) bezeichnet der Ausdruck heute fachsprachlich drei verschiedene Phänomene, nämlich (1.) die Gestaltung (im Sinne der Planung und Herstellung) eines mit spezifischen Techniken erzeugten Textes, (2.) die (visuelle und haptische) Gestalt (im Sinne einer Erscheinung) eines mit spezifischen Techniken erzeugten Textes sowie (3.) die Lehre von der Gestaltung und Gestalt (sowohl im Sinne der Planung/Herstellung als auch im Sinne der Erscheinung) eines mit spezifischen Techniken erzeugten Textes. In der Linguistik ist vor allem die zweite Bedeutung gemeint, wenn von Typographie die Rede ist: die (visuelle und haptische) Gestalt eines mit spezifischen Techniken erzeugten Textes. Zu den mit spezifischen Techniken erzeugten Texten werden dabei sowohl gedruckte Texte (in der Regel ungeachtet der Drucktechnik) als auch elektronisch gespeicherte Texte gerechnet, üblicherweise jedoch keine Texte, die mit handschriftlichen (chirographischen) Techniken erzeugt wurden und auch keine elektronisch gespeicherten oder maschinell vervielfältigten handschriftlich erzeugten Texte. Die Frage, was als ‚handschriftlich erzeugt‘ und somit als ‚chirographisch‘ gelten kann, ist allerdings nicht leicht zu beantworten (vgl. dazu Neef 2008). In der Regel liegt der Fokus sowohl linguistischer als auch gestaltungstheoretischer Betrachtung auf der visuellen Dimension der Textgestalt(ung), wie die in der Gestaltungstheorie und in Teilen der Linguistik heutzutage übliche Zurechnung der Textgestalt(ung) zur visuellen Kommunikation verdeutlicht. Andererseits jedoch fasst man in der Gestaltungstheorie unter Typographie nicht nur visuelle Aspekte. Der Terminus bezeichnet auch haptische Phänomene, die durchaus auch das Resultat aktiver Gestaltungsarbeit sein können; man denke an die Auswahl der Papiersorte 

102 

 Jürgen Spitzmüller

und der Umschlagmaterialien (Dicke, Dichte, Textur usw.) sowie die Nutzbarmachung haptischer Kanäle bei der Schriftgestaltung (etwa im Prägedruck). Nun ist die Berücksichtigung anderer als nur des visuellen Sinnkanals bei der Beschreibung der Textmaterialität auch für die Linguistik wichtig, denn schließlich werden Texte nicht nur mit dem Auge wahrgenommen (vgl. dazu Holly 1997; Wienen 2007). Und auch Schrift als Code-System lässt sich nicht ausschließlich über ihre Visualität beschreiben; wie die Braille-Schrift zeigt, ist Schrift nicht einmal notwendigerweise (primär) visuell konstituiert (vgl. Harris 2005, 74, der mit guten Gründen Räumlichkeit statt Visualität als zentrales Kriterium von Schrift vorschlägt). Multimodale Textanalyse und/oder Schriftbeschreibung erschöpft sich somit nicht in Analysen des Visuellen. Ob man aber, wie in der Gestaltungstheorie üblich, die nicht-visuellen Dimensionen des Textes und der Schrift ebenfalls als Typographie bezeichnen sollte, bleibt zu diskutieren. Im Dienste der Bezeichnungspräzision erscheint es sinnvoller, die Graphie auf visuelle Phänomene und mithin auf einen Teilbereich des schriftlichen Ausdrucks zu beschränken und nicht-visuelle Bereiche anderweitig zu benennen, gleichzeitig aber Skripturalität und Textgestalt als nicht nur graphische/visuelle, sondern als multisensorische Phänomene zu fassen (vgl. dazu Spitzmüller 2013a, 15–20). Nicht nur hinsichtlich der sensorischen Extension ist der Fachbegriff Typographie weiter als der alltagssprachliche Typographiebegriff, auch das Arsenal der textgestalterischen Phänomene, die er bezeichnet, ist größer. Fachsprachlich bezeichnet Typographie nämlich nicht nur (wie dies alltagssprachlich weithin üblich ist) die Schriftform (Schriftart, Schriftgröße, Schriftschnitt usw.), sondern darüber hinaus auch die Gestaltung und Komposition der Seite (Abstände, Satzspiegel, Text-Bild-Anordnung usw., alltagssprachlich häufig pars pro toto als Layout bezeichnet) sowie auch die Gesamtgestaltung eines Werks (bis hin zur oben erwähnten Papierauswahl und Umschlaggestaltung). Zur terminologischen Differenzierung dieses großen Bereichs hat sich in der Gestaltungslehre die Unterscheidung in Mikro- und Makrotypographie etabliert, die verschiedene Bereiche der Gestaltungsarbeit benennt. Der Bereich der Mikrotypographie umfasst hierbei die Formmerkmale der Schrift (den Verantwortungsbereich des Schriftgestalters) und ihre Anordnung der Lettern zu Wörtern und Zeilen (klassischerweise den Verantwortungsbereich des Schriftsetzers), Makrotypographie alle Gestaltungsaufgaben über die Zeile hinaus (den Verantwortungsbereich des Layouters und Buchgestalters). Für die linguistische Analyse hat Stöckl (2004b, 22–23) eine daran angelehnte, inhaltlich aber abweichende Viererkategorisierung vorgeschlagen, die vor allem textfunktional ausgerichtet ist und im oben ausgeführten Sinn eher die Gestalt als die Gestaltung im Blick hat: eine Aufteilung in Mikrotypographie (Schriftgestalt), Mesotypographie (Gestalt des Schriftbilds in der Fläche), Makrotypographie (Anordnung und Gestalt von Textteilen) und Paratypographie (Materialität und Haptik). Vor allem in der englischsprachigen Literatur wird Typographie darüber hinaus häufig auch auf Bereiche ausgedehnt, die die Graphematik, Verschriftung und Orthographie betreffen (vgl. etwa Walker 2001, die zu typographischen Phänomenen auch 

Typographie – Sprache als Schriftbild 

 103

die Groß- und Kleinschreibung in Überschriften und Titeln, das Title Casing, zählt). Im Deutschen ist ein so weiter Typographiebegriff aber unüblich.

2 Linguistische Typographieforschung Auch wenn es wie oben angedeutet stimmt, dass die Typographie aufgrund des in der Linguistik des 20. Jahrhunderts verbreiteten immateriellen Sprachbegriffs lange Zeit ein stark vernachlässigtes Thema war und mehrfach sogar dezidiert als linguistisch irrelevant eingestuft wurde, ist die vielfach gemeinsam mit einer allgemeinen Phonozentrismus-Kritik vorgetragene Behauptung, dass sich die Linguistik gar nicht mit dem Thema befasst habe, in dieser Pauschalität ebenso wenig zutreffend wie die Phonozentrismus-Kritik selbst. Die Schrift und ihre Materialität wurden in der Linguistik zwar nicht häufig, aber doch immer wieder und mitunter sehr differenziert diskutiert. Wichtige Beispiele hierfür sind die glossematischen Überlegungen zu den ‚Produktionssubstanzen‘ von Uldall (1944), Bolingers ([1946] 1965) und Vacheks ([1979] 1989) Überlegungen zur sozialstilistischen Funktion von Schrift, die schrifttheoretischen Entwürfe von Gelb (1952, 221–135) und der Versuch einer Systematisierung graphemischer und „paragraphemischer“ Einheiten durch Hamp (1959). Auch in der ab den 1980er-Jahren aus der Orthographieforschung hervorgegangenen Schriftlinguistik (vgl. Dürscheid [2002] 2012) wurde Typographie immer mal wieder thematisiert und auch graphe(ma)tisch modelliert (vgl. insbesondere Gallmann 1985; Günther 1988; Glück 1987, 229–248). Und schließlich hat sich auch die linguistische Stilistik seit den 1960er-Jahren für die stilistische Funktion der Textgestalt interessiert (vgl. etwa Crystal/Davy 1969; Crystal 1997, 184–209; Spillner 1982; Pfeiffer-Rupp 1984). Allerdings haben sich aus diesen auch heute noch inspirierenden Entwürfen, mit Ausnahme der Stilistik (s. unten Abschnitt 2.1), keine nachhaltigen Forschungstraditionen entwickelt, und dies hat sicher mit den konzeptionellen Richtungsentscheidungen der modernen Linguistik zu tun (vgl. Spitzmüller 2013a, 81–106). Von einer linguistischen Typographieforschung im Sinne eines konzentrierten Forschungsprogramms kann man auch heute noch nicht sprechen, allerdings ist das Interesse an verschiedenen Funktionen der Textgestalt seit Beginn der 2000erJahre noch einmal deutlich gestiegen (vgl. ausführlich Spitzmüller 2013a, 106–167). Die Arbeiten sind dabei auf unterschiedliche Teildisziplinen verstreut und nehmen bisweilen auch wenig voneinander Kenntnis, sie lassen sich aber dennoch über die Teildisziplinen hinweg nach Interessenschwerpunkten gruppieren. Generell lassen sich dabei zunächst drei Schwerpunkte unterscheiden: die Stilistik der Textgestalt, ihre Ordnungs- und Steuerungsfunktion sowie ein grundsätzliches Bedürfnis, die Textgestalt kommunikationstheoretisch zu verorten. Natürlich lassen sich viele Arbeiten, insbesondere die typographietheoretischen, nicht exklusiv einem dieser Interessen-



104 

 Jürgen Spitzmüller

schwerpunkte zuordnen. Die folgenden Kategorisierungen beschreiben also Zielrichtungstendenzen. Wenn in diesem Abschnitt von linguistischer Typographieforschung die Rede ist, dann soll damit auch betont werden, dass Typographie kein exklusiv linguistischer Gegenstand ist. Zunehmend viele Disziplinen befassen sich mit diesem, neben der akademischen Gestaltungstheorie und der Linguistik beispielsweise die Buchwissenschaft, die Literatur- und Editionswissenschaften, die Wahrnehmungs- und Leserpsychologie, die Medien- und Kommunikationswissenschaft und die Geschichtswissenschaft. Die Diskussionen in diesen Fächern sind für die linguistische Forschung hochrelevant, und häufig gibt es auch interdisziplinäre Verbindungen. Es ist hier jedoch nicht der Ort, die Typographieforschung jenseits der Linguistik auch nur umrisshaft darzustellen (ein umfassender Forschungsüberblick steht noch aus; zahlreiche Hinweise finden sich jedoch bei Waller 1996 und bei Spitzmüller 2013a, 60–80). Die nun folgenden Ausführungen beschränken sich also auf die Linguistik und dort auf die genannten drei Interessenschwerpunkte.

2.1 Typographie und Textstilistik Die linguistische Stilistik als eine Disziplin, die sich mit der Formwirkung von Kommunikaten befasst, hat das stilistische Potenzial der Textgestalt schon früh erkannt. In ihrer Monographie zur Stilistik des Englischen betonen Crystal/Davy (1969, 17), dass „[s]uch matters as the choice of type-size or colour in a text […] may have clear linguistic implications“, und sie fordern in der Konsequenz die Einrichtung einer neuen linguistischen Teildisziplin graphetics analog zur phonetics (vgl. Crystal/Davy 1969, 16). In der germanistischen Stilistik plädiert Spillner (1974, 60) ebenfalls für die Einrichtung einer neuen Teildisziplin, die „untersuchen müßte, welche Stileffekte sich durch Groß- und Kleinschreibung […], durch typographische Anordnung […], durch Wechsel des Schrifttyps (z. B. Kursivdruck einzelner sprachlicher Einheiten), durch Satzzeichen etc. ergeben können“; Spillner schlägt für diese Teildiszi­plin in Anlehnung an die etablierte Phonostilistik die Bezeichnung Graphostilistik vor. Während der Ausdruck Graphetik vor allem in schriftlinguistischen Arbeiten später wieder aufgegriffen wird (vgl. bspw. Günther 1988; Rezec 2009), erscheinen ab den 1980er-Jahren in der Stilistik einige als graphostilistisch titulierte Arbeiten, welche versuchen, neben Verschriftungsvarianten auch (mikro)typographische Gestaltung stilistisch-funktional zu erklären (vgl. Spillner 1982; Pfeiffer-Rupp 1984; vgl. auch den Überblick von Spillner 2009). Allerdings ist der Fokus der graphostilistischen Arbeiten zumeist eher eng. Zum einen werden fast ausschließlich solche Texte untersucht, bei denen die Textgestalt expressiv und sehr salient erscheint. Vor allem sind dies Werbetexte. Außerdem wird die Textgestalt, vielleicht gerade aufgrund dieser selektiven Datenauswahl, vor allem vor dem Hintergrund einer angeblichen ‚Normabweichung‘ betrachtet (vgl. dazu Spitzmüller 2013a, 138–139). Erst im Zuge der ‚Pragmatisierung‘ 

Typographie – Sprache als Schriftbild 

 105

der Stilistik, unter dem Einfluss des in der Sozialsemiotik entwickelten Konzepts der Multimodalität (s. zum Begriff grundsätzlich Klug/Stöckl 2014), das der in der neueren Stilistik wichtigen Idee stilistischer ‚Ganzheitlichkeit‘ entspricht (vgl. Fix 2001), und in Folge der Ausbildung einer dezidierten Textstilistik (vgl. Sandig 2006) ändert sich dies. Die Textgestalt erscheint nun zunehmend als ein integrativer Faktor der Textualität, welcher berücksichtigt werden muss, wenn Texte auf ihre Sinnhaftigkeit befragt werden. Fix (2001, 114/118) bringt diese disziplinäre Neuausrichtung auf den Punkt: Nichtsprachliche Zeichen, das sind im Schriftlichen z. B. Bilder, typographische Elemente, Farben, Papiersorten, Flächen, Linien usw. […], im Mündlichen z. B. Stimmführung, Mimik, Gestik, Situierung der Sprechenden im Raum […], konstituieren gemeinsam mit sprachlichen Zeichen das Sinnangebot eines Textes. […] Linguistische Textbegriffe sind vor diesem Hintergrund nicht mehr ausreichend. Texte müssen als Komplexe von Zeichen verschiedener Zeichenvorräte betrachtet werden. Stil als Teil der Textbedeutung entsteht aus dem Zusammenwirken dieser verschiedenen Systemen angehörenden Zeichen.

Im Zuge dieser Neuausrichtung rückt die Typographie in textstilistischen Arbeiten in den Mittelpunkt des Interesses (diesen Wandel verdeutlicht plastisch der Vergleich von Sandig 1986 und Sandig 2006; vgl. dazu Spitzmüller 2013a, 142–143). Zahlreiche Arbeiten versuchen, entweder die Textmaterialität, -medialität und -lokalität (Fix 2008) allgemein stilistisch zu beschreiben (vgl. etwa Fix 1996, 2008, 2001; Sandig 2006; Antos 2001, 2009; Wienen 2011), oder aber sie konzentrieren sich direkt auf Typographie als stilistische Ressource (vgl. insbesondere die Arbeiten von Stöckl 2004b, 2008 sowie auch Schopp 2002 und Meier 2007). Auch in empirischen stilistischen Arbeiten, etwa zur Gestalt von Stellenanzeigen (vgl. Ehrenheim 2011), zu Szenekommunikaten (vgl. Androutsopoulos 2004; Meier-Schuegraf 2005; Spitzmüller 2012a, 2013a) und auch weiterhin immer wieder zur Werbekommunikation (vgl. Stöckl 2003; Held/Bendel 2008; Opiłowski 2009 sowie den Überblick bei Janich 2010, 248–251) wird die stilistische Funktion der Typographie zunehmend hervorgehoben. Auch historiographische Arbeiten aus dem Umfeld der Historischen Soziolinguistik greifen das Thema auf (vgl. etwa Ehlers 2004). Vermittelt durch die Textstilistik gelangt die Textgestalt als Textualitätsfaktor außerdem auch in die textlinguistische Theoriebildung (vgl. insbesondere Hausendorf/Kesselheim 2008). Angetrieben wird diese Entwicklung zweifellos vom internationalen Erfolg der Sozialsemiotik (s. Jewitt/Henriksen, i. d. B.), die nicht nur den Multimodalitätsbegriff prominent gemacht, sondern insgesamt den linguistischen Blick auf Materialität und Lokalität von Kommunikation geschärft hat. Bemerkenswerterweise jedoch interessiert sich die Sozialsemiotik selbst lange Zeit kaum für Typographie. Partiell werden typographische Phänomene zwar mitunter thematisiert (etwa bei Goodman/Graddol 1996; Scollon/Scollon 2003, 129–141), systematisch kommen sie aber erst Mitte der 2000er-Jahre in den Blick (vgl. insbesondere Lim 2004; Stöckl 2005; van Leeuwen 2005, 2006; Thibault 2007), zu einer Zeit also, zu der die Textstilistik bereits intensiv damit befasst ist. Van Leeuwen bezeichnet die Vernachlässigung der Typographie 

106 

 Jürgen Spitzmüller

durch die Sozialsemiotik entsprechend noch 2005 (138) als „fundamental oversight“. Obwohl das Thema aufgrund der genannten Beiträge mittlerweile sozialsemiotische Aufmerksamkeit erlangt hat und einige der genannten theoretischen Texte (insbesondere Stöckl 2004b und van Leeuwen 2005) über die Teildisziplin hinaus eine breite Wirkung erzielt haben, bleibt allerdings weiterhin zu konstatieren, dass die Sozialsemiotik die Typographieforschung eher auf einer grundsätzlichen Ebene – durch die multimodale Stoßrichtung – befruchtet hat als durch ausgeprägte Forschungstätigkeit auf diesem Feld. Grundsätzlich zu konstatieren ist weiterhin, dass die stilistisch ausgerichteten Arbeiten zur Typographie stark zeichentheoretisch fundiert sind. Das liegt nicht nur an der Sozialsemiotik. Die Semiotik hat sich in den linguistischen Arbeiten zum Thema früh als Rahmentheorie durchgesetzt (vgl. bspw. Spillner 1982; Raible 1991; Schröder 1993; Harris 1995; Schopp 2002; Stöckl 2006; Wienen 2007; Eckkrammer/ Held 2006b sowie außerdem die in der deutschsprachigen Forschung sehr stark rezipierte kulturwissenschaftliche Monographie von Wehde 2000). Dabei werden vornehmlich Konzepte von Peirce, Barthes und Eco aufgegriffen, die Textgestalt wird als eigenständiges oder aber als subsidiäres, von der (Schrift-)Sprache abhängiges Zeichensystem aufgefasst, typographische Phänomene als Zeichen. Der Zeichenbegriff wird dabei mitunter weit ausgedehnt, man spricht etwa vom typographischen Weißraum als „Null-Zeichen“ (Wehde 2000, 107; Ehlers 2004, 6–7) und bezeichnet zuweilen sogar komplexe Texte als „Super-Zeichen“ (so Eckkrammer/Held 2006a, 5). Die Anbindung der Typographieforschung (und der Multimodalitätsforschung insgesamt) an die Semiotik als „Leittheorie“ (Stöckl 2004a, 19) hat verschiedene grundlegende Konsequenzen insbesondere hinsichtlich der Einschätzung des kommunikationstheoretischen Status von Typographie, die die Forschung durchaus noch zu diskutieren hat (vgl. dazu Bucher 2007; Antos/Spitzmüller 2007; Spitzmüller 2013a, 160–162).

2.2 Typographie und Textorganisation Während es den stilistisch orientierten Arbeiten im weitesten Sinn um die ‚Bedeutung‘ typographischer Gestaltung geht (inklusive und unter besonderer Berücksichtigung ihrer ‚sozialen Bedeutung‘, das heißt ihrer gesellschaftskonstitutiven Funktion), haben die Arbeiten, die in diesem Abschnitt vorgestellt werden, stärker rezeptionsleitende Funktionen im Blick. Entsprechend wählen diese Arbeiten häufig auch weniger semiotische als textstrukturelle und handlungs- bzw. interaktionstheoretische Zugänge zum Thema. Wenn von Textorganisation durch Typographie die Rede ist, dann kann sich dies auf verschiedene Abstraktionsebenen beziehen. Es kann damit die Frage gemeint sein, ob und wie durch Textgestaltung auf einer mikrotextuellen Ebene Texte strukturiert werden, in dem etwa durch Auszeichnungsverfahren (Fett- und Kursivdruck, 

Typographie – Sprache als Schriftbild 

 107

Farben, Schriftgrößenänderungen usw.) verschiedene textuelle Ebenen markiert werden (vgl. bspw. Hagemann 2003, teilweise auch bereits Gallmann 1985, der in diesem Zusammenhang von „Grenzsignalen“ spricht), auf einer höheren Ebene die Frage, inwieweit Textteile durch Textgestaltung abgegrenzt, der Text somit auf einer Mesoebene strukturiert wird (vgl. dazu bspw. Stein 2003, 133–180; Bateman 2008), auf einer makrotextuellen Ebene die (durchaus die beiden kleineren Ebenen miteinbeziehende) Frage, inwieweit die Textgestalt den Text als Ganzes ordnet und mithin Rezeptionswege vorspurt (vgl. dazu bspw. Bernhardt 1985; Sauer 1997). Unter Textorganisation können aber auch transtextuelle Fragen gefasst werden, etwa, wie Texte voneinander abgegrenzt werden, als wahrnehmbare Einzeltexte also überhaupt Gestalt gewinnen, und wie Texte aufeinander Bezug nehmen, über die Textgrenzen hinaus also wieder Zusammenhänge herstellen (und zwar, in Holthuis’ [1993] Terminologie, sowohl „referenziell“ im Sinne von Text-Text-Verweisen als auch „typologisch“ im Sinne von Text-Muster-Verweisen). Solche Fragen der Textualität, Intertextualität und Diskursivität diskutieren ausführlich Hausendorf/Kesselheim (2008), die in diesem Zusammenhang von (unter anderem typographischen) „Abgrenzungshinweisen“, „Verknüpfungs-“, „Intertextualitäts-“, „Textfunktions-“ und „Textsortenhinweisen“ sprechen. Gerade der letztgenannte Aspekt, die Organisation von Texten über Musterähnlichkeiten (Textsortentypographie), wurde in der Forschung (nicht zuletzt auch in der Textstilistik) breit diskutiert. In diesem Zusammenhang wurde das von Wehde (2000, 119–133) geprägte Konzept des typographischen Dispositivs (im Sinne einer musterhaften typographischen ‚Zurichtung‘) breit rezipiert (vgl. dazu ausführlich Spitzmüller 2013a, 237–280). Wie Texte durch typographische Mittel organisiert sind und wie sie mithin die Rezeption steuern können, wurde nicht nur theoretisch diskutiert, sondern in Ansätzen auch empirisch untersucht. Zu nennen sind in diesem Zusammenhang die auf Blickaufzeichnungsverfahren zurückgreifenden Analysen von Bucher (2007, 2011), welcher mit seinen Befunden auch kritische Einwände gegenüber rein theoretischinduktiven Vorstellungen visueller Textorganisation (insbesondere seitens der Sozialsemiotik) untermauern kann (vgl. ähnlich auch Holsanova/Holmqvist/Rahm 2006). Bucher schließt dabei stark an Überlegungen aus dem interdisziplinären Forschungsfeld des Information Design an, welches gestaltungstheoretische Überlegungen mit sozial- und medienwissenschaftlichen Untersuchungsmethoden und gestaltungspraktischen Zielen (Textoptimierung) kombiniert, und in welches vor allem Überlegungen aus der Gestaltungsforschung, der Wahrnehmungspsychologie und der Medienwissenschaften einfließen (vgl. hierzu Schriver 1997, 13–149; Bucher 2007).

2.3 Kommunikationstheoretische Verortung Die Frage, wie die Textgestalt kommunikationstheoretisch zu verorten ist, beschäftigt viele Arbeiten. Je nach disziplinärem Hintergrund, Sprach-, Kommunikations- und 

108 

 Jürgen Spitzmüller

Schriftkonzept werden dabei unterschiedliche Fragen gestellt und unterschiedliche Antworten gegeben. In schriftlinguistischen Arbeiten, die Schrift häufig auf der Grundlage der strukturalistischen Form-Substanz-Dichotomie klassifizieren, wird diskutiert, ob Typographie (ausschließlich) der etischen Ebene (Graphetik) oder (auch) der emischen Ebene (Graphematik) zuzurechnen ist (vgl. bspw. Crystal 1998; Gallmann 1985; Günther 1988; Rezec 2009). Sozialsemiotische Arbeiten verhandeln die Frage, ob Typographie eine semiotische Ressource (ein mode) sui generis oder nur eine Subressource eines anderen modes sei (vgl. bspw. Lim 2004; Kaltenbacher 2004, 194–195; Stöckl 2004b, 16–21; vgl. kritisch dazu Kress 2010, 87–88). Zeichentheoretisch ausgerichtete Arbeiten diskutieren darüber, ob Typographie ein primäres oder sekundäres Zeichensystem darstelle (Wehde 2000, 64; Stöckl 2004b, 15; Schopp 2002, 121; kritisch dazu Ludwig 2007, 395). In Arbeiten zur Textverständlichkeit und Textnavigation wird die Frage erörtert, ob die Textgestalt lediglich eine bereits vorhandene Informationsstruktur von Texten sichtbar macht oder ob sie selbst eigene Informationsstrukturen schafft (vgl. Bateman 2008; Sauer 1997; vgl. auch aus psychologischer Perspektive Groeben 1982). Bei all diesen Diskussionen geht es im Kern immer darum, inwieweit der Textgestalt kommunikationstheoretisch eine eigene Funktionalität zuzubilligen ist und inwieweit eine Dependenz zwischen Text- bzw. Schriftgestalt und der Schrift als Notationssystem bzw. dem Text als verbalem Phänomen besteht. Die meisten Arbeiten gehen aber davon aus, dass die Textgestalt systemisch zu verorten ist und dass sie, in der einen oder anderen Weise, Informationen – seien es zusätzliche oder aber bereits im Verbalen angelegte  – in einer Art und Weise zugänglich macht, die systematisch beschrieben und abstrahiert werden kann. Den Blick weg von systemischen Fragen und hin zu Fragen der Praxis und Rezeption von Typographie haben in den letzten Jahren interaktional und handlungstheoretisch fundierte Arbeiten gelenkt (vgl. Bucher 2007; Antos/Spitzmüller 2007; Wienen 2011; Spitzmüller 2013a). Diesen Arbeiten geht es weniger darum, Kategorien typographischer Formen und Funktionen zu bilden und die Typographie systemisch zu verorten als vielmehr darum, wie die Kommunikationsakteure die Textgestalt wahrnehmen, bewerten und kommunikativ zu nutzen versuchen. Im Fokus stehen dabei einerseits Rezeptionsstudien, die zeigen, dass und wie verschiedene Akteure gestaltete Texte unterschiedlich rezipieren (vgl. dazu Bucher 2007, 2011), und andererseits metapragmatische Untersuchungen zu den divergierenden Bewertungen (Kommunikationsideologien) graphischer Gestaltungsformen durch die Akteure bzw. zu Aushandlungsprozessen solcher Bewertungen im Rahmen metapragmatischer Diskurse (vgl. dazu Spitzmüller 2012a, 2013a). Aus Sicht dieser Arbeiten ist es weniger die Typographie selbst, die bestimmte Funktionen zur Verfügung stellt, sondern es sind die Nutzer, die aufgrund ihres kommunikativen Wissens bestimmten Gestaltungsformen aktiv (sowohl in der Produktion als auch in der Rezeption) Bedeutung bzw. Funktionalität zuschreiben (oder auch nicht), weshalb die ‚Bedeutung‘ eines gestalteten Texts auch nicht unabhängig von bestimmten Akteursperspektiven (und auch nicht nur allein aus einer Produktionsperspektive heraus) beschrieben werden kann. Die 

Typographie – Sprache als Schriftbild 

 109

Arbeiten schließen dabei einerseits an dynamische Textrezeptionsmodelle an, nach denen Bedeutung einem Text nicht ‚entnommen‘ wird, sondern durch die Rezipienten im Rahmen von Inferenzverfahren auf der Basis von Vorwissen aktiv konstruiert wird (vgl. Christmann/Groeben 1996; Schnotz 2006), andererseits an Annahmen der Ethnomethodologie und interpretativen Soziolinguistik, denen zufolge Bedeutung in der Interaktion auf der Grundlage stratifizierten kommunikativen Wissens ‚ausgehandelt‘ und Verstehensrahmen (Kontexte) aufgrund kommunikativer Hinweise (contextualization cues) dynamisch konstruiert und transformiert werden (vgl. dazu zusammenfassend Spitzmüller 2013a, 171–182). Im Grunde verschiebt sich der Fokus hier also wieder von der Gestalt zurück zur Gestaltung, vom Objekt zum Prozess, wobei mit Prozess nun vor allem Rezeptions- und Zuschreibungsprozesse gemeint sind.

3 Exemplifizierung und Vergleich In diesem Abschnitt sollen die beschriebenen Zugänge anhand eines Beispiels vergleichend exemplifiziert werden. Die Analysen sind hypothetisch: Es soll gezeigt werden, wie die verschiedenen Varianten der linguistischen Typographieforschung die Daten vermutlich analysieren würden. Die Analysen selbst müssen dabei oberflächlich bleiben. Ihr einziger Anspruch ist die Verdeutlichung der Perspektivenunterschiede. Abbildung 1 zeigt ein Werbeplakat, das ein Konzert im März 2014 in Wien ankündigt. Wie bei derartigen Kommunikaten üblich, werden viele unterschiedliche Informationen kommuniziert: Name, Ort und Datum der Veranstaltung, Einlass- und Startzeiten, beteiligte Künstler, der Name der Veranstalter und Sponsoren, Eintrittspreise, Informationen zur Distribution von Eintrittskarten und zu spezifischen Konditionen sowie Hinweise zu weiteren Informationsquellen. Unter letzteren finden sich verschiedenartige intermediale Verweise: zwei Telefonnummern, unter denen man Karten bestellen kann, vier URLs (einer zur Internetseite der Veranstaltung, wo man weitere Informationen abrufen kann, einer zur Internetseite des Konzertveranstalters, einer zur Internetseite des lokalen Veranstalters, bei dem man Karten beziehen kann und einer zur Seite eines Kartenverkaufsservices), sowie weiterhin ein sog. QR-Code, der von Mobilgeräten über die Kamera decodiert werden kann und der seinerseits wieder den URL der Internetseite des lokalen Veranstalters enthält. Verschiedene Schriftarten, Farben, Schriftgrößen, Schriftanordnungen, Text-Bild- und Text-Symbol-Kombinationen kommen zum Einsatz – all dies ist Teil der typographischen Gestalt(ung). Sprachstrukturell ist das Plakat hingegen wenig komplex und textsortentypisch (vgl. Janich 2010, 181–185), es finden sich viele Ein- und Mehrwortsequenzen (Namen von Veranstalter, Sponsoren usw.), attributiv erweiterte Nominalphrasen (Sondershow in memoriam Peter Alexander, Der Wiener Tierschutzverein in Vösendorf ), zum Teil im von Adamzik (1995) so genannten „graphischen Stil“ listenförmig präsentiert



110 

 Jürgen Spitzmüller

(Die  große Schlager-Starparade mit Chris Roberts Bata Illic Peter Orloff Gus Backus Roberto Blanko Peter Kraus Mandy von den Bambis). Vollständige Sätze mit Prädikat gibt es nur zwei (Das waren Zeiten!, Tickets erhalten Sie in allen oeticket Centers und Verkaufsstellen in Österreich unter 01/96 0 06 und unter www.oeticket.com.).

Abb. 1: Konzertplakat Das waren Zeiten! (Nahaufnahme)



Typographie – Sprache als Schriftbild 

 111

Dieses als Datum typische Beispiel würde von den vorgestellten Varianten der linguistischen Typographieforschung sehr unterschiedlich analysiert. Die Schriftlinguistik würde sich ausschließlich (oder doch primär) für die Schrift interessieren. Sie würde zunächst die verschiedenen Zeichentypen unterscheiden, die auf dem Plakat zu sehen sind (neben alphabetischen Schriftzeichen auch Logogramme wie das Telefonsymbol), sie würde vermutlich Verschriftungsformen (wie die Binnengroßschreibung in dem URL www.DasWarenZeiten.at) für die Analyse berücksichtigen und dann würde sie, dem strukturalistischen Klassifikationsverfahren folgend, die auf dem Plakat zu sehenden Graphen betrachten und funktional zu klassifizieren versuchen. Sie würde feststellen, dass Buchstaben (oder Grapheme) in verschiedenen Textteilen in unterschiedlicher Form manifestiert sind – mit Rezec (2009, 48) würde sie Allographie konstatieren: „Möglichkeiten verschiedener Verschriftung derselben phonemischen Struktur […] mit nichtverschiedener [notationeller; Erg. J.S.] Bedeutung“. Dann würde sie der Frage nachgehen, ob die festgestellten Formvarianten eine unterschiedliche Bedeutung jenseits der Notation bzw. eine unterschiedliche Funktion haben. In Crystals Worten: In exactly the same way that the substitution of a particular sound changes the meaning of a word, and a different word changes the meaning of a phrase, and a different phrase changes the meaning of a sentence, and a different sentence changes the meaning of a text, I ask: Could the substitution of one typographic feature within a word cause that word to change its meaning? Could changing the typography of a word within a phrase cause that phrase to change its meaning? Could changing the typography of a phrase within a sentence cause that sentence to change its meaning? Could changing the typography of a sentence within a text cause that text to change its meaning? (Crystal 1998, 10)

Dazu würde man, wie Crystal es beschreibt, über den eigentlichen Text hinaus virtuelle Minimalpaare bilden müssen, von Teilen des Textes also graphische Varianten bilden und die Frage stellen, ob die Varianten mit der verwendeten Form bedeutungsbzw. funktionsgleich sind. Abbildung 2 zeigt einen solchen virtuellen Minimalpaarvergleich, bei dem eine virtuelle Variante aus der Tannenberg Fett gesetzt wurde, eine zweite aus der Minion Pro Regular (dass die Farbgestaltung hier auch variiert, verzerrt das Beispiel allerdings). Dasselbe würde man mit Schriftanordnungen, Schriftgrößen usw. machen und somit ggf. verschiedene Funktionen klassifizieren können.

Abb. 2: Typographische ‚Minimalpaare‘



112 

 Jürgen Spitzmüller

Ganz ähnlich würde die Graphostilistik vorgehen. Sie würde vermutlich jedoch stärker auf zeichentheoretische Überlegungen aufbauen und etwa auf die Ikonizität der verwendeten Schriften verweisen, die ausgeprägten Rundungen der im Slogan Das waren Zeiten! verwendeten Display-Schrift (und auch in der Schriftanordnung) sowie den fließenden Duktus der Schreibschrift, die in einigen Textteilen (etwa Die große Schlager-Starparade) verwendet wird, die in ihrer Weichheit möglicherweise Assoziationen zum musikalischen Genre wecken soll, auf die Ikonizität der Schriftgrößen und -dicken (in Bezug auf die Wichtigkeit des Verschrifteten) sowie auf die Indexikalität der Schriften in Bezug auf ihre historische Situierung. Die Textstilistik und Sozialsemiotik würden vieles von dem Beschriebenen wohl auch machen, dabei aber darauf hinweisen, dass der Text als Ganzheit betrachtet werden müsse, dass aus dem Kontext genommene Vergleiche wie in Abbildung 2 wenig Aussagekraft hätten. Man würde das Zusammenspiel der verschiedenen Elemente (Schriften, Bilder, Symbole, Verbales) betrachten und vielleicht zu dem Ergebnis kommen, dass durch dieses Zusammenspiel – das abstrakte Hintergrundmotiv, die Farbkombination, die Konnotation („where these signs come from“, van Leeuwen 2005, 139) und Metaphorik der Displayschrift (vgl. dazu van Leeuwen 2005), die angedeuteten Schallplatten und den verbalen Text (Das waren Zeiten!, SchlagerStarparade sowie die genannten Namen) – über das kulturelle Wissen bei Rezipienten und avisierten Kunden ein bestimmter historisierter Kontext (Musik und Kultur der 1960er-Jahre) konstruiert wird. In sozialsemiotischer Terminologie: Durch eine konkrete Wahl aus einer Ressource sozial kodierter Möglichkeiten würde ein Zeichen und eine bestimmte Bedeutung ‚gemacht‘ (making meaning). Vermutlich würde man noch weiter gehen und sich ansehen, wo das Plakat hängt. Man würde feststellen, dass es in einem zentralen, hoch frequentierten Teil Wiens an einer festen, kommerziell betriebenen, gerahmten Plakatwand (an einer Telefonsäule unmittelbar vor einem Imbiss und nach einer Straßenbahnhaltestelle) angebracht ist, einer vielbefahrenen und -benutzten Straße (der Währingerstraße) zugewandt, die Passanten und Fahrer, die zum zentralen 1. Bezirk hin unterwegs sind, adressierend, jedoch mit anderen Schildern konkurrierend (vgl. Abb. 3). Dies wäre, mit Fix (2008), die Lokalität des Plakats (dieses konkreten Plakats, denn andere Exemplare des Plakats findet man an Telefonsäulen über die ganze Stadt verteilt). Die Sozialsemiotik könnte mit Verweis auf Hodge/Kress (1988, 4) darauf verweisen, dass hier bestimmte production regimes und mithin logonomic systems (Produktions- und Rezeptionsdispositive) zu beobachten seien: Ein solches Plakat darf nicht jeder an einem solchen Ort aufstellen, und auch nicht jeder kann das, schon aus finanziellen Gründen; auch könnten an dieser Stelle nicht Plakate beliebigen Inhalts platziert sein, es gibt Grenzen legalisierter öffentlicher Kommunikation. Man könnte so auf soziale und ideologische Strukturen verweisen, die sich hier „geosemiotisch“ (Scollon/Scollon 2003) im Sinne semiotischer Landschaften (Jaworski/Thurlow 2010) aus der Platzierung dieses Plakats an diesem Ort ablesen ließen.



Typographie – Sprache als Schriftbild 

 113

Abb. 3: Konzertplakat Das waren Zeiten! (Distanzaufnahme)

Solche Überlegungen wären den an der Textorganisation interessierten Varianten der Typographieforschung vermutlich fremd. Sie würden sich eher ansehen, wie das Plakat als Einzeltext abgegrenzt ist (was in diesem Fall materiell durch einen Metallrahmen der Fall ist), wie die einzelnen Textteile durch Farben, Kästen und Rahmen separiert sind bzw. in Relation gestellt werden (man beachte hier etwa die beiden weißen Kästen mit den Veranstaltungsdaten und den Sponsorennamen sowie auch die beiden stilisierten Schallplatten mit den Fotos und Namen der beiden offenbar besonders prominenten Künstler, die deutlich von den anderen abgehoben werden). Des Weiteren würde man analysieren, wie einzelne Textteile durch Schriftgröße, Farbe und Rahmung salient gemacht werden, womit der Text hierarchisiert und geordnet wird, womit aber auch Aufmerksamkeitsanker gesetzt werden, die einen möglichen und aus Produzentensicht sinnvollen Pfad der Rezipientenaktivierung markieren (in absteigender Reihenfolge: Was ist das? Wer spielt? Wann ist das? Wo? Wo bekomme ich mehr Informationen? Wer veranstaltet das?). Man würde vermutlich auch zur Kenntnis nehmen, dass es typographische Kategorienbildungen gibt (eine Schriftart für die künstlerischen Informationen, eine für terminliche usw.) und dass die Gestaltung des Plakats bestimmten Genrekonventionen folgt (etwa in der vertikalen Anordnung: Veranstaltungstitel – Beteiligte – Veranstaltungsdetails [Ort und Datum]).



114 

 Jürgen Spitzmüller

Rezeptionsorientierte Analysen würden zwar vielleicht ähnliche Fragen stellen, aber methodisch anders vorgehen. Statt das Produkt Plakat zu analysieren, würden stattdessen beispielsweise Probanden mit Blickaufzeichnungswerkzeugen ausgestattet. Man würde messen, welche Felder auf dem Plakat sie in welcher Reihenfolge und wie lange fokussieren und daraus Rückschlüsse auf Rezeptionspfade ziehen. Man würde so prüfen, ob expressive, große und farbige Schriften tatsächlich zuerst und tatsächlich intensiv wahrgenommen werden, ob es systematische Bewegungen zwischen Textteilen oder zwischen Texten und Bildern gibt usw. In einem größeren Kontext würde man überprüfen, wie sich Probanden im Raum bewegen, ob und wie sie das Plakat beim Passieren wahrnehmen und wie die Text-Wahrnehmung in die Wahrnehmung des weiteren Umfelds eingebettet ist. So könnte man der Frage nachgehen, ob bestimmte Plakate in bestimmten Umfeldern es schaffen Aufmerksamkeit zu ‚gewinnen‘. Interpretative Arbeiten schließlich würden das Plakat als solches gar nicht als zentrales Untersuchungsobjekt nehmen. Sie würden sich vielmehr Diskurse ansehen, in denen Bewertungen entweder des Plakats selbst oder aber ähnlicher Gestaltungsformen vorgenommen werden. Man würde beispielsweise darauf hinweisen, dass es bestimmte rekurrente Formen der diskursiven Zuschreibung von Historizität zu Gestaltungsformen gibt, auf die auch dieses Plakat zurückgreift (vgl. zu ähnlichen Beispielen Spitzmüller 2013a, 368–375). Man würde weiter allerdings betonen, dass diese Historizitätszuschreibung in einen Ideologisierungsprozess eingebettet ist, bei dem – wie dies auch bei der Herausbildung von Sprachideologien der Fall ist (vgl. Gal/ Woolard 2001) – bestimmte als ‚historisch‘ empfundene typographische Marker stereotyp bis karnevalesk hervorgehoben und ‚sozial registriert‘ werden (vgl. zu diesem Konzept Spitzmüller 2013b), so dass es hier nicht um eine ‚indexikalische‘ Bedeutung in dem Sinne geht, dass ‚authentische‘ Sixties-Typographie verwendet wird, sondern um eine (notwendigermaßen überzeichnete) Symbolisierung von bestimmten gegenwärtigen Werten und Einstellungen, die sich über nostalgisch-verfremdete Referenzen zu dem, was man für ‚gute alte Zeiten‘ hält, im Sinne einer Konstruktion einer bestimmten Wirklichkeit konstituiert. Mit anderen Worten: Man würde darauf verweisen, dass hier Formen verwendet werden, die kommunikationsideologischen Zuschreibungen unterliegen und die gerade deshalb gruppenkonstitutiv sind, was sich der Veranstalter hier (nicht zwingend bewusst) zu Nutze macht, wenn er mit dieser Gestaltung eine bestimmte Zielgruppe anzusprechen versucht – was er gleichzeitig aber auch, da sein Plakat Teil des Diskurses ist, perpetuiert. Nicht fehlen würde aber der Hinweis, dass diese Zuschreibungen wie alle Kommunikationsideologien gruppen(wissens-)gebunden sind. Das heißt, man würde, da man davon ausgeht, dass die auf dem Plakat verwendeten Mittel in verschiedenen Akteursgruppen durchaus unterschiedlich und unterschiedlich stark ‚registriert‘ seien, betonen, dass die Analyse nicht ‚die typographische Bedeutung‘ des Plakats rekonstruieren wolle und könne, sondern diskursgebundene ‚Lesarten‘ und ‚Zuschreibungen‘ von und zur Textgestalt – rezeptiv-interpretative Textgestaltung also. 

Typographie – Sprache als Schriftbild 

 115

4 Abschließende Diskussion und Fazit Die Ausführungen und die virtuellen Beispielanalysen haben gezeigt, wie unterschiedlich der linguistische Blick auf Typographie sein kann. Das hängt, wie gezeigt wurde, mit unterschiedlichen linguistischen Perspektiven, Interessen und Traditionen und mit unterschiedlichen Sprach- und Kommunikationskonzepten zusammen. ‚Sprache als Schriftbild‘ ist, wie Sprache insgesamt, nach verschiedenen Seiten offen, von denen sie dann betrachtet werden kann. Man kann sie, die Textgestalt, strukturell betrachten mit dem Ziel, Abstraktionen und Generalisierungen zu bilden hinsichtlich einer (sozial oder auch strukturell präformierten) Funktionalisierung bestimmter typographischer Formen. Man kann sie aber auch in ihrem Gebrauchsumfeld betrachten und sich ansehen, was verschiedene soziale Akteure mit Textgestaltung tun, wie Gestaltung gesellschaftlich verhandelt wird, wie sie wahrgenommen wird, wie sie unsere Alltagswelt prägt. Alle Zugänge haben ihre Stärken und Schwächen, und es hängt wohl vom eigenen Forschungsinteresse ab, welchen man präferiert, solange man sich der Limitationen bewusst ist. Die produktorientierten, abstrahierenden Zugänge haben ihre Grenzen dort, wo die soziale Interaktion beginnt. Sie können zumeist nur eine Lesart bieten, nämlich die der Analysierenden selbst (was nicht ganz irrelevant ist, weil ja auch diese soziale Akteure sind). Das heißt, sie zeigen durchaus mögliche Funktionen der Textgestalt auf, dies allerdings nolens volens selektiv. Sie stellen zumeist die Produzentenperspektive in den Vordergrund, was einige Konsequenzen hat, die man bedenken muss (der Prozess der Rezeption und interaktiven Kontextualisierung wird marginalisiert, vielfach werden stillschweigend Produzentenintentionalitäten unterstellt und Kommunikation wird darauf verkürzt, dass die Rezipienten wie auch die Analysierenden diese Intentionalitäten zu dekodieren haben; der Text erscheint als ein Container, dem Bedeutung ‚entnommen‘ werden kann; vgl. hierzu kritisch Spitzmüller 2013a, 183–208). Außerdem leidet vor allem die stilistisch ausgerichtete Forschung unter einem expressive typography bias. Sie fokussiert vor allem auffallende Gestaltungsformen. Das ist teilweise konzeptionell begründet (durch die Dominanz der Abweichungsstilistik in der früheren Forschung), hat aber durchaus auch kommunikationsideologische Gründe, die ihrerseits wieder metapragmatisch analysiert werden können (vgl. Spitzmüller 2013a, 29–58). Wenn also für die Exemplifizierung in diesem Artikel ebenfalls ein Werbeplakat gewählt wurde, dann deshalb, weil sich aus Sicht vieler dieser Varianten zu so genannter ‚schlichter‘ Gestaltung, wie sie etwa der vorliegende Handbuchartikel selbst verwendet, wenig sagen lässt (vgl. aber zur Wissenschaftstypographie aus interpretativ-metapragmatischer Sicht Spitzmüller 2013a, 411–429). Die rezeptionsorientierten und interpretativen Zugänge hingegen haben vor allem ein Daten- und Methodenproblem. Blickaufzeichnungsgestützte Analysen sind aufwändig, teuer und können nur unter experimentellen Bedingungen durchgeführt werden. Außerdem zeigen sie nur Lesewege und Rezeptionszeiten. Daraus lassen sich etwa zur sozialstilistischen Funktion der Textgestalt kaum Aussagen ableiten. 

116 

 Jürgen Spitzmüller

Diskursanalysen dagegen erfordern zuallererst eine große Menge metapragmatischer Daten, die detailliert ausgewertet werden müssen. Und die interpretativen Analysen sagen immer – aufgrund ihrer Anlage und Zielrichtung – weniger über den konkreten Text aus als über gesellschaftlich registrierte Vorstellungen, Einstellungen und Bewertungen spezifischer Textgestaltungsformen in spezifischen Gruppen. Sie sind also paradoxerweise, was spezifische Texte angeht, häufig abstrakter, obwohl sie das Ziel haben, konkrete Praktiken zu beschreiben, als die produktorientierten Analysen, obwohl diese das Ziel haben, abstrakte Kategorien zu bilden. Linguistische Typographieforschung ist daher idealerweise ein Unternehmen mit zumindest drei Säulen: (1.) Produkt- und Produktionsanalyse, (2.) Rezeptionsanalyse und (3.) metapragmatische (Diskurs-)Analyse (vgl. Spitzmüller 2013a, 436). Wenn diese drei Zugänge zur Textgestaltung und Textgestalt kombiniert werden und sich ihre Proponenten zukünftig stärker mit denen der jeweils anderen Ansätze austauschen, dann kann die Linguistik zur interdisziplinären Typographieforschung Fundiertes beitragen und ihrerseits von der Beschäftigung mit „Sprache als Schriftbild“ erheblich profitieren.

5 Literatur Adamzik, Kirsten (1995): Syntax und Textgliederung. Hypotaktischer Stil, Nominalstil, graphischer Stil. In: Götz Hindelang/Rolf Eckard/Werner Zillig (Hg.): Der Gebrauch der Sprache. Münster, 15–41. Androutsopoulos, Jannis (2004): Typography as a resource of media style. Cases from music youth culture. In: Klimis Mastoridis (ed.): Proceedings of the 1st International Conference on Typography and Visual Communication. Thessaloniki, 381–392. Antos, Gerd (2001): Sprachdesign als Stil? Lifting oder: Sie werden die Welt mit anderen Augen sehen. In: Jakobs/Rothkegel (2001), 55–76. Antos, Gerd (2009): Semiotik der Text-Performanz. Symptome und Indizien als Mittel der Bedeutungskonstitution. In: Helmuth Feilke/Angelika Linke (Hg.): Oberfläche und Performanz. Untersuchungen zur Sprache als dynamischer Gestalt. Tübingen, 407–427. Antos, Gerd/Jürgen Spitzmüller (2007): Was ‚bedeutet‘ Textdesign? Überlegungen zu einer Theorie typographischen Wissens. In: Roth/Spitzmüller (2007), 35–48. Bateman, John A. (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal Documents. Basingstoke/New York. Bernhardt, Stephen A. (1985): Text structure and graphic design. The visible design. In: James D. Benson/William S. Greaves (eds.): Systemic Perspectives on Discourse. Bd. 2: Selected Applied Papers from the 9th International Systemic Workshop. Norwood, 18–38. Bolinger, Dwight L. (1965): Visual morphemes. In: Dwight L. Bolinger: Forms of English. Accent, Morpheme, Order. Hg. v. Isamu Abe und Tetsuya Kanekiyo. Tokio, 267–276 [zuerst in: Language 22 (1946), 333–340]. Brekle, Herbert E. (1994): Typographie. In: Hartmut Günther/Otto Ludwig (Hg.): Schrift und Schriftlichkeit. Ein interdisziplinäres Handbuch internationaler Forschung. Bd. 1, Berlin/New York, 204–227.



Typographie – Sprache als Schriftbild 

 117

Brekle, Herbert E. (1997): Das typographische Prinzip. Versuch einer Begriffsklärung. In: GutenbergJahrbuch 72, 58–63. Bucher, Hans-Jürgen (2007): Textdesign und Multimodalität. Zur Semantik und Pragmatik medialer Gestaltungsformen. In: Roth/Spitzmüller (2007), 49–76. Bucher, Hans-Jürgen (2011): Multimodales Verstehen oder Rezeption als Interaktion. Theoretische und empirische Grundlagen einer systematischen Analyse der Multimodalität. In: Hajo Diekmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 123–156. Christmann, Ursula/Norbert Groeben (1996): Die Rezeption schriftlicher Texte. In: Hartmut Günther/ Otto Ludwig (Hg.): Schrift und Schriftlichkeit. Ein interdisziplinäres Handbuch internationaler Forschung. Bd. 2, Berlin/New York, 1536–1545. Crystal, David (1997): The Cambridge Encyclopedia of Language. 2. Aufl. Cambridge. Crystal, David (1998): Toward a typographical linguistics. In: Type. A Journal of the Association Typographique Internationale 2 (1), 7–23. Crystal, David/Derek Davy (1969): Investigating English Style. London. Dürscheid, Christa (2012): Einführung in die Schriftlinguistik. Mit einem Kapitel zur Typographie von Jürgen Spitzmüller. 4., überarb. u. aktual. Aufl. Göttingen. Eckkrammer, Eva Maria/Gudrun Held (2006a): Textsemiotik – Plädoyer für eine erweiterte Konzeption der Textlinguistik zur Erfassung der multimodalen Textrealität. In: Eckkrammer/ Held (2006b), 1–10. Eckkrammer, Eva Maria/Gudrun Held (Hg.) (2006b): Textsemiotik. Studien zu multimodalen Texten. Frankfurt a. M. u. a. Ehlers, Klaas-Hinrich (2004): Raumverhalten auf dem Papier. Der Untergang eines komplexen Zeichensystems dargestellt an Briefstellern des 19. und 20. Jahrhunderts. In: Zeitschrift für Germanistische Linguistik 32, 1–31. Ehrenheim, Andrea (2011): Das Textdesign der Stellenanzeige. Linguistisch und interdisziplinär. Frankfurt a. M. u. a. Fix, Ulla (1996): Textstil und KonTextstile. Stil in der Kommunikation als umfassende Semiose von Sprachlichem, Parasprachlichem und Außersprachlichem. In: Ulla Fix/Gottfried Lerchner (Hg.): Stil und Stilwandel. Bernhard Sowinski zum 65. Geburtstag gewidmet. Frankfurt a. M. u. a., 111–132. Fix, Ulla (2001): Zugänge zu Stil als semiotisch komplexer Einheit. Thesen, Erläuterungen und Beispiele. In: Jakobs/Rothkegel (2001), 113–126. Fix, Ulla (2008): Nichtsprachliches als Textfaktor. Medialität, Materialität, Lokalität. In: Zeitschrift für Germanistische Linguistik 36 (3), 343–354. Gal, Susan/Kathryn A. Woolard (ed.) (2001): Languages and Publics. The Making of Authority. Manchester/Northampton. Gallmann, Peter (1985): Graphische Elemente der geschriebenen Sprache. Grundlagen für eine Reform der Orthographie. Tübingen. Gelb, Ignace Jay (1952): A Study of Writing. The Foundations of Grammatology. London. Glück, Helmut (1987): Schrift und Schriftlichkeit. Eine sprach- und kulturwissenschaftliche Studie. Stuttgart. Goodman, Sharon/David Graddol (eds.) (1996): Redesigning English. New Texts, New Identities. London. Groeben, Norbert (1982): Leserpsychologie. Textverständnis – Textverständlichkeit. Münster. Günther, Hartmut (1988): Schriftliche Sprache. Strukturen geschriebener Wörter und ihre Verarbeitung beim Lesen. Tübingen.



118 

 Jürgen Spitzmüller

Hagemann, Jörg (2003): Typographische Kommunikation. In: Jörg Hagemann/Sven F. Sager (Hg.): Schriftliche und mündliche Kommunikation. Begriffe – Methoden – Analysen. Tübingen, 101–115. Hamp, Eric P. (1959): Graphemics and paragraphemics. In: Studies in Linguistics 14 (1–2), 1–5. Harris, Roy (1995): Signs of Writing. London/New York. Harris, Roy (2005): Schrift und linguistische Theorie. In: Gernot Grube/Werner Kogge/Sybille Krämer (Hg.): Schrift. Kulturtechnik zwischen Auge, Hand und Maschine. München, 61–80. Hausendorf, Heiko/Wolfgang Kesselheim (2008): Textlinguistik fürs Examen. Göttingen. Held, Gudrun/Sylvia Bendel (Hg.) (2008): Werbung – grenzenlos. Multimodale Werbetexte im interkulturellen Vergleich. Frankfurt a. M. u. a. Hodge, Robert/Gunther Kress (1988): Social semiotics. Ithaca, NJ. Holly, Werner (1997): Zur Rolle von Sprache in den Medien. Semiotische und kommunikationsstrukturelle Grundlagen. In: Muttersprache 107 (1), 64–75. Holsanova, Jana/Kenneth Holmqvist/Henrik Rahm (2006): Entry points and reading paths on newspaper spreads. Comparing a semiotic analysis with eye-tracking measurements. In: Visual Communication 5 (1), 65–93. Holthuis, Susanne (1993): Intertextualität. Aspekte einer rezeptionsorientierten Konzeption. Tübingen. Jakobs, Eva-Maria/Annely Rothkegel (Hg.) (2001): Perspektiven auf Stil. Tübingen. Janich, Nina (2010): Werbesprache. Ein Arbeitsbuch. Mit einem Beitrag von Jens Runkehl. 5., vollst. überarb. u. erw. Aufl. Tübingen. Jaworski, Adam/Crispin Thurlow (eds.) (2010): Semiotic Landscapes. Language, Image, Space. London/New York. Kaltenbacher, Martin (2004): Perspectives on multimodality. From the early beginnings to the state of the art. In: Information Design Journal 12 (3), 190–207. Klug, Nina-Maria/Stöckl, Hartmut (2014): Sprache im multimodalen Kontext. In: Ekkehard Felder/ Andreas Gardt (Hg.): Handbuch Sprache und Wissen. Berlin/Boston, 242–264. Kress, Gunther (2010): Multimodality. A Social Semiotic Approach to Contemporary Communication. London/New York. Kress, Gunther/Theo van Leeuwen (2006): Reading Images. The Grammar of Visual Design. 2. Aufl. London/New York. Leeuwen, Theo van (2005): Typographic meaning. In: Visual Communication 4 (2), 137–143. Leeuwen, Theo van (2006): Towards a semiotics of typography. In: Information Design Journal 14 (2), 139–155. Lim, Fei Victor (2004): Developing an integrative multi-semiotic model. In: Kay L. O’Halloran (ed.): Multimodal Discourse Analysis. Systemic-Functional Perspectives. London/New York, 220–246. Ludwig, Otto (2007): Skripte. Konturen einer Konzeption. In: Zeitschrift für Germanistische Linguistik 35 (3), 376–396. Meier, Stefan (2007): Vom Stil zum Style – Typografie als intermediales Phänomen. In: Kodikas/ Code. Ars Semeiotica 29 (1–3), 59–77. Meier-Schuegraf, Stefan (2005): Merkmale rechtsextremistischer visueller Kommunikation im Internet. In: Wilhelm Hofmann/Franz Leeske (Hg.): Politische Identität – visuell. Münster, 153–173. Neef, Sonja (2008): Abdruck und Spur. Handschrift im Zeitalter ihrer technischen Reproduzierbarkeit. Berlin. Opiłowski, Roman (2009): Das strategische Textdesign im Diskurs als Konstruktionsprinzip der Werbekampagnen. In: Tekst i dyskurs – Text und Diskurs 2, 107–121. Pfeiffer-Rupp, Rüdiger (1984): Graphostilistik. In: Bernd Spillner (Hg.): Methoden der Stilanalyse. Tübingen, 101–119.



Typographie – Sprache als Schriftbild 

 119

Raible, Wolfgang (1991): Die Semiotik der Textgestalt. Erscheinungsformen und Folgen eines kulturellen Evolutionsprozesses. Heidelberg. Rezec, Oliver (2009): Zur Struktur des deutschen Schriftsystems. Warum das Graphem nicht drei Funktionen gleichzeitig haben kann, warum ein kein ist und andere Konstruktionsfehler des etablierten Beschreibungsmodells. Ein Verbesserungsvorschlag. Phil. Diss. München: Ludwig-Maximilians-Universität. URL: http://edoc.ub.uni-muenchen.de/10730/. Roth, Kersten Sven/Jürgen Spitzmüller (Hg.) (2007): Textdesign und Textwirkung in der massenmedialen Kommunikation. Konstanz. Sandig, Barbara (1986): Stilistik der deutschen Sprache. Berlin/New York. Sandig, Barbara (2006): Textstilistik des Deutschen. 2., vollst. neu bearb. u. erw. Aufl. Berlin/New York. Sauer, Christoph (1997): Visualisierung inbegriffen: Textüberarbeitung und Umgestaltung. In: Eva-Maria Jakobs/Dagmar Knorr (Hg.). Frankfurt a. M. u. a., 91–106. de Saussure, Ferdinand (1967): Grundfragen der Allgemeinen Sprachwissenschaft. Hg. v. Charles Bally und Albert Sechehaye. Unter Mitarb. v. Albert Riedlinger. Übers. v. Herman Lommel. 2. Aufl. mit neuem Register und einem Nachwort von Peter von Polenz. Berlin [zuerst frz.: Cours de linguistique générale. Lausanne/Paris 1916]. Schnotz, Wolfgang (2006): Was geschieht im Kopf des Lesers? Mentale Konstruktionsprozesse beim Textverstehen aus der Sicht der Psychologie und der kognitiven Linguistik. In: Hardarik Blühdorn/Eva Breindl/Ulrich Hermann Wassner (Hg.): Text – Verstehen. Grammatik und darüber hinaus. Berlin/New York, 222–238. Schopp, Jürgen F. (2002): Typographische Schrift als Mittel nationaler Identifikation. Beobachtungen zur Semiose von Druckschriften. In: Eckhard Höfner/Hartmut Schröder/Roland Wittmann (Hg.): Valami más. Beiträge des Finnisch-Ungarischen Kultursemiotischen Symposiums „Zeichenhafte Aspekte der Veränderung“ (25.–28.11.1998, Berlin, Frankfurt (Oder) – Slubice). Frankfurt a. M. u. a., 95–126. Schriver, Karen A. (1997): Dynamics in Document Design. Creating Texts for Readers. New York u. a. Schröder, Hartmut (1993): Semiotische Aspekte multimedialer Texte. In: Hartmut Schröder (Hg.): Fachtextpragmatik. Tübingen, 189–213. Scollon, Ron/Suzie Wong Scollon (2003): Discourses in Place. Language in the Material World. London/New York. Spillner, Bernd (1974): Linguistik und Literaturwissenschaft. Stilforschung, Rhetorik, Textlinguistik. Stuttgart. Spillner, Bernd (1982): Stilananalyse semiotisch komplexer Texte. In: Kodikas/Code. Ars Semeiotica 5 (1–2), 91–106. Spillner, Bernd (2009): Stilistische Phänomene der Schreibung und Lautung. In: Ulla Fix/Andreas Gardt/Joachim Knape (Hg.): Rhetorik und Stilistik. Ein internationales Handbuch historischer und systematischer Forschung. Bd. 2. Berlin/New York, 1545–1562. Spitzmüller, Jürgen (2012a): Floating ideologies. Metamorphoses of graphic „Germanness“. In: Alexandra Jaffe et al. (ed.): Orthography as Social Action. Scripts, Spelling, Identity and Power. Berlin/Boston, 255–288. Spitzmüller, Jürgen (2012b): Typographie. In: Martin Neef/Rüdiger Weingarten (Hg.): Schriftlinguistik. Ein Lern- und Konsultationswörterbuch mit systematischer Einleitung und englischen Übersetzungen. Berlin/Boston. DOI: 10.1515/wsk.5.0.typographie. Spitzmüller, Jürgen (2013a): Graphische Variation als soziale Praxis. Eine soziolinguistische Theorie skripturaler ‚Sichtbarkeit‘. Berlin/Boston. Spitzmüller, Jürgen (2013b): Metapragmatik, Indexikalität, soziale Registrierung. Zur diskursiven Konstruktion sprachideologischer Positionen. In: Zeitschrift für Diskursforschung 1 (3), 263–287.



120 

 Jürgen Spitzmüller

Stein, Stephan (2003): Textgliederung. Einheitenbildung im geschriebenen und gesprochenen Deutsch. Theorie und Empirie. Berlin/New York. Stöckl, Hartmut (2003): „Prickeln, Perlchen, Phantasie …“ – Sozialer Stil in der Sektwerbung. In: Stephan Habscheid/Ulla Fix (Hg.): Gruppenstile. Zur sprachlichen Inszenierung sozialer Zugehörigkeit. Frankfurt a. M. u. a., 211–233. Stöckl, Hartmut (2004a): Die Sprache im Bild – das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Konzepte, Theorien, Analysemethoden. Berlin/New York. Stöckl, Hartmut (2004b): Typographie. Gewand und Körper des Textes – Linguistische Überlegungen zu typographischer Gestaltung. In: Zeitschrift für Angewandte Linguistik 41, 5–48. Stöckl, Hartmut (2005): Typography. Body and dress of a text – a signing mode between language and image. In: Visual Communication 4 (2), 204–214. Stöckl, Hartmut (2006): Zeichen, Text und Sinn – Theorie und Praxis der multimodalen Textanalyse. In: Eckkrammer/Held (2006b), 11–36. Stöckl, Hartmut (2008): Werbetypographie – Formen und Funktionen. In: Held/Bendel (2008), 13–36. Thibault, Paul J. (2007): Writing, graphology, and visual semiosis. In: Terry D. Royce/Wendy L. Bowcher (eds.): New Directions in the Analysis of Multimodal Discourse. Mahwah, NJ/London, 111–145. Uldall, Hans Jørgen (1944): Speech and writing. In: Acta Linguistica 4, 11–16. Vachek, Josef (1989): Some remarks on the stylistics of written language. In: Josef Vachek: Written language revisited. Hg. u. mit einer Einl. vers. v. Philip A. Luelsdorff. Amsterdam, 43–52 [zuerst in: D.J. Allerton/Edward Carney/David Holdcroft (Hg.): Function and content in linguistic analysis. Cambridge 1979, 206–215]. Walker, Sue (2001): Typography and Language in Everyday Life. Prescriptions and Practices. London. Waller, Robert (1996): Typography and discourse. In: Rebecca Barr et al. (ed.): Handbook of Reading Research. Mahwah, NJ, 341–380. Wehde, Susanne (2000): Typographische Kultur. Eine zeichentheoretische und kulturgeschichtliche Studie zur Typographie und ihrer Entwicklung. Tübingen. Wienen, Markus (2007): Multisensorische Textrezeption. Zum texttheoretischen Potential einer Semiolinguistik des Textes. In: Zeitschrift für Angewandte Linguistik, 69–95. Wienen, Markus (2011): Lesart und Rezipienten-Text. Zur materialen Unsicherheit multimodaler und semiotisch komplexer Kommunikation. Frankfurt a. M. u. a.



Sigrid Norris

5. Multimodal Interaction – Language and Modal Configurations Abstract: This chapter illustrates how language builds one system with all other modes in interaction. Elucidating this point, the chapter examines language and modal configurations in multimodal actions in a small art school in Germany. First, the historical development of multimodal (inter)action analysis is outlined. Then, relevant theoretical concepts are discussed. Following, the theory is exemplified by an analysis of (inter)action in the art classroom. Here, the chapter investigates practices of speaking about colour in the art school based on audio and video data collected over four months. Then, it hones in on one representative sample in which the art teacher interacts with a new art student. The chapter then zooms in further, examining how language in (inter)action shifts within modal configurations. The conclusion critically assesses the explanatory value and practical use of multimodal (inter)action analysis. 1 Introduction 2 Overview – Historical Developments 3 Theory – Multimodal (Inter)action Analysis 4 Applications – Interactions and Modal Configurations in an Art School 5 Conclusion – Language in Multimodal (Inter)action 6 References

1 Introduction This chapter examines language and modal configurations in interaction using multimodal (inter)action analysis as the theoretical/methodological framework (Norris 2004, 2009, 2011a, 2011b, 2013a, 2014b). First, this chapter gives a brief overview of how multimodal (inter)action analysis developed, elucidating some pertinent background literature. Second, the chapter defines and explicates those concepts of the theory that are used to analyse the examples: site of engagement (Scollon 1998, 2001; Norris/Jones 2005), practice, nexus of practice (Scollon 1998, 2001) and community of practice (Lave/Wenger 1991), lower-level and higher -level actions (Norris 2004, 2011a), and modal configurations (Norris 2009, 2014b) from multimodal (inter)action analysis (Norris 2013a, 2014b). Beginning with the concept of site of engagement, I investigate how participants in art classes in a particular art school speak about colour. This investigation leads me to zooming in on one representative, higher-level action in which the art teacher inter

122 

 Sigrid Norris

acts with a new student. Here, I provide audio and multimodal transcripts (Norris 2002, 2004, 2011a), illuminating the heuristic value of multimodal (inter)action analysis. The data comes from a 4-month long ethnographic study that was conducted in a small private art school in Germany. My main interest at the time was the art teacher and her (inter)actions. The art school consists of about 45 art students per week; with the art teacher teaching adult classes, classes for children, classes for teens, and classes for families. The data consists of observations with detailed observational notes, 40 hours of audio/video of naturally occurring interaction, and 30 hours of video-recorded interviews.

2 Overview – Historical Developments Multimodal (inter)action analysis (Norris 2004, 2009, 2011a, 2013a, 2014) is a theoretical and methodological framework to analyse interaction in its complexity. The framework originally grew out of mediated discourse analysis (Scollon, 1998, 2001), interactional sociolinguistics (Goffman 1963, 1974; Gumperz 1982; Tannen 1984), and social semiotics (Kress/van Leeuwen 2001); and also builds on work by Merleau-Ponty (1962, 1963), Vygotsky (1978, 1986), Birdwhistell (1970), Bateson (1972), McNeill (1992), and Wertsch (1998). This theory, takes the mediated action as its unit of analysis, strictly following mediated discourse analysis (Scollon 1998, 2001; Wertsch 1998). Other theoretical concepts in mediated discourse analysis are also largely taken on board by multimodal (inter)action analysis; albeit, quite a number of them are developed and/or refined in Norris (2004, 2011a, 2013b, 2014b), Norris & Jones (2005), and Geenen (2013). Multimodal (inter)action analysis takes from interactional sociolinguistics its interest in the social origin of interaction, its ability to work on a micro level to discover instantiations of minute details in interaction, and linking these to the social. With a theoretical backbone that clearly grew out of mediated discourse analysis, the theory fosters the joining of micro, intermediate and macro in research. Originally, multimodal (inter)action analysis (Norris 2004, 2009, 2011a) took on the definition of mode from social semiotics (Kress/van Leeuwen 2001); i.e.: a mode is a semiotic system with rules and regularities attached. However, through further development of the theory, a mode is now defined as a system of mediated action in multimodal (inter)action analysis (Norris 2013b). The defining of a mode as a system of mediated action embeds the social actor, allowing for the following: Looking at modes in this way, we can begin to analyse how there are individual differences as well as modal overlap. We can also become very clear that the objects in the world, the settings, or the web pages are infused with socio-cultural histories and with possibilities to act with and through. However, how social actors use these objects, settings, or web pages, depends upon the social actors’ modal development. (Norris 2013b, 167)



Multimodal Interaction – Language and Modal Configurations 

 123

Multimodal (inter)action analysis, thus is a theory of human action that, with its theoretical underpinnings and theoretical/methodological tools allows the investigation of how social actors act and interact.

3 Theory – Multimodal (Inter)action Analysis The theory of multimodal (inter)action analysis consists of two postulates (Norris 2014b, 183): 1. Social actors are a part of their physical environment, acting with and through it. 2. All modes in use are interconnected, forming one system of communication. The first postulate disperses the duality between social actors and the environment/ objects within. It is hypothesized that social actors and environment are closely interconnected, building a unity. The second postulate hypothesizes that social actors, as they act with and through the environment, their bodies, objects and psychological mediational means, weave all parts together while acting and communicating and in order to act and communicate. Similarly to McNeill (1992, 2), ‘who asserted that gestures and language form one system, I theorize that all modes in use build one system…’ (Norris 2014b, 184). Multimodal (inter)action analysis itself is made up of many theoretical/methodological tools, allowing us to analyse interaction in its complexity. For space reasons, however, I shall only discuss those tools that are used in the analyses below. These tools are the site of engagement, practice (including nexus of practice and community of practice), lower-level and higher-level actions, and modal configurations.

3.1 Site of Engagement The site of engagement is an analytical tool that allows us to illuminate a moment in interaction. Building on Scollon (1998), a site of engagement is defined as the window opened up to make particular concrete actions possible. A site of engagement simultaneously comes about through and produces the intersection of multiple converging practices that make concrete actions possible. A site of engagement, the opened window, includes place, time, and social actors – their physical, psychological and historical make-up (Norris 2011a; Makboon 2015). However, we can envision the closed window as the research question that the analyst is trying to address. Placing the closed window thus is the first step for a multimdoal (inter)action analysis. It can then be opened wide, partially, narrowly or anything in between to illuminate sites of engagement in which practices converge and make particular actions possible. In the example below, the closed window is placed



124 

 Sigrid Norris

over an art school. With this notion, we are able to examine various levels of concrete (inter)actions. As analysts, we thus begin our examination by analytically delineating a particular site of engagement (placing the closed window) before actually illuminating it (opening the window). Here, I first take a look at the art school, by taking a wide, yet constricted view on colour-utterance use over time. I then take a closer look at a particular interaction by narrowing and lengthening the window opening to gain a focused view of one particular teaching moment in one adult art lesson. As the teaching moment progresses, I zoom in even more, closing the window to only a narrow slit, to take a very detailed look at modal configurations.

3.2 Practice, Nexus of Practice and Community of Practice Following Scollon (1998, 2001), practice is defined as an action with a history. Scollon (2001) illustrated this notion by looking at handing. A social actor hands a ball to another social actor. A social actor hands a key to another social actor. A social actor hands a glass of water to another social actor. Each time one social actor hands something to another social actor. It really does not matter what is handed by who to whom, we all know and understand what is happening. The reason is that handing is a practice. Handing is an action with a history that we learn from very young. But when investigating the people, places, discourses, ideas and objects as they come together, we speak of a nexus of practice. R. Scollon and S. Scollon (2004) explain: A nexus of practice is the point at which the historical trajectories of people, places, discourses, ideas, and objects come together to enable some action which in itself alters those historical trajectories in some way as those trajectories emanate from this moment of social action. (Scollon/ Scollon 2004, 159)

With this explanation, R. Scollon and S. Scollon point to the simultaneity of practices that construct at the same time as they are constructed. A nexus of practice does not assume membership or groupings of people, but only a similar way of doing things. Whereas, the concept of a community of practice (Lave/Wenger 1991) was developed to illustrate that learning is based on, and in, social interaction within social groups. For a community of practice to form, a mutual undertaking is needed. With a multimodal (inter)action approach, we begin our analysis by examining concrete actions, leading us to uncover practices and nexus of practice, which then may lead us to the discovery of a community of practice. A community of practice is thus not presumed, but instead, may be discovered.



Multimodal Interaction – Language and Modal Configurations 

 125

3.3 Lower-Level and Higher-Level Actions Practice, the action with a history, may be a lower-level action as the action of handing or it may be of a higher-level such as an art lesson. Neither the lower-level, nor the higher-level action is prior to the other; rather, these two levels constitute each other simultaneously. A lower-level action (Norris 2004) is defined as the smallest pragmatic meaning unit of a mode. Examples of a lower-level action would be the utterance for the mode of spoken language, the gesture unit for the mode of gesture, or the postural shift for the mode of posture. Each lower-level action has a beginning and an ending point. A higher-level action (Norris 2004) is defined as the coming together of a multitude of chains of lower-level actions. Examples of a higher-level action may be an art lesson or a teaching moment in an art class. Particular levels of higher-level action are delineated by the analyst, marking the beginning and the ending point as they are relevant to their research question. However, this does not mean that an analyst randomly assigns beginning and ending points. Rather, beginning and ending points are demarcated through the analysis of the data. In the example below, where I am interested to see what is actually taught at a particular moment, I delineate the higher-level action as beginning at the point when the art teacher addresses the student and ending at the point when the art teacher finishes her explanation. Or, when interested in understanding the modal configurations during a particular utterance, I delineated the higher-level action as beginning with the beginning of the utterance linked to arm/hand/finger movement and ending it with the ending of the utterance linked to arm/hand/finger movement.

3.4 Modal Configurations Modal configuration is the hierarchical configuration of lower-level actions (or their chains) in relation to other lower-level actions (or their chains) within a higher-level action (Norris 2009, 2011b, 2014b). In order to determine modal configuration, we first analyse the meaning that has been conveyed in a particular (inter)action. Thus, while we are interested in investigating the unfolding of interactions, we actually begin our examination of the interaction as it has occurred and then work backwards. Modal configurations, I show below, may fluctuate quickly or slowly from one higher-level action to the next. When investigating modal configurations, we sometimes need to narrow our site of engagement, closing our window to only a narrow slit, in order to be able to examine these changes. Important here, is that we always investigate higher-level actions, i.e.: the coming together of multiple lower-level actions (or chains thereof).



126 

 Sigrid Norris

4 Applications – Interactions and Modal Configurations in an Art School For a study in which I investigated the identity production of an artist, I spent much time in her art school, and the art school became a field site in two respects: 1. It was a site in which the artist produced her multiple identity elements; and 2. It was a site in which the artist interacted with many different kinds of art students. For this chapter, I am interested in the second part of the study. For this investigation, I first place my closed window over the art school and open it wide yet constricted so that, when opened, it illuminates the site of engagement, the art school over the period of four months, showing how various students and the art teacher speak about colour. This speaking about colour many concrete times and across many students gives us insight into the practices of how students and the teacher speak about colour. I then close the window quite narrowly, illuminating the site of engagement of the art teacher interacting with a new adult art student, who intends to add a little black to her painting but cannot decide where to do so (cf. also: Norris, 2014a, 2014b). This time, the site of engagement focuses on one particular higher-level action, the higher-level action of the art teacher teaching the student where and where not to add black. During this examination, I narrow the window even more, only allowing a small slit to illuminate the site of engagement of a brief higher-level action in which the art teacher is re-drawing a line and producing one utterance. I then move the closed window, opening it again to only a small slit to illuminate the site of engagement of another brief higher-level action in which the art teacher re-draws a second line while also producing one utterance. Here, the sites of engagement allow us to illuminate the chains of lower-level actions and their hierarchical relationships to one another. Right after this, I again open the window a little, now illuminating the site of engagement of the art teacher teaching the student which line not to paint black and why not. Continuing to illuminate the chains of lower-level actions and their hierarchical relationships, but this time showing that these relationships can also last over longer stretches in interaction.

4.1 Talking About Colour During my observations and video-ethnography over the period of four months in a small art school in Germany, it was striking, though maybe not surprising, just how much individuals spoke about colour. I began by noting down all colour utterances in a notebook and, later, analysed audio and video data for the same. Some sample utterances are presented here.



Multimodal Interaction – Language and Modal Configurations 

 127

Excerpt 1: Sample colour-utterances in an art school in Germany Social actor A: Vielleicht würde ich da (+ Geste) eventuell ein bisschen mehr gelb reintun. Perhaps I would possibly put a little more yellow in there (+ deictic gesture). Social actor B: Das (+ Geste) malt man nicht blau. Das must du grün machen. One doesn’t paint that (+ deictic gesture) in blue. You have to do it in green. Social actor C: Du könntest da (+ Geste) vielleicht noch mit einem Hauch rot reingehen. You maybe might also go into it there (+ deictic gesture) with a touch of red. Social actor D: Mach das (+ Geste) blau. Make that (+ deictic gesture) blue. Social actor E: Ich würde da (+ Geste) eventuell noch blau nehmen. I would there (+ deictic gesture) possibly also use blue. Social actor F: Ich würd das (+ Geste) in rosa malen. I would paint that (+ deictic gesture) in pink. Social actor G: Du könntest da (+ Geste) vielleicht noch grün nehmen. You could there (+ deictic gesture) possibly use some green. When analysing the colour utterances in connection with the non-verbal and manual actions that individuals performed at this nexus of practice, and relating these to the historical data that I collected over the four months, a community of practice emerged. The art teacher, or the expert, had the strongest modal use, the most adverbial use, and the most use of hedges. She would say things as ‘perhaps I would possibly put a little more yellow in there (+ deictic gesture)’. While new students, or the novices, had the strongest use of directives, saying things such as ‘make that (+ deictic gesture) blue’. All other students were nicely stratified somewhere between expert and novices in their modal, adverbial, hedging, and directive use, showing how close they either were to the expert or to the novices. The art teacher thus used language carefully as not to direct, to allude to possibilities, and to show that there is no right or wrong. While new students used language to demonstrate their own knowledge about the world, in which they perceived a clear right and wrong. However, when seeing that the art teacher clearly verbalises that there is no right or wrong, alluding to the fact that anything is possible when painting, and when always hedging, we may want to ask what it is that she actually teaches.



128 

 Sigrid Norris

4.2 Teaching How to Paint As discussed above, the art teacher does not give direct instructions about the use of colour. She uses modals, adverbials, and hedges to open up possibilities for students rather than answering colour questions straightforwardly. This hedging has brought me to take a closer look at the teaching practice of this art teacher. Looking at many hours of video, I found a very similar pattern: a pattern that can be found when she teaches children of all ages and a pattern that can also be found when she teaches new adult students. The language that the art teacher uses is quite striking in that she does not actually seem to say much of substance. She often falls into colloquialisms; and she often seems to emphasise her own reliance on her intuition and often appears to be quite vague. Here, I shall now examine one representative higher-level action illuminated by a site of engagement in an adult art class, where a new student indirectly requests help. I first illustrate how the art teacher teaches, by narrowing my window, illuminating the site of engagement of one higher-level action that I demarcate as beginning when the art teacher starts to engage with the new student’s request, and ending when she has finished the teaching-moment. I first constrict my site of engagement to illuminate the verbal exchange between art teacher and student, and thus begin with the examination of an audio transcript. Just before the art teacher engages with the student, the student had stepped into the pathway of the art teacher. This action is discussed in Norris (2014a) with a focus on the student learning tacit practices. In this chapter, I focus on the art teacher and discuss the moment in detail in section 4.2.1 below. However, this moment precedes the exchange detailed in Audio Transcript 1; and therefore, this verbal exchange is necessary for the understanding of the following exchange. Here, the art teacher, finding the student in her way, begins to speak with the student saying du guckst so kritisch (you are looking so critically) and the student responds by saying mm. The art teacher moves to a different position and gazes at the painting for 12 seconds before the student explains da müsste noch son bisschen Schwarz rein nur son ganz kleiner Hauch aber ich weiss noch nicht wo (there should be a little more black in there just a very little touch but I am not yet sure where) (Figure 1). The art teacher takes this as an indirect request for help, takes the five steps towards the painting and the dialogue in Audio Transcript 1 develops. Audio Transcript 1: das is so bblub (that is so bblub) (1) Art teacher: das Thema is ja, well the point is (2) wenn du da hier rein gehen würdest if you’d go in here (3) das wär auch doof. that would be idiotic too. 

Multimodal Interaction – Language and Modal Configurations 

(4) (5) Student: (6) Art teacher: (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) (17) (18) (19) Student: (20) (21) Art teacher: (22) (23) (24)

 129

das war ja jetzt so. that was now so. ja das passt da nirgendwo ne? yes it doesn’t fit there anywhere right? ja aber ich hab grad yes but I just have ich hatte grad in geI had just in thhier aussen, here on the outside, oder da or there watte wait muss i nomal gucken have to look again also ich glaube well I believe hier aussen here on the outside könnt ich mir vorstelln I could imagine wesse wenn de dir jetz vorstellst you know when you imagine weilbecause das is soo that is soo bblub bblub weil da because there nee noo hier geht au nich here isn’t possible either weil dann ham wir son komisches because then we’ll have such a strange weiss ich nich not sure Gezacke zigzag 

130 

(25) (26) (27) (28) (29)

 Sigrid Norris

hhh hhh ne also no so das wär auch doof that would be idiotic too also ich hab jetzt grade so ausm Gefühle heraus well I’m thinking so from my own feeling irgendwie hier gedacht about here

Audio Transcript 1 illustrates that the art teacher uses many colloquial terms such as doof (idiotic), bblub (blubb), or komisch (strange) when speaking with the student. She further speaks by hedging, as discussed previously and with much modal use. But what is more striking in this transcript, is the fact that the art teacher in lines (26) and (27) ends her teaching by stating also ich hab jetzt grade so ausm Gefühle heraus irgendwie hier gedacht (well I’m thinking so from my own feeling about here). At first sight, we notice the relevance of audience design (Bell 1984): The teacher speaks to the student in a way that is understandable to her. Since the teacher is speaking with a new student, she likely assumes that the student has little knowledge about art and/or the language connected to the teaching/learning of art practice. However, that does not explain how or what the art teacher actually teaches. It appears, especially from lines (26) and (27) that the art teacher grounds her advice regarding to where the student might want to add some black in her own intuition. Thereby, we could say that she teaches the new student to trust in her own intuition as well. But, while such trust in intuition may be very important when learning how to paint, we may wonder what else – if anything – the art teacher teaches the student. Thus, when we investigate Transcript 1, we find that the art teacher utilises the mediational means of spoken language to chiefly teach the new student the need to trust her intuition. However, when examining other modes, we realise that the art teacher teaches much more than trust in intuition. Specifically, we find that she teaches the student a) how to look at a painting; b) where to add more black; and c) where not to add black and why not. Figure 1 illustrates the moment when the art teacher first engages with the student, and it is at this moment, when she teaches the student where to position herself in order to correctly look at a painting.



Multimodal Interaction – Language and Modal Configurations 

 131

4.2.1 Teaching How to Look at a Painting Narrowing the site of engagement (closing our window a bit), we can delineate the concrete moment of interaction as a higher-level action with a beginning at the point where the art teacher addresses the student (Figure 1 image 1); and ending at the point where the student finishes her utterance (Figure 1 image 6). The new student is positioned at an angle to her painting and about two steps away from it (Figure 1 images 1 and 2). As the art teacher is getting ready to observe the painting, she moves to a position directly across and five paces away from the painting.

Fig. 1: Teaching how to look at a painting



132 

 Sigrid Norris

As the art teacher positions herself across from the painting and gazes at it for an extended time (12 seconds), she employs a painting-proxemics-gaze modal aggregate (Figure 2) (discussed in detail in Norris 2014b). At this instance, the art teacher engages in her practice of looking at a painting. Thereby, she tacitly teaches the correct physical distance and positioning that the student needs to take up in order to be able to see the painting as a whole. This perceiving a painting as a whole is accomplished through the painting-proxemics-gaze modal aggregate (Figure 2).

Fig. 2: Employing a painting-proxemics-gaze modal aggregate (from Norris 2014b, 189)

When recognizing the painting-proxemics-gaze modal aggregate employed in this concrete higher-level action, we are compelled by our analytical tool, the site of engagement, to realise that it is made possible by converging practices. These converging practices are, at this moment re-created and/or shaped. In other words, by analysing this concrete instantiation of a modal aggregate, we trace and link it to practices (actions with a history), and may further trace and link it to discourses such as the discourse of art (when for example thinking of a museum visit, where the visitors stand away from paintings to view them) (cf. also: Norris 2014b).



Multimodal Interaction – Language and Modal Configurations 

 133

4.2.2 Teaching Exactly Where to Add More Black Changing our site of engagement a bit by moving and closing our window to a narrow slit, we can zoom in on lines (8) and (9) of Audio Transcript 1. In line (8), the art teacher utters the words hier aussen, (here on the outside,) with slightly rising intonation, indicating that there is more to come. At the same time, she moves the little finger of her right hand along a line, starting at one particular point on the line and stopping at another specific point as illustrated in Figure 3.

Fig. 3: Teaching the exact positioning of a line through precise re-drawing (from Norris 2014b, 193)

The art teacher redraws a specific part of the outside line of a light green half circle with her little finger, indicating precisely where she believes the student could add some black. At this moment, the arm/hand/finger movement takes on much weight in producing the meaning of illustrating the exact position of a possible black line (shown in Figure 5). At this moment, the painting-proxemics-gaze modal aggregate is highly relevant, but the meaning of the particular part of the green line that the art teacher suggests the student to paint black, is created through the movement of her little finger. At the same time, as the art teacher begins to retrace the line, she begins her utterance hier aussen (here on the outside). This positioning of a pointing finger coinciding with the deictic term hier (here) could be a classic pointing gesture (McNeill 1992) and is misunderstood as such by the student (analysed in detail in Norris 2014b). However, in this instance language is not superordinate to gesture and the two modes also do not take on an equal position. While the spoken language is clearly linked to the arm/ hand/finger movement, the modes painting, proxemics, and gaze are needed to actually produce the arm/hand/finger movement along the intended line, while the mode



134 

 Sigrid Norris

of spoken language in fact is not needed to convey the meaning that the art teacher is trying to convey. For example, when we think about Transcript 1 just before this instance happens as represented in Transcript 2, the art teacher could have conveyed the same meaning of hier aussen (here on the outside) by only re-drawing the part of the line without uttering the words. Transcript 2: Excerpt of Transcript 1 (6) Art teacher: ja aber ich hab grad yes but I just have (7) ich hatte grad in geI had just in thSince the same meaning could have been conveyed without the utterance, spoken language takes on less weight here than the other modes. However, the mode of spoken language takes on as much weight as the arm/hand/finger movement when the art teacher next says oder da (or there).

Fig. 4: Giving an alternative

The art teacher moves her little finger to the other side of the green half circle and suggests that the student could alternatively add black to a part of that line (Figure 4). Here, the art teacher shows exactly which part of the inside line of the green half circle the student could alternatively redraw in black. Once more, the art teacher is very specific in her suggestion indicated by the movement of her little finger, while she says ‘oder da’ (or there) ending in lowered intonation, denoting the end of the suggestion.



Multimodal Interaction – Language and Modal Configurations 

 135

However, here the modal configuration has changed from the moment preceding this one. In this current instance, when the art teacher gives the student an alternative, the mode of spoken language grows in importance and intensely merges with the mode of arm/hand/finger movement. In this instance, the meaning of an alternative can only be conveyed when these two modes build an aggregate and wholly function together. In other words, the mode of spoken language alone cannot convey the meaning that the art teacher constructs at this moment, and neither can the mode of arm/hand/finger movement. Figure 5 and 6 illustrate the lines that the art teacher suggests. In Norris (2014b), I have shown how the new student understood this teaching moment.

Fig. 5: hier aussen (here on the ouside)

Fig. 6: oder da (or there)

Opening up the site of engagement more now to see the continuation of the art teacher’s teaching moment, we find that next, the art teacher says (lines 9 and 10) watte muss i nomal gucken (wait I have to look again) as she takes five steps away from the painting and looks at it. She then steps forward again and begins during her third step, (line 11) saying also ich glaube (well I believe). As soon as the art teacher reaches the painting, she re-draws the exact same part of the outside line of the green half circle as shown in Figures 3 and 5, again saying (line 12) hier aussen (here on the outside) as she moves her little finger from bottom to top along the line. She then re-draws it back (top to bottom) and forward (bottom to top) again, while saying (line 13) ‘könnt ich mir vorstellen’ (I could imagine). Then, later, when the art teacher says (in lines 26 and 27) also ich hab jetzt grade so ausm Gefühle heraus irgendwie hier gedacht (well I’m thinking so from my own feeling about here), she again redraws the outside line of the green half circle in a very similar way as she did before (illustrated in Figures 3 and 5). Now, she redraws it four times, moving her little finger up, down, up, and down again. 

136 

 Sigrid Norris

When examining the multimodal higher-level action, we thus detect that the art teacher repeatedly demonstrates the exact positioning of a possible place for a black line. While the art teacher uses the mode of spoken language colloquially and vaguely irgendwie hier (about here), she utilises the mode of arm/hand/finger movement very exactly, conveying precisely where the student should add a black line. In this instance, the art teacher teaches the student confidence, as the modes of spoken language, arm/hand/finger movement, and all other modes in the interaction interlink, although, the modal configurations vary and sometimes change quite quickly as illustrated in the two examples above. But the art teacher does not only teach where the student should add a black line, she also teaches where the student should not add a black line and gives a detailed explanation of why not.

4.2.3 Teaching Where Not to Add Black And Why Not When moving our window a bit and opening a narrow gap, we can open up another site of engagement. This time, we take line (20) of Audio Transcript 1, where the art teacher says hier geht au nich (here isn’t possible either) as the beginning of the higher-level action (Figure 7); and take the instance when the art teacher has retracted her hands as the ending point of the higher-level action (last image in Figure 8). In between these points, (line 22–24) the art teacher says weil dann ham wir son komisches weiss ich nich (because then we’ll have such a strange not sure) Gezacke (zigzag). The reason that we delineate the higher-level action in this way is because it is this instance, in which the art teacher conveys where the student should not add black and why not. First, the art teacher shows the student where a black line should not be added as illustrated in Figure 7. Here, the art teacher draws her finger along a line from top to bottom as she says hier geht au nich (here isn’t possible either), opening her right hand and turning it palm up as she finishes the utterance with lowered intonation.



Multimodal Interaction – Language and Modal Configurations 

 137

Fig. 7: Teaching where a black line should not be drawn

As the art teacher says hier geht (here possible), she moves her arm/hand/finger along a line from top to bottom. At this point (Figure 7 images 1 and 2), the modes of spoken language and arm/hand/finger movement again build an aggregate as the message cannot be understood unless both modes are used together to indicate the position of the line. But then, the mode of spoken language takes on more weight as the mode of arm/hand/finger movement, still supporting the verbal message, is not absolutely necessary for the meaning construction. In other words, if one had not seen the wave of the hand, the message of auch nich (isn’t either) (Figure 7 bottom row), namely that a line is not possible here, is still understood. She then continues with an explanation beginning with weil (because) as her left hand is moving upwards and her right hand is moving downwards as seen in Figure 8 from image 1. She continues this utterance with a hypothetical beginning with dann (then) as both hands are now moving up as seen in Figure 8 image 2, saying ham wir (we’ll have). Her hands change very little until she says more quietly son (such a), and right after this begin to move faster, first coming closer together, before she moves her right hand along a black line to the left as illustrated in images 1 and 2 of the second row in Figure 8. Now she adds komisches (strange) and moves her hand along an adjacent black line to the right. As the art teacher follows one line after the other with her right hand, and utters the words weiss ich nich (not sure), her left hand first rests in a post-stroke hold before it enters a retraction phase during this utterance that is completed in image 1 of the 5th row in Figure 8. Only after much gesturing with her right hand, does the art teacher verbalise what she has been showing with her arm/hand as she says Gezacke (zigzag)



138 

 Sigrid Norris

and laughs. But even as she utters the word Gezacke (zigzag), verbalising what she has been and still is showing with her arm/hand movement, she continues the zigzag movement with her right hand until she has completed her re-drawing of the black lines. With this elaborate gesturing and air-re-drawing of lines, the art teacher gives an elaborate visual explanation, illustrating what would happen if the student was painting the line black that the art teacher has pointed out not to draw in Figure 7 (images 1 and 2).

5 Conclusion – Language in Multimodal (Inter)action Multimodal (inter)action analysis allows the investigation of interaction on a great variety of levels. With this theory, we do not need to build bridges between the micro, the intermediate and the macro. (For a detailed analysis of these three levels in the instances shown in Figures 2 and 3, cf. Norris 2014b. There the explicit connection between modal configurations, practices, and discourses is made.) While the micro, intermediate and macro are quite incommensurate levels of analysis for some theories, multimodal (inter)action analysis ecologically incorporates these and moves back and forth between ostensible levels with ease.



Multimodal Interaction – Language and Modal Configurations 

 139

Fig. 8: Explaining a hypothetical through hand-motion plus naming it Gezacke (zigzag)



140 

 Sigrid Norris

With the analytical tool of site of engagement, the analyst begins the actual investigation by looking at concrete actions, and at the same time, the analyst never loses awareness of the fact that the actions that are being investigated are made possible through converging practices, and that these practices in turn link to larger discourses (Norris 2014 a and b). Thinking of the research question that is addressed as the closed window that is positioned in a certain way before it is opened to illuminate a site of engagement, demonstrates that any kind of positioning is possible. This notion is exemplified in the chapter, for example, by positioning the closed window in such a way that, when opened, the site of engagement only comprises utterances about colour; or, by positioning the closed window in such a way that, when opened, it illuminates the site of engagement of the art teacher showing the student exactly where to add a black line. However, it is not only the ease with which the analyst moves across various levels of analysis, but also, and most importantly, the notion that all modes in interaction build one system of communication, which makes this theory unique. Thinking of interaction in these multimodal terms, we notice that language is just one mode in the much larger system. Language, just as any other mode, can take on a super-ordinate or a sub-ordinate position to other modes in interaction (Norris 2011b). Language, always integrated into the larger system, can easily function in close connection with other modes such as arm/hand/finger movements as illustrated in the example of the art teacher giving an alternative of where the student could add a black line. Or language can function as an add-on to another mode, such as the arm/hand/finger movement as exemplified in the example of the art teacher demonstrating to the student exactly where to add black. But language can also function differently from other modes such as arm/hand/finger movements as illustrated in the example where the art teacher quite vaguely states irgendwie hier (about here) when, in fact, she demonstrates exactly where the student should add a black line by re-tracing only a part of a line in the painting. Here, the art teacher is simultaneously exact and vague, achieving the fostering of confidence in the student. However, it is not the case, as one may assume, that she utilises the mode of spoken language in order to teach confidence, and the mode of arm/hand/finger movement to teach exactly where to position the black line. Rather, the teaching of confidence is produced by giving a very clear answer to the student through the mode of arm/hand/finger movement at the very same time as giving a vague explanation through the mode of spoken language. In other words, was the art teacher vague in both modes, the vagueness would not result in teaching confidence; and was the art teacher exact in both modes, it would also not result in teaching the student confidence. This teaching of confidence is thus only possible through the interplay of these modes in complexly interlinked ways, giving both a vague and an exact explanation simultaneously. Multimodal (inter)action analysis thus is a theoretical framework with linked methodological tools that allows us to investigate interaction in its complexity. With



Multimodal Interaction – Language and Modal Configurations 

 141

this, the theory opens up new directions and scope to the inquiry into language and interaction. Acknowledgement: I would like to thank the participants for their engagement and the Faculty of Design & Creative Technologies at Auckland University of Technology, New Zealand for their financial support of the project.

6 References Bateson, Gregory, (1972): Steps to an Ecology of Mind. Chicago. Bell, Allen (1984): Language style as audience design. In: Language in Society 13 (2), 145–204. Birdwhistell, Ray (1970): Kinesics and Context. Essays on Body Motion Communication. Pennsylvania. Geenen, Jarret (2013): Kitesurfing: Actions, (Inter)actions, and Mediation. Unpublished PhD Thesis. Auckland University of Technology. Auckland, New Zealand. Goffman, Erving (1963): Behaviour in Public Places. New York. Goffman, Erving (1974): Frame Analysis. New York. Gumperz, John (1982): Discourse Strategies. Cambridge. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Lave, Jean/Etienne Wenger (1991): Situated Learning. Legitimate Peripheral Participation. Cambridge. Makboon, Boonyalakha (2015). Spiritual Vegetarianism. Identity in Everyday Life of Thai Non-Traditional Religious Cult Members. Unpublished PhD thesis. Auckland University of Technology. Auckland, New Zealand. McNeill, David (1992): Hand and Mind. What Gestures Reveal About Thought. Chicago. Merleau-Ponty, Maurice (1962): Phenomenology of Perception. Transl. by Colin Smith. New York. Merleau-Ponty, Maurice (1963): The Structure of Behavior. Transl. by A.L. Fisher. Boston. Norris, Sigrid (2002): The implication of visual research for discourse analysis: Transcription beyond language. Visual Communication. 1 (1): 97–121. Norris, Sigrid (2004): Analyzing Multimodal Interaction. A Methodological Framework. London. Norris, Sigrid (2009): Modal density and modal configurations. Multimodal actions. In: Jewit, Carey (ed): Routledge Handbook for Multimodal Discourse Analysis. London. Norris, Sigrid (2011a): Identity in (Inter)action. Introducing Multimodal (Inter)action Analysis. Berlin/ Boston. Norris, Sigrid (2011b): Three hierarchical positions of deictic gesture in relation to spoken language. A multimodal interaction analysis. In: Visual Communication 10 (2), 1–19. Norris, Sigrid (2013a): Multimodal (inter)action analysis. An integrative methodology. In: Cornelia Müller/Ellen Fricke/Alan Cienki/David McNeill (eds): Body – Language – Communication. Berlin/New York. Norris, Sigrid (2013b): What is a mode? Smell, olfactory perception, and the notion of mode in multimodal mediated theory. Multimodal Communication 2(2): 155–169. Norris, Sigrid (2014a): Learning tacit classroom participation. WCLTA. Procedia Social and Behavioral Sciences. Elsevier. Volume 141, 166–170. Norris, Sigrid (2014b): The impact of literacy-based schooling on learning a creative practice. Modal configurations, practices and discourses. In: Multimodal Communication 3 (2), 181–195.



142 

 Sigrid Norris

Norris, Sigrid/Rodney H. Jones (2005): Discourse in Action. Introducing Mediated Discourse Analysis. London. Scollon, Ron (1998): Mediated Discourse as Social Interaction. London. Scollon, Ron (2001): Mediated Discourse. The Nexus of Practice. London. Scollon, Ron/Suzie Scollon (2004): Nexus Analysis. Discourse and the Emerging Internet. London. Tannen, Deborah (1984): Conversational Style. Analysing Talk among Friends. Norwood, NJ. Wertsch, James. V. (1998): Voices of the Mind. A Sociocultural Approach to Mediated Action. Cambridge, Mass. Vygotsky, Lev (1978): Mind in Society. The Development of Higher Psychological Processes. Boston. Vygotsky, Lev (1986): Thought and Language. Revised and Edited by Alex Kozulin. Boston.



II Zugriffe auf multimodale Verknüpfungen



Carey Jewitt/Berit Henriksen

6. Social Semiotic Multimodality Abstract: This chapter gives an introduction to social semiotics, its conceptual origins in linguistics, notably in the work of Halliday, and how it has been developed as an approach within multimodality. The key principles of this approach are discussed, and five key concepts are outlined. The chapter illustrates the application of a social semiotic multimodal approach to the social media platform Pinterest to explore users’ multimodal design of their homepages to construct style, with a focus on their construction of gendered style. The resources of image, colour, and writing are examined, with attention to how their use is shaped through the interaction of social norms and the designed affordances of Pinterest. 1 A History of Social Semiotics: From Language to Multimodal Sign-making 2 Social Semiotics 3 Applying a Social Semiotic Multimodal Approach: Style on Pinterest 4 The Potentials and Limitations of a Social Semiotic Approach 5 Conclusion 6 Bibliography

1 A History of Social Semiotics: From Language to Multimodal Sign-Making This section provides a brief overview of the development of multimodal social semiotics, sketching the larger theoretical framework from which this approach is derived. Social semiotics is concerned with meaning making and meaning makers. It studies the media of dissemination and the modes of communication that people use and develop to represent their understanding of the world and to shape power relations with others. It draws on qualitative, fine-grained analysis of artifacts, and texts, as records of meaning making, to examine the production and dissemination of discourses across the variety of social and cultural contexts within which meaning is made. It also describes Social Semiotics as a theoretical approach to multimodality by tracing its development from a concept used to refer to language, to a broader use of social semiotics to define a field, and to its latest developments in relation to multimodal communication. Social Semiotics has its origins in Functional Linguistics, more specifically in the work of Michael Halliday (1978), and has been later developed as a theory of multimodal sign-making in the works of Robert Hodge, Gunther Kress and Theo van Leeuwen (e.g. Hodge/Kress, 1988; Kress/van Leeuwen, 2001; van Leeuwen, 2005; 

146 

 Carey Jewitt/Berit Henriksen

Kress, 2010). In Hallidayan theory, language is a product of social processes; the resources of a language are shaped by the functions it has developed to satisfy the communicative needs of people’s lives. Robert Hodge and Gunther Kress (1988), in their book Social Semiotics extended Halliday’s approach from language to sign-making more broadly, and argued that societies develop and shape all semiotic resources to fulfil given social functions, express a social group’s values, systems of knowledge (i.e. discourses), structures and power roles. They discuss examples from a range of social contexts involving a range of modes, but focused primarily on writing and image in ‘print’ media (e.g. magazines, billboards). Kress and van Leeuwen extended Halliday’s work, notably the idea of meaning as choice, to develop a social semiotic approach to the visual, and to theorize the visual as a mode, culminating in their seminal book Reading images: The grammar of visual design (Kress/van Leeuwen 1996). This opened the door for multimodality in the way that it discusses key concepts such as composition, modality and framing. The issue of mode and multiple modes became increasingly foregrounded in social semiotic work in the early 2000s and led to an expansion of multimodality, questioning the boundaries of individual modes and examining common principles underpinning multimodal communication, notably, Multimodal discourse: The modes and media of contemporary communication (2001), Kress/van Leeuwen. Multimodal analysis has, as this handbook illustrates, been approached through different perspectives, each with a specific interest in the investigation of modes and multimodal representation (Jewitt 2013). Kress’s book Multimodality (2010) and Introducing Multimodality (Jewitt/Bezemer/­ O’Halloran 2016) bring together all of this work to outline a social semiotic approach to contemporary communication.

2 Social Semiotics Applying the theory of social semiotics shapes the way in which multimodal analysis is conceived and conducted. This section outlines the operating principles of this approach to multimodality, defines the key concepts central to a Social Semiotic analysis, and explains how these concepts are applied in the analysis of texts. Social semiotics sets out to understand how representations are produced by and contribute to cultural settings, that is, to get at their social function and meaning potential in the communicative landscape. Their textual features are analyzed in order to comment on social relations, power, signification, the interests of sign makers, the imagined audience, and the social purposes realized by texts. The example discussed in section 3, draws on the inductive analysis of Pinterest homepages focused on how style is semiotically materialized in the social media platform Pinterest, combined with a deductive analysis employing theories of gender. The interest in gender arose directly from the Pinterest texts, as the preliminary analysis of image, colour, and



Social Semiotic Multimodality 

 147

writing clearly point to the gendered character of the text. The five theoretical concepts introduced below provide a starting point for the application of a social semiotic approach to a wide range of multimodal communication.

2.1 Semiotic Resource Semiotic resource refers to “the actions, materials and artifacts we use for communicative purposes” with A meaning potential, based on their past uses, and a set of affordances based on their possible uses, and these will be actualized in concrete social contexts where their use is subject to some form of semiotic regime (van Leeuwen 2005, 285).

A person ‘chooses’ (as discussed in section 2.4 this choice is situated and constrained) a semiotic resource from the available system of resources. They bring together a semiotic resource (a signifier) with the meaning (the signified) that they want to express. In other words people express meanings through their selection from the semiotic resources that are available to them in a particular social situation and moment in time: in short, meaning is choice from a system. This choice is always socially located and regulated, both with respect to what resources are made available to whom, and the discourses that regulate and shape how modes are used by people. These solidify into various kinds of normative discourses or ‘rules’ for the use of semiotic resources; rules that are socially made, and sometimes broken; rules that have the potential to be changed through social interaction. This leads to a view of signs, modes, and meaning making as being, at least potentially, fluid and dynamic. The semiotic resources of a mode are susceptible to change both at the level of ‘grammar’ and meaning. This opens up new possibilities for semiotic resources to come into the ‘modal stock’ of meaning making potentials. The illustrative example discussed in section 3 of this chapter, analyzes how the semiotic resources of image, colour, and writing are shaped by the technological platform Pinterest, and how the take-up of these by Pinterest users is socially shaped in relation to materializing gendered styles.

2.2 Provenance Semiotic resources have meaning potentials that derive from their previous uses in a given society. When a semiotic resource is used in representation, a sign is newly made. Every time it is used, it undergoes (a certain degree of) transformation. Two principles drive transformation, i.e. provenance and experiential meaning potential. Provenance, closely related to Barthes’ (1977) notions of “myth” and “connotation”, defines “where signs come from”.



148 

 Carey Jewitt/Berit Henriksen

The idea here is that we constantly ‘import’ signs from other contexts (another era, social group, culture) into the context in which we are now making a new sign, in order to signify ideas and values which are associated with that other context by those who import the sign (Kress/van Leeuwen 2001, 10–11).

Experiential meaning potential is instead akin to Lakoff/Johnson’s (1980) view of metaphor and it condenses the idea that signifiers have a meaning potential deriving from what it is we do when we produce them, and from our ability to turn action into knowledge, to extend our practical experience metaphorically, and to grasp similar extensions made by others. (Kress/van Leeuwen 2001, 10–11).

In Pinterest, as discussed in section 3.2, the provenance of images connected with the practice of re-pinning images from within the social platform, are key in understanding the users’ production and maintenance of a coherent ‘feminine’ style.

2.3 Modal Affordance The term affordances is contested and continuously debated. It has particular emphasis and currency in social semiotic approaches to multimodality (cf. Jewitt, 2013). Modal affordance is used to refer to what it is possible to express and represent easily with a mode. Affordance is a concept connected to both the material and the cultural, and social historical use of a mode. In other words, the affordance of a mode is shaped by what it offers materially, how it has been repeatedly used to mean, in part by its provenance, and the social conventions that inform its use in context. Kress (2013, 61) suggests that, each mode, as it is realized in a particular social context, possesses a specific ‘logic’ which points to key features of modes, such as the way some modes are inevitably temporally instantiated, and which in turn provide different communicational and representational potentials. The logic of sequence in time is inevitable in speech: one sound is uttered after another, one word after another, one syntactic and textual element after another. This sequence becomes an affordance or meaning potential: it produces the possibilities for putting things first or last, or somewhere else in a sequence. The mode of speech, and differently so writing, are therefore strongly governed by the logics of time. In contrast, (still) images are more strongly governed by the logic of space and simultaneity. As a result of these different material and cultural affordances, some things can be signified more easily in an image, others in speech. Put boldly – modes have specific affordances. Like all governing principles they do not hold in all contexts and are realized through the complex interaction of the social as material and vice versa. That said, in multimodal texts, each mode can be understood as carrying a particular weight or type of ‘functional load’ and this provides one rationale for the analysis of each modal resource and their intertwined uses in the interpretation of the meaning of a multimodal text. The analysis of the 

Social Semiotic Multimodality 

 149

materialisation of style in Pinterest shows, for example, the different affordances and functions of image and writing on the platform.

2.4 The Motivated Sign and the Sign-Maker’s Interest While the affordance of modes, as outlined above, is key to Social Semiotics, so is the agency of the sign maker. A social semiotic account of meaning theorises that: “Signs are made – not used – by a sign-maker who brings meaning into an apt conjunction with a form, a selection/choice shaped by the sign-maker’s interest” (Kress 2010, 62). Meaning is understood as motivated (Kress 1993) rather than an arbitrary association between a form (signifier) and a meaning (signified). As the illustrative example of Pinterest discussed in section 3, makes clear, how a person materialises their style is shaped by their modal choices and design, but these choices are strongly constrained by the modes available to them and the potential to manipulate these in Pinterest, and shaped by the social conventions surrounding the use of images etc. in Pinterest. In Before Writing (1997) Kress offers a detailed account of the materiality and processes of young children’s engagement with texts, how they interpret, transform and redesign the semiotic resources and signs available to them – which has been described as ‘chains of semiosis’ (Newfield 2014, 103). From this perspective, signs are analyzed as material residues of a sign maker’s interests. ‘Interest’ is seen as a situated momentary condensation of all the social experiences which have shaped the individual’s ‘subjectivity’, prompted by a social environment, materialized and realized by means of socially made resources – of which modes are a significant element. Thus it places emphasis on the communal social contexts and resources of meaning making within which the individual’s meaning making is suffused. For example, the homepages made by Pinterest users, discussed in section  3, are understood as complex multimodal signs from which we interpret the sign makers’ gendered style. Viewing signs as motivated and constantly being re-made draws attention to the interests and intentions that motivate a person’s situated choice of one semiotic resource over another (Kress 1993). This ‘interest’ connects a person’s choice of one resource over another with the social context of sign production – returning to the importance of meaning as choice within social semiotic theories of communication. A social semiotic perspective enables the analysis of texts and semiotic artifacts to identify the social values and positioning of the sign-maker at the moment of the making of the sign.

2.5 Design The relationships across and between modes in multimodal texts and interaction are a central area of interest for Social Semiotics. From this perspective the meaning of 

150 

 Carey Jewitt/Berit Henriksen

any message is distributed across different modes and not necessarily evenly. The different aspects of meaning are carried in different ways by each of the modes and any one mode is carrying a part of the message only: each mode is therefore partial in relation to the whole of the meaning and speech and writing are no exception. Social semiotic research attends to the interplay between modes to look at the specific work of each mode and how each mode interacts with and contributes to the others in the multimodal text or interaction. Signs, modes, and meaning making are treated as relatively fluid, dynamic and open systems intimately connected to the social context of use. From this perspective analytical interest in the modal system, its resources and principles, is strongly located in, and regulated through, the social and cultural. In the example of Pinterest and style, it is significant to note the extent to which the design work is embedded in and fixed by the structure of the platform, and therefore the restriction on the users. The next section demonstrates the application of a social semiotic approach to multimodal analysis. More specifically, it shows how the five concepts outlined above can be used to explore the multimodal construction of gender realised via Pinterest texts.

3 Applying a Social Semiotic Multimodal Approach: Style on Pinterest The focus, scope and analytical procedures of Social Semiotics vary according to the purpose of the analysis and the texts, in order to avoid the imposition of a static formalistic order. Analysis revolves around the key concepts outlined in the previous section. A social semiotic multimodal analysis can, however, be loosely described as a process of description and investigation across three inter-connected levels: the level of modes and semiotic resources, and their provenance and meaning potential; the level of design, that is, inter-modal relations; and the level of the sign-maker and context. These levels are often treated as analytically discreet, and forming a sequenced approach: from mode, to design, to context. In this section we illustrate the application of a social semiotic multimodal approach to examine how the multimodal construction of gender is achieved in the social media platform Pinterest, work conducted by Berit Henriksen within the larger project MODE (Multimodal methods for researching digital environments, Mode.ioe.ac.uk).



Social Semiotic Multimodality 

 151

3.1 Pinterest Social media are web- and mobile applications that enable, and are dependent on, user participation (Kaplan/Haenlein 2010; Mandiberg, 2012). Pinterest in particular, is a social media platform that enables users to curate and share visual content and hyperlinks through a process of selecting and organizing still and moving images. When ‘pinning’ images to virtual pin-boards, the purpose is to share the image as well as the hyperlink that the image represents. For example, a user shares an image of a birthday cake, where the image also function as a link to the cake recipe on a blog. The image collections can be browsed, ‘liked’, followed and commented on by other Pinterest users, as they interact with one another through their exchange and pinning of images. A common starting point for social semiotic multimodality is to compare the features of several texts, usually a small sample of texts, in order to examine a specific research question or idea. In this chapter, we focus on an aspect of people’s identity work in social media sites – multimodal style practices. Style is understood as “the effect of a series of choices made in the design of a message” (Kress 2010, 28). More specifically, we ask how gendered style is materialised by Pinterest users’ semiotic choices of multimodal resources and the constraints placed on these by the design of the social media platform. How femininity is constructed in Pinterest is of interest to debates on the extent to which and means by which social media platforms and users’ practices create or constrain ‘new’ spaces for identity work and/or reinforce social conventions. By providing a detailed understanding of user practices and the design constraints of platforms, and the social norms that they are embedded in, a social semiotic multimodal analysis can contribute to this debate. This example analyzes the homepages of two typical Pinterest users, and is drawn from a larger study that examines how people’s social media practices express identity, informed by a multimodal analysis of style, in Pinterest and Twitter. The sampling of texts within social semiotic multimodal approaches is a key issue, and one that is often a point of critique (discussed in section 4). To investigate how communicative style is materialised on Pinterest, user homepages with their boards and pins, were selected as the key space where style choices could be observed. Following a review of Pinterest user pages and user data, two typical users’ homepages, here labelled User 1 and User 2, were selected for microanalysis. Both present their online identities as matching the gender and age demographic of typical Pinterest users, that is female, mid-twenties (although clearly a person may adopt an online identity that differs from their offline one). They also ‘pin’ on Pinterest regularly, related to popular Pinterest themes, such as fashion, food and interior design. Pinterest user pages are highly coherent, and style is relatively convergent across the users, perhaps unsurprisingly as the site is a highly constrained environment, as will be discussed. However, the two homepages focused on in this chapter do exhibit some differences in relation to the type of images presented, and how these are selected and organised 

152 

 Carey Jewitt/Berit Henriksen

(See Figure 1). Home page data was archived on one day (August 2013) using screen grab software.



Social Semiotic Multimodality 

 153

Fig. 1: Image of home pages of Pinterest user 1 and user 2



154 

 Carey Jewitt/Berit Henriksen

The first stage of a social semiotic multimodal analysis is usually to examine the use of modes in the texts being analyzed. In this illustrative example we focus on the modes of image, colour and writing as these are key modes within Pinterest. To ask how a gendered style is materialised through the users’ semiotic choices, we examine the semiotic resources of each mode that are used in the homepages in some detail. We discuss the conventions in their use, their provenance, experiential meaning and the modal affordances and logics that have been drawn on. Social Semiotics is concerned with mapping the semiotic affordances, that is the constraints and potentials, of these modes as they are realised in specific contexts, in this case Pinterest for a specific social purpose: the realization of gender. The second stage is usually concerned with attention to questions concerning the modal organization or multimodal design of texts, modal dominance or emphasis within texts, and layout. The relationships between the modes within a text are usually examined in detail, and working with ideas of the multimodal ensemble and arrangement, the issue of the text coherence is explored, as well as the reading entry points, and reading pathways. The third stage of a multimodal analysis of texts is informed by the concept of the motivated sign and sign makers’ interest, often through detailed comparison across texts, and contextualization of these in the social moment. Social semiotic approaches to multimodality, across these three analytical levels or stages, often employ sociological imagination as a research tool, sometimes in the form of commutation, a method from structural linguistics, which involves disrupting the order of elements in a unit to uncover its ‘invisible’ order, a tool which has been extended to a range of modes. Kress (2010, 90), for example, explores the consequences of three alternative layouts of a textbook double spread. Using this method, Kress shows the effect of changes in layout on the narrative and coherence of a text, and the relationship between image and writing. Such comparisons help to make visible the range of possibilities for a text, and in doing so highlight the sign maker’s selection and choices of modes, semiotic resources, materials etc. These choices, in turn provide an insight on the sign maker, opening up the sign makers’ interests to the analytical gaze. Recognizing the agency of the sign maker is central to Social Semiotics, notably in relation to the concept of the motivated sign that is used to assert that a person chooses one signifier over another as the ‘carrier’ of a signified. In this approach, sets of such choices are then elevated to ‘design principles’ that the sign maker applies, and this supports the researcher in forming a hypothesis about the meaning of the sign, and gaining insight into the sign maker’s interests.

3.2 Image Trajectories and the Provenance Pinterest describes itself as a social media platform promoted as “a tool for collecting and organising things you love” (https://uk.pinterest.com/). The user’s homepage is 

Social Semiotic Multimodality 

 155

a dynamic hyperlinked text, with linked layers that viewers can move across. The still image, mainly photographs with occasional prints and drawings included, is the main mode appropriated by Pinterest users in selecting content. Although Pinterest also makes it possible to pin videos onto the boards, there are very few instances of this, perhaps linked to the practices associated with offline pinboards and the foregrounding of the visual display element of Pinterest. In collecting digital images, there are three types of processes through which an image ends up on a Pinterest pin-board; 1) Repin  – images found by browsing other Pinterest profiles; 2) Add pin  – images found by browsing websites; 3) Upload a pin – upload an image from own computer. Users add pins and repins, but very few upload and pin their own images, indeed, uploading a pin appears to have become non-normative within Pinterest. This points to the importance of the origin of an image within Pinterest, as well as suggesting that the practice of re-purposing others images is more highly valued than image creation within Pinterest. These two points further suggest that a user’s image repertoire, as well as their connection to others’ boards via re-pinning and adding pins are the most significant practices. Moving through the layers of the text, it is possible to explore the provenance of an image and its trajectory from its original site of display to the Pinterest user’s homepage. Tracing the trajectory of an image pinned on a user’s board reveals the websites that users browse to select and collect images, their favourite/returned to sites, as well as the images the user did not select, and shows the pinned image in its original context. All of this helps to understand the communicative styles the user might have built on in their text making, providing contextual information useful for investigating style choices, as the network of sites that they are engaged with can be seen as a kind of ‘style repertoire’. Analysis of image trajectories, show that User 2 and User 1 select images from sites with similar themes to their Pinterest homepages. The themes shaping their selections also relate to common Pinterest themes: weddings, home decor, fashion, food and arts and crafts. This level of commonality suggests a high level of digital and social constraint. A user’s pinning style, the extent to which a user pins or repins, shapes the variety of their image sources. Primarily repinning would lead to images collected from a wider network, as it brings together images originally pinned by a range of users with different interests, whereas primarily adding pins would lead to a narrower range of image sources, as images are pinned from sites visited by one user. This shapes the provenance of the images on the user’s homepage in distinct ways. The two users analyzed in this example differ in their pinning style: User 2 primarily adds pins directly from websites while User 1 primarily repins from Pinterest. In both cases, the pin origins from other social media sites (Tumblr, Flickr, Instagram, and Wordpress blogs) and a limited range of websites, primarily commercial web shops. It could be argued that a user, such as User 2, who consistently chooses to pin from outside of the platform, finds the content on Pinterest lacking or limited in some way, or that they wish to ensure that they are original in their pins or to expand the realm of the 

156 

 Carey Jewitt/Berit Henriksen

visual discourse. However, Pinterest users’ focus on the mobilisation, circulation, and re-appropriation of content as opposed to the creation of content is key to maintaining the coherence of Pinterest and an uncontested construction of femininity. That is, the images that circulate are from a restricted pool, drawing on restricted gendered images from the Internet or Pinterest.

3.3 Image Content The images on Pinterest suggest that users’ choice of images are shaped by the function of offline pin boards. Pin boards are spaces for ideas, inspiration and notes. Images on Pinterest, drawing on Kress/van Leeuwen’s (1996) classification of images, are primarily conceptual images, rather than narrative ones. That is, they depict situations primarily focused on an object or setting. People are present in fewer of the images, and are often hidden, cropped, or not a salient part of the image. In the instances where a person is depicted, the eyes are rarely visible, and never directed towards the camera. The majority of the images represent static ‘frozen’ moments, moments that do not appear to have a timeline outside of the photographic frame. In the microanalysis of the two selected homepages, most of the images are a naturalistic representation of an object, a place/ space, or shapes and textures. User 1 selected images of clothing and home décor with weddings as a key theme. User 2 favoured food, home décor and architecture with textiles and materials as a key theme. Most of the images are taken from an eye-level, frontal angle, using a variety of shots (close, medium and long). Objects are often the salient element of the images, as they are closely framed. But both users have also chosen many images without a central salient element and with no strong framing. People are not a primary focus of Pintrest images: people are portrayed in less than half of the images on User 1’s profile, and less than a quarter of User 2’s. When people are portrayed, both users favour images of adult females walking and posing. With few people and few visual narratives or vectors, the images have limited interactive features. User 2 has chosen more images of private indoor spaces, while User 1 has chosen more images of public outdoor spaces. The inclusion of place/space contextualises the action, person or object depicted in the image but as half of the images are decontextualized, the focus is on the object, removing surrounding information such as geographical location and social context, as illustrated by Figure 2.



Social Semiotic Multimodality 

 157

Fig. 2: Typical images from User 1 and User 2 illustrate the decontextualized character of images use in Pinterest

The interest of the Pinterest users is obviously key to their collection of images, and as such we can read something of their style and interests from their pinned images, for example, the many wedding inspired images that occur on User 1’s page or User 2’s interest in textured aspects. However, the images on Pinterest tend to cohere to conservative ideas of femininity and the content combined with the fixed layout of the platform creates a highly coherent ensemble. A wide frame and low salience is used in many of the images on Pinterest: this opens an image up to a wider range of uses on the site – enhancing its potential to be repinned. The images while clear in terms of content, tend compositionally to be balanced, almost bland, often with no specific salience or value placed on elements designed to draw a viewer’s attention. This leaves the content of the image more open to the viewer to interpret. In part this de-contextualisation relates to the social environment and the function of Pinterest as a platform – and the already mentioned circulation of images within the site. If a user wants their pins and pin boards to be accessed and shared among other users, it is important that other users can find something that they are interested in in that image. In addition to being interested in the object depicted, the removal of specific salient element makes it possible for more users to find what is salient to them. For example, an image of a hallway pinned by User 2 was, according to her caption, of interest to her because of the wallpaper depicted in it. There are other elements in the image that may be of interest to other Pinterest users, e.g. the table or mirror. This may also relate to the provenance of many of the images – from webshop sites, and image banks, where an appeal to a global audience results in the visual removal of context (Machin 2004, 320). Colour appears to be a significant resource within Pinterest. Indeed the colour of an image, rather than its content, appears to be a key criterion for selecting and pinning an image. The micro-analysis of the two users’ homepages shows that both



158 

 Carey Jewitt/Berit Henriksen

have selected images that match a colour palette traditionally associated with femininity in the west – rose and pinks. Within this colour range User 1 has selected pastels and low saturated colours as her colour scheme – a delicate and gentle scheme. User 2 has similar hues but with higher saturation and more contrasting colours, a colour scheme that, while feminine, is also associated with energy, adventure and fun. Both limited colour palettes also reflect interior design trends that are currently in vogue – the subdued colour palette and colour patterns associated with Scandinavian home décor, and the bright and saturated hues frequenting popular British interior blogs. In summary, Pinterest users construct conventional gendered styles through their selection of image content and colour-palettes. The themes represented on Pinterest are highly gendered, focused around home-making, fashion, and marriage. The restricted origins, the provenance of these images serves to maintain a conventional gendered style. This is compounded by the focus on re-pinning and adding pins from other social media and commercial sites, rather than creating and uploading user images within Pinterest.

3.4 Writing Writing and typography are constrained yet significant modes for users of Pinterest. Through the classification of the image pin boards on the homepage and presentation of personal interest in the profile box, writing is a modal resource for users in realising style. The spaces within the homepage where it is possible to write (rather than post an image) are limited. A profile text cannot be longer than 160 characters and the image header cannot be longer that 100 characters. It is not possible to change the font or text size of the writing on Pinterest although users make use of typographic features such as capitalisation, altering the space between words, and using symbols. Nevertheless, writing is given prominence in the overall composition of the page through its top placement; the image header is placed centrally above the image, and the profile text is placed centrally at the top of the page. As such, writing on different levels functions as header for the selected images. Writing on Pinterest is distinctly written, and as such users build on written traditions in their text making. This differs from language found on other social media sites, which make use of spoken-like features, materialised as unconventional spelling, abbreviations and emoticons. We see that the grammatical style of the image headers and profile text reflects writing found in other genres where space is limited. For example, a header in Pinterest needs to semantically incorporate a wide variety of topics and themes to reflect all images included in a pin board, but it is not required to be a complete grammatical sentence. In this way, Pinterest headers echo the simple and/or incomplete sentence structure associated with product labels, newspaper headlines, banner slogans and so on. Writing is an established social practice, and people’s experience of writing in other domains enters social media sites, and 

Social Semiotic Multimodality 

 159

shapes their writing in environments such as Pinterest, and in turn their style choices in writing. Studies in computer-mediated communication have found that men and women differ in their use of emoticons, exclamation points, and the use of xo (‘a kiss and a hug’) to sign off online messages (Herring/Stoerger 2014, 576). As users build on their experiences of writing in more neutral and less interactive spaces, these features are not reflected in the Pinterest data. Gender conventions do, however, shape the writing on Pinterest. For example, the absence of the spoken form can be interpreted as a quiet refusal of the invitation to interact. In the context of Pinterest this use of writing may be chosen to enhance the qualities of a ‘repinn-able’ image. In the context of social media it may reflect a gendered response to the values of inviting interaction. The content and style of writing are shaped by the technological platform’s constraints and affordances outlined above, as well as the social conventions, the norms and rules that social media (and communication more generally) are embedded within. Analysis of the types of words on the two users’ homepages suggests that writing, while constrained by the platform, is used as a resource to articulate style, in differentiated ways, within a constrained notion of femininity. For example, nouns (and noun phrases) are the predominant word class making up the image headers. This is not surprising as nouns are useful for labelling. As we saw in the images, the concrete nouns used by both users commonly refer to objects, such as stairs, knitwear, treehouse and art. Again, these objects can be grouped together under themes such as home décor and architecture. Additionally, the nouns of the image headers also refer to abstract concepts such as inspiration, mood/atmosphere, moments and ideas. Semantically, User 2 has used nouns that reflect opinions and activities while User 1 has used nouns referring to states and themes (e.g. wedding, home and love). While examples of other word classes are much more limited, we find the use of adjective modifiers such as yummy, pretty and beautiful, and action verbs such as dreaming, cherishing, knitting and eating. These words all have feminine connotations, repeating (a form of multimodal emphasis) the themes of the images. In the profile text, the two users have chosen a writing style where personal pronouns are rarely used. This can be seen as a displacement of the self, which is in part a conventional feminine discourse, a passive refusal of agency. This is the written equivalent of the women depicted with heads cropped from the image. Again, this leaves the connotation of the images open for the ease of re-appropriation and re-pinning. Microanalysis of the two Pinterest users’ writing shows that users make choices from the semiotic resources of writing available to them in this social and technologically constrained environment. They choose what to write, whether to follow or disregard grammatical rules (e.g. not including pronouns in the profile boxes, making sentences without grammatical subjects), make use of unconventional typography, and so on. There is semantic coherence between the content of the image, the image header, and the profile box, as users present their interests in the context of Pinterest, rather than presenting themselves. 

160 

 Carey Jewitt/Berit Henriksen

In summary, Pinterest users construct conventional gendered styles through their selection of words and word structures. The grammatical style of writing is constrained by the available space and the users therefore can disregard written standards and rather focus on semantic content. The themes reflected in writing coincide with the themes of the images and colours, strengthening the notion of Pinterest as a coherent/constrained whole.

3.5 Looking Across Modes: Design It is significant, within a social semiotic multimodal analysis to note what modes are not present, and this is significant as layout is key in the design of modal relations. Layout (e.g. of the homepage) is fixed by the Pinterest platform design, and as such many semiotic resources of modes are not fully available to the users: images cannot be re-sized, they are grouped in standardized forms, typographic font is fixed, the length of writing is fixed, colour can not be manipulated (unlike many other social media platforms, filters are not available) and so on. These design decisions (by Pinterest) suggest that a strong degree of multimodal coherence or ‘sameness’ across Pinterest users is wanted. People who participate in Pinterest accept this high level of constraint. This combined with the thematic coherence across user homepages, and the extent of re-pinning of images within Pinterest discussed earlier in this chapter suggests that Pinterest users may share a desire for coherence. Pinterest is a primarily visual social media platform. Pinterest is unequivocally image led, unlike other social media (e.g. blogs or Facebook) that may be video, image or writing led. Here, images are re-pinned and the words are left behind, as a consequence writing has a necessarily loose, singular function, an ephemeral classificatory relationship to the image. Colour has a key role in this constrained environment in achieving coherence. All modes appear to be operating in harmony – aligned to a calm mission of unity and coherence. This is markedly different from the complexity of many other social media multimodal texts, in which it is common for different, often opposing, discourses to be realized via different modes, realizing a multimodal layering of meaning, tensions and ambiguities. It could be argued that this, over-arching coherence is a key contribution to the construction of femininity: the singular idea of woman – undifferentiated.

3.6 Style and Gender The above microanalysis has established the style features in use, exploring how the affordances and limitations of the platform, the social environment and the users’ own interests shape the semiotic style choices made by the users. Pinterest users’ choices of semiotic resources is a key concern of a social semiotic approach, as it 

Social Semiotic Multimodality 

 161

connects choice with meaning; the users’ selections of signifieds and signifiers is understood as motivated, and thus the analysis pursues all aspects of their signs as having semiotic potential. This entails using the structure of the text, in the context of the affordances of the Pinterest platform, to locate the text in the wider canvas of representation and communication. The assumption underpinning this analytical approach is that such online texts (homepage, profile page, twitter feed, etc.) can be treated as residual traces of people’s interaction, as the materialisation of the actions and interests of users. Based on the components and style features of the text, we can therefore make claims about the style practices and interests of Pinterest users. The high degree to which Pinterest users’ style is gendered, and the extent to which this strongly convergent and coherent style is shaped by the normative practices and the design of the platform is pertinent, especially when considered against the backdrop of debates on how social media platforms support people to produce and distribute their own content, as well as to consume a wide range of content made by others.

4 The Potentials and Limitations of a Social Semiotic Approach A social semiotic multimodal approach, as demonstrated in the previous section has many potentials, but a critical assessment of this approach also shows deficits and limitations. In this section we critically assess this approach and reflect on what social semiotics can and cannot do analytically. Social semiotic multimodal analysis is a powerful tool with which to understand the social function and complexity of a wide range of texts. It provides conceptual tools that focus on the inter-connectedness between the people’s agency, the technologies in use, and the social context of meaning making. This enables a holistic and highly situated analysis of communicative and representational texts. Understanding texts as a material trace of its maker’s social action, as well as itself being a complex sign acting in and on the world, combined with social semiotic concepts that focus on the sign maker, their interests, choices and multimodal design, this approach enables the connection between text and sign-maker to be theorized. With this approach it is possible to examine how different actors take up modes within specific environments and point out the consequences of this for communication, learning, and identity – as discussed in the example in this chapter. In this way, a social semiotic approach to multimodal communication is sensitive to the exploration of power relations and how these are materially instantiated. In addition to providing analytical insights into how people produce and use texts, as well as platforms such as Pinterest to make them, a social semiotic approach to multimodality can contribute to both critiquing, designing and speculating on future resources and their uses.



162 

 Carey Jewitt/Berit Henriksen

Like all research approaches, however, a social semiotic approach has limitations. Like many other labour-intensive microanalytical approaches, this approach focuses its analytical gaze on a small collection of texts. This clearly raises issues of selection, sampling, consistency and generalization, and this is a limitation of this approach, and an area of critique. The focus on the sign maker, especially when working with texts alone, raises a number of issues including how intentionality can be evaluated and assigned, and the ‘right’ of interpretation. This approach is inevitably risky – in that everything hinges on how convincing the reader finds the analytical abstraction from the concrete text to the social. This work has, perhaps unsurprisingly, been criticised by some for focusing on semiotic texts rather than practices, for making ‘unsubstantiated’ readings of particular texts, the creation of binary oppositions, and for too strong an abstract theoretical commitment (Prior 2005). We suggest that while from some perspectives these criticisms clearly have validity, they may rather miss the point of a social semiotic approach. These analyses are seeking a theoretical grasp of the principles that inform contemporary communication and to theorize this changing landscape, often putting forward ideas to be further developed through larger studies and different approaches. Another aspect of this limitation is, however, the extent to which social semiotics is a descriptive framework and the extent of its analytical reach to discuss the social. We would argue that on its own, social semiotics does not offer all that is needed for the sociological interpretation of texts. In the analysis presented in this chapter we have had to turn to ideas of gender construction to understand the social implications of the representations being described. In short, while Social Semiotics is powerful in bringing out hidden meanings, the analytical reach beyond the text is limited, and other social theories are often required to bridge the micro-analysis with the macro-concerns of the social. In this chapter we have shown how this approach can address macro-issues, in this case the construction of gender, via a micro-analysis, and shown how this everyday identity work is materially achieved. These limitations of focus can be, at least in part, overcome by combining a social semiotic multimodal approach with other methods (e.g. focus groups, content analysis) that give traction on larger scales of data.

5 Conclusion This chapter has outlined a social semiotic approach to multimodality, introduced five key concepts, and discussed the principles and processes of analysis. It has illustrated the application of a social semiotic multimodal approach to the social media platform Pinterest to explore users’ multimodal design of the semiotic resources of image, colour, and writing on their homepages to construct style, with a focus on their construction of gendered style. Two questions raised by this analysis for future research are how the texts users make in Pinterest interact with or compare to the



Social Semiotic Multimodality 

 163

texts they make in other social media sites, and secondly, the extent to which the feminine style of Pinterest extends to male users of the site. The theoretical focus of Social Semiotics on macro-level social structures via analysis of micro-textual instantiations has enabled us to engage in the ‘excavation’ of meaning via reconstructing social practices through detailed analysis of the homepages. Through this intense engagement with texts the general principles of what these signify in relation to gender and style has been explored. This has shown how this approach can be used to examine how practices are shaped through the interaction of social norms and the designed affordances of Pinterest. The affordance of image, colour, writing and especially so layout has been shown to be highly constrained, both by the technological design of the Pinterest platform, by the practices it supports, and by the social norms that have become established among its users. Overall, the analysis suggests a high level of coherence in the users’ choice and use of multimodal content and composition. The analysis shows that the practices of Pinterest circulate a relatively narrow range of commercial content, rather than the images of its users. This served to foreground the provenance of the images users selected and to draw attention to their searching routines and repertoires. This questions the focus on social media as sites for image creation and production, suggesting that Pinterest is primarily a site of image consumption, albeit through the work of re-appropriation and categorization of images. These necessarily open images also raise questions about the presumed individual and expressive character of social media. Further, the analysis suggests that offline social norms of gendered roles and femininity have a strong role in the construction of style in Pinterest: questioning claims made for the ‘new’ practices and inclusivity of social media. This analysis contributes to discussions of how style and gender is constructed in Pinterest and the extent to which and means by which social media platforms and users’ practices create or constrain ‘new’ spaces for identity work and/or reinforce social conventions.

6 Bibliography Barthes, Roland (1977): Image, Music, Text. New York. Halliday, Michael A.K. (1978): Language as Social Semiotic. London. Hodge, Robert/Gunther Kress (1988): Social Semiotics. Cambridge. Herring, Susan/Sharon Stoerger (2014): Gender and (a)nonymity in computer-mediated communication. In: Susan Ehrlich/Miriam Meyerhoff/Janet Holmes (eds.): The Handbook of Language, Gender and Sexuality. 2nd ed. Chichester, 567–586. Jewitt, Carey (ed.) (2013): The Routledge Handbook of Multimodal Analysis. 2nd ed. London. Jewitt, Carey/Jeff Bezemer/Kay O’Halloran (2016): Introducing Multimodality. London/New York. Kaplan, Andreas M./Michael Haenlein (2010): Users of the world, unite! The challenges and opportunities of social media. In: Business Horizons 53 (1), 59–68.



164 

 Carey Jewitt/Berit Henriksen

Kress, Gunther (1993): Against arbitrariness. The social production of the sign as a foundational issue in critical discourse analysis. In: Discourse and Society 4 (2), 169–193. Kress, Gunther (1997): Before Writing. London. Kress, Gunther (2010): Multimodality. A social semiotic approach to communication. London. Kress, Gunther. (2013): What is mode? In: Jewitt (ed.), 60–76. Kress, Gunther/Theo van Leeuwen (1996): Reading Images. The Grammar of Visual Design. London. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Lakoff, George/Mark Johnson (1980): Metaphors we Live by. Chicago. Leeuwen, Theo van (2005): Introducing Social Semiotics. London. Machin, David (2004): Building the world’s visual language. The increasing global importance of image banks in corporate media. In: Visual Communication 3 (3), 316–336. Mandiberg, Michael (ed.) (2012): The Social Media Reader. New York. Newfield, Denise (2014): Transformation, transduction and the transmodal moment. In: Jewitt (ed.), 100–115. Prior, Paul (2005): Moving multimodality beyond the binaries. A response to Gunther Kress’ “Gains and Losses”. In: Computers and Composition 22, 23–30.



Nina-Maria Klug

7. Multimodale Text- und Diskurssemantik Abstract: Dieser Artikel stellt Prämissen, Prinzipien, Ebenen und Methoden einer text- und diskursbezogen arbeitenden, gebrauchsbasierten Semantik dar, die danach fragt, wie gesellschaftliches Wissen – und damit Bedeutung – durch den Gebrauch unterschiedlicher Zeichenmodalitäten kommunikativ konstituiert, modifiziert und etabliert wird. Im Rahmen des Beitrags werden Unterschiede, vor allem aber Gemeinsamkeiten text- und diskurssemantischen Arbeitens umrissen und die Möglichkeiten eines semantischen Zugriffs auf multimodale Texte und Diskurse am Beispiel einer Topos- und Schlagwort- bzw. Schlagbildanalyse von Sprache-Bild-Texten illustriert. Abschließend wird ein knapper Ausblick über mögliche Entwicklungen text- und diskurssemantischen Forschens gegeben. 1 Prämissen 2 Text- und diskurssemantische Prinzipien 3 Ebenen text- und diskurssemantischer Analyse 4 Methoden text- und diskurssemantischer Analyse 5 Standortbestimmung und Ausblick 6 Literatur

1 Prämissen 1.1 Bedeutung als Wissen Bedeutung wird im Rahmen gebrauchsorientierter Sprachwissenschaft längst nicht mehr als inhärente Eigenschaft von Zeichen verstanden. Ganz selbstverständlich wird sie begriffen als Produkt eines aktiven (wenn auch i. d. R. nicht bewussten) Prozesses der Anbindung eines bestimmten Inhalts an eine Zeichenform durch Zeichennutzer. Bezieht man den Zeichennutzer bzw. akteursspezifische, produktions- und rezeptionsrelevante Aspekte wie Herkunft, Alter oder Geschlecht, Bildung, (berufliche) Tätigkeit und sozio-kulturelle Hintergründe unter pragmatischen Prämissen nun aber als zentralen Faktor der Bedeutungskonstitution mit in die semantische Analyse ein, liegt es nahe, sich auch für die Voraussetzungen der Bedeutungsbildung zu interessieren. Da es sich bei diesen Voraussetzungen der (Be)Deutung bzw. Interpretation von Zeichen ganz offensichtlich „um Phänomene handelt, die etwas mit dem Wissen der Interpretierenden wie Kommunizierenden zu tun haben“ (Busse 2009, 46), geht es im Rahmen pragmasemantischer Forschung immer häufiger darum, eben dieses 

166 

 Nina-Maria Klug

Wissen zu erforschen, das notwendig ist, um einer Form Bedeutung zuzusprechen und sie verstehen zu können. Mit der Frage nach dem „verstehensrelevanten Wissen“ (Busse 2009, 46) verlagert sich auch die Richtung semantischen Forschens (dieser Perspektivwechsel deutet sich bereits in den frühen 1970er Jahren bei Fillmore an, s. 1971, 274; er findet im deutschsprachigen Raum v. a. durch Busses Dissertation Historische Semantik 1987 einen wichtigen Impuls). Es geht nicht länger darum, die Bedeutung einer Form (z. B. eines Wortes, Satzes, Textes) zu erfassen, sondern darum zu beschreiben, was Zeichennutzer, die zu einer bestimmten Zeit in einem gemeinsamen kulturellen „Raum des Verstehens“ leben (Demmerling 2002, 163), wissen müssen, damit sie Zeichenformen (auf indexikalischem, ikonischem oder symbolischem Wege) konsensuell als etwas verstehen können, das außerhalb ihrer selbst liegt, kurz: damit sie diese Formen kommunikativ verwenden können. Semantik versteht sich deshalb zunehmend als eine gebrauchsbasierte sprachwissenschaftliche Disziplin, deren erklärtes Ziel darin liegt, einen Beitrag zur Analyse gesellschaftlichen Wissens zu leisten. Bedeutungsanalyse ist in diesem Sinne, wie er in diesem Artikel vertreten wird, grundsätzlich als Wissensanalyse zu begreifen, als (Be)Deutungsanalyse.

1.2 Wissen und Kommunikation 1.2.1 Kollektives Wissen Das verstehensrelevante Wissen, das von einer gebrauchsorientierten Semantik in den Blick genommen wird, ist „notwendigerweise und zwingend etwas Soziales, und mithin Überindividuelles“ (Busse 2008, 102). Es handelt sich stets um kollektives Wissen. Dieses Wissen findet auf kommunikativem Weg seinen Ausdruck. Kommunikation ist der Motor seiner Konstitution. Es gilt: Was Menschen in ihren Köpfen haben, mag privat sein. Der Weg, auf dem es hineingekommen ist […] ist aber ein sozialer, kulturell vermittelter Weg. Verstehensrelevantes Wissen ist in beschreibbarer Weise sozial konstituiert und aufgrund gesellschaftlich organisierter, kulturell determinierter Bewegungen und Prinzipien strukturiert (Busse 2008, 78).

Wissensstrukturen, die Voraussetzung der Zeichenverwendung sind, entstehen und etablieren sich erst im kollektiven Zeichengebrauch einer Gemeinschaft. Nur in ihm verändern sie sich und entwickeln sie sich weiter. Frames (dt. Wissensrahmen) werden im vorliegenden Beitrag als die alleinigen kognitiven Repräsentationsformate des kollektiven Wissens verstanden, das zum Verstehen, zum (Be)Deuten von Zeichen – und damit für ihre Verwendung – die notwendige Voraussetzung ist (s. detailliert Barsalou 1992; Busse 2012; Klug 2014). Neben Frames im Sinne komplex organisierter fillerslot-Strukturen, deren gebrauchsrelevante Leerstellen (slots) typischerweise durch konventionelles, implizites Wissen (sog. default values/implizite Prädikationen) ange-



Multimodale Text- und Diskurssemantik 

 167

reichert sind, das in spezifischen Gebrauchskontexten immer durch explizierte Füllwerte (explizite Prädikationen) bestätigt, aber auch verändert und weiterentwickelt werden kann (detailliert: Ziem 2008; zuerst: Minsky 1975), werden keine andersartigen konzeptuellen Strukturen wie Begriffe oder Konzepte angenommen. In diesem Sinne gilt daher: Bedeutung ist Begriff ist Konzept ist Frame (Klug 2014, 251). Daraus folgt notwendig, dass Frames rekursive Strukturen sind: Frames ,enthalten‘ Frames und Frames ,sind Teil von‘ übergeordneten Frames (Busse 2012, 819).

Texte als authentische Einheiten menschlicher Kommunikation sind zentrale Konstitutions- und Realisierungsformen dieses Wissens. In ihnen schlägt sich das implizite und explizite Wissen einer Gemeinschaft nieder, ihre Frames. Durch Texte wird es generiert. Texte wiederum bündeln sich transtextuell in Diskursen. Sie bilden die (virtuelle) Gesamtheit der in einem bestimmten Kontext entstandenen Texte, welche sich mit einem gemeinsamen Thema beschäftigen und explizit oder implizit aufeinander Bezug nehmen (s. zum linguistischen Diskursbegriff in Anlehnung an Pêcheux wegweisend Busse/Teubert 1994, 14). Für eine semantische Forschung, die sich als gebrauchs- und kulturorientierte Disziplin begreift (vgl. Gardt 2003), stellen deshalb – trotz ihrer Orientierung am Wissen der Zeichennutzer – niemals ,Köpfe‘ von Individuen den zentralen Bezugspunkt der Analyse dar, sondern stets Texte und – transtextuell gedacht – Diskurse.

1.2.2 Die multimodale Verfasstheit der Kommunikation Da gesellschaftlich relevante Kommunikation, die öffentliche Meinungen bildet und das kollektive Wissen einer Gemeinschaft prägt, zwar zu wichtigen Teilen, jedoch nicht ausschließlich sprachlich vollzogen wird, erscheint es notwendig, zunehmend auch die multimodalen Kontexte von Sprache mit in eine gebrauchsorientierte semantische Analyse einzubeziehen. Ihr Ziel ist es, Muster und Strategien gesellschaftlicher Bedeutungsbildung, der kollektiven Wissensrepräsentation und -konstitution, gebrauchsbasiert zu beschreiben. Schließlich greifen Menschen ganz usuell auch auf andere Zeichenmodalitäten als Sprache zurück, um gesellschaftliches Wissen zu aktualisieren oder vor dem Hintergrund „agonaler Praktiken“ bzw. „semantischer Kämpfe“ (Felder 2006) zu diskutieren und in weiterentwickelter Form zu etablieren – und diese Zeichenmodalitäten sind ebenso parasprachlicher wie nichtsprachlicher Art. Der Rückgriff auf verschiedene Zeichenmodalitäten im Rahmen der Kommunikation, d. h. hier im Rahmen von Texten/Diskursen wird im Folgenden mit dem Terminus Multimodalität bezeichnet (vgl. Klug/Stöckl 2015).



168 

 Nina-Maria Klug

Lässt sich der Charakter des Sprachgebrauchs bereits in seiner ‚Grundform‘ als multimodal bezeichnen (immerhin können sprachliche Zeichen als parole erst über die Verknüpfung mit paraverbalen Zeichenmodalitäten wie Intonation bzw. Typographie/Handschrift als Schrift oder Rede realisiert und erfasst werden, s. Kress/van Leeuwen 1998; zur Typographie vgl. Spitzmüller i. d. B), so zeigt spätestens ein flüchtiger Blick auf bzw. in die zeitgenössischen Massen- bzw. Leitmedien: Gesprochene und/oder geschriebene Sprache wird hier ganz selbstverständlich auch mit weiteren, nonverbalen Zeichenressourcen zu komplexen kommunikativen Einheiten, zu multimodalen Texten und Diskursen verknüpft. Das gilt sowohl für Texte in Printmedien (z. B. Zeitschrift, Zeitung, Plakat, Flugblatt) wie auch für solche, die von Audiomedien (z. B. Hörfunk), audiovisuellen Medien (AV-Medien: v. a. Film und Fernsehen) und sogenannten Neuen (elektronischen/digitalen) Medien (E-Medien: z. B. Computer bzw. Internetdienste wie Webseiten) getragen werden. Bilder (statisch/bewegt), graphische Elemente (z. B. Tabellen, Diagramme) und Ton (Geräusche und/oder Musik), immer häufiger sogar taktile und/oder olfaktorische Zeichen (s. dazu z. B. die wachsende Zahl von Sprache-Bild-Duft- und Sprache-Bild-Tast-Büchern im Bereich der didaktischen und damit schon von der Anlage her auf Wissenskonstitution abzielenden Kinderliteratur, u. a. Rhyner/Mettler 2011 und Cottin u. a. 2011) bilden den multimodalen Kontext, in den Sprache geschriebener und/oder gesprochener Art intraund eingebettet wird, mit dem sie zu multimodalen Texten unterschiedlicher Sorten, transtextuell zu multimodalen Diskursen verknüpft wird (s. zu einem ähnlich weiten Multimodalitätsbegriff auch Wienen 2011). Sie illustrieren auf eine schlagende Weise: Die multimodalen Kontexte von Sprache sind fest in unseren kommunikativen Alltag integriert (z. B. Steinseifer 2005; Meier 2008; Klug 2013; zur historischen Dimension multimodaler Kommunikation s. Klug 2012). Will man Sprache so beschreiben, wie sie gebraucht wird, lässt sie sich nicht aus ihren multimodalen Kontexten lösen.

1.3 Multimodaler Text- und Diskursbegriff Vor dem Hintergrund der kommunikativen Einbettung von Sprache in den Kontext multimodaler Zusammenhänge erscheint es also notwendig, etablierte, allein auf der Basis des sprachlichen Zeichensystems entwickelte Begriffe von Text und Diskurs weiterzuentwickeln. Entsprechend gebrauchsorientierter framesemantischer Prämissen, die diesem Handbuchartikel zu Grunde liegen, werden Texte und Diskurse im Folgenden als zweckgerichtete Formen des menschlichen Zeichenhandelns in der Welt verstanden, die Zeichennutzern mit ihren Signifikanten sprachlicher, parasprachlicher und/ oder nichtsprachlicher Art ein komplexes Wahrnehmungsangebot im Sinne kognitiver Stimuli bereitstellen. Durch diese können auf Seiten der Rezipienten aus dem Gedächtnis abrufbare, kultur- bzw. kontextabhängige Wissensbestände (Frames) aktiviert werden, die sich im Rahmen der Konstitution von Textbedeutung als intra

Multimodale Text- und Diskurssemantik 

 169

textuell, im Falle der Konstitution von Diskursbedeutung als transtextuell miteinander vernetzt, d. h. als kohärent (und kohäsiv) werten lassen. Durch die Vernetzung können die Wahrnehmungsangebote als kommunikative, d. h. semantisch-funktionale, textuelle bzw. transtextuelle (= diskursive) Einheiten verstanden werden (vgl. Klug 2014, 248 f.). In diesen multimodalen kommunikativen Einheiten trägt jede einzelne der gebrauchten Zeichenressourcen sprachlicher, parasprachlicher und nichtsprachlicher Natur einen relevanten Anteil zur Bedeutungsbildung bei. Der Einbezug von Zeichen nur eines, nämlich des sprachlichen Zeichensystems in die semantische Analyse multimodaler Texte und Diskurse stellt deshalb eine Verkürzung dar, die den kommunikativen Phänomenen nicht gerecht werden kann (vgl. zu einem derartigen Plädoyer im deutschsprachigen Raum bereits Schmitz 1998; Fix 2001; Stöckl 2004). Die Möglichkeiten eines semantischen Zugriffs auf multimodale Texte und Diskurse sollen im Rahmen des vorliegenden Beitrags illustriert werden.

2 Text- und diskurssemantische Prinzipien Die Zugriffsbereiche gebrauchsorientierter Text- und Diskurssemantik sind nicht identisch, jedoch überlagern sich beide zu wichtigen Teilen. Diese Überschneidung rechtfertigt es, beide Zugriffe in einem Beitrag zu behandeln. Relevante Gemeinsamkeiten lassen sich in folgenden fünf Punkten schlaglichtartig zusammenfassen: 1. Beiden Ausprägungen der pragmatischen Semantik geht es darum zu beschreiben, wie kollektives Wissen, wie Wirklichkeiten, kurz: wie gesellschaftliche Bedeutung(en) kommunikativ konstituiert, diskutiert und etabliert wird bzw. werden. Grundlegend für beide Ansätze ist die konstruktivistische Auffassung, dass gesellschaftliche Wirklichkeit sich nicht nur in der Kommunikation spiegelt, sondern dass diese auch kommunikativ geschaffen wird. 2. Beide Zugriffe heben typischerweise auf die Beschreibung von Strukturen der Bedeutungsbildung ab, wie sie sich nur textbezogen (intratextuell/transtextuell) erfassen lassen. 3. Explizite wie implizite Strukturen der Bedeutungsbildung stehen im Fokus der Analyse. Es geht immer auch darum, das stereotype, „unausgesprochene Wissen“ einer Gemeinschaft zu erfassen, das „als gemeinsames und selbstverständlich akzeptiertes [Wissen] immer wieder nur vorausgesetzt“, aber eben nicht expliziert wird (Hermanns 1994a, 49). 4. Für beide Herangehensweisen stellt die kulturelle Einbettung der Texte in ihre größeren gesellschaftlichen, z. B. religiösen oder politischen Zusammenhänge, aus denen die Texte hervorgehen und in die hinein sie wirken sollen, ihre Inbezugsetzung zu Akteuren (Produzenten/Rezipienten), den Medien, über die sie getragen werden, etc. einen ebenso wichtigen Faktor der Analyse dar wie die Beschreibung



170 

 Nina-Maria Klug

intra- oder intertextueller Strukturen und Formen der Bedeutungsbildung. Textund Diskurssemantik ist grundsätzlich als eine kulturorientierte sprachwissenschaftliche Disziplin zu begreifen. 5. Sowohl der Text- wie auch der Diskurssemantik ist dabei i. d. R. eine betont deskriptive Haltung zu eigen, die versucht, Bewertungen des untersuchten Gegenstandes/normative Ansichten in Bezug auf diesen bestmöglich zu vermeiden. Durch diese Haltung unterscheiden sich diese semantischen Zugriffe von Ansätzen wie der Kritischen Diskursanalyse oder der zumindest in bestimmten Aspekten kritisch orientierten Sozialsemiotik (s. zu diesen eher kritischen Zugriffen u. a. die Beiträge von Mayr u. Jewitt/Adami/Henriksen i. d. B.). Ein textsemantischer Zugriff nimmt dabei zumeist eine bottom-up-Perspektive ein, die vor allem vom Anliegen getragen wird, intratextuelle Formen und Strategien der punktuellen, d. h. einzelwort- oder bildzeichenbezogenen, und flächigen, nur auf der Ebene des Gesamttextes greifbaren Bedeutungsbildung in Texten einzelner Akteure oder Sorten (wie Argumentations-, Prädikationsstrukturen, Themenentfaltung etc.), möglichst detailliert zu beschreiben (vgl. Gardt 2012; 2013 u. ö.). Dagegen zielt eine diskurssemantische Untersuchung typischerweise top-down auf die Erfassung textübergreifender kommunikativer Strukturen ab, die das jeweilige „gesellschaftliche Zeitgespräch“ (Hermanns 2007, 189), den Diskurs als solchen charakterisieren. Diskurssemantik ist letztlich immer eine transtextuelle Semantik (s. dazu wegweisend Busses Konzept einer Historische[n] Semantik 1987; zum knappen Überblick Niehr 2014; Warnke/Spitzmüller 2008). In aller Regel setzt ein diskurssemantischer Zugriff dabei jedoch einen (mehr oder weniger starken) Bezug zu den Strukturen des Einzeltexts voraus (oder beschränkt sich sogar auf diese, vgl. zum Konzept der Ein-Text-Diskursanalyse Fix 2015), wie eine textsemantische Analyse auch Muster der Bedeutungsbildung zu beschreiben sucht, die sich nur einzeltextübergreifend (korpusbasiert) erfassen lassen und für die Texte eines Akteurs (z. B. für einen einzelnen Autor, eine Gruppe, eine Zeitschrift, Zeitung etc.), für seine/ihre Argumentation, für eine bestimmte Textsorte oder Kommunikationsform kennzeichnend sind (vgl. Fix 2009). Man kann also sagen: Text- und diskurssemantische Analysen begegnen selten in klar voneinander abgrenzbarer ,Reinform‘. Sie siedeln sich vielmehr an unterschiedlichen Punkten einer Skala an, die von der qualitativen Analyse aller semantischer Details eines Einzeltextes bis zur großangelegten quantitativen, nur noch computergestützt durchführbaren Korpusstudie reicht, die zwar statistisch auffällige diskursive Muster in den Fokus der Analyse treten lässt, den individuellen Text im Korpus jedoch kaum noch als solchen wahrzunehmen vermag. Die Mehrheit text- und diskurssemantischer Studien arbeitet mit Textkorpora, die sich im mittleren Bereich dieser Skala ansiedeln.



Multimodale Text- und Diskurssemantik 

 171

3 Ebenen text- und diskurssemantischer Analyse Bei einer text- oder diskurssemantischen Analyse geht es im Kern darum zu erfassen, wie gesellschaftliches Wissen und damit Wirklichkeit kommunikativ konstituiert wird – und zwar durch das die Bedeutungsbildung ermöglichende Zusammenspiel von Zeichen gleicher oder unterschiedlicher Modalität innerhalb eines Textes, einer Textsorte, eines bestimmten Diskursstrangs oder eines ganzen Diskurses. Typischerweise betrachten text- und diskurssemantische Analysen Formen der Bedeutungsbildung in Text und Diskurs auf verschiedenen Ebenen. Im Textsemantischen Analyseraster (TexSem), einem Mehrebenenmodell (zuletzt Gardt 2012 u. 2013; zur multimodalen Erweiterung Klug 2013), werden drei dieser Ebenen semantischen Zugriffs zusammengefasst, die in textbezogenen pragmasemantischen Analysen (zu denen auch transtextuell orientierte Diskursanalysen zählen) i. d. R. beachtet werden. Diese drei Ebenen sind eng miteinander verquickt und sind nicht so zu verstehen, als müssten, sollten oder könnten sie strikt chronologisch und isoliert voneinander abgearbeitet werden. Vielmehr erfassen sie die Eckpunkte semantischer Analysen, die in der einen oder anderen Form dazu beitragen, Text- oder Diskursbedeutung möglichst holistisch zu (re)konstruieren.

3.1 Kommunikativ-pragmatischer Rahmen Zunächst spielt bei jeder pragmasemantischen Text- und Diskursanalyse der Einbezug des kommunikativ-pragmatischen Rahmens eine Rolle. Bei dieser Ebene der Analyse geht es um die gesellschaftliche, kulturelle Kontextualisierung der zu untersuchenden Texte. Hier stehen Fragen im Mittelpunkt, wie sie sich in vier Aspekten (quis, ubi, quando, quibus auxiliis?) der klassischen, siebengliedrigen rhetorischen Suchformel (Wer? Was? Wann? Wo? Warum? Wodurch/Worüber? Wie?) zusammenfassen lassen: Wer sind die Akteure, die Produzenten und die (antizipierten) Rezipienten der Texte? Wie lassen sich ihre Diskurspositionen und -interessen bestimmen? Wann und wo wurden die Texte produziert/rezipiert, d. h. welche kulturellen, z. B. politischen, religiösen, gesellschaftlichen Verstehensrahmen bestimmen den zeitlichen und räumlichen Ausgangs- und Zielbereich der Texte? Worüber/Wodurch werden die Texte verbreitet, d. h. welche Medien werden zur Distribution der Texte genutzt? Welche Rolle nehmen diese Medien innerhalb der zeitgenössischen Kommunikationsstruktur ein, wie lässt sich ihre Relevanz für die öffentliche Meinungsbildung beschreiben? Wie hoch ist ihre Auflage, wie weit ist der Radius ihrer Verbreitung?

Um ein Beispiel zur Veranschaulichung zu geben: Eine Kampagne wie Liking isn’t helping (s. Abb. 1) der christlichen Hilfsorganisation Crisis Relief Singapore (CRS) aus dem Jahr 2013 kann nur vor dem Hintergrund des soziokulturellen Wissens um die 

172 

 Nina-Maria Klug

aktuell verbreitete selbstdarstellend-philantrophische Praxis des Likens von Hilfsorganisationsposts in Social Media (hier speziell: innerhalb der Facebook-Kommunikation) in ihrer sozialkritischen Bedeutung erschlossen werden. Im Rahmen dieser kulturellen Praxis steht die wachsende Zahl der digitalen Facebook-Likes längst in keiner Kongruenz mehr zur Menge der ‚reellen‘ Spender, Aktivisten oder Helfer, auf deren finanzielle und personelle Unterstützung die Arbeit der allein von Freiwilligendienst und Spendengeldern getragenen Organisation in Krisengebieten angewiesen ist. Die soziokulturelle Kontextualisierung der Texte ist für die (Re)Konstruktion ihrer Bedeutung, für ihre Interpretation demnach conditio sine qua non: Sie steckt den situativen Rahmen ab, in den der Text eingebettet ist, auf den er reagiert und in den hinein er wirken soll.

Abb. 1: CRS, Crisis Relief Singapore, Liking isn’t helping. Be a volunteer. Change a life, Singapur 2013 (Publicis).

Bei der Analyse der Rezipientenstruktur und der damit verbundenen potenziellen Wirkungsmacht der CRS-Anzeigen, die auf diese aktuelle kulturelle Praxis Bezug nehmen, spielt auch die Betrachtung der Medien eine nicht zu vernachlässigende Rolle, über die die Texte der Kampagne publiziert wurden: Ruft der Anzeigenappell durch eine Verbreitung via Facebook – weltweit! – v. a. diejenigen zur Reflexion (und Obligation) auf, die die expressive Praxis des Likens selbst ausüben und sich deshalb in besonderer Weise durch den Appell der Anzeige angesprochen fühlen müssten, kommt der printmedialen Veröffentlichung zwar eine geringere distributive Reichweite zu, 

Multimodale Text- und Diskurssemantik 

 173

innerhalb des Verbreitungsradius können jedoch auch über den Facebook-User hinausgehende Rezipientenkreise erreicht und zum Handeln aufgerufen werden. Medien bestimmen u. a. (mit), von wem der Text gelesen und wie der Text gelesen wird.

3.2 Makroebene Die zweite Ebene der Analyse stellt die Makroanalyse der Texte dar. Hier geht es um die Beschreibung der textuellen/diskursiven Binnenstruktur, d. h. der Art und Weise, WIE (quomodo?) die Zeichen in Text oder Diskurs miteinander in funktionale, semantische oder syntaktische Interaktion treten, wie sie intra- und/oder intermodal miteinander verknüpft werden. Man kann sagen: Eine Analyse multimodaler Zusammenhänge fragt danach, wie sich die Zeichen gleicher und unterschiedlicher (i.e. sprachlicher, parasprachlicher und nichtsprachlicher) Modalität zu einem kommunikativen Ganzen, einem multimodalen Text bzw. einer Textsorte oder einem Diskurs zusammenfügen – und zwar vor dem Hintergrund des semiotischen Potenzials der einzelnen Zeichenressourcen. Jedes Zeichensystem unterscheidet sich von anderen und hat seine eigenen semiotischen Stärken und Schwächen (s. z. B. Jewitt/Kress 2003, 14 ff.). Jedem Zeichensystem kommen innerhalb der Kommunikation deshalb relevante Aufgaben zu, die seinem individuellen semiotischen Potenzial, seinem „reach of mode“ entsprechen (Kress 2009, 57; s. auch Stöckl i. d. B.). So werden z. B. (gegenständliche) Bildzeichen u. a. als besonders wahrnehmungsnahe Zeichen begriffen (Sachs-Hombach 2003, 73 ff.; s. auch Nöth i. d. B.), denen ein deutlich höherer Aufmerksamkeitswert zukommt als sprachlichen Zeichen. Sie wecken schneller das Interesse potentieller Textrezipienten, sie können leichter konzeptualisiert und memoriert werden (s. zum Bildüberlegenheitseffekt z. B. Engelkamp/ Zimmer 1996). Ihnen kommt durch ihre Wahrnehmungsnähe ein Glaubwürdigkeitsbonus gegenüber der Sprache zu (s. Klug 2015; Holly i. d. B.). Durch ihre Verarbeitung in der rechten Hirnhemisphäre, in der auch Emotionen verarbeitet werden, haben sie – ebenso wie musikalische Zeichen (Töne) – die Eigenschaft, Inhalte leichter emotionalisieren zu können als sprachliche Zeichen. In diesem Sinne evozieren die Bilder in Abb. 1 und Abb. 3 (PETA 2013) beim Betrachter in größter Unmittelbarkeit ein den Appell des Textes verstärkendes (negativ-deontisches) Gefühl von Mitleid (Abb. 1) bzw. Ekel (Abb. 3), wenn es ihm einen im Bürgerkrieg getöteten Jungen in den Armen seiner trauernden Mutter oder die stark vereiterte Kloake einer Legehenne in Massentierhaltung fotografisch direkt vor Augen führt, statt ‚einfach nur‘ davon zu berichten. Auf Grund ihrer genuin räumlichen Komposition eignen sich Bilder besser zur Darstellung räumlicher Verhältnisse oder äußerer Charakteristika von Objekten. Sprache ist dem Bild dagegen bei der Darstellung von Zeiträumen oder -verläufen, Negierungen, kausalen oder abstrakten Zusammenhängen überlegen. Während Sprache sowohl Abstraktes als auch Konkretes, Einzelnes wie Allgemeines darzustel

174 

 Nina-Maria Klug

len vermag, ist das Bild auf die Darstellung des Einzelnen (statt der Klasse) festgelegt. Es kann Abstraktes nur metaphorisch visualisieren. Der Sprache kommt mit Blick auf die Darstellbarkeit demnach ein klarer Bonus zu (s. dazu z. B. Nöth 2000; Stöckl i. d. B.). In diesem Sinne kann die Bedeutung des in Abb. 2, einer Anzeige der südafrikanischen Tierschutzorganisation Endagered Wildlife Trust (2009) mit dem Titel If you don’t pick it up, they will, bildlich dargestellten toten Albatross-Jungtiers erst durch die sprachliche Proform they über das Einzelexemplar hinaus auf die Art bzw. die gesamte Klasse der (See)vögel erweitert werden. Umgekehrt kann die Sprache in Abb. 1 (CRS 2013) durch das Bild konkretisiert werden, indem dieses eine konkrete Möglichkeit des Helfens (Be a volunteer. Save a life) in Krisengebieten veranschaulicht: die (Bürger)Kriegshilfe.

Abb. 2: Endagered Wildlife Trust, If you don’t pick it up, they will. Johannesburg, Südafrika 2009 (TBWA/Hunt/Lascaris).

Im Rahmen der Konstitution von Text- und Diskursbedeutung werden die einzelnen Zeichenmodalitäten (hier: Bild und Sprache) auf vielfältige Weise intra- und intermodal, intra- und intertextuell miteinander verknüpft (s. dazu im Einzelnen z. B. Klug 2012, 160–199; Wetzchewald 2012, 139–170; 233–384). Eine Analyse der Makroebene fragt deshalb danach, wie sich die Zeichenmodalitäten im Rahmen der Bedeutungsbildung wechselseitig transkribieren, wie sie sich bestätigen (und damit fokussieren), ergänzen oder engführen (zum Konzept der Transkriptivität s. Jäger 2002). Während 

Multimodale Text- und Diskurssemantik 

 175

bei der textsemantischen Analyse vor allem intratextuelle Formen der wechselseitigen Semantisierung der Zeichenressourcen in den Blick rücken, stellen für eine transtextuelle, an diskursiven Zusammenhängen interessierte Untersuchung auch die intertextuellen Bezugnahmen der Texte aufeinander einen nicht zu vernachlässigenden Gegenstand dar: Sie illustrieren u. a., welche Texte innerhalb des Diskurses die Rolle von Schlüsseltexten einnehmen oder wie Diskurspositionen verteilt werden. Im Folgenden werden Muster der bedeutungsbildenden Verknüpfung verschiedener Zeichenmodalitäten an einigen Beispielen illustriert.

3.2.1 Intratextuelle Verknüpfungen Intratextuell werden multimodale, über das einzelne Zeichensystem hinausreichende Verknüpfungen häufig bereits auf der syntaktischen Oberfläche der Texte sichtbar. Sie lassen den Text unmissverständlich als kohäsive multimodale Einheit erscheinen. Zu derartigen Formen der expliziten Wiederaufnahme gehören u. a. deiktische oder anaphorische Verweisrelationen, die mittels Zeichen einer Modalität auf die einer anderen zeigen, wie z. B. die Demonstrativpronomina das in Abb. 3, die textdeiktisch auf das kranke Huhn (Wenn du das nicht willst) und eine Palette Eier im Bild (Dann iss das nicht.) rekurrieren.

Abb. 3: PETA, People for the Ethical Treatment of Animals, Wenn du das nicht willst, dann iss das nicht, Deutschland 2013 (PETA.de/Eier).



176 

 Nina-Maria Klug

Der Satz If you don’t pick it up, they will verweist mit seinen sprachlich-anaphorischen Proformen they (Agens) und it (Patiens) in Abb. 2 auf das Bild, er kann erst durch seine visuellen Antezedenzien, dem dargestellten Albatross (Agens-Referenz) und dem Müll in seinem Magen (Patiens-Referenz) verstanden werden. Die für Seevögel tödlichen Folgen ihres ‚Müllsammelns‘ können hier ausschließlich auf der Basis bildlicher Signifikanten erschlossen werden; der daraus resultierende Appell an den Betrachter, seinen Müll selbst aufzuheben (bzw. bei Abb. 3: keine Eier mehr zu essen), um derartige Folgen zu vermeiden, wird ausschließlich auf sprachlichem Wege expliziert. Weder sprachliche noch bildliche Teile eines multimodalen Gesamttextes sind im Rahmen der Bedeutungs(re)konstruktion also verzichtbar. Textzeichen bildlicher Natur können innerhalb des multimodalen Textes oder Diskurses i. d. R. erst dann erschlossen werden, wenn sie in ihren sprachlichen Kontext eingebettet werden. Vice versa lassen sich die sprachlichen Konstituenten zumeist nur vor dem Hintergrund ihrer multimodalen Kontexte verstehen (zu denen neben dem Bild im multimodalen statischen Text eigentlich auch die paraverbale Zeichenmodalität der Typographie gehört, die hier allein der Kürze wegen vernachlässigt wird. Vgl. dazu aber im Detail Stöckl 2004b, 2014; Spitzmüller 2013 und i. d. B.).

3.2.2 Intertextuelle Verknüpfungen Die Verknüpfungen von Zeichen gleicher oder unterschiedlicher Modalität beschränken sich nicht auf die intratextuelle Ebene. So lässt sich die Bedeutung einer Anzeige auf der christlichen Webseite Der Weg.de mit dem Titel Jede Wahrheit braucht einen Mutigen, der sie ausspricht. Bibel lesen bildet (Abb. 4 rechts) erst auf der Basis intraund intermodaler intertextueller Verweise erschließen: Das Bild verweist intermodal auf die Bergpredigt (Mt 5–7) und bestimmt so die im Titel benannte „Wahrheit“ näher. Sprache und Typographie der Anzeige referiert intramodal auf eine fast gleichnamige deutschlandweite Kampagne der BILD-Zeitung, stellt ihrem Appell also den eigenen gegenüber: Nicht BILD-Lesen bildet, sondern Bibel-Lesen! (s. zu Ebenen der Makro-, Meso- und Mikrotypographie im Einzelnen Stöckl 2004b). Auch der an die Ablehnung von Tierversuchen gerichtete Appell der PETA-Anzeige Was du nicht willst, das man dir tu, das füg auch keinem anderen zu (Abb. 4 links oben) kann nur auf der Basis zweier intramodaler intertextueller Verweise verstanden werden: Der Titel der Anzeige bezieht sich im intramodalen Sprachverweis auf die ,Volkswahrheit‘ des zitierten Sprichworts. Das Bild konkretisiert den Appell des Sprichworts aus der intrabildlichen intertextuellen Bezugnahme auf den Schlüsseltext (bzw. das Schlagbild, vgl. Kap. 4.2) der sogenannten ,Ohrmaus‘ (Abb. 4 links unten), deren Bild, seit es 1995 um die Welt ging, innerhalb des Diskurses positiv-deontischer Meilenstein der Transplantationsforschung und negatives Sinnbild gequälter Labortiere zugleich ist. Durch die inhaltliche Bezugnahme auf vorausgehende Texte (unterschiedlicher Modalität) erweitert sich die Bedeutung des vorliegenden Textes also um inhaltliche 

Multimodale Text- und Diskurssemantik 

 177

Aspekte (Prädikationen) der als bekannt vorausgesetzten Referenztexte. Das Wissen um die Bedeutung der Referenztexte trägt als verstehensrelevantes Wissen mit zum Verstehen des aktuellen Textes bei.

Abb. 4: Intra- und intermodale Intertextualität, links oben: PETA, People for the Ethical Treatment of Animals, Was du nicht willst, das man dir tu, das füg auch keinem anderen zu, Deutschland 2012 (PETA.de); links unten: Ohrmaus (www.osumaterials.wordpress.com); rechts oben: Jede Wahrheit braucht einen Mutigen, der sie ausspricht (Quelle: der-weg-info.blogspot.com), rechts unten: Ausschnitt Mk 5, 1–4 Lutherbibel.



178 

 Nina-Maria Klug

3.3 Mikroebene Neben der Frage nach dem Wie (quomodo?) des kommunikativen Zusammenspiels der Zeichenmodalitäten in Text und Diskurs besteht eine zentrale Aufgabe text- und diskurssemantischer Analyse schließlich in der Beschreibung des Was (quid?) und des Warum (cui?), d. h. der konkreten Themen und Funktionen der Texte. Eine Mikroanalyse fragt danach, welches Wissen sich implizit oder explizit im Text bzw. Diskurs niederschlägt, welche Bedeutungen, Begriffe, Konzepte, Frames (im Folgenden nur noch: Frames) in welcher Funktion konstituiert bzw. modifiziert und textuell oder diskursiv miteinander vernetzt werden. Das bedeutet vor dem Hintergrund einer framesemantischen Bedeutungskonzeption, wie sie hier vertreten wird: Auf dieser Analyseebene wird das verstehensrelevante Wissen erfasst, das gegeben sein muss, um den multimodalen Text, den multimodalen Diskurs erschließen zu können, kurz: um ihn bedeuten zu können. Die Mikroebene stellt die zentrale Ebene jeder textund diskurssemantischen Untersuchung dar (auch wenn sie stets den Einbezug des kommunikativ-pragmatischen Rahmens und der Makroebene voraussetzt). Ob ihrer herausgehobenen Position sollen im Folgenden einige Methoden text- und diskurssemantischer Mikroanalyse illustriert werden.

4 Methoden text- und diskurssemantischer Analyse Das Methodenrepertoire der Text- und Diskurssemantik lässt sich durch eine große Pluralität charakterisieren. Es umfasst vielfältige Analysekategorien, die in Disziplinen wie der Textlinguistik, der Lexikologie, der wort- oder satzbezogenen Semantik (auch kognitiver Ausrichtung), der Pragmatik, der Rhetorik und Stilistik, der Bildwissenschaft, der Semiotik, der Visual Culture, der Kunstwissenschaft und jüngst auch der Korpuslinguistik bzw. Korpuspragmatik entwickelt und mit Blick auf die jeweiligen sprachlichen oder nichtsprachlichen Gegenstände erprobt wurden. So verschieden die Disziplinen sind, aus denen die Methoden stammen, so ähnlich ist der Fokus ihres Zugriffs. Gemeinsam ist allen Methoden, die eine text- und diskurssemantische Untersuchung ihren Mikroanalysen zu Grunde legt: Sie tragen allesamt dazu bei, das Musterhafte in der textuellen/diskursiven Kommunikation zu erfassen. Pragmakognitiv reformuliert heißt das: Sie helfen, auf die konzeptuellen Schemata (Types) gesellschaftlichen Wissens zuzugreifen. Dabei interessiert sich text- und diskurslinguistische Analyse auch und vor allem für das implizite Wissen einer Kommunikationsgemeinschaft, das innerhalb eines Diskursraums so selbstverständlich vorausgesetzt werden kann, dass es in der Regel nicht expliziert wird, sich aber im Zeichengebrauch der Gemeinschaft ‚zwischen den Zeilen‘ niederschlägt (s. dazu erneut Kapitel 1.2) und von den konkreten Tokens, wie sie in den Texten realisiert werden, abstrahiert werden kann.



Multimodale Text- und Diskurssemantik 

 179

Zu diesen kognitiv verankerten Mustern kollektiven Wissens werden in der jüngeren sprachwissenschaftlichen Forschung rhetorische Figuren und Tropen (z. B. Metaphern seit Lakoff/Johnson 1980; s. dazu auch die Beiträge von Forceville i. d. B. und Spieß i. d. B.) ebenso gezählt wie deontische Bedeutungen von Schlagwörtern/-bildern oder Topoi der Argumentation (z. B. Wengeler 2003; Klug 2012). Wenn diese und andere Phänomene vor dem Hintergrund einer pragmakognitiven Semantikkonzeption nun also nicht mehr als sprachliche Oberflächenphänomene begriffen werden, sondern als konzeptuelle Types, die durch ganz unterschiedliche Formen auf der Token-Ebene von Texten realisiert werden können, dann liegt es mit Blick auf die multimodale Verfasstheit menschlicher Kommunikation nahe, davon auszugehen, dass diese Muster gesellschaftlichen Wissens auch durch Formen anderer Zeichenmodalität als der Sprache realisiert werden, z. B. durch das Bild. Somit können auch Zeichen anderer, v. a. bildlicher Natur als Ausdrucksformen einer konzeptuellen Metapher oder beispielsweise eines Argumentationstopos verstanden werden; also als Formen, von denen aus auf dahinter liegendes, kulturelles Wissen geschlossen werden kann. Vor dem Hintergrund dieser Prämissen der kognitiven Verankerung bedeutungsrelevanter Kategorien lassen sich auch Methoden, die zur rein sprachbasierten Analyse entwickelt wurden (wie z. B. die Topos-, Metaphern-, oder Schlagwortanalyse) gewinnbringend auf die Analyse bildlicher (oder tonaler) Tokens anwenden. Die Möglichkeiten eines solchen methodengeleiteten Zugriffs auf Muster gesellschaftlichen Wissens im multimodalen Text sollen im Folgenden am Beispiel einer knappen Topos- und Schlagwort/Schlagbild-Analyse von Sprache-Bild-Texten veranschaulicht werden.

4.1 Toposanalyse Ausgangspunkt einer Toposanalyse ist der Versuch, von individuellen Argumenten, wie sie auf der Token-Ebene von Texten expliziert werden, auf konzeptuelle Schlussmuster (Topoi) zu schließen, aus denen innerhalb der jeweiligen Argumentation offensichtlich überzeugende Argumente zur Stützung der eigenen oder zur Widerlegung einer anderen Position gewonnen werden können. Ein Topos wird im Anschluss an eine neuere Rezeption der aristotelischen Rhetorik (z. B. durch Kienpointner 1992; Ottmers 1996; Wengeler 2003 oder Klug 2012) hier also als argumentationsanalytische Kategorie verstanden, die den Schluss von einem unstrittigen Argument (A) auf eine strittige These (B) auf der Basis kollektiven Wissens (C) autorisieren kann (s. Abb. 5).



180 

 Nina-Maria Klug

Argument A

These/Konklusion B

Topos C

Abb. 5: Schema der Argumentation

Als konzeptuell verankerte Argumentationsmuster stellen Topoi kollektive Wissensbestände bereit, die abhängig sind „von gesellschaftlichen, sozialen, historischen, weltanschaulichen, ideologischen und eventuell auch religiösen Einflüssen“ (Bornscheuer 1976, 108). Innerhalb einer Kommunikationsgemeinschaft zeichnen sie sich durch eine allgemeine Akzeptanz aus. Sie stellen damit die gemeinsame kulturelle Basis der Verständigung zwischen Argumentierenden dar (Borscheuer 1976, 91). In dieser Funktion entsprechen sie dem seit Toulmin (1969, 97 ff.) etablierten Terminus der Schlussregel (warrant), die als „general, hypothetical statement“ begriffen werden kann, „which can act as bridge, and authorize the sort of step to which our particular argument commits us“ (Toulmin 1969, 98). Im ursprünglichen Sinne des griechischen Wortes kann man sich Topoi demnach als gemeinschaftliche, an den jeweiligen kulturellen Kontext gebundene ,Orte‘ konzeptueller Art vorstellen, an denen die Mitglieder der jeweiligen Kulturgemeinschaft im Rahmen der inventio kraftvolle Argumentationsmuster auffinden können, die dabei helfen, konkrete Argumente zu bilden. Da sich die Schlussmuster (Topoi) bei den Mitgliedern der entsprechenden kulturellen Gemeinschaft ob ihrer allgemeinen Akzeptanz ganz selbstverständlich voraussetzen lassen, bleiben sie in der „verkürzte[n], verallgemeinerte[n], aber darin gerade den praktischen Kommunikationsbedürfnissen angepaßten“ enthymemischen (Alltags)Argumentation (Ottmers 1996, 77) in aller Regel implizit. Enthymemische Argumentation wird typischerweise verkürzt, „d. h. einer oder sogar zwei der drei Teilschritte werden nicht ausgesprochen und müssen vom Zuhörer entsprechend ergänzt werden“ (Ottmers 1996, 74 f.). Das bedeutet: Der Topos (vgl. Abb. 5: C) bleibt nahezu immer implizit (und die explizite Versprachlichung eines Topos hat zumeist einen rein heuristischen Status, s. umfassender Klug 2012, 357–375); auf die Explikation der These wird nicht immer, aber doch sehr häufig verzichtet (vgl. Abb. 5: B), denn es gilt: „wenn etwas bekannt ist, muß man es nicht nennen, der Zuhörer fügt es doch von selbst hinzu.“ (Aristoteles, Rhetorik 1357a, 15) Das aus einem bestimmten Topos schöpfende Argument ist seinerseits weder an eine bestimmte sprachliche Form gebunden noch an die Sprache selbst. Topoi, so die diesen Ausführungen zu Grunde liegende Annahme, können auch durch Argumente



Multimodale Text- und Diskurssemantik 

 181

anderer Zeichenmodalitäten, z. B. in Form von Bildargumenten, realisiert werden. Als konzeptuelle Type-Strukturen der Argumentation lassen sie völlig unterschiedliche Realisierungen bzw. Argumente (Tokens) zu, die sogar konträrer Natur sein können (Pro-/Kontra-Argumente). Spätestens hier wird klar, dass sich der argumentationsanalytische Toposbegriff deutlich von dem in der Literaturwissenschaft etablierten Curtiusschen Toposbegriff unterscheidet (Curtius 1969), der den Topos als festgefügtes sprachliches Klischee oder Motiv definiert. Diese allgemeinen Aussagen sollen im Folgenden an einigen konkreten Beispielen veranschaulicht werden. Die Anzeigen von Tierschutzorganisationen wie PETA haben stets eine appellative Textfunktion. Typisch für diese Texte ist, dass sie ihre Kern-These vom notwendigen Tierschutz (s. z. B. das allgemeine PETA-Logo: Stoppt Tierquälerei! in Abb. 3, Abb. 4 und Abb. 7 oder konkretisierte Tierschutz-Appelle wie Iss das [= Eier] nicht in Abb. 3) immer wieder durch verbale, visuelle und visuell-verbale Argumente stützen, die ihre Schlusskraft aus einem Topos gewinnen, den man mit Kienpointner (1992, 286) oder Ottmers (1996, 98) ganz allgemein als Gerechtigkeitsregel/-topos bzw. als Ähnlichkeitstopos bezeichnen könnte. Argumente aus diesem Topos haben einen stark normativen Charakter. Sie fordern den gleichen Umgang mit zwei Entitäten, die nicht identisch sind, die sich aber in bestimmter, für die konkrete Argumentation relevanter Hinsicht gleichen. Dieses gemeinschaftlich akzeptierte Muster gesellschaftlicher Argumentation schlägt sich nicht zuletzt in Sprichwörtern nieder wie Was du nicht willst, das man dir tu, das füg auch keinem anderen zu (s. Abb. 4 links oben). Abgebildet auf das klassische dreiteilige Argumentationsschema lässt sich ein Gerechtigkeitsschluss folgendermaßen darstellen:

Argumente

Stoppt Tierquälerei

Wenn sich zwei Entitäten in relevanter Hinsicht gleichen, dann sind sie auch gleich zu behandeln Abb. 6: Schema Gerechtigkeitsschluss

Die Argumente, die aus diesem Topos schöpfen, werden in den konkreten Texten u. a. folgendermaßen realisiert: Beispiel 1, Gerechtigkeitsargumentation Abb. 7 links: Wenn man keine Hunde „töten“ würde, weil man sie als Haustiere des Schutzes würdig erachtet und „liebt“, dann sollte man auch keine Ferkel „töten“, die Hunden – und das zeigt das Bildargument der visuellen Gegenüberstellung von Dackel und Ferkel, das dem Betrachter relevante Gemeinsamkeiten der Entitäten explizit



182 

 Nina-Maria Klug

vor Augen führt – bereits ihren äußerlichen Charakteristika nach ähneln (Größe, Blick, gefleckte Fellzeichnung etc.). Beispiel 2, Gerechtigkeitsargumentation Abb. 7 rechts: Wenn es heute eine kulturelle Selbstverständlichkeit darstellt, die nationalsozialistischen Konzentrationslager als eines der schlimmsten Verbrechen der Menschheit zu verwerfen, dann sollten auch Tier-Massenzuchtbetriebe abgelehnt werden, die den Konzentrationslagern, wie die explizite Gegenüberstellung der Baracken im Bild zeigt, in so starker Weise gleichen, dass man sie ohne die verbal-konkretisierenden Benennungen Auschwitz und Factory Farm nicht einmal hätte klar voneinander unterscheiden können. Beispiel 3, Gerechtigkeitsargumentation Abb. 4 links: Wenn man nicht möchte, dass man selbst für Forschungszwecke missbraucht wird (indem beispielsweise fremde Körperteile am eigenen Körper gezüchtet werden), dann sollte man diese Qual auch keinen anderen Lebewesen, z. B. Mäusen antun.

Abb. 7: Gerechtigkeitsargumente, links: PETA, People for the Ethical Treatment of Animals, Wieso lieben wir die einen und töten die anderen?, Deutschland 2014 (PETA.de); rechts: Circles of Compassion: Connecting Issues of Justice, Auschwitz/Factory Farm, 2014 (www.facebook.com/ circlesofcompassion).

4.2 Schlagwörter/-bilder Enthymemische Argumentation ist typischerweise verkürzte Argumentation. Die wohl stärkste Verkürzung findet der argumentative Dreischritt in Schlagwort und Schlagbild. Wie Schlagwörter gemeinhin als plakative Mittel der „Verkürzung, Simplifizierung und Verdichtung“ ganzer Lehrsätze und gesellschaftlicher Meinungen verstanden werden (Kaempfert 1990, 199), so kann dasselbe auch für Schlagbilder gelten (zum Terminus des Schlagbildes s. zuerst Warburg 1920; s. auch Klug 2012). Durch ihre Konventionalität innerhalb eines bestimmten Diskursbereichs erhalten sie nach und nach „einen so starken Eigenwert, daß sie der Determination durch 

Multimodale Text- und Diskurssemantik 

 183

den Kontext kaum mehr bedürfen“ (zum Schlagwort Dieckmann 1975, 103). Ist ein Wort einmal als Schlagwort etabliert, ein Bild(zeichen) zum Schlagbild geworden, kann es ohne näher erklärt oder erläutert zu werden bei der Rezeption unmittelbar wirken. Das bedeutet: Wort und Bild evozieren auf Seiten der Rezipienten sofort einen umfangreichen Wissensrahmen (Frame), der sowohl denotatives Wissen (worum geht es hier?) wie auch deontisches Wissen umfasst (wie habe ich das, worauf das Wort/ Bildzeichen sich bezieht, zu bewerten? Wie habe ich mich dem Gegenstand gegenüber zu verhalten?). Deontisches Wissen vereint die Aspekte des Konnotativen und Appellativen miteinander (vgl. Hermanns 1989, 71). Je nach Richtung des Appells (fordert mich das Wort/Bildzeichen implizit zu einer Befürwortung oder Ablehnung des bezeichneten Referenzobjekts auf?) können Schlagwörter/Schlagbilder die Stellung positivdeontischer Fahnenwörter/-bilder oder negativ-deontischer Stigmawörter/-bilder ein‑ nehmen (z. B. Hermanns 1994a). Übertragen auf den argumentativen Dreischritt lässt sich deshalb sagen: In Schlagwort und -bild ist das Enthymem auf ein Ein-Wort/BildArgument verkürzt (vgl. Abb. 5 A). Bei seiner Rezeption wird sowohl die These (Abb. 5 B), d. h. der Befürwortungs- oder Ablehnungsappell, als auch der Argument und Appell verbindende Topos (Abb. 5 C), das Argumentationsmuster, implizit mitgesagt bzw. mitgezeigt, mitgemeint und mitverstanden. In diesem Sinne kann ein Wort wie Neugeborenes im Rahmen der Kommunikation die Funktion eines verkürzten EinWort-Arguments einnehmen, von dem auf der Basis eines kollektiven Schutztopos (wenn ein Mensch/Lebewesen neugeboren ist, dann ist sein Leben, das noch vollständig vor ihm liegt, in besonderer Weise vor dem Tod zu schützen) auf den impliziten Appell (These) geschlossen werden kann: Es ist zu schützen! Schlagbilder können eine ähnliche Funktion einnehmen. So wird in Abbildung 8, einer Anzeige der italienischen Tierschutzorganisation ENPA aus dem Jahr 2013 (vgl. Abb. 8), das deontische Potenzial von Schlagbild (Fahnenbild) und Schlagwort (Fahnenwort) argumentativ instrumentalisiert. Prinzipiell würde das Schlagbild ‚Schnullerlamm‘ seine deontische Bedeutung hier auch ohne die verstärkende Wiederaufnahme durch das die Bedeutung des Bildes vom dargestellten Einzelexemplar pluralisch ausweitende Schlagwort neonati entfalten, denn Schlagbilder sind nicht zwingend auf einen sprachlichen Kontext angewiesen (das lässt sich in diesem Beispiel leicht dadurch nachweisen, dass man den Appell des vorliegenden verbal-visuellen Textes wohl auch dann weitgehend versteht, wenn man der italienischen Sprache nicht mächtig ist und die sprachlichen Teile deshalb nicht mit in die Deutung einbeziehen kann).



184 

 Nina-Maria Klug

Abb. 8: ENPA, Ente Nazionale Protezione Animali, Buona Pasqua a chi non mangerà i neonati, Italien 2013 (www.enpa.it).

Das Wort Neugeborene/neonati, v. a. aber das Bildzeichen ‚Schnullerlamm‘ rufen den Frame Neugeborenes auf, die mit ihm verbundenen denotativen und deontischen Wissensbestände: Wenn es in unserem Kulturkreis eine Selbstverständlichkeit darstellt, dass neugeborenes Leben in besonderer Weise zu schützen ist, dann gilt das auch für Lämmer, deren Eigenschaft des Neugeborenseins den Schutz ihres noch nicht gelebten Lebens fordert. Und dieser positiv-deontische Schutz-Appell schließt ein, sie nicht zu töten, in Fleischschalen zu verpacken und, z. B. an Ostern, zu verspeisen (Buona Pasqua a chi non mangerà i neonati/Frohe Ostern dem, der die Neugeborenen nicht essen wird.) Deutlich zeigt sich hier die ideologische Polysemie bei der gesellschaftlichen Konzeptualisierung des Referenzobjekts bzw. des Framekerns Lamm. Die verbreitete Bedeutung von Lamm als Fleisch (das als Lebensmittel dient, getötet und gegessen werden kann, s. die Fleischverpackung in Abb. 8) steht in Bedeutungskonkurrenz zum hier aufgezeigten Verständnis vom Lamm als neugeborenem Leben, als Lamm Gottes (Agnus Dei), das in seiner Reinheit, Unschuld und Wehrlosigkeit zu schützen ist. Schlagwörter und -bilder haben also gemeinsam: Sie veranschaulichen in kürzest möglicher Weise, welche Themen im gesellschaftlichen Diskurs eine herausgehobene Stellung einnehmen, welche Meinungen und Positionen innerhalb der jeweiligen Diskursgemeinschaft argumentativ vertreten werden. Sie sind in besonderer Weise „Vehikel von Gedanken” (Hermanns 1994a, 55) und stellen deshalb einen äußerst relevanten Gegenstand kulturorientierter semantischer Analyse dar, die danach fragt, wie und in welcher Form sich das Denken, Fühlen, Wollen und Meinen, kurz:



Multimodale Text- und Diskurssemantik 

 185

das kulturelle Wissen einer Gesellschaft in Texten niederschlägt, wie es diskursiv geprägt wird.

5 Standortbestimmung und Ausblick Text- und diskurssemantische Analyse war lange rein sprachbasierte Analyse. Sie ist und bleibt linguistische Analyse, innerhalb derer sich vor dem Hintergrund theoretischer Prämissen, wie sie in Kap. 1 umrissen wurden, erst seit wenigen Jahren eine Entwicklung hin zum Einbezug auch multimodaler Text- und Diskurszusammenhänge abzeichnet: Durch ein zunehmendes linguistisches Interesse an semiotischen und textstrukturellen Phänomenen, das sich u. a. in der Entwicklung von Zeichentypologien oder der Beschreibung von Verknüpfungsmitteln ausdrückt, die über die Grenzen des sprachlichen Zeichensystems hinausreichen, sowie durch die Ausrichtung des semantischen Forschungsinteresses auf das Wissen, über das Zeichennutzer verfügen müssen, wollen sie Texte verstehen und am Diskurs teilhaben, rücken die multimodalen Kontexte von Sprache immer häufiger auch in den text- und diskurssemantischen Blick. Andere Zeichenmodalitäten, mit denen Sprache in intra- und transtextuelle Interaktion tritt und die wie die Sprache ihren individuellen Anteil zur gesellschaftlichen Wissenskonstitution und -repräsentation beitragen, werden verstärkt zum Gegenstand der Analyse. Der theoretische Grundstein für ein tiefergreifendes text- und diskurssemantisches Bewusstsein um die stets multimodale Verfasstheit der Kommunikation ist also gelegt. Immer häufiger machen theoretische Überblicksbeiträge, Einführungen oder Sammelbände die Notwendigkeit des Einbezugs auch multimodaler Aspekte von Text und Diskurs stark. Diese konzeptionellen Einsichten gilt es nun zu schärfen und in konkreten text- und diskurssemantischen Analysen umzusetzen, die sowohl intratextuelle wie auch intertextuelle (diskursive) Muster der bedeutungsbildenden Bezugnahme von Zeichen bzw. Texten sprachlicher und nichtsprachlicher Modalität zum Gegenstand haben. Dabei ist methodisch die Frage nach der Anwendbarkeit weiterer qualitativer Methoden auf multimodale Textkorpora ebenso zu stellen wie die Möglichkeiten quantitativer, computergestützer semantischer Analysetools auf multimodale Gegenstände auszuloten sind: Wie können typographische Charakteristika von Texten, die ihnen zugehörigen bildlichen und grafischen Anteile auch in digitalen Korpora abgebildet werden? Wie lassen sich beispielsweise Bilder semantisch annotieren? Diese und andere Fragen sollten vermehrt ins Forschungsinteresse text- und diskurssemantischer Analyse rücken. Auch sollte der analytische Fokus über Kombinationen von Sprache und Bild (in Print-, AV- und E-Medien) hinaus auf das bedeutungsbildende Zusammenspiel der Sprache (gesprochen oder geschrieben) mit weiteren Modalitäten wie Gestik, Mimik, Typographie oder Ton (Musik/Geräusch) erweitert werden.



186 

 Nina-Maria Klug

Mit dieser Ausweitung muss nicht der Verlust oder die völlige Entgrenzung des linguistischen Gegenstandsbereichs befürchtet werden. Vielmehr kann darin eine Chance phänomenorientierter pragmatischer Sprachwissenschaft gesehen werden, die es sich zum Ziel macht, ihre kommunikativen Gegenstände in möglichst holistischer Weise zu beschreiben. Da Sprachgebrauch seinem Wesen nach multimodal ist, können kommunikative Eigenschaften und Funktionen von Sprache im Gebrauch nicht isoliert, sondern prinzipiell erst aus dem Zusammenspiel mit und dem Kontrast zu anderen kommunikativ instrumentalisierten Zeichenressourcen in einer dem Phänomen angemessenen Weise beschrieben werden. Hier eröffnet sich ein weites und vielversprechendes Feld für zukünftige text- und diskurssemantische Forschung.

6 Literatur Aristoteles (1987): Rhetorik. Übersetzt, mit einer Bibliographie, Erläuterungen und einem Nachwort von Franz G. Sieveke. 2. Aufl. München. Barsalou, Lawrence W. (1992): Frames, Concepts and Conceptual Fields. In: Adrienne Lehrer/Eva Kittay (eds.): Frames, Fields and Contrasts. New Essays in Semantics and Lexical Organisation. Hillsdale, 21–74. Bornscheuer, Lothar (1976): Topik. Zur Struktur der gesellschaftlichen Einbildungskraft. Frankfurt a. M. Busse, Dietrich (1987): Historische Semantik. Analyse eines Programms. Stuttgart. Busse, Dietrich (2008): Linguistische Epistemologie – Zur Konvergenz von kognitiver und kulturwissenschaftlicher Semantik am Beispiel von Begriffsgeschichte, Diskursanalyse und Frame-Semantik. In: Heidrun Kämper/Ludwig M. Eichinger (Hg.): Sprache – Kognition – Kultur. Sprache zwischen mentaler Struktur und kultureller Prägung. Berlin/New York (IDS Jahrbuch 2007), 73–114. Busse, Dietrich (2009): Textbedeutung und Textverstehen aus Sicht einer linguistischen Epistemologie. In: Andrea Bachmann-Stein/Stephan Merten/Christiane Roth (Hg.): Perspektiven auf Wort, Satz und Text. Semantisierungsprozesse auf unterschiedlichen Ebenen des Sprachsystems. Trier, 45–56. Busse, Dietrich (2012): Frame-Semantik. Ein Kompendium. Berlin/Boston. Busse, Dietrich/Wolfgang Teubert (1994): Ist Diskurs ein sprachwissenschaftliches Objekt? Zur Methodenfrage der historischen Semantik. In: Dietrich Busse/Fritz Hermanns/ Wolfgang Teubert (Hg.): Begriffsgeschichte und Diskursgeschichte. Methodenfragen und Forschungsergebnisse der historischen Semantik. Opladen, 10–28. Cottin, Menena u. a. (2011): Das schwarze Buch der Farben. Frankfurt a. M. Curtius, Ernest Robert (1969): Europäische Literatur und Lateinisches Mittelalter. 4. Aufl. Bern/ München. Demmerling, Christoph (2002): Sinn, Bedeutung, Verstehen. Untersuchungen zu Sprachphilosophie und Hermeneutik. Paderborn. Dieckmann, Walther (1975): Sprache in der Politik. Einführung in die Pragmatik und Semantik der politischen Sprache. 2. Aufl. Heidelberg. Felder, Ekkehard (2006): Semantische Kämpfe in Wissensdomänen. Eine Einführung in Benennungs-, Bedeutungs- und Sachverhaltsfixierungs-Konkurrenzen. In: Ders. (Hg.):



Multimodale Text- und Diskurssemantik 

 187

Semantische Kämpfe. Macht und Sprache in den Wissenschaften. Berlin/New York (Linguistik – Impulse und Tendenzen, 19), 13–46. Fillmore, Charles (1971): Verbs of judging. An exercise in semantic description. In: Charles Fillmore/ Terence Langendoen (eds.): Studies in Linguistic Semantics. New York, 272–289. Fix, Ulla (2001): Zugänge zu Stil als semiotisch komplexer Einheit. Thesen, Erläuterungen und Beispiele. In: Eva-Maria Jakobs/Annely Rothkegel (Hg.): Perspektiven auf Stil. Tübingen (Reihe Germanistische Linguistik, 226), 113–126. Fix, Ulla (2009): Stand und Entwicklungstendenzen in der Textlinguistik. In: Deutsch als Fremdsprache1/2, 11–20/74–85. Fix, Ulla (2015): Die EIN-Text-Diskursanalyse. Unter welchen Umständen kann ein einzelner Text Gegenstand einer diskurslinguistischen Untersuchung sein? In: Heidrun Kämper/Ingo H. Warnke (Hg.): Diskurs – interdisziplinär. Zugänge, Gegenstände, Perspektiven. Berlin, 317–333. Gardt, Andreas (2003): Sprachwissenschaft als Kulturwissenschaft. In: Ulrike Haß-Zumkehr/ Christoph König (Hg.): Literaturwissenschaft und Linguistik von 1960 bis heute. Göttingen (Marbacher Wissenschaftsgeschichte, 4), 271–288. Gardt, Andreas (2012): Textsemantik. Methoden der Bedeutungserschließung. In: Jochen A. Bär/ Marcus Müller (Hg.): Geschichte der Sprache und Sprache der Geschichte. Probleme und Perspektiven der historischen Sprachwissenschaft des Deutschen. Oskar Reichmann zum 75. Geburtstag. Berlin, 61–82. Gardt, Andreas (2013): Textanalyse als Basis der Diskursanalyse. Theorie und Methoden. In: Ekkehard Felder (Hg.): Faktizitätsherstellung in Diskursen. Die Macht des Deklarativen. Berlin/ Boston (Sprache und Wissen, 13), 29–56. Hermanns, Fritz (1982): Brisante Wörter. Zur lexikographischen Behandlung parteisprachlicher Wörter und Wendungen in Wörterbüchern der deutschen Gegenwartssprache. In: Herbert Ernst Wiegand (Hg.): Studien zur neuhochdeutschen Lexikographie II. New York, 87–108. Hermanns, Fritz (1989): Deontische Tautologien. Ein linguistischer Beitrag zur Interpretation des Godesberger Programms (1959) der Sozialdemokratischen Partei Deutschlands. In: Josef Klein (Hg.): Politische Semantik. Bedeutungsanalytische und sprachkritische Beiträge zur politischen Sprachverwendung. Opladen, 69–152. Hermanns, Fritz (1994a): Schlüssel, Schlag- und Fahnenwörter. Zur Begrifflichkeit und Theorie der lexikalischen „politischen Semantik“. Mannheim (Arbeiten aus dem Sonderforschungsbereich 245, 81). Hermanns, Fritz (1994b): Linguistische Anthropologie. Skizze eines Gegenstandsbereiches linguistischer Mentalitätsgeschichte. In: Dietrich Busse/Fritz Hermanns/Wolfgang Teubert (Hg.): Begriffsgeschichte und Diskursgeschichte. Methodenfragen und Forschungsergebnisse der historischen Semantik. Opladen, 29–59. Hermanns, Fritz (2007a): Diskurshermeneutik. In: Warnke (Hg.), 187–210. Hermanns, Fritz (2007b): Slogans und Schlagwörter. In: Jochen A. Bär/Thorsten Roelcke/Anja Steinhauer (Hg.): Sprachliche Kürze. Konzeptuelle, strukturelle und pragmatische Aspekte. Berlin/New York (Linguistik – Impulse und Tendenzen, 27), 459–478. Jäger, Ludwig (2002): Transkriptivität. Zur medialen Logik der kulturellen Semantik. In: Ludwig Jäger/Georg Stanitzek (Hg.): Transkribieren. Medien/Lektüre. München, 19–41. Jewitt, Carey/Gunther Kress (eds.) (2003): Multimodal Literacy. New York. Kaempfert, Manfred (1990): Die Schlagwörter. Noch einmal zur Wortgeschichte und zum lexikologischen Begriff. In: Muttersprache 100, 192–203. Kienpointner, Manfred (1992): Alltagslogik. Struktur und Funktion von Argumentationsmustern. Stuttgart-Bad Cannstadt (problemata, 126). Klug, Nina-Maria (2012): Das konfessionelle Flugblatt. Eine Studie zur historischen Semiotik und Textanalyse. Berlin/Boston (Studia Linguistica Germanica, 112).



188 

 Nina-Maria Klug

Klug, Nina-Maria (2013): Bilder als Texte. Methoden einer semiotischen Erweiterung angewandter Diskursanalyse. In: Roth/Spiegel (Hg.), 163–188. Klug, Nina-Maria (2014): Framesemantik als Basis multimodaler Analyse. In: Ewa DrewnowskaVargane/Peter Bassola (Hg.): Schnittstelle Text. Frankfurt a. M. (Szegediner Schriften zur germanistischen Linguistik, SSGL), 247–272. Klug, Nina-Maria (2015): ‚Ich habe es doch mit eigenen Augen gesehen‘. Zur Eigentlichkeit bildlicher Zeichen. In: Claudia Brinker-von der Heyde/Nina Kalwa/Nina-Maria Klug/Paul Reszke (Hg.): Eigentlichkeit. Zum Verhältnis von Sprache, Sprechern und Welt. Berlin/Boston, 478–499. Klug, Nina-Maria/Hartmut Stöckl (2015): Sprache im multimodalen Kontext. In: Ekkehard Felder/ Andreas Gardt (Hg.): Handbuch Sprache und Wissen. Berlin/Boston, 242–264. Kress, Gunther (2009): What is mode? In: Carey Jewitt (ed.): The Routledge Handbook of Multimodal Analysis. London/New York, 54–67. Kress, Gunther/Theo van Leeuwen (1998): Front pages: the (critical) analysis of
newspaper layout. In: Allan Bell/Peter Garrett (eds.): Approaches to Media Discourse. Oxford, 186–219.
 Lakoff, George/Mark Johnson (1980): Metaphors we Live by. Chicago. Meier, Stefan (2008): Von der Sichtbarkeit im Diskurs – Zur Methode diskursanalytischer Untersuchung multimodaler Kommunikation. In: Warnke/Spitzmüller (Hg.), 263–286. Meier, Stefan (2011): Multimodalität im Diskurs. In: Reiner Keller u. a. (Hg.): Handbuch Sozialwissenschaftliche Diskursanalyse. Bd. 1: Theorien und Methoden. 3. Aufl. Wiesbaden, 499–532. Minsky, Marvin (1975): A framework for representing knowledge. In: Patrick Winston (ed.): The Psychology of Computer Vision. New York, 211–277. Niehr, Thomas (2014): Einführung in die linguistische Diskursanalyse. Darmstadt. Nöth, Winfried (2000): Der Zusammenhang von Text und Bild. In: Klaus Brinker/Gerd Antos u. a. (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. Berlin/New York (HSK, 16.1), 489–496. Ottmers, Clemens (1996): Rhetorik. Stuttgart/Weimar (Sammlung Metzler, 238). Rhyner, Roger/Patrick Mettler (2011): Der stinkende Geissbock. 5. Aufl. Glarus. Roth, Kersten Sven/Carmen Spiegel (Hg.) (2013): Perspektiven einer angewandten Diskursforschung. Berlin. Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft. Köln. Schmitz, Ulrich (1998): Medien als Autoritätsersatz. Worte zu Bildern beim deutschen Germanistentag 1997 in Bonn. In: Mitteilungen des deutschen Germanistenverbandes 1–2, 160–169. Spitzmüller, Jürgen (2013): Graphische Variation als soziale Praxis. Eine soziolinguistische Theorie skripturaler ,Sichtbarkeit‘. Berlin/Boston. Steinseifer, Martin (2005): Fotos wie Brandwunden? – Überlegungen zur deontischen Bedeutung von Pressefotografie am Beispiel von Hanns Martin Schleyer als Opfer der Roten Armee Fraktion. In: Dietrich Busse/Thomas Niehr/Martin Wengeler (Hg.): Brisante Semantik. Neuere Konzepte und Forschungsergebnisse einer kulturwissenschaftlichen Semantik. Tübingen, 269–292. Stöckl, Hartmut (2004a): Die Sprache im Bild – Das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Konzepte, Theorien, Analysemethoden. Berlin/New York. Stöckl, Hartmut (2004b): Typographie. Gewand und Körper des Textes – Linguistische Überlegungen zu typographischer Gestaltung. In: Zeitschrift für Angewandte Linguistik 41, 5–48.



Multimodale Text- und Diskurssemantik 

 189

Stöckl, Hartmut (2014): Typography. In: Sigrid Norris/Carmen Daniela Maier (eds.): Interactions, Images and Texts. A Reader in Multimodality (Trends in Applied Linguistics, 11), Berlin/Boston, 283–295. Toulmin, Stephen (1969): The Uses of Argument. Cambridge. Warnke, Ingo (Hg.) (2007): Diskurslinguistik nach Foucault. Theorie und Gegenstände. Berlin/New York. Warnke, Ingo/Jürgen Spitzmüller (2008): Methoden der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene. Berlin/New York. Wengeler, Martin (2003): Topos und Diskurs. Begründung einer argumentationsanalytischen Methode und ihre Anwendung auf den Migrationsdiskurs (1960–1985). Tübingen (Reihe Germanistische Linguistik, 244). Wetzchewald, Marcus (2012): Junktoren zwischen Text und Bild – dargestellt anhand der Unternehmenskommunikation im Internet. Duisburg. Wienen, Markus (2011): Lesart und Rezipienten-Text. Zur materialen Unsicherheit multimodaler und semiotisch komplexer Kommunikation. Frankfurt a. M. Ziem, Alexander (2008): Frames und sprachliches Wissen. Kognitive Aspekte der semantischen Kompetenz. Berlin/New York (Sprache und Wissen, 2).



Winfried Nöth

8. Verbal-visuelle Semiotik Abstract: Themen und Richtungen der verbal-visuellen Semiotik werden vorgestellt, wobei die Semiotik nach Peirce im Mittelpunkt der Erörterungen rückt. Das semiotische Potenzial der verbalen wird mit demjenigen der bildhaften Zeichen kontrastiert. Vor dem Hintergrund der Peirceschen Semiotik wird die Relevanz der Klassifizierung der verbalen und visuellen Zeichen in ikonische, indexikalische und symbolische aufgezeigt. Diese und andere Analyseinstrumente der Semiotik ermöglichen eine differenzierte Analyse der Formen der Komplementarität von Wörtern und Bildern und der gegenseitigen Bezugnahme der visuellen und verbalen Zeichen aufeinander sowie deren Modi der Repräsentation der von ihnen bezeichneten Objekte und Sachverhalte. Sie tragen ferner zur Klärung der Frage nach der so genannten semiotischen Autonomie bzw. Heteronomie von Wort und Bild bei. 1 Das Visuelle, das Verbale und die Zeichen 2 Autonomie oder Heteronomie der Bilder? 3 Ikon, Index und Symbol, visuell und verbal 4 Semiotische Potenziale von Text und Bild 5 Text und Bild: Formen der Bezugnahme 6 Literatur

1 Das Visuelle, das Verbale und die Zeichen Das Verbale wird dem Visuellen oft entgegengestellt, auch wenn die Komplementarität von „Wort und Bild“ betont wird. Wörter und Bilder sind aber keine disjunkten Modi der Kognition und Kommunikation. Nicht nur ist der auditive Modus der verbalen Kommunikation stets in nonverbale und andere visuelle Kontexte eingebettet, sondern spätestens seit der Erfindung der Schrift ist die Sprache selbst auch zu einem visuellen Medium geworden. Gemeinsam ist den Wörtern und Bildern ihre Zeichenhaftigkeit. Sie steht im Mittelpunkt semiotischer Reflexionen über das Verbale und das Visuelle im engeren Sinn. Als Wissenschaft von den Zeichen untersucht die Semiotik aber nicht nur das Visuelle und das Verbale in der Kommunikation. Zum einen befasst sie sich auch mit Zeichen, denen lediglich Signifikation zukommt, ohne dass sie kommuniziert worden sind, also mit natürlichen Zeichen und mit kulturellen Zeichen, die nicht die Botschaft eines Senders an einen Empfänger sind. Zum anderen befasst sich die Semiotik nicht nur mit materiell verkörperten externen Zeichen, sondern auch mit den Zeichen, in denen wir denken, also mit den Zeichen die wir als Gedanken bzw. als mentale Bilder



Verbal-visuelle Semiotik 

 191

bezeichnen. Da wir in oder mit Wörtern und Bildern nicht nur schreiben und lesen, kommunizieren und argumentieren, suggerieren oder manipulieren, sondern auch in ihnen denken, folgern, planen und uns erinnern, ist das Visuelle keineswegs nur ein Kontext oder ein Modus, sondern ein konstituierender Bestandteil von Kommunikation und Signifikation. Die Gebiete der verbalen und der visuellen Semiotik können hier nicht insgesamt vorgestellt werden, denn ersteres untersucht ja alle Sprachzeichen aus semiotischer Sicht, während letzteres eine Wissenschaft aller visuellen Zeichen ist (vgl. Nöth 2000a). Zur visuellen Semiotik gehören ja auch die Semiotik der Bilder, Malerei und Fotografie, der Landkarten und Diagramme, der Designobjekte, der visuellen Symbole, Verkehrsschilder, der Werbung und womöglich auch die Semiotik der Mode, der Architektur, des Films, der Medien überhaupt sowie der nonverbalen Kommunikation. Die verbal-visuelle Semiotik, wie sie in diesem Artikel vorgestellt wird, ist dagegen das engere Forschungsfeld, in dem es darum geht, wie sich verbale und visuelle Zeichen zu komplexen Zeichen ergänzen. Hier stehen das Spezifische der beiden Zeichenmodi und die Beziehungen zwischen den verbalen und visuellen Zeichen im Mittelpunkt der Betrachtung. Der folgende Beitrag ist dabei weitgehend auf die Beziehungen zwischen Bild und Text in den Printmedien beschränkt. Untersuchungen zu verbal-visuellen Texten können explizit oder auch implizit semiotisch fundiert sein. Implizit semiotische Ansätze finden sich etwa in den Arbeiten der Zeitschrift Word & Image: A Journal of Verbal/Visual Enquiry, in Arbeiten zur Kunstpsychologie, zur allgemeinen Bildtheorie (Mitchell 1986; 1994, 213–328) und zur so genannten Bildwissenschaft (Nöth 2005b). Weitere implizit verbal-visuelle semiotische Untersuchungen finden sich in der Kognitionsforschung (Mandl/Levin 1989), der Medienwissenschaft (Muckenhaupt 1986), der Lexikologie (Hupka 1989), der Pädagogik (Sauerbier 1985; Reimund 1993), der Emblemata- und Ekphrasis-Forschung (Wagner 1996; Manns 2007), der Intermedialitätsforschung (z. B. Clüver 1989; Müller 1996), der Schrift- und Typographieforschung und in der Forschung zur visuellen Poesie (Faust 1977; Ernst 1986). Diese Arbeiten sind insofern implizit semiotisch als sie, auch ohne von spezifisch semiotischen Modellen auszugehen, Fragestellungen nachgehen, wie sie auch in der verbal-visuellen Semiotik erörtert werden, etwa den Fragen nach dem spezifischen Potenzial von Wort und Bild, nach den Formen der Text-Bild-Beziehung oder nach den Strategien der gegenseitigen Bezugnahme zwischen Wörtern und Bildern (vgl. Nöth 1994). Wenn etwa Arnheim (1954, 65) unter dem Einfluss der Gestalttheorie ausführt, dass „kein visuelles Muster nur für sich allein steht, sondern immer etwas über seine eigene individuelle Existenz hinaus repräsentiert“, so dass „jede Gestalt die Form irgend eines Inhaltes ist“, dann thematisiert er genuin semiotische Fragestellungen. Explizit semiotische Untersuchungen zur verbal-visuellen Semiotik stehen am Anfang der strukturalistischen Semiotik, wie sie sich in den 1960er Jahren unter dem Einfluss der Strukturalen Linguistik in der semiologischen Tradition von Ferdinand de Saussure (1916) und Louis Hjelmslev (1943) zu entwickeln begann. Die frühe Bild

192 

 Winfried Nöth

semiotik war auch dann in gewisser Weise eine verbal-visuelle, wenn ihr Untersuchungsgegenstand das Bild allein ohne einen bestimmten verbalen Kontext war, weil sie davon ausging, dass den visuellen Zeichen eine „Sprache“ zu Grunde liege, deren allgemeines Modell die Grammatik der verbalen Sprache sein müsse. Fragen wie „Ist die Malerei eine Sprache?“ (Zemsz 1967; Barthes 1969) wurden damals im Rahmen der Semiotik kontrovers diskutiert, wobei diese zeitgleich auch unter implizit semiotischen Prämissen von Nelson Goodman (1968) gestellt und beantwortet wurden. Exemplarisch für diese Tradition einer Semiotik des Visuellen nach dem Vorbild der Semiotik des Verbalen sind die Arbeiten von Roland Barthes und Umberto Eco. Umberto Ecos besonderes Interesse an der verbal-visuellen Semiotik gilt z. B. den Bildern der Untersuchung von Werbung, der Semiotik der Farben sowie den Fragen nach dem Ikonischen und Symbolischen in der visuellen Kommunikation (Eco 1968, 1972, 1985). Bei Barthes geht es u. a. um Fotografie, die Text-Bild-Beziehungen im Allgemeinen und um Werbe-, Presse- sowie Modefotos im Besonderen (1964a, b; 1977, 1980). Beispielhaft ist Barthes‘ Untersuchung zur Sprache der Mode (1967). Bei der Analyse eines Korpus von Bildern zweier Jahrgänge von Modejournalen findet das ganze Arsenal der strukturalen Linguistik Anwendung, um das semiotische System der Mode in den Druckmedien und deren Rhetorik zu bestimmen: Korpus- und Distributionsanalyse, Kommutationstest zur Ermittlung der relevanten bzw. distinktiven Minimaleinheiten (sog. Klassifizierung), Regeln der Kombination (Syntax), Denotation und Konnotationen (Semantik), etc. Bei aller Bereicherung der Bildsemiotik durch eine Semiotik, die vom Modell des sprachlichen Zeichens ausgeht, um das Spezifische nonverbaler und visueller Zeichensysteme zu untersuchen, leiden manche dieser frühen semiologischen Arbeiten doch unter einem gewissen Logozentrismus. Dies ist z. B. unverkennbar, wenn Roland Barthes (1964b) in seiner Rhetorik des Bildes die Dependenz der visuellen von den verbalen Zeichen postuliert (s. u.) oder wenn Umberto Eco (1972) das Ikonische der Bilder anzweifelt, um in Analogie zu den sprachlichen Zeichen deren Arbitrarität und Konventionalität hervorzuheben. Auch in der Bildsemiotik der Pariser Schule um A.J. Greimas bestimmt ein von der Sprache abgeleitetes Analysemodell die Methoden der Bildanalyse. Grundlegend ist die Unterscheidung zwischen Bildelementen der Ausdrucks- und Inhaltsebene sowie zwischen plastischen (auch „abstrakt“ genannten) und ikonischen (oder „figurativen“) Elementen des Bildes in Analogie zu den bloß bedeutungsdifferenzierenden und den bedeutungstragendenden Einheiten der Sprache (also den Phonemen und den Morphemen). Exemplarische Arbeiten nach diesem Analysemodell sind Floch (1990, 1993, 1997), Thürlemann (1990) und Fontanille (1995). Während die Elemente der plastischen Zeichen an sich keine eigene Bedeutung haben, weil sie gewissenmaßen nur das bedeuten, was sie selbst sind (z. B. ‚rot‘, ‚rund‘ oder ‚spitz‘), schreibt die Pariser Schule ihnen zusätzlich doch auch gewisse eigene, wenn auch nur vage, Bedeutungen zu. Solche Bedeutungen bilden semiotische Systeme, die als semisymbolische Kodes definiert sind. Die Farben gelb, rot und braun etwa gehören einem 

Verbal-visuelle Semiotik 

 193

semisymbolischen System an, nach dem ihnen die Konnotation ‚warm‘ zukommt. Die plastischen Zeichen gelb, rot und braun haben demnach die semisymbolische Bedeutung ‚warm‘. Diese visuellen Zeichen sind also insofern multimodale Zeichen, als ihnen zusätzlich zu ihrem eigentlichen visuellen Modus der Farbhaftigkeit der Modus einer semisymbolische Bedeutungen zukommen, die auf thermische Sinneseindrücke verweisen. Formeigenschaften wie ‚eckig‘ vs. ‚rund‘ haben dagegen semisymbolische Bedeutungen, die auf taktilen Sinneseindrücke verweisen, wie ‚hart‘ bzw. ‚weich‘, während die Farben ‚grün‘ und ‚braun‘ semisymbolisch etwa auf ‚pflanzlich‘ bzw. ‚erdig‘ verweisen. So zeigt sich nach dem Modell der Pariser Schule als Besonderheit der Bilder, dass ihre Ausdrucksform eine eigene, wenn auch nur vage, semisymbolische Semantik hat, wohingegen die Ausdruckform der Sprache, die sich ja allein aus der Lautform ihrer Phoneme zusammensetzt, ohne eine solche Semantik ist, da Phoneme nichts selbst bedeuten. Während die Sprache demnach nur eine einzige Inhaltsebene hat, haben die Bilder also gewissermaßen zwei Inhaltsebenen, eine semisymbolische auf ihrer Ausdrucksebene und eine eigentlich semantische auf ihrer Inhaltsebene. Außer der französisch-italienischen Forschungstradition gibt es in der verbalvisuellen Semiotik weitere Schulen und Tendenzen, von denen hier nur noch zwei Erwähnung finden können. In der Tradition der britisch-australischen Soziosemiotik, deren linguistischer Hintergrund die systemische Linguistik M.A.K. Hallidays ist, stehen die Arbeiten zur verbal-visuellen Semiotik von Kress (2009) sowie Kress/van Leeuwen (1996). Ihr besonderes Anliegen ist es, das Verbale in seinen multimedialen Kontexten zu untersuchen. Vor dem Hintergrund der Allgemeinen Zeichentheorie hat sich ferner die Visuelle Semiotik von Charles S. Peirce entwickelt, die im Folgenden Anwendung finden wird (Nöth/Santaella 2000; Halawa 2008; Nöth 2009, 2011; Jappy 2013; Nöth/Jungk 2015).

2 Autonomie oder Heteronomie der Bilder? In der verbal-visuellen Semiotik hat es eine anhaltende Diskussion darüber gegeben, ob Bilder autonome Zeichen sind oder ob ihre Botschaft stets der Sprache bedarf und ihr Verständnis womöglich grundsätzlich von sprachlicher Information gesteuert wird. Roland Barthes erklärt dazu kategorisch dass Bilder nie auf autonome Weise Bedeutung haben, denn jedes semiologische System habe eine linguistische Beimischung: „Wo es eine visuelle Substanz gibt, wird ihre Bedeutung dadurch bestätigt, dass sie durch eine verbale Botschaft verdoppelt wird […], so dass wenigstens ein Teil der ikonischen Botschaft entweder redundant ist oder vom linguistischen System aufgegriffen wird” (1964a, 10). Solche Thesen sind insofern logozentrisch, als sie einseitig postulieren, dass das Bild redundant sei, aber nicht das Wort, welches es beschreibt. Sie reflektieren



194 

 Winfried Nöth

aber auch ein Stück Medienrealität, denn es gibt viele verbale Texte und Medien, die ganz ohne Bilder auskommen, aber selten Bilder ganz ohne Begleittext. Beispiele für Medien, die typischerweise ohne Bilder auskommen, sind etwa Brief, Urkunde, Rundfunk, Telefon, Telegramm oder E-Mail. Literarische Genres, die weitgehend oder ganz ohne textbegleitende Bilder auskommen, wie Sprichwort, Lyrik, Roman oder Chronik, zeigen, in welchem Maß verbale Kultur ohne visuelle Kommunikation möglich ist. Aber auch Bilder ganz ohne sprachliche Vermittlung sind eine kulturelle Realität. Die Höhlenmalerei von Altamira, historische Gemälde in Kirchen und Palästen, Bilder als Wandschmuck, Zeichnungen, Skizzen, Bildtapeten oder Familien-, Porträtund Urlaubsfotos sind Bildgenres, die eine prinzipielle Unabhängigkeit der Bilder von der Sprache bezeugen. Wenn den Bildern in ihren diversen kulturellen Kontexten dennoch eine gewisse Sprachdependenz nachgesagt wird, so deshalb, weil es ihnen doch in gewisser Weise an Informationen fehlt, die diese Bilder näher bestimmen. Kein Museum und kein Bildband verzichtet darauf, den Bildern durch Titel, Legenden oder Signaturen einem sprachlichen Kontext zu geben, und Familien- oder Urlaubsfotos sind ohne Namen und Daten nur für die Familie informativ, die die fehlenden Informationen aus ihrer eigenen Erinnerung ergänzen können. Aus dem Blickwinkel Peirceschen Semiotik stellt sich die Frage nach der Autonomie der Bilder anders. Es ist die Frage, ob und inwiefern Bilder nicht nur rhematische, sondern auch dicentische Zeichen sein können. Ein Rhema ist ein referenziell unbestimmtes, ein „offenes“ Zeichen, das keine propositionale Aussage macht. Ludwig Wittgenstein hat eine derartige Offenheit und Unbestimmtheit der Bilder zum Gegenstand der folgenden Reflexionen gemacht: Denken wir uns ein Bild, einen Boxer in bestimmter Kampfstellung darstellend. Dieses Bild kann nun dazu gebraucht werden, um jemand mitzuteilen, wie er stehen, sich halten soll; oder, wie er sich nicht halten soll; oder, wie ein bestimmter Mann dort und dort gestanden hat; oder etc. etc. (1953, § 22).

Wittgensteins imaginäres Boxerbild exemplifiziert den Zeichentyp des rhematischen Ikons. Aber nicht nur Bilder, sondern auch Einzelwörter sind rhematische Zeichen. Im Gegensatz zu den rhematisch-ikonischen Bildern sind es rhematische Symbole. Wörter wie Boxer, Apfel oder Hund sind ebenso unbestimmt in ihrem referenziellen Bezug wie die Bilder dieser Objekte. Während die Unbestimmtheit der Wörter in deren Allgemeinheit begründet ist, liegt die Unbestimmtheit der Bilder in der Vagheit ihres referenziellen Bezuges. Vage Bilder und allgemeine Wörter werden erst informativ, wenn sie zu Bestandteilen von komplexeren Zeichen werden, die Peirce als Dicents definiert. Ein Dicent entspricht in etwa einer Proposition. Das Bild eines Boxers mit dem Begleittext „Max Schmeling 1930“ (Abb. 1) ist beispielsweise nicht mehr ein Rhema, sondern ein Dicent, denn es macht die vollständige Aussage, dass dieses Bild den Boxer Schmeling im Jahre 1930 zeigt. Ein Dicent hat neben einem rhematisch-ikonischen Anteil auch einen indexikalischen Bezug auf das Objekt des



Verbal-visuelle Semiotik 

 195

Zeichens. Dieser ist hier durch den Eigennahmen, die Jahreszahl und das Fotodokument gegeben. Diese indexikalischen Zeichen können als Beweis dafür gelten, dass der Sportler dieses Namens an einem bestimmten Tage des Jahres 1930 das Aussehen hatte, welches das Bild hier zeigt. Der rhematisch-ikonische Anteil dieses komplexen Zeichens ist das Bild, das uns eine Vorstellung davon vermittelt, wie der Abgebildete in jenem Jahr aussah. Durch die Verbindung von Index und Ikon wird die Botschaft informativ und zu einer Behauptung. Eine verbale Ergänzung der Bilder durch indexikalische Zeichen bzw. Wörter ist dann nicht nötig, wenn die Indices, die erforderlich sind, um das Bild informativ zu machen, aus dem Wissen der Betrachter ergänzt werden. Familienfotos sind zum Beispiel für die eigenen Familienangehörigen auch ohne eine verbale Identifizierung der abgebildeten Personen verständlich, denn der fehlende Name ist in das Familiengedächtnis eingeschrieben. Für Pressefotos bereits bekannter Persönlichkeiten gilt Ähnliches. Durchschnittlich informierte Zeitungsleser brauchen keine verbale Legende, um ein Foto der Bundeskanzlerin zu identifizieren. Der Begleittext „Die Bundeskanzlerin“ wäre unter einem Foto der deutschen Regierungschefin im Jahre 2015 redundant.

Abb. 1: „Max Schmeling 1930“ (Bundesarchiv, Bild 102-09348 / CC-BY-SA 3.0, http://goo.gl/Vcglly)



196 

 Winfried Nöth

3 Ikon, Index und Symbol, visuell und verbal Bilder sind zwar visuelle Zeichen, aber es gibt auch andere visuelle Zeichen, die üblicherweise nicht als Bilder gelten, etwa Diagramme, Karten, Signale, Spuren, Symptome, Gesten, Piktogramme, Verkehrszeichen oder andere visuelle Symbole – von der Schrift einmal ganz abgesehenen. Statt pauschal von einem visuellen Modus der Zeichen zu sprechen, ist es erforderlich, genauer zwischen verschiedenen Arten der visuellen Zeichen zu differenzieren. Im Folgenden soll dies mit dem Instrumentarium der Peirceschen Semiotik versucht werden.

Abb. 2: Ikon eines Fahrrades (StVO) (gemeinfrei, http://goo.gl/T8ULhV)

Peirce klassifiziert Zeichen nicht nach der Modalität ihres Perzeptionskanals (visuell, akustisch etc.), sondern nach allgemeineren semiotischen Prinzipien (vgl. z. B. CP 2.275–308). Bilder im üblichen Wortsinn sind zwar Zeichen (vgl. Nöth 2005a), aber sie bilden bei Peirce keinen eigenständigen Zeichentyp. Seine wichtigste Zeichenbestimmung ist diejenige, die zwischen ikonischen, indexikalischen und symbolischen Zeichen unterscheidet. Dabei geht es um die Art der Beziehung des Zeichens zu seinem so genannten Objekt, den Dingen und Sachverhalten, die das Zeichen repräsentiert. Alle drei Zeichentypen können in ihrem Zeichenmodus visueller, auditiver, taktiler, olfaktorischer oder gustatorischer Art sein. Ein Ikon ist ein Zeichen, das mit seinem Objekt Eigenschaften gemein hat und ihnen deshalb ähnlich ist. Die schematische Abbildung eines Fahrrades in Abb. 2 ist ein diagrammatisches Ikon. Bilder, Skulpturen, imitierende Gesten, lautmalerische Wörter, musikalische oder sonstige Formen der Lautimitation, wie diese etwa im Hörspiel vorkommen, sind Ikons. Peirce unterscheidet drei Unterklassen der ikonischen Zeichen: Bilder, Diagramme und Metaphern. Nach dieser besonderen Terminologie sind Bilder (engl. images) Zeichen, die dem, was sie repräsentieren, hinsichtlich „einfacher Qualitäten” ähnlich sind (CP 2.277). Das realistische Bild eines grünen Apfels ist z. B. ein Bild in diesem Sinn, denn es hat einfache Farb- und Formqualitäten, die auch der von ihnen bezeichnete Gegenstand hat. Lautsymbolische Wörter, die ein zischendes oder reibendes Geräusch durch Wörter mit Sibilanten (Zischlauten) oder Frikati-

Verbal-visuelle Semiotik 

 197

ven (Reibelauten) wiedergeben, sind auditive bzw. verbale Bilder. Ein Diagramm ist demgegenüber bloß strukturell seinem Objekt ähnlich; hier kommt es nicht auf qualitative, sondern auf relationale oder strukturelle Korrespondenzen an. Das schematische Bild des Fahrrades in Abb. 2 ist ein diagrammatisches Ikon. U-Bahn-Liniennetze und Landkarten sind Diagramme, aber auch eine mathematische Formel wie „3+4=7“ ist ebenfalls ein Diagramm, nämlich ein Schema der Gleichheit der algebraischen Elemente auf beiden Seiten des Gleichheitszeichens. Auch die Reihenfolge der Wörter in einer Erzählung, wenn sie der zeitlichen Reihenfolge der Ereignisse entspricht, die der Satz beschreibt, ist ein verbales Diagramm. Die Ikonizität einer Metapher besteht schließlich in dem Parallelismus, welcher zwischen ihrer wörtlichen und ihrer übertragenen Bedeutung besteht.

Abb. 3: Index ‚rechts abbiegen‘ (StVO) (gemeinfrei, http://goo.gl/czRBd1)

Ein Index ist ein Zeichen, das mit seinem Objekt zeitlich, räumlich oder kausal verbunden ist und dabei die Aufmerksamkeit seiner Interpreten in Zeit und Raum bestimmt. In Abb. 3 ist der Pfeil, der an einem bestimmten Ort im Straßenverkehr die Fahrtrichtung nach rechts vorschreibt, ein indexikalisches Verkehrszeichen. Es fordert gewissermaßen die Verkehrsteilnehmer auf, hier und jetzt rechts abzubiegen. Ein Zeichen dieser Art verweist stets auf etwas konkret Existierendes, hier die Kurve nach rechts. Ein Index zeigt an, aber er stellt nichts dar. Andere Beispiele sind ein Thermometer, das die Temperatur eines Körpers misst, ein Wetterhahn, der die Windrichtung anzeigt, oder eine Zeigegeste, die auf einen Gegenstand hinweist. Die Relation zwischen dem Zeichen und seinem Objekt ist hier eine kausale, während sie bei den indexikalischen Verkehrszeichen auf einer die Aufmerksamkeit der Verkehrsteilnehmer lenkenden Kontiguitätsbeziehung in Zeit und Raum ist. Das Objekt, auf das ein Index verweist ist stets ein singuläres.



198 

 Winfried Nöth

Abb. 4: Symbol für Taxenstand (StVO) (gemeinfrei, http://goo.gl/Uufrj1)

Deiktische Wörter wie ich und du, hier und heute, sind indexikalische Zeichen, denn sie geben Hinweise auf die Person, die Zeit und den Ort im Moment ihrer Äußerung. Ein Index kann ein Ikon inkorporieren, was bei dem Richtungspfeil für das Rechtsabbiegen der Fall ist. Der Pfeil ist zugleich ein Diagramm und somit ein Ikon der Kurve, die nach rechts führt, da er ein Schema einer Rechtskurve zeigt. Symbole verweisen dagegen auf Allgemeines. Die Beziehung zwischen dem Zeichen und seinem Objekt ist ferner nicht ‚natürlich‘, sondern sie beruht auf kulturspezifischen Konventionen, die gelernt werden müssen. Das Wort „Taxi“ auf dem Verkehrszeichen für einen Taxenstand in Abb. 4 ist ein Symbol in diesem Sinn, denn es meint Taxis ganz allgemein. Auch das mit ihm verbundene Zeichen für „Halteverbot“ oberhalb des Wortes ist ein Symbol, insofern es ganz allgemein die Vorschrift beinhaltet, die das Halten verbietet. Insofern aber, als es an einer bestimmten Haltebucht aufgestellt ist, fungiert dieses Schild als Index, denn es schreibt jetzt nicht mehr etwas Allgemeines vor, sondern besagt, dass hier und jetzt das Halten nur den Taxis erlaubt ist. Der Peircesche Symbolbegriff meint nicht nur Wörter und wortähnliche kulturelle Zeichen. Er ist viel umfassender und meint Buchstaben, Zahlen, Formelzeichen, Wörter, Bücher, ganze Bibliotheken oder Ideologien. Die Definition des Symbols als Zeichen, das durch kulturelle Konventionen festgelegt ist, mag zu dem Einwand führen, dass alle Verkehrszeichen, da sie doch durch Gesetz und kulturelle Konvention festgelegt sind, eigentlich Symbole sein sollten und dass mithin auch das Bild für den Fahrradweg (Abb. 2) symbolischer und nicht eigentlich ikonischer Art sein müsste. Die Frage ob dies so sei, hat Peirce im Rahmen einer weiteren Klassifizierung der Zeichen beantwortet (CP 2.244–51). Neben der Klassifizierung der Zeichen nach dem Kriterium ihrer Objektrelation klassifiziert er nämlich die Zeichen auch als solche, unabhängig von ihrer Objektrelation. Danach sind Zeichenphänomene noch einmal von dreierlei Art. Erstens können sie Zeichen auf Grund ihrer eigenen Qualitäten sein (Qualizeichen), zweitens können sie Zeichen sein, die in ihrem Vorkommen als Zeichen singuläre Phänomene sind (Sinzeichen), 

Verbal-visuelle Semiotik 

 199

und drittens können sie Zeichen sein, die auf Grund einer Gesetzmäßigkeit Zeichen sind (Legizeichen). Diese Klassifizierung der Zeichen als solche überschneidet sich mit derjenigen der Zeichen im Hinblick auf ihre Objektrelation, denn Symbole sind immer Legizeichen, aber nicht alle Legizeichen sind Symbole. Deiktische Wörter und Eigennamen sind beispielsweise keine Symbole, weil sie nichts Generelles bezeichnen. Sie sind vielmehr indexikalische Legizeichen. Nach dieser Logik der Zeichen sind Verkehrsschilder wie dasjenige für den Fahrradweg in ihrer allgemeinen Bestimmung durch die StVO ikonische Legizeichen, also bildhafte Zeichen, deren Bedeutung durch ein Gesetz festgelegt ist. Sie sind nicht Symbole, weil ein weiteres Merkmal der Symbole deren Arbitrarität bzw. mangelnde Transparenz in Bezug auf ihr Objekt ist. „Ein Symbol als solches […] zeigt nicht, worüber es spricht“, sagt Peirce in diesem Zusammenhang (CP 4.56). An einer bestimmten Straßenecke aufgestellt, fungiert das Verkehrszeichen aber nicht mehr als ikonisches, indexikalisches oder symbolisches Legizeichen, sondern es wird hier zu einem Sinzeichen, ein Zeichen das als solches nur hier an dieser Stelle verkörpert ist. Komplexe visuelle Zeichen sind allerdings häufig hybrider Art. In ihnen sind symbolische mit indexikalischen und ikonischen Elementen miteinander vermischt. Sofern in solchen hybriden Zeichen auch das symbolische Element dominiert, klassifiziert Peirce sie insgesamt als Symbole (CP 4.448). Nationalflaggen gehören zu den Zeichen dieser Art. Sie sind Symbole auf Grund ihrer kulturellen und gesetzlichen Festlegung. In der Flagge Brasiliens (Abb. 5) kommt ferner das verbal eingeschrieben Motto Ordem e progresso (‚Ordnung und Fortschritt‘) hinzu.

Abb. 5: Symbolische, ikonische und ­indexikalische Zeichen in der Flagge Brasiliens (gemeinfrei, http://goo.gl/tSEhWp)

Die Farben und Formen der Nationalflaggen sind zumeist auch ikonisch motiviert, selbst wenn diese Motivation nur schwach erkennbar sein mag. In der Flagge Brasiliens ist beispielsweise nach heutigem Verständnis der grüne Grund ein Ikon der tropischen Urwälder des Landes und die 27 Sterne auf der Himmelskugel in der Mitte sind ein (ikonisches) Diagramm der 26 Bundesstaaten plus dem Bundesdistrikt. Das Indexikalische einer jeden Nationalflagge liegt darin, dass sie im Konzert der Nationen auf jeweils ein einzelnes Land verweisen. In der Flagge Brasiliens kommt als besonderes indexikalisches Element noch hinzu, dass die Konstellation der Sterne



200 

 Winfried Nöth

im Himmel über Hauptstadt des Landes am 15. November 1889 um 8:30 Uhr anzeigt. Die Vermischung der Zeichentypen in der Flagge Brasiliens ist eine additive. Ihre ikonischen, indexikalischen und symbolischen Elemente sind jeweils einzeln auf der Flagge lokalisierbar, wobei sich deren Gesamtbedeutung aus der Summe der einzelnen Elementen zusammensetzt. Eine andere Form der Hybridität der Zeichen resultiert daraus, dass es Inklusionsverhältnisse zwischen den Zeichen der dritten, zweiten und ersten Art, also den Symbolen, Indices und Ikons, gibt. Ein Symbol schließt stets ein ikonisches und ein indexikalisches Zeichen mit ein und zwar ein Ikon insofern, als die Interpretation des Symbols Vorstellungen als mentale Bilder von den Eigenschaften des Objektes voraussetzt. Ein Symbol inkorporiert ferner insofern ein indexikalisches Zeichen, als zu seiner Interpretation kollaterales Wissen erforderlich ist. Dieses Wissen aus früherer Erfahrung von Einzeldingen verbindet das Symbol indexikalisch mit jenen realen Objekten der Erfahrung, welche das Symbol heute allgemein denotiert. Die Art und Weise, wie wir z. B. das Wort (und Symbol) Zebra interpretieren, mag dies veranschaulichen. Um das Wort verstehen zu können, müssen wir ein mentales Bild, also ein Ikon, davon haben, wie ein solches Tier aussieht. Haben wir eine solche Vorstellung nicht, so bleibt uns die Bedeutung dieses Symbols dunkel. Wir müssen ferner ein direktes oder ein indirektes (etwa durch Bilder vermitteltes) kollaterales Wissen davon haben, in was für einer Umwelt Zebras in dieser Welt zu finden sind, in welchen Kontinenten und Umwelten. Dieses kollaterale Wissen vom Objekt des Zeichens hat seinen Ursprung in indexikalischen Zeichen. Ebenso wie ein Symbol ein indexikalisches und ein ikonisches Zeichen inkorporiert, enthält auch ein jeder Index ein ikonisches Zeichen. Der Richtungspfeil in Abb. 3 kann dieses Inklusionsverhältnis veranschaulichen. Die Form der Kurve nach rechts ist eine Eigenschaft des nach rechts weisenden Pfeiles, der somit auch ein Ikon, ein Bild der Kurve, verkörpert. Ikons selbst können dagegen zwar in Symbolen und Indices verkörpert sein, sie können aber nicht selbst einen Index oder ein Symbol enthalten, denn ein genuines Ikon ist allein auf Grund von Eigenschaften ein Zeichen, die ihm selbst zukommen. Sobald es auch einen konkreten Realitätsbezug hat, wird das Ikon zu einem indexikalischen Zeichen, das freilich ein Ikon mit einschließt. Die semiotische Hybridität der Bilder, wonach sich Ikonisches, Indexikalisches, und Symbolisches zu einem Ganzen vermischen, kann gut durch das Bild der Leserin illustriert werden, die Fragonard ca. 1776 portraitiert hat (Abb. 6). Schon der Titel des Bildes, La liseuse, ‚die Leserin‘, ist semiotisch ambig. Das Wort ‚Leserin‘ ist ein rhematisches Symbol, aber es ist nicht wirklich klar, ob eine Leserin im Allgemeinen gemeint ist, wie es das Wort als Symbol zu sagen scheint, eine Leserin allgemein also, die hier lediglich im Besonderen exemplifiziert ist, oder ob eine einzelne Leserin in ihrer Besonderheit gemeint ist, wie dies der bestimmte Artikel ‚die‘ andeutet. Das verbale Zeichen des Titels wäre in dem einen Fall ein rhematisches Symbol, in dem anderen Fall ein rhematischer Index, der lediglich auf diese Frau in diesem Bild verweist. Das 

Verbal-visuelle Semiotik 

 201

Gemälde ist dagegen in erster Linie ein ikonisches Rhema, denn kein Name, kein Ort und keine genaue Zeitangabe identifiziert die junge Frau als ein Individuum. Aber aus heutiger Sicht gibt es viele Details, die die abgebildete Person sehr wohl als eine Person eines ganz bestimmten Alters in dem besonderen kulturellen Kontext jener Zeit identifiziert, in der sie von ihrem Maler portraitiert worden ist. Insofern sehen wir das Bild heute auch als ein Index für eine namentlich nicht bekannte junge Frau und die soziokulturelle Welt, der sie angehörte. Auch ob das Portrait ein bloßes Rhema ist, dass sich lediglich damit begnügt eine ‚Leserin‘ zu zeigen, oder ob es als Dicent zu interpretieren ist, das eine Aussage darüber macht, dass und wie diese junge Frau ein Buch liest, bleibt unbestimmt.

Abb. 6: Fragonard, La liseuse (‚Die Leserin‘), ca. 1776 (National Gallery of Art, Wikimedia Commons, gemeinfrei, http://goo.gl/w3OZw4)



202 

 Winfried Nöth

Bilder sind also keineswegs allein oder auch nur in erster Linie ikonische Zeichen. Insofern, als sie einen konkreten Realitätsbezug haben, sind es Indices der Realität, auf die sie verweisen. Diese semiotische Bestimmung der Bilder ist auch der Grund für die prinzipielle Indexikalität der Fotografien. Fotos sind rhematisch oder dicentisch indexikalische Bilder, denn infolge der Gesetze der Optik sind sie das Produkt eines konkreten Einflusses der Realität auf das Zeichen. Im Gegensatz zu Zeichnungen und Gemälden repräsentiert das Foto nicht lediglich etwas bloß Mögliches sondern etwas Faktisches, von dem es überdies konkret determiniert ist. Die vom Objekt reflektierten Lichtstrahlen sind als Spuren der Realität im Bild festgehalten. Jedes Foto ist auf diese Weise ein Index dessen, was es abbildet, wobei das Bild zugleich ein Ikon des Abgebildeten mit einschließt insofern als es ihm auch ähnlich ist. Bilder enthalten auch in anderer Hinsicht indexikalische Elemente. Die Perspektive, aus der sie das Abgebildete repräsentieren, gibt Information über den Standpunkt des Malers oder Fotografen, der nach den Gesetzen des perspektivischen Darstellens und Sehens räumlich rekonstruierbar ist. Auch ist der Stil eines Malers ein indexikalisches Zeichen vom Stil seiner Epoche und ggf. seiner individuellen Malweise. Ein anderer Aspekt des Indexikalischen der Bilder liegt in ihrer appellativen Kraft. Insofern als Bilder stärker als Wörter die Aufmerksamkeit ihrer Betrachter auf sich lenken, kommt ihnen ein gewisses indexikalisches Aufmerksamkeitspotenzial zu. Bilder richten sozusagen einen Appell an ihre Betrachter und lenken dadurch deren Aufmerksamkeit in einer Weise auf das Objekt, die Peirce als den „blinden Zwang“ (CP 2.306) beschreibt, mit dem alle Indices die Aufmerksamkeitslenkung bestimmen, die ihnen inhärent ist.

4 Semiotische Potenziale von Text und Bild Sprichwörtlich ist das Ausdruckspotenzial der Bilder demjenigen der Wörter überlegen, weil doch ein Bild „mehr als tausend Wörter“ sagt. Diese Erfahrungsweisheit ist aber eine einseitige, denn sie verhehlt, dass auch Wörter ihrerseits ebenfalls mehr sagen können als Bilder. Beim Vergleich des semiotischen Potenzials von verbalen und visuellen Zeichen geht es nicht nur darum, welches der beiden Potenziale größer ist, sondern auch darum, was das eine der beiden Modi der Kommunikation gar nicht sagen kann und inwiefern sich beide Zeichenarten notwendigerweise ergänzen.



Verbal-visuelle Semiotik 

 203

4.1 Inwiefern Bilder „mehr sagen“ als Sprache Wegen der Linearität ihrer Zeichen ist die Lautsprache in ihrem semiotischen Potenzial demjenigen der Bilder unterlegen, wenn es um die Repräsentation räumlicher und überhaupt visueller Gegenstände und Sachverhalte geht. Bei gleicher Wahrnehmungszeit kann das Auge mehr Informationen aufnehmen und verarbeiten als das Ohr. Die vielen Details eines Motors, die auf Abb. 7 auf ersten Blick zu sehen sind, bleiben in dem Wort „Motor“ unsichtbar. Aber die Überlegenheit der Bilder ist nicht nur eine Frage der Quantität der visuellen Informationen. Das Bild des südamerikanischen Nagetiers namens Caypibara (Abb. 8) illustriert, wie eigentlich nur ein Bild die Vorstellung von der Gestalt dieses Tieres vermitteln kann.

Abb. 7: Details eines Motors (Foto: ‚Stahlkocher‘, Wikimedia Commons, lizenziert unter Creative Commons-Lizenz BY-SA 3.0, URL: https://creativecommons.org/licenses/by-sa/3.0/deed.de, http:// goo.gl/ZvKn4e)

Der Überlegenheit der Bilder bei der Repräsentation der sichtbaren Welt steht die Überlegenheit der Sprache bei der Repräsentation unsichtbarer Phänomene gegenüber. Verbale Zeichen dagegen können Gerüche, Geräusche, Geschmacks-, Tast- und Wärme- bzw. Kälteempfindungen sowie abstrakte Gedanken und logische Beziehungen repräsentieren, während das semiotische Potenzial der Bilder, von besonderen synästhetischen Effekten einmal abgesehen, ganz auf die Abbildung der sichtbaren Welt beschränkt ist. Bilder wirken ferner stärker affektiv-relational, während Sprache stärker kognitiv-begriffliche Wirkungen hat. Sie fördern Aufmerksamkeit und Motivation und erleichtern das Lernen, wenn es um das Wissen um die visuelle Welt geht (vgl. Weidenmann 1988, 135–138; Schelske 1997).



204 

 Winfried Nöth

Abb. 8: Bild eines Caypibaras (Foto: ‚VigilancePrime‘, Wikimedia Commons, lizenziert unter Creative Commons-Lizenz BY 3.0, URL: https://creativecommons.org/licenses/by/3.0/deed.de, http://goo. gl/4hKuSc)

Eine semiotische Erklärung für die besondere Bedeutung und sogar Notwendigkeit der ikonischen Zeichen für die Kommunikation und das Denken überhaupt gibt Peirce in seiner Theorie der Ikonizität. Peirce argumentiert, dass „die einzige Möglichkeit, eine Idee unmittelbar zu kommunizieren, in der Verwendung eines Ikons liegt, und jede indirekte Methode der Mitteilung einer Idee sich eines Ikons bedienen muss“ (CP 2.278). Was Peirce hier meint, sind mentale Bilder, insbesondere die mentalen Diagramme, die unsere Vorstellungen und Gedanken prägen. Die These von der Notwendigkeit von Ikons beim Denken und bei der Übermittlung von Gedanken heißt u. a. auch, dass alle Gedanken ‚anschaulich‘ sein müssen und dies auch sind, wenn sie ‚klar‘ formuliert werden. Ferner schreibt Peirce dem ikonischen Zeichen die Eigenschaft zu, „dass man durch dessen direkte Beobachtung andere Wahrheiten über sein Objekt finden kann als jene, die seine Konstruktion hinreichend bestimmen“ (CP 2.279, ca. 1895). Ein gutes Beispiel hierfür sind die Informationen, die wir einem Stadtplan entnehmen können. Die Informationen, welche der Plan zeigt und welche „seine Konstruktion hinreichend bestimmen“, wie Peirce es formuliert, sind etwa die Gebäude, Straßen, Plätze, Parks, Flüsse und Seen der Stadt. Als Diagramm zeigt der Stadtplan diese Orte sowie deren topographische Anordnung. Durch direkte Beobachtung können wir diesem Ikon nun diverse Arten neuer Information („andere Wahrheiten“) entnehmen, die dem Stadtplan nicht explizit eingeschrieben sind (vgl. auch Stjernfelt 2007, 105). Als Beispiel mag das Königsberger Brückenproblem dienen, das darin besteht herauszufinden, ob es einen Weg gibt, auf dem man alle sieben Brücken der Stadt über den Fluss Pregel nur einmal überqueren muss und dabei wieder zum Ausgangspunkt gelangt (Abb. 9). Dem Stadtplan selbst ist die Antwort auf diese Frage nicht eingeschrieben, aber auf dem Wege der Beobachtung des Diagramms bzw. durch eine



Verbal-visuelle Semiotik 

 205

imaginäre Reise auf seinen Straßen können wir herausfinden, ob es einen solchen Weg gibt oder nicht. Diese Eigenschaft der Diagramme ist auch ein Grund dafür, warum genaue Abbildungen und gute Karten keine Kommentatoren benötigen. Je detaillierter ikonische Zeichen ihr Objekt repräsentieren, desto weniger bedürfen sie eines zusätzlichen verbalen Kommentars. Zwar können Bilder durch Wörter beschrieben werden, aber anders als verbale Bildbeschreibungen müssen informative Bilder bekanntlich nicht in andere Sprachen übersetzt werden.

Abb. 9: Das Königsberger Brücken­ problem (Bogdan Giuşcă, Wikimedia Commons, lizenziert unter Creative Commons-Lizenz BY-SA 3.0, URL: https://creativecommons.org./ licenses/by-sa/3.0/deed.de, http:// goo.gl/Nl8XKd)

4.2 Die Logik und die Bilder Das semiotische Potenzial der Sprache ist demjenigen der Bilder überlegen, wenn es um logische Werte, Relationen und Modalitäten geht. Bilder allein können mit Ausnahme der Fotos, insofern sie als Dokumente taugen, nichts verneinen aber auch nichts bejahen. Sie können zwar mögliche Welten abbilden, aber sie können die Modi des Möglichen, Notwendigen, des Sollens, Müssens oder Wollens nicht als solche zum Ausdruck bringen. Sie können nicht sagen, ob sie nun bloß Imaginäres oder wirklich reales repräsentieren. Ein Gedanke wie kein Apfel lässt sich nicht mit genuin bildlichen Mitteln darstellen. Im Rebus ist zwar die Negation von Bildaussagen durchaus üblich. Kein Apfel wird dort durch das durchgestrichene Bild eines Apfels dargestellt, aber das Mittel der Durchstreichung ist kein genuin bildliches, sondern dem Kode der Schrift entlehntes symbolisches Zeichen. Bilder negieren nichts. Sie erlauben es ihren Betrachtern allenfalls, durch Schlussfolgerungen zu negativen Urteilen zu gelangen (Oversteegen/Schilperoord 2014). Auch die logische Relation der Disjunktion können Bilder nicht allein repräsentieren. Negative Urteile über Bilder, wie etwa Dieses Bild zeigt nicht Lisa, sondern 

206 

 Winfried Nöth

Lea, können nicht mit bildspezifischen Mitteln repräsentiert werden. Das negative Urteil kann nur aus kollateralen Wissen über die im Bild abwesenden Objekte oder Eigenschaften abgeleitet werden. Es gibt keinen Ort in einem Bild, der den negativen Operator nicht repräsentieren könnte. Auch gibt es keine bildspezifischen Mittel, die, wie das Wort weil, das Konzept einer kausalen Beziehung repräsentieren könnten. Kausalbeziehungen können allerdings aus Veränderungen von Objekten in Bildfolgen abgeleitet werden. Bilder können aber die Relation der Konjunktion zum Ausdruck bringen. Im Bild gezeigte Relationen der Konjunktion können Relationen der Simultaneität (z. B. ‚jung und schön‘) und der Juxtaposition (z. B. ‚Mutter und Kind‘) sein. Trotz ihrer Vagheit, haben es Bilder, mit Ausnahme der diagrammatischen Piktogramme (wie in Abb. 2), schwer, allgemeine Begriffe zu repräsentieren. Sucht man im Internet nach Bildern von ‚Eltern‘ ganz allgemein, so findet man, abgesehen von einigen piktografischen Darstellungen, vor allem Fotos einzelner Elternpaare. Solche Bilder dienen dazu, den allgemeinen Begriff durch das Beispiel individueller Elternpaare zu exemplifizieren. Es sind rhematische Indices einzelner Eltern, die nicht das rhematische Symbol Eltern in seiner Allgemeinheit repräsentieren können. Bilder können schließlich ihre Inhalte nicht modalisieren, d. h., es gibt keine spezifischen Bildmittel, die den Unterschied zwischen Möglichkeit, Notwendigkeit, Können, Sollen oder Wollen des repräsentierten Sachverhaltes zum Ausdruck bringen. Das Bild eines Boxers, darauf wies Wittgenstein hin (s. o.), verrät nicht, ob dieser boxen kann, muss, darf oder will. Begreift man allerdings Modalität als einen noch viel weiteren Begriff, der etwa auch emotionale Einstellungen umfasst, so kann man von Ansätzen einer suggestiven Modalität der Bilder vor allem durch das Mittel der Farben und Formen sprechen. In Comics etwa bedeutet ein grünes Gesicht Neid und Bösartigkeit, und ein roter Kopf suggeriert Zorn. Das Bild eines blauen Zimmers suggeriert ein kühles, ein orangefarbenes Zimmer ein warmes Ambiente.

4.3 Metazeichen und Selbstreferenz Ebenso wie es Metasprache gibt, also Sprache, die sich allein auf Wörter und Sätze bezieht, gibt es Metabilder, d. h. Bilder, die Einsichten über die Möglichkeiten und die Grenzen visueller Repräsentation vermitteln (cf. Nöth 2007). Die Gemälde von René Magritte und die Zeichnungen von M. C. Escher zeigen dieses metasemiotische Potenzial von Bildern besonders deutlich auf. Abb. 10 zeigt ein Metabild von Pere Borrell del Caso, das nach der Manier eines Trompe l’oeil veranschaulicht, dass eine einmal abgebildete Person in Wirklichkeit niemals dem Bild entkommen kann, in dem es als Abbildung „festgehalten“ ist.



Verbal-visuelle Semiotik 

 207

Abb. 10: Pere Borrell del Caso, Flucht vor der Kritik, 1974, als Metabild des Typs Trompe l’oeil (Collection Banco de España, Madrid; Wikimedia Commons, gemeinfrei, http://goo.gl/D6rHPy)

Dennoch ist das Potenzial der verbalen Zeichen, etwas über die Natur ihrer ei‑ genen Zeichen zu sagen, demjenigen der Bilder überlegen. Der Grund ist, dass nur die Sprache ein auf Metazeichen spezialisiertes Zeichenrepertoire hat. Mit ihm können wir beispielsweise präzisieren, dass das Wort Rose ‚vier Buchstaben‘ hat. Unter den visuellen Zeichen gibt es dagegen keines, das etwa mit dem verbalen Zeichen Farbe äquivalent wäre. Es gibt eine Unzahl von Farben, und gerade in dem Potenzial, diese genauestens zu repräsentieren, sind die ikonischen den verbalen Zeichen semiotisch überlegen; aber es gibt kein nichtsprachliches visuelles Zeichen, dass den allgemeinen Inhalt des verbalen Symbols Farbe zum Ausdruck bringen könnte. Jedes ikonische Zeichen verweist insofern auch auf sich selbst, als es selbst diejenigen Eigenschaften hat, die es repräsentiert, etwa die Farben und die Formen, die es abbildet, aber diese Selbstreferenz der ikonischen Zeichen wird nicht explizit. Das Bild kann sie nicht zum Gegenstand eines Diskurses über diese Eigenschaften machen. Das Bild eines grünen Apfels hat selbst die Eigenschaft, grün zu sein, aber es kann diese Eigenschaft nur zeigen, sie aber nicht behaupten. Auch indexikalische Zeichen haben einen Aspekt des Selbstreferenziellen, denn als Zeichen des Hier und Jetzt informieren Sie auch über den Ort oder den Zeitpunkt des Zeichens selbst. Deiktische Wörter und Ausdrücke implizieren insofern Selbstbezüglichkeit, als für deren Interpretation die Kenntnis der Person, des Ortes bzw. des Zeitpunktes ihrer Äußerung voraussetzt werden muss, sei es in der Form der proximalen (ich/wir-, heute-, hier-Deixis) oder der distalen (du-, gestern/morgen-, dort-)



208 

 Winfried Nöth

Deixis. Gibt es in Bildern solche Formen des Verweises, der eine Origo, wie Karl Bühler den selbstbezüglichen Ort der Sprecher nannte, der den Wert eines jeden deiktischen Ausdrucks bestimmt? Ein Maler kann sich in Form eines Selbstporträts selbst darstellen, aber eine solche Darstellung identifiziert die abgebildete Person noch nicht als den Maler dieses Bildes. Anders als das selbstreferenzielle Pronomen ich, mit dem ein Autor einer sprachlichen Nachricht auf sich selbst verweisen kann, gibt es im Bild außer in der verbalen Signatur keine bildinhärenten Indices, die vom Betrachter als Hinweis auf die Identität des Malers interpretiert werden kann. Allenfalls im Falle der Selbstabbildung eines Fotografen in einem Spiegel ist auf Grund der Indexikalität der fotografischen Zeichen eine Identifizierung des Fotografen möglich. Bei Zweifeln an der Identität eines Malers können nur aufwändige Identifizierungsmethoden Zweifel an dessen Identität beseitigen, aber diese rekurrieren auf viel kollaterales Wissen, das nicht allein aus dem Bild gewonnen werden kann. Im Zeichenrepertoire der Gesten gibt es indexikalische Zeichen, die sowohl selbstals auch fremdreferenziell genutzt werden können. Die Geste einer abgebildeten Person kann sowohl auf diese Person selbst als auch auf andere Personen und Orte innerhalb des Bildes oder sogar jenseits des Bildhorizontes verweisen. Der Selbstverweis einer Person im Bild identifiziert diese aber noch nicht, denn er verweist ja auf ein anderes Zeichen im Bild, aber nicht auf das Objekt des Bildzeichens außerhalb des Bildes. Während durch sprachliche Mittel Verweise auf Orte in Vergangenheit und Zukunft und auf beliebig nahe oder weit entfernte Gegenstände und Orte möglich sind, ist das Potenzial der Bilder, auf den eigenen und auf andere Orte zu verweisen, durch die Grenzen des Bildraumes und das Fehlen einer eigentlichen Zeitlichkeit der visuellen Zeichen beschränkt. Das relative Unvermögen der Bilder, sich selbst zu beschreiben und auf sich selbst zu verweisen, ist auch evident, wenn man die Verfahren der Bildarchivierung in Bildagenturen und der Katalogisierung von Gemälden in Museen mit denjenigen Verfahren vergleicht, nach denen Wörter in Lexika und Bücher in Bibliotheken systematisiert werden. Bibliothekskataloge sind bekanntlich sprachlich organisiert, denn auch eine numerische Systematisierung ist eine sprachliche. Bilddatenbanken und -archive sind jedoch noch nicht in der Lage, Bilder nach ihren visuellen Eigenschaften und Inhalten direkt und ohne Vermittlung durch Sprache zu systematisieren. Will man in einer Datenbank nach Bildern mit Fahrrädern suchen, so gibt man bisher noch verbal den Suchbegriff Fahrrad ein und nicht ein Bild eines Fahrrades. Die Katalogisierung der Bilder geschieht so durch sprachliche Klassifikation, und auch in Museen und Ausstellungen werden die Gemälde nach wie vor nach Namen, Epochen oder Themen sprachlich systematisiert. Die Bildwissenschaft ist schließlich nicht zufällig eine Wissenschaft, die ihre metasemiotischen Erkenntnisse stets sprachlich formuliert. Nur in Bildern kann es keine Wissenschaft der Bilder geben. Sprache erfährt ja durch die Terminologie der Linguistik eine, wenn auch nicht vollständige, so doch sehr komplexe und systema

Verbal-visuelle Semiotik 

 209

tische Selbstbeschreibung. Bilder mögen in der Bildwissenschaft eine nicht weniger systematische Beschreibung erfahren, aber das Medium der metasemiotischen Analyse ist in der Bildwissenschaft eben nicht das Bild, sondern ebenso wie in der Sprachwissenschaft die Sprache. Es gibt keine rein visuelle Bildgrammatik, welche die Strukturen von Bildern mit Hilfe des nichtsprachlichen Mediums der Bilder zu analysieren in der Lage wäre.

4.4 Handlungspotenzial von Sprache und Bild Visuelle Zeichen haben schließlich auch eine Pragmatik, die das kommunikative Handeln mit ihnen bestimmt, aber auch hier ist das Potenzial der Bilder ein anderes als dasjenige der Sprachhandlungen. Mit Sprache kann man befehlen, anordnen, fragen, Namen geben, versprechen, sich verabreden, warnen oder beleidigen. Bilder ohne verbalen Kommentar ermöglichen keine so spezifischen Handlungen, denn zum einen sind Bilder, die ihr Objekt nicht durch zusätzliche Informationen identifizieren, in ihrem referenziellen Bezug unbestimmt und zum anderen gibt es keine visuellen Zeichen, die performativen Äußerungen wie ich verspreche, ich befehle, ich drohe, entsprechen, die die semiotische Handlung der Zeichengeber explizit machen könnten. Es gibt z. B. keine Bildzeichen der Aufforderung, des Ratschlages oder des Fragens. Was zeigt das Bild des Boxers? Lädt es zu einem Wettkampf ein, wirbt es für den Verkauf der Eintrittskarten? Oder fordert es uns auf, den Namen des Sportlers zu erraten? Das Bild selbst kann dies oder jenes nur unbestimmt suggerieren. Können Bilder etwas behaupten? Nur wenn das möglich wäre, könnten sie auch lügen (Nöth 1997). Die Frage hat an Aktualität gewonnen, seit Pressefotografen ihren Zeitungen digital gefälschte Bilder geliefert haben. Für das Lügen mit Bilder gilt, was auch für das Lügen mit Wörtern zutrifft. Wörter allein können nicht lügen, da sie weder wahr noch falsch sind. Sie sind so, wie sie sind, weder wahr noch falsch. Lügen dagegen sind wahrheitswidrige Behauptungen, die mit einer Täuschungsabsicht aufgestellt werden. Auch Bilder können nicht lügen, wenn sie lediglich rhematisch-ikonische Zeichen sind. Nur durch dicentische Zeichen werden Lügen möglich, weil nur sie etwas behaupten können, aber bildhafte dicentische Zeichen beinhalten neben einem Ikon immer auch einen Index, der auf reale Tatsachen verweisen oder deren Realität verneinen kann. Allein mit einem Ikon ist es also nicht möglich zu lügen, denn zu einer Täuschung fehlt noch die falsche Behauptung, dass das Zeichen ein tatsächliches Ereignis zeigt. Selbst eine solche Behauptung kann aber mit ikonischen oder indexikalischen Bildmitteln allein nicht aufgestellt werden, denn es fehlt dem Bild an Zeichen, die wie performative Verben (ich behaupte, ich sage, dass etc.) Behauptungen aufstellen können. Ein Fotograf lügt noch nicht mit der Manipulation des Bildes an sich, sondern erst durch eine Verwendung desselben, die eine Behauptung vom Wahrheitswert des Abgebildeten artikuliert. Die falsche Behauptung eines Bildfälschers, dass sein Bild 

210 

 Winfried Nöth

ein Original sei oder ein tatsächliches Ereignis abbilde, kann also nur eine verbale sein, aber die Äußerung, die dem Bild einen Wahrheitswert zuspricht, kann eine explizite oder implizite Äußerung sein. Implizit verbal ist eine solche Behauptung, wenn sie, ohne explizit aufgestellt zu werden, vorausgesetzt wird oder werden kann. Eine solche stillschweigende Annahme kann von Fotografen auf Grund des traditionellen indexikalischen Bezuges der Fotografien auf die Welt der Tatsachen zu Täuschungszwecken genutzt werden. Ein Fotograf, der mit seinen manipulierten Bildern eine Täuschungsabsicht verfolgt, lügt also entweder explizit verbal, indem er versichert, dass sein Foto ein Tatsachenszenario ist, oder indem er, ohne diese Versicherung explizit zu äußern, sich darauf verlässt, dass die Betrachter des Fotos davon ausgehen, dass das Bild qua Fotografie ein tatsächliches Szenario zeigt.

5 Text und Bild: Formen der Bezugnahme Die Formen der Bezugnahme von Text auf Bild gehören zu den Hauptthemen der verbal-visuellen Semiotik. Viel zitiert ist die von Roland Barthes getroffene Unterscheidung zwischen Relais und Verankerung. Aus der Sicht der Peirceschen Semiotik geht es dabei um Formen des indexikalischen Verweises sowie um Ikonizität in der Beziehung zwischen den verbalen und visuellen Zeichen. Als Relais definiert Barthes eine Relation zwischen Text und Bild, die er wie folgt beschreibt: „Die Wörter sind hier zusammen mit den Bildern Fragmente eines allgemeineren Syntagmas, und die Einheit der Botschaft verwirklicht sich auf einer höheren Ebene“ (1964b, 44). Der Begriff des Relais ist der Geschichte der Nachrichtenübertragung entlehnt. Relaisstationen waren Zwischenstationen der Post, bei denen die Post eines Senders einging, um auf anderen Transportwegen an den Empfänger weitergeleitet zu werden. An einer Relaisstation befinden sich also Informationen, die ihren Empfänger noch nicht erreicht haben. Barthes‘ Metapher meint offenbar die Übertragung von Informationen vom Text auf das Bild. Abb. 11 zeigt ein Beispiel. Das Bild des Präsidenten wird um eine Bildunterschrift ergänzt, die über den Inhalt seiner Rede informiert. Was er sagt, könnte gar nicht visuell dargestellt werden. Der Text ergänzt das ansonsten stumme Bild. Auch das Bild ergänzt aber den Text, denn keine noch so genaue Beschreibung könnte eine Vorstellung davon vermitteln, wie der Redner vor diesem patriotischen Hintergrund seine Rede vorgetragen hat. Das Bild fügt dem Inhalt des verbalen Diskurses ein Ikon hinzu. Das Foto beweist dabei indexikalisch die reale und zugleich imaginäre historische Verbindung, in der sich der Präsident mit seinen vier Vorgängern in seinem Amt wähnt.



Verbal-visuelle Semiotik 

 211

Abb. 11: „Präsident Bush spricht zur Sicherheitspolitik am Mount Rushmore National Memorial (2002)“ (Wikimedia Commons, gemeinfrei, http://goo.gl/OudrOh)

Auch bei der Verankerung der verbalen Zeichen im Bild geht es um Komplementarität, aber während diese im Falle des Relais Informationen ergänzt, die im Bild fehlen, erfolgt im Fall der Verankerung eine Lenkung des Blicks auf Einzelheiten, die das Bild selbst schon zeigt. Barthes (1964, 44) sagt, dass der Text bei dieser Form der TextBild-Beziehung „den Leser durch die Signifikate des Bildes lenkt und ihn veranlasst, einige zu beachten, andere außer Acht zu lassen.“ Die verbalen Zeichen interpretieren somit, was wir sehen, indem sie durch indexikalische Zeichen auf Details des Bildes verweisen.

Abb. 12: Preisschilder verweisen indexikalisch auf die angebotene Ware, indem sie sagen, „DIESE Ware kostet …“ (Wikimedia Commons, gemeinfrei, http://goo.gl/ sWlzrN)

Das Lenken des Blicks auf das Bild durch den verbalen Text geschieht notwendigerweise durch indexikalische Zeichen. Der Text sagt uns etwa, was wir hier und dort sehen. Die Wörter sind die Zeichen, deren Objekte nur im Bild zu finden sind. Die Absicht, den Blick der Betrachter hierhin oder dorthin zu lenken, kann sehr verschiedene Ziele verfolgen: Belehrung, Information, Beeinflussung oder gar Manipulation. Eine der informativen Strategien der Blicklenkung ist die Benennung der Dinge und Orte im Bild. Nur das Wort kann den im Bild gezeigten Dingen einen Namen geben, wenn dieser Name nicht schon im Wissen der Betrachter verankert ist. Die Eigenna

212 

 Winfried Nöth

men, die auf konkrete Bildelemente verweisen, sind ihrerseits, wie alle Eigennamen, indexikalische Zeichen. Zu den verbalen Zeichen, die indexikalisch auf das Bild verweisen, zählen deiktische Wörter (z. B.: Hier sehen wir… oder Dieser Keller war sein Gefängnis), adverbiale Ausdrücke (oben, rechts von, neben oder zweite von links etc.) oder graphische Zeichen wie Pfeile und Verbindungslinien zwischen Bild und Text. Auch die bloße Kontiguität des Zeichens mit dem bezeichnetet Objekt wie im Falle eines Preisschildes auf seiner Ware (Abb. 12) kann ein Index sein. Das Preisschild sagt ja, dass diese Ware, der dieser Preis eingeschrieben ist, für den bezifferten Preis erhältlich ist. Schrift und Bild, wie etwa in Katalogtexten, in denen Preis, Produktname und Bestellnummer neben der Abbildung des Produktes eingeschrieben sind, beinhalten indexikalische Verweise. Verbale und graphische Indices können, wie oben erwähnt, auch als gänzlich fehlen, wenn nämlich die Kenntnis des Bildes der zu identifizierenden Person im Wissen der Leserinnen und Leser verankert ist. Ein Bild der Bundeskanzlerin Deutschlands bedarf im Jahre 2015 nicht unbedingt einer kommentierenden Identifizierung der Art dritte von links. Der zur Identifizierung der abgebildeten Person erforderliche indexikalische Bezug, durch den die Verbindung der Abbildung mit der abgebildeten Person hergestellt werden kann, kann aus dem kollateralen Wissen der Leserinnen und Leser bezogen werden (vgl. Nöth 2003). Es gibt zwei grundsätzlich verschiedene Arten des indexikalischen Verweises in verbal-visuellen Nachrichten, den textinternen und den textexternen Verweis. Der externe Verweis verbindet das Zeichen mit der Realität jenseits der verbalen-visuellen Nachricht, wie im Beispiel des Namens und Fotos der Bundeskanzlerin in der Tageszeitung. Textinterne indexikalische Verweise sind diejenigen, die den Blick der Leserinnen und Leser von den verbalen auf die visuellen Zeichen innerhalb der Nachricht steuern, wie im Falle der von Barthes als Verankerung beschriebenen Text-Bild-Beziehung. Die textinternen Verweise der Wörter auf die Bilder sind nicht viel anderer Art als die externen Verweise, mit denen Sprecher in ganz alltäglichen Kommunikationssituationen die Aufmerksamkeit ihrer Hörer auf Dinge in der externen Welt lenken. In seinem Aufsatz Was ist ein Zeichen? aus dem Jahr 1894 gibt Peirce das folgende Beispiel für eine solche natürliche Blicksteuerung im Alltag: B. Der Besitzer jenes Hauses ist der reichste Mann in dieser Gegend.  – A. Welches Haus?  – B. Sehen Sie nicht das Haus rechts auf einem Hügel in ungefähr sieben Kilometer Entfernung? – A. Ja, ich glaube, ich habe es entdeckt. – B. Nun gut. Das ist das Haus. (1998, 7)

Dem Szenario des Sprechers B und des Hörers A vor der gemeinsam betrachteten Landschaft entspricht die Bezugnahme schriftlicher auf bildliche Zeichen in multimedialen Texten.



Verbal-visuelle Semiotik 

 213

Abb. 13: „Churchill, Roosevelt, Stalin“ (Wikimedia Commons, gemeinfrei, http://goo.gl/T4LBdW)

Auch im Falle von Pressebildern und ihrer Legenden gibt es eine ähnliche Blicksteuerung der Leserinnen und Leser. B, der Autor der verbalen Nachricht, die das Bild kommentiert, ist hier der Redakteur der Meldung. Die Wörter lenken den Blick der Leser durch Ausdrücke wie 3. v. l., rechts neben, etc. in ganz ähnlicher Weise, wie die B den Blick von A in Peirce’ Beispiel lenkt. Ein Mittel der Bezugnahmen einer Bildunterschrift auf das Bild, das weder dem Typ des Relais noch demjenigen der Verankerung entspricht, ist dasjenige der diagrammatischen Korrespondenz zwischen Wort und Bild. Das berühmte Foto der ‚großen Drei‘, Churchill, Roosevelt und Stalin auf der Konferenz von Jalta im Februar 1945 mag als Beispiel dienen (Abb. 13). Die auf der Titelseite der New York Times vom 13.2.1945 veröffentlichte Aufnahme zeigt die drei Staatsoberhäupter in einer Reihenfolge, die der Reihenfolge ihrer Nennung in der Legende unter dem Foto entspricht. Sie lautet: „Prime Minister Churchill, President Roosevelt, and Marshal Stalin on the grounds of Livadia Palace.“ Die Legende verzichtet auf irgendwelche indexikalischen Präzisierungen der Reihenfolge, in der die drei Staatsmänner im Bild zu sehen sind. Sie sagt nicht, dass die genannten Personen in der Ordnung von links nach rechts zu sehen sind. Die Reihenfolge, in der in der Legende die Namen angeordnet sind, 

214 

 Winfried Nöth

ist ein Diagramm der Reihenfolge, in der Churchill, Roosevelt und Stalin im Bild zu sehen sind, so dass die Zuordnung der Personen zu den Namen nach dem Prinzip der diagrammatischen Korrespondenz erfolgen kann. Die Reihenfolge der Namen in ihrer Anordnung von links nach rechts ist ein Diagramm der Reihenfolge, in der auch die Staatsoberhäupter im Bild von links nach rechts zu sehen sind. Zwei weitere typische Prinzipen der diagrammatischen Bezugnahme von verbalen auf visuelle Zeichen sollen noch genannt werden, ohne dass das Thema damit erschöpfend erörtert wäre, die diagrammatische Repräsentation der VordergrundHintergrund-Beziehung in der Schrift und die Diagrammatisierung der zweidimensionalen Anordnung der Bildelemente durch Auflösung der Linearität der Schrift. Das erste Prinzip kann an den Fotodokumenten der Konferenz von Jalta illustriert werden. Das oben kommentierte Foto zeigt in anderen historischen Dokumentationen noch acht hohe Offiziere im Hintergrund der Staatsoberhäupter. In den Legenden zu diesen Fotos werden diese Offiziere, wie zu erwarten, nach der Aufzählung der Staatsoberhäupter genannt. Die nachrangige historische Bedeutung der Anwesenheit dieser Offiziere am Ort der Konferenz wird also durch ein anderes diagrammatisches Prinzip repräsentiert: was im Vordergrund zu sehen ist, findet zuerst Erwähnung, was im Hintergrund steht, wird erst danach benannt. Unkonventionell, aber nicht selten in Legenden zu Gruppenfotos zu finden, ist schließlich die Auflösung der linearen Anordnung der Namen in der Schrift durch Anordnung der Namen in Form eines zweidimensionalen Diagramms, das in einer Art Punkt-zu-Punkt-Entsprechung die Anordnung der dargestellten Personen im Bild widerspiegelt.

6 Literatur Arnheim, Rudolf (1954): Art and Visual Perception. Berkeley. Barthes, Roland (1964a): Eléments de sémiologie. In: Communications 4, 91–141. – Dt. 1988: Elemente der Semiologie. Frankfurt a. M. Barthes, Roland (1964b): Rhétorique de l’image. In: Communications 4, 40–51. – Dt. Rhetorik des Bildes. In: 1990: Der entgegenkommende und der stumpfe Sinn. Frankfurt a. M., 28–64. Barthes, Roland (1967): Système de la mode. Paris. – Dt. 1984: Die Sprache der Mode. Frankfurt a. M. Barthes, Roland (1969): La peinture est-elle un langage? In: La Quinzaine Littéraire 68, 16. – Dt. Ist die Malerei eine Sprache? In: 1990: Der entgegenkommende und der stumpfe Sinn. Frankfurt a. M., 157–59. Barthes, Roland (1977): Image – Music – Text. New York. Barthes, Roland (1980): La chambre claire. Note sur la photographie. Paris. – Dt. 1985: Die helle Kammer. Frankfurt a. M. Clüver, Claus (1989): On intersemiotic transposition. In: Poetics Today 10 (1), 55–90. Eco, Umberto (1968): Einführung in die Semiotik. München. Eco, Umberto (1972): Introduction to the semiotics of iconic signs. In: Versus 2, 1–15.



Verbal-visuelle Semiotik 

 215

Eco, Umberto (1985): How culture conditions the colors we see. In: Marshall Blonsky (ed.): On Signs. Baltimore, 157–175. Ernst, Ulrich (1986): The figured poem. In: Visible Language 20 (1), 8–27. Faust, Wolfgang Max (1977): Bilder werden Worte. München. Floch, Jean-Marie (1990): Sémiotique, marketing et communication. Paris. Floch, Jean-Marie (1993): L’opposition abstrait/figuratif en sémiotique visuelle. In: Versus 65/66, 3–12. Floch, Jean-Marie (1997): Une lecture de Tintin au Tibet. Paris. Fontanille (1995): Sémiotique du visible : des mondes de lumière. Paris. Goodman, Nelson (1968): Languages of Art. Indianapolis. – Dt. 1973: Sprachen der Kunst. Frankfurt a. M. Halawa, Mark Ashraf (2008): Wie sind Bilder möglich. Argumente für eine semiotische Fundierung des Bildbegriffs. Köln. Hjelmslev, Louis (1943/1961): Prolegomena to a Theory of Language. Madison. – Dt. 1974: Prolegomena zu einer Sprachtheorie. München. Hupka, Werner (1989): Wort und Bild. Tübingen. Jappy, Tony (2013): Introduction to Peircean Visual Semiotics. London. Kress, Gunther (2009): Multimodality. A Social Semiotic Approach to Contemporary Communication. London. Kress, Gunther/Theo van Leeuwen (1996): Reading Images. The Grammar of Visual Design. New York. Mandl, Heinz/Ivel R. Levin (1989): Knowledge Acquisition from Text and Pictures. Amsterdam. Manns, Stefan (2007): Nucleus emblematum. Überlegungen zu einer Semiotik des Emblems. In: Thomas Frank/Ursula Kocher/Ulrike Tarnow (Hg.): Topik und Tradition. Prozesse der Neuordnung von Wissensüberlieferungen des 13. bis 17. Jahrhunderts. Göttingen, 47–65. Mitchell, William J. Thomas (1986): Iconology. Image, Text, Ideology. Chicago, IL. Mitchell, William J. Thomas (1994): Picture Theory. Chicago, IL. Muckenhaupt, Manfred (1986): Text und Bild. Tübingen. Müller, Jürgen E. (1996): Intermedialität. Formen moderner kultureller Kommunikation. Münster: Nodus. Nöth, Winfried (1997): Can pictures lie? In: Winfried Nöth (ed.): Semiotics of the Media. Berlin, 133–146, Nöth, Winfried (2000a): Handbuch der Semiotik. Stuttgart. Nöth, Winfried (2000b): Der Zusammenhang von Text und Bild. In: Klaus Brinker u. a. (Hg.): Text- und Gesprächslinguistik: Ein internationales Handbuch, vol. 1. Berlin, 489–496. Nöth, Winfried (2003): Press photos and their captions. In: Harry Lönnroth (Hg.): Från Närpesdialekt till EU-Svenska: Festskrift till Kristina Nikula. Tampere, 169–188. Nöth, Winfried (2004): Zur Komplementarität von Sprache und Bild aus semiotischer Sicht. In: Mitteilungen des Deutschen Germanistenverbandes 51 (1), 8–22. Nöth, Winfried (2005a): Warum Bilder Zeichen sind.Bild- und Zeichenwissenschaft. In: Stefan Majetschak (Hg.): Bild-Zeichen. Perspektiven einer Wissenschaft vom Bild. München, 49–61. Nöth, Winfried (2005b): Zeichentheoretische Grundlagen der Bildwissenschaft. In: Klaus Sachs-Hombach (Hg.): Bildwissenschaft zwischen Reflexion und Anwendung. Köln, 33–44. Nöth, Winfried (2007): Metapictures and self-referential pictures. In Winfried Nöth/Nina Bishara (eds.): Self-Reference in the Media. Berlin, 61–78. Nöth, Winfried (2009): Bildsemiotik. In: Klaus Sachs-Hombach (Hg.): Bildtheorien. Anthropologische und kulturelle Grundlagen des Visualistic Turn. Frankfurt a. M., 235–254. Nöth, Winfried (2011): Visual semiotics. In: Eric Margolis/Luc Pauwels (ed.): The Sage Handbook of Visual Research Methods. London, 298–316.



216 

 Winfried Nöth

Nöth, Winfried/Isabel Jungk (2015): Peircean visual semiotics. Unexplored potentials. In: Semiotica 207, 657–673. Nöth, Winfried/Lucia Santaella (2000): Bild, Malerei und Photographie aus der Sicht der peirceschen Semiotik. In: Uwe Wirth (Hg.): Die Welt als Zeichen und Hypothese. Frankfurt a. M., 354–374. Oversteegen, Eleonore/Joost Schilperoord (2014): Can pictures say no or not? Negation and denial in the visual mode. In: Journal of Pragmatics 67, 89–106. Peirce, Charles S. (1931–1958): Collected Papers, vols. 1–6, Charles Hartshorne and Paul Weiss (eds.); vols. 7–8, Arthur W. Burks (ed.). Cambridge, MA (zitiert als CP). Peirce, Charles S. (1998): The Essential Peirce, vol. 2. Peirce Edition Project (ed.). Bloomington. Reimund, Walter (1993): Ikonizität und emotionale Bedeutung bildlicher Darstellung. Frankfurt a. M. Sauerbier, Samson Dietrich (1985): Wörter, Bilder und Sachen. Heidelberg. Saussure, Ferdinand de (1916): Cours de linguistique générale. Paris – Dt. 1931: Grundfragen der Allgemeinen Sprachwissenschaft. Berlin. Schelske, Andreas (1997): Die kulturelle Bedeutung von Bildern. Wiesbaden. Stjernfelt, Frederik (2007): Diagrammatology. Dordrecht. Thürlemann, Felix (1990): Vom Bild zum Raum. Beiträge zu einer semiotischen Kunstwissenschaft. Köln. Wagner, Peter (1996): Icons, Texts, Iconotexts. Essays on Ekphrasis and Intermediality. Berlin. Weidenmann, Bernd (1988): Psychische Prozesse beim Verstehen von Bildern. Bern. Wittgenstein, Ludwig (1953): Philosophische Untersuchungen – Philosophical Investigations. Oxford. Zemsz, Abraham (1967): Les optiques cohérentes (La peinture est-elle langage?). Revue d’Esthétique 20, 40–73.



Nadia Koch/Thomas Schirren


9. Verbal-visuelle Rhetorik Abstract: Die Sophisten haben die Rhetorik als Produktionstheorie erfunden und gegenüber anderen technai differenziert; gemeinsam ist allen ein klar definiertes Werkkonzept. Dieses ermöglicht es, dass nicht nur der sprachliche Code, sondern auch andere, wie der visuelle, in das Persuasionskonzept integriert werden. Die Parallelen liegen dabei weniger in bestimmten Figurationen (in Form einer transferierbaren Figurenlehre) als vielmehr in einem Produktionsprozess, der das Passende als Zieloption anvisiert und darüber die Frage des medialen Status der eingesetzten Mittel verdrängt. So wie die sprachliche Rhetorik in der Inventivik auf einen durch die Sprache bereitgestellten Thesaurus von Argumentationsfiguren zurückgreift (Topik), kann sich visuelle Kommunikation auf visuelle Topoi beziehen, deren geschickte Auswahl eine bestimmte Wirkungsabsicht unterstützt. 1 Rhetorik als Technik der multimodalen Überzeugung 2 Felder multimodaler Rhetorik 3 Anwendungen 4 Fazit 5 Literatur

1 Rhetorik als Technik der multimodalen Überzeugung 1.1 Sophistische Anfänge im Rahmen der vorsokratischen Ontologie Rhetorik ist eine sophistische Erfindung des 5. vorchristlichen Jahrhunderts in Griechenland. Die Ursprünge sind nicht klar zu eruieren, auch wenn es seit der Antike viele Versuche gab, sie durch Narrative zu rekonstruieren. Aus heutiger Perspektive jedoch ist festzuhalten, dass es nicht allein die politischen Umstände, sei es in Sizilien oder in Athen, waren, die die Rhetorik als eine Handlungswissenschaft ermöglichten; vielmehr traten sowohl im tyrannisch regierten Sizilien als auch im demokratischen Athen philosophische Konzepte hinzu, die die Grundlage für eine Sprechhandlungstheorie bildeten. Erst im Zuge dieser ontologischen Positionen, die erstmals Parmenides formulierte, gewann die Theorie einer Sprechhandlung ein neues, ungeahntes Tätigkeitsfeld. Die für die Rhetorik wichtigste und folgenreichste Entdeckung war die eleatische Konzeption des Seins. Parmenides von Elea (geb. um 500 v. Chr.) hatte in



218 

 Nadia Koch/Thomas Schirren


seinem Lehrgedicht eine enge Korrelation von Erkennen, Sein und Sprechen (νοεῖν, εἶναι, λόγος/noein, einai, logos) postuliert. Erkennen muss sich auf Seiendes beziehen, und Rede muss Seiendes sagen. Daher spricht Rede dasjenige Seiende aus, das das Erkennen erkannt hat. Nicht-Seiendes dagegen ist weder erkennbar noch zu sagen. Daraus wird gefolgert, dass nur Seiendes sei und gesagt werden könne (Frg. B2; B3; B6 Diels/Kranz 1960/61). Wenn weiter postuliert wird, dass man das Erkennen nicht ohne das Seiende finden wird, „in welchem es ausgesprochen ist“ (Frg. B 8, 35–36 Diels/Kranz 1960/61), dann wird (wahres) Sagen im Seienden verankert, denn es gibt ja auch den Lug und den Irrtum im Sprechen (vgl. Hesiod, Theogonie 27 ff.). Die in dieser Ontologie vollzogene Verknüpfung von Sein, Erkennen und Sprechen begründet das Sprechen ontologisch; doch während Parmenides das Sprechen vom Erkennen und dem Seienden nicht emanzipiert, da er offenbar nur wahres Sprechen als Sprechen im eigentlichen Sinne auffasst (obwohl er andererseits das Erkennen immer schon sprachlich verfasst denkt), indem etwas Seiendes im Sprechen aufgewiesen wird, führt Gorgias, den man zu seinem Schüler gemacht hat, diese Gedanken in eine andere Richtung. Für Parmenides musste Fiktion und Lüge ein Paradox darstellen, da ja kein Seiendes ausgesprochen wird und so auch nichts erkannt werden kann. Gorgias jedoch erkennt in diesem Paradox die Möglichkeit, Rede überhaupt in eine eigene Dimension der Wirkung zu setzen. Wo gesprochen wird, ist ein Seiendes, denn das Gesprochene ist selbst ein Seiendes. Rede verweist nicht auf Dinge, sondern ist ein Ding und tritt als solches in die Welt. Indem sich der Logos so von seiner Verweisfunktion löst und selbst ein Seiendes wird, wachsen dem Rhetor ungeahnte Möglichkeiten zu. Das ist die Ausgangssituation, die zur Schrift über das Nicht-Seiende führt. In dieser nur als Testimonium erhaltenen theoretischen Abhandlung negiert Gorgias die Parmenideische Trias von Sein, Erkennen und Sprechen (Ps.-Aristoteles, De Melisso, Xenophane et Gorgia 979 a11 ff.): „Nichts sei, sagt Gorgias; wenn aber etwas sei, sei es nicht erkennbar, wenn es aber sei und erkennbar sei, sei es nicht mitteilbar.“ Die Mitteilbarkeit durch Sprache, also deren Referentialität, wird so von Gorgias bestritten. In Parallele mit der sinnlichen Wahrnehmung wird der Logos durch ein eigenes Sinnesorgan rezipiert. Damit verliert er nun seine Referenzialität: Er sagt nur sich selbst und deshalb sind Denkinhalte grundsätzlich sprachlich nicht mitteilbar. Der Logos ist vielmehr ein sinnliches Widerfahrnis, das als solches Gegenstand der techné wird wie die Farbe für die Malerei oder die Bronze für die Bildhauerei (vgl. Ps.-Aristoteles, De Melisso, Xenophane et Gorgia 980 b9–19). Damit hat Gorgias zwar die eleatische Ontologie paradox verkehrt, doch scheint am Beginn der rhetorischen Theorie nicht die kommunikative Funktion der Sprache zu stehen, sondern deren Wirkungsmacht. Sprache ist ein sinnliches Ereignis und kann als solches instrumentalisiert werden (Frg. B11, § 8–9 Diels/ Kranz 1960/61; Schirren/Zinsmaier 2003, 83–85). Gorgias war jedoch nicht der erste rhetorisch denkende Rezipient der eleatischen Philosophie. Die antike Überlieferung macht ihn zu einem Schüler des Empedokles, bei dessen Zaubereien er anwesend gewesen sein soll (Gorgias Frg. A3; Diels/Kranz 

Verbal-visuelle Rhetorik 

 219

1960/61; Schirren/Zinsmaier 2003, 59). Was hier anekdotisch durch den Zauberer (γόης/goés) Empedokles bezeichnet ist, verdeutlicht die Eigenheit des gorgianischen Logos, eine quasi medikamentöse Wirkung zu entfalten. Empedokles’ Porenlehre war für die Vorstellung eines eigenen Sinnesorganes, wie es Gorgias anzunehmen scheint, maßgeblich. Ansätze dazu finden sich in der sogenannten Sehstrahltheorie des Empedokles, in seiner Erklärung des Magnetismus und in seiner Elementenlehre (vgl. B110, B84 Diels/Kranz 1960/61; Schirren 1998, 221–236). Allen diesen Vorstellungen liegt der Gedanke des Passenden zugrunde (ἁρµόττειν/harmottein), das wiederum für die spätere rhetorische Theorie von zentraler Bedeutung ist, indem diese das Angemessene (πρέπον/prepon, καθῆκον/kathékon) zum Maßstab rhetorischer Strategie macht. Doch mit der Hexerei des Empedokles und der Parallelisierung von Worten und Drogen steht am Beginn der Rhetorik zugleich deren Multimodalität, indem sie als Wirkungswissenschaft aufgefasst wird. Der Maler und der Redner bedienen sich ein und derselben persuasiven Technekonzeption, nur die Wahl der eingesetzten Mittel differiert, nicht das Wirkungskonzept als solches. An diese sophistischen Anfänge zu erinnern erscheint deshalb geboten, weil die Rhetorik im Zuge des iconic turn von Bildwissenschaftlern daraufhin befragt wird, ob sie auch schon eine Bildtheorie im Sinne einer Rhetorik des Bildes produziert hat. Was Multimodalität angeht, so argumentiert gerade Gorgias, dass die Seele genauso von Bildern wie von Worten in ihrer Struktur bestimmt und verändert werden kann. Bilder wie Worte können erschüttern oder erfreuen, erschrecken oder Mut einflößen. Denkt man an die sog. Porenlehre der frühgriechischen Philosophie, so muss sich eine multimodale Rhetorik auf die Gegebenheiten des jeweiligen Kanals einstellen, um in diesem und durch diesen die intendierte Wirkung zu entfalten. Dem Ganzen aber liegt zugrunde, dass die Rhetorik im Wesentlichen eine wirkungsorientierte Kunst ist.

1.2 Das sophistische Konzept der Techne Nun hat bereits die Sophistik der multimodalen Rhetorik den Weg geebnet, als sie ein universelles Konzept der techné entwickelte. Diesem folgen sowohl die Rede- wie auch die Kunstproduktion. Die von Felix Heinimann erschlossene sog. ‚vorplatonische Theorie von der Techne‘ wurde in verschiedenen Phasen der Antike immer wieder aktualisiert, nicht zuletzt in der Zweiten Sophistik der Kaiserzeit. Heinimann hatte vier Bedingungen herausgearbeitet, die die techné nach sophistischem Verständnis zu erfüllen hat (Heinimann 1961): – Sie hat das Ziel, Nützliches zu schaffen – Sie hat eine spezifische Leistung, ergon (z. B. Medizin: Gesundheit) – Das Wissen ihres Sachverständigen dient nur dem ergon – Sie ist lehrbar



220 

 Nadia Koch/Thomas Schirren


Wenden wir diese Kriterien auf die Rhetorik und die Künste an, so wäre davon auszugehen, dass Reden und Bilder dem Anwendenden nützlich sind. Während das Ziel der Rhetorik die Überzeugung ist, könnte man als Ziel der Künste eine noch unspezifische Wirkung auf den Betrachter definieren; nur so viel kann man schon sagen, dass die Wirkung so ausfallen muss, dass der Produzent davon einen wie auch immer gearteten Gewinn einstreichen kann. Die Redner und die Künstler stellen ihr Wissen in den Dienst dieser persuasiven Operation und sind fähig, ihr Lehrsystem ebenso wie ihr Erfahrungswissen an Schüler weiterzugeben. Bei diesen Überlegungen käme unserer modernen visuellen Kommunikation in den Massenmedien eine Art Mittelposition zwischen Kunst und Rhetorik zu, weil ihre spezifische Leistung ja nicht nur ein rein ästhetisches Erlebnis ist, sondern auch die Persuasion im rhetorischen Sinn. Sie teilt also ihr ergon in größerem Maße mit der Rhetorik als das, was wir in Abgrenzung von der ‚angewandten‘ Kunst die ‚bildende‘ Kunst nennen; das sind freilich Unterscheidungen, die in der Vormoderne und ihren Begriffen von Kunstfertigkeit (techné bzw. ars) noch keine Rolle spielen. An diesen vormodernen Kunstbegriff anschließend wäre dann, vom vorplatonischen Postulat der Nützlichkeit ausgehend, zu folgern, dass jegliche eikonopoiétiké, d. h. bildherstellende Kunst, analog zur Rhetorik immer schon persuasiv verfährt. Die produktionstheoretische Leitfrage der Sophistik „Wie stelle ich etwas so her, dass es eine bestimmte Wirkung erzielt?“ bestimmt nicht nur die Gestaltung des Produkts, sondern ist schon im ersten Planungsstadium in ein Setting aus wirkungsintentionalem Handeln und erwartungsvollem Rezipienten eingebunden. Erst dann, wenn beim Rezipienten eine Persuasion eintritt, erfüllt das Werk seine Bestimmung. Welchen Charakter die Persuasion hat, hängt von der spezifischen Techne ab: Der Schmied kann den Brustpanzer aus wertvollen Materialien fertigen und ihn stabil verfugen – ein anständiger Panzer (θώραξ καλός/thórax kalos), ist er aber erst, so hören bei Xenophon, wenn er dem Auftraggeber perfekt passt (Memorabilien 3. 10. 10–12). Das ästhetische Erlebnis des kalon, das Sokrates hier mit den Techniten diskutiert, hat aber nichts zu tun mit der Maxime der Schönheit, die uns im emphatischen Kunstbegriff des 18. Jahrhunderts begegnet. Ästhetisches Erlebnis heißt in der griechischen Klassik die unmittelbare Evidenzerfahrung eines „ja, genau richtig so“, wie der Panzerträger es am eigenen Körper spürt. Das Schöne ist also ein funktionaler Begriff. Was denn das pithanon, das Persuasive im Bild sei, hängt von vielerlei Faktoren ab. Bei den klassischen Autoren spielen bei diesem Effekt mehrere Komponenten zusammen, wie die Lesbarkeit der Grundhaltungen, die richtige Verwendung der Farben oder Format und Aufstellungskontext, damit ein Werk seine persuasive Dynamis entfaltet. Den Ausschlag gibt das Pathos: Nur, wenn die Gefühle oder die körperlichen Anstrengungen der Dargestellten dem Betrachter vor Augen geführt werden, kann das Werk ihn mitreißen (Memorabilien 3. 10. 1–8). Es muss also ein Moment der Empathie mit den dargestellten Personen ins Spiel kommen, ein Mitfühlen mit einem gemalten Helden oder ein Nachvollziehen eines plastisch gebildeten Bewegungsablaufs. 

Verbal-visuelle Rhetorik 

 221

Es stellt sich also die Frage, auf welche Weise die Überzeugungsmittel, auf die Aristoteles sein Rhetorik-Lehrbuch gründet – Ethos, Pathos und Logos – im Kunstwerk greifen. Zunächst ist aber auf die sophistische techné-Konzeption zurückzukommen, indem die Produktionstheorien von Reden und Bildern miteinander verglichen werden.

1.3 Die Produktionsästhetik der universal agierenden Rhetorik Die Rhetorik kann auf eine lange Tradition der Bildung zurückblicken, in der sie zugleich die rhetorische Texttheorie entwickelte. Als Teil des Trivium war sie unverzichtbarer Bestandteil der höheren Bildung, und in der rhetorischen Ausbildung erlernte der Schüler anhand einfacher Textformen Grundlagen der rhetorischen Textproduktion. Texte stehen rhetorisch gesehen immer schon in einem kommunikativen Setting, für das der Textproduzent mögliche Rezipientenreaktionen berücksichtigt hat. Um diese optimal zu erreichen, gewissermaßen, um den Kanal zu treffen, auf dem die Menschen beeinflussbar sind, steht der Rhetorik eine strukturierte Anleitung zur Verfügung, mit der der Redner schrittweise seinen Text verfertigt. Diese sogenannten ‘Stadien der Rede‘ führen in fünf Schritten zur Performanz. Aufgrund des von den Sophisten entwickelten techné-Konzeptes wird aber nun die Rhetorik auch mit anderen Künsten vergleichbar, und zwar durch das Produkt, das sie herstellt. Hauptgesichtspunkt für die Verfertigung ist die Funktionalität dieses Produktes: Eine Rede muss überzeugen, ein Brustpanzer passen und ein ausbalanciertes Optimum an Beweglichkeit und Schutz des Trägers ermöglichen, erst dann hat der Technit sein Werk gut hergestellt. Es fehlt im 5. und 4. Jh. v. Chr. nicht an Vergleichen innerhalb dieser technai, gerade was ihre Produktivität angeht. Bemerkenswert ist aber auch die an die Rhetorik gestellte Frage, ob sie allein es ist, die überzeugen könne, denn Überzeugung könne ja auch durch andere nichtsprachliche Mittel erreicht werden: durch Körper, Bilder, Nahrungsmittel etc. Die Rhetorik wurde erst im Zuge solcher Abgrenzungen und Spezifizierungen auf die Überzeugung vermittels sprachlicher Zeichen festgelegt: Platon lässt seinen Gorgias Sokrates zustimmen, der schrittweise die Rhetorik so definiert: „Die Rhetorik ist eine Produzentin von Überzeugung, die auf Vertrauen, nicht auf sachlicher Unterrichtung beruht und zwar in Fragen des Gerechten und Ungerechten“ (Platon, Gorgias 455a). Nun ist in diese Definition bereits der platonische Einspruch gegen den universalen Anspruch einer Disziplin eingegangen, die sich grundsätzlich für alle Formen von Lenkung und Beeinflussung zuständig fühlte. Platons Restriktion auf die sprachlich induzierte Überzeugung wäre also noch einmal zu prüfen. Wenn etwa der kaiserzeitliche Skeptiker Sextus Empiricus in seiner Schrift Gegen die Rhetoren diesem platonischen Gedanken recht gibt, weil es noch vielerlei anderes gebe, das den Menschen in seinem Urteil beeinflusse, wie etwa Schönheit, Reichtum, Lust und Ansehen (Adv. Mathematicos 2. 2), so ist hier wie bei Platon die Intention spürbar, die Rhe

222 

 Nadia Koch/Thomas Schirren


torik als solche zu widerlegen. Im Platonischen Dialog endet dieser Versuch damit, dass der Rhetor Gorgias zugeben muss, er könne seinen Schülern keine Gerechtigkeit lehren, was aber ja für die Rhetorik vorausgesetzt werden müsse, in der es um Fragen von Gerecht und Ungerecht etwa vor Gericht gehe. Befreit man sich nun von diesen Vorgaben der Platonischen Tradition, so scheint es keineswegs abwegig, die Rhetorik durchaus allgemein auf die technisch angeleitete Fertigkeit zur Überzeugung festzulegen, egal mit welchem Mittel sie dies erreicht, ob mit Sprache oder anderen Zeichensystemen. Solange nur im Blick bleibt, dass unabhängig von der Wahl des Codes, ob sprachlich, visuell oder musikalisch, es immer dieselben Überzeugungsmittel (πίστεις/pisteis) sind, die rhetorisch angewandt werden. Trotz der unterschiedlichen Verfahren von sprachlicher und visueller Persuasion auf der praktischen Ebene hat der Orator bzw. der Künstler stets dieselben fünf Aufgaben zu erfüllen: Inventio: Dass Rede und Bild vor dem Einsatz der technischen Mittel einen Prozess der Themenfindung durchlaufen müssen, ist klar. In dieser Planungsphase wird der Herstellungsablauf gedanklich bereits vorweggenommen, soll doch schon die Grundidee das Setting des fertigen Produkts, sei es Bild oder Rede, berücksichtigen. Dispositio: Während die Gliederung der Rede in ihre Teile an zweiter Stelle erfolgt, muss sich der Künstler, bevor er die Bildgegenstände verteilen kann, erst für das Speichermedium seines Bildes entscheiden. Diese unverzichtbare Materialselektion wäre analog zum rhetorischen Produktionsstadium der memoria zu sehen. Der elocutio der Rede, also ihrer sprachlichen Ausgestaltung, entspricht in den Künsten die technische Ausarbeitung in Stein, Ton, Farbe, dort elaboratio genannt. Die memoria, das Speichern der Rede im Gedächtnis oder im Manuskript, entscheidet darüber, ob sie ein einmaliges Ereignis bleibt oder ob sie wieder reproduziert werden kann. Analog kann man in den Künsten zwischen Unikaten und seriell gefertigten Werken, z. B. Reproduktionen aus einer Gips- oder Tonform, unterscheiden. Während die in der actio performierte Rede ein einmaliges Ereignis ist und somit eine einmalige persuasive Handlung, ist die Präsentation von Bildern meist auf längere Dauer angelegt. Dennoch kann man, da der Künstler sein Schaffen ja von der ersten Ideenfindung an auf eine ganz bestimmte Aufstellungssituation ausrichtet, schließen, dass dem Bild eine ideelle actio inhärent ist. In verändertem Kontext kann das Bild, je nach Beschaffenheit und Mobilität seines Speichermediums, bisweilen Wirkungen entfalten, die sein Autor niemals intendiert hat.

1.3.1 Die Überzeugungsmittel einer universal agierenden Rhetorik Ausgehend von der aristotelischen Definition der Rhetorik als eines Vermögens, in jeder Sache das zu betrachten, was Aussicht auf Konsensbildung und Plausibilität bietet (Aristoteles, Rhetorik 1. 2), muss zunächst ein rhetorischer Fall gegeben sein. Dieser liegt dann vor, wenn ein Persuasionsziel gegeben ist. Die Mittel zur Erreichung 

Verbal-visuelle Rhetorik 

 223

dieses Zieles sind nach Aristoteles in drei Bereichen zu suchen: einem Sachbereich (Logik und weiteres Sachwissen = Logos), der Person selbst, die für die Sache wirbt (Ethos), und schließlich in der affektiven Beschaffenheit dessen, der überzeugt werden soll (Pathos). Wann immer überzeugt wird, sind entweder alle diese Pisteis im Spiel oder einzelne treten in den Vordergrund. Im Bereich des sprachlichen Codes ist das sofort einsichtig: Wenn ich für die Abschaffung der Atomkraft argumentiere, so muss ich mich mit der Sachlage vertraut machen, ich muss mich selbst als jemand darstellen, der dem Auditorium gegenüber wohlwollend und kompetent ist (ohne verdeckte Absichten), und ich kann meine Sachbeweise durch bestimmte Affekte wie Furcht und Optimismus unterstreichen. Nichts hindert mich aber daran, etwa die Affekte durch einen visuellen Code zu unterstützen, indem ich Bilder einer Havarie zeige oder indem ich etwa einen Song einspiele, der apokalyptische Szenarien beschwört. So werden auch in politischen Versammlungen wie Wahlkämpfen Musikstücke eingesetzt, die das Programm unterstützen und auf einfache Schlagworte reduzieren; aber auch Musik ohne einen spezifischen sprachlichen Code kann ihre Persuasionswirkung entfalten. So pflegte ein deutscher Politiker regelmäßig bei Wahlkämpfen mit dem Lied Highway to Hell der Band AC/DC aufzutreten, obwohl dieses Lied weder zum Programm der Partei passte noch besonders siegessicher anmutet. Die Person des Orators muss sich, das betont Aristoteles zu Recht, im persuasiven Agieren, d. h. während sie die Rede performiert, so präsentieren, dass sie bestimmte Erwartungen erfüllt, die das Auditorium gegenüber jemandem hegt, der die eigene, des Auditoriums, Meinung beeinflussen soll, dem man einräumt, die eigene Meinung zu beeinflussen. Es kommt also nicht darauf an, wie der Sprecher wirklich gestimmt ist oder wie er andernorts handelt und spricht, sondern nur darauf, wie er sich im Moment seiner rhetorischen Performanz präsentiert. Diese Modellierung des Charakters muss also genau berechnet sein, um für die Performanz die notwendige Wirkung zu entfalten. Aber auch die Sachaspekte müssen einem strategischen Kalkül unterworfen werden, wenn sie angemessen zur Geltung kommen sollen. Vor allem hat der Orator den Gegenstand, über den er sprechen will, genau zu erfassen und dann so zur Darstellung zu bringen, dass er für die eigene Position spricht.

1.3.2 Multimodales Handeln im Rahmen der Rhetorik Im Zuge einer linguistischen Befragung der Rhetorik zeigte sich, dass die Rhetorik als Theorie des Sprechhandelns aufzufassen ist. Darin liegt zumal, dass es in der Rhetorik stets um kommunikative Akte geht; Kommunikation steht demnach im Vordergrund und nicht die Frage, mit welchen Codes kommuniziert wird. Im Bereich der sprachlichen Kommunikation findet sich die klassische Rhetorik wieder, die mit einem Orator kalkuliert, der ein komplexes Anliegen vertritt und ein bestimmtes Auditorium überzeugen will. Dabei ist natürlich schon die Modalität des sprachlichen Codes um die des Mediums ‚menschlicher Performant‘ erweitert, der dieses Medium zugleich dafür 

224 

 Nadia Koch/Thomas Schirren


nutzt, einen anderen Code zu generieren, nämlich die in Raum und Zeit erscheinende Person des Orators. Durch Gestik und Stimme kann es ihm gelingen, den sprachlichen Code zu unterstützen, es kommen also auditive und visuelle Wahrnehmungen zum bloßen Text hinzu. Diese klassische Situation wird noch erheblich erweitert, wenn etwa im Medium Fernsehen ein Werbebeitrag gesendet wird, der durch pikturale und auditive Elemente erweitert ist. Wahlkampfspots etwa arbeiten bewusst mit einer Mehrzahl von Modalitäten. Bei der Kalkulation der intendierten Wirkung indessen müssen diese alle in ihren spezifischen Wirkungsformen bedacht und entsprechend eingesetzt werden, damit sich die Wirkungen der einzelnen Codes ergänzen und nicht etwa behindern. Bedenkt man nun, wie fein die klassische Rhetorik die sprachliche, visuell und auditiv angereicherte Modalität ausdifferenziert hat, mag man ermessen, welche Aufgaben eine bewusst dezidiert multimodale Rhetorik zu erfüllen hat. Schon die Sophisten erkannten, dass der Bildlichkeit eine besondere Persuasionsleistung innewohnt. Aristoteles hebt zu Beginn seiner Metaphysik heraus, dass die Menschen den Gesichtssinn am meisten schätzen, weil er der Erkenntnis am dienlichsten ist. Rhetorisch gewendet bedeutet dies, dass immer dann, wenn Evidenzen vorliegen, diese Sachverhalte besondere Überzeugungskraft besitzen. Nun sind aber Evidenzen keine selbst schon so ‚evidenten‘ Zusammenhänge oder Dinge, sondern sie unterliegen wiederum soziokulturellen Bedingungen, was man je als evident wahrnimmt und akzeptiert. Die Rhetorik hat auch versucht, derartige Evidenzen durch sprachliche Mittel zu erzeugen; wenn es sich nicht um Evidenzen logischer Art handelt, so sind es insbesondere Beschreibungen von Gegenständen oder ‚Szenen‘, die im Rezipienten den Eindruck erzeugen wollen, er sehe, was beschrieben wird, bereits real vor sich. Der in der Rhetorik dafür gebrauchte Begriff ist enargeia (ἐνάργεια). Damit ist ein Verfahren bezeichnet, durch sprachliche Mittel Anschaulichkeit herzustellen, etwas deutlich (ἐναργές/enargés) zu machen. Vor dem Hintergrund der antiken Wahrnehmungslehre versteht man, dass es darum gehen muss, den Rezipienten dazu anzuregen, in der Vorstellung Bilder zu produzieren, die sich in der Erinnerung und weiteren mentalen Verarbeitung nicht mehr von tatsächlich visuell apperzeptierten unterscheiden. In der aristotelischen mnémé (µνήµη, lat. memoria) sind es aisthémata (αἰσθήµατα), die der Nous zur Verfügung hat, um anschaulich, d. h. klar operieren zu können. Für die aristotelische eidos-Philosophie ist diese Parallelisierung nicht einmal eine Besonderheit, da der Intellekt ohnehin nur mit solchen geistigen Konzepten (εἴδη/eidé) operiert; wie diese produziert werden, bzw. was der Träger eines solchen eidos ist, bleibt sekundär. Nicht nur der Humanismus der Frühen Neuzeit hat diesen Gedanken für seine universellen Bestrebungen in Literatur und Kunst fortentwickelt, sondern auch moderne neurowissenschaftliche Studien knüpfen hier wieder an. Sie haben erbracht, dass in der Erinnerung oft nicht unterschieden werden kann, ob man selbst eine Erfahrung gemacht hat oder ob davon erzählt worden ist; ob man einen Film gesehen hat oder ob man Ähnliches selbst erlebt hat. Solange man also von der eidetischen Priorität für das geistige Erfassen eines Sachverhaltes oder eines Gegenstandes ausgeht, ist die jeweilige Modalität für 

Verbal-visuelle Rhetorik 

 225

diesen Vorgang zweitrangig. Für die Rhetoriktheorie erweist sich das als eine sinnvolle Grundlage, weil sie sich darauf konzentrieren kann, den Weg der zu thematisierenden Inhalte (eidé) bis zur intendierten mentalen Verarbeitung mit rhetorischen Mitteln beliebig multimodal zu gestalten. Schon die Redeproduktion verlangt vom Redner, zwischen verbalem und visuellem Code zu vermitteln. So prägt er sich im Stadium der memoria die Rede anhand von Orten (τόποι/topoi, lat. loci) ein, die er vor dem inneren Auge visualisiert. Schon die Mnemonik des Sophisten Hippias von Elis kannte dieses Verfahren (Platon, Hippias minor 268 b, vgl. Blum 1969). Hippias erkannte nämlich, dass wir uns am intensivsten an solche Dinge erinnern, die uns stark affizieren, die uns erschrecken, erfreuen oder bewegen. Das Visuelle ist also fest mit dem Affektiven verbunden; und andererseits ist keine Rede ohne visuelle Speicherfähigkeit möglich. Hippias ist für die multimodale Rhetorik deshalb besonders interessant, weil er für einen technéBegriff steht, der mit universellem Anspruch zum zielgerichteten Handeln anleiten will, sei es durch Sprache, sei es durch Bilder. In diesem Zusammenhang hat er offenbar auch einen Thesaurus von Bildern und Statuen verfasst. Dass er zudem nur selbst gefertigte Kleidung und Schmuck getragen haben soll, bezeugt sein Bewusstsein für die visuelle Komponente, wenn es darum geht, ein autarkes Ethos zu performieren (Kerferd/Flashar 1998, 64–68; Philostrat, Vitae sophistarum 1. 11). Wenn die Rede somit schon in der frühesten Theoriebildung als ikonisch zu speicherndes Werk gilt, können wir den mündlichen Vortrag als eine spontan aktivierte Flut von Bildern begreifen, die der Redner im Kairos der actio zusätzlich modelliert. Auch die Vorstellung des Platonischen Sokrates, in der Seele befinde sich ein Maler (Philebos 39 b), spricht für die allgemeine Verbreitung der Vorstellung, die Rede werde aus einem visuellen Speicher generiert. Das liegt auch mediengeschichtlich auf der Hand. Der Wandel zur Schriftkultur vollzog sich bei den Griechen ja erst sukzessive aus einer langen Tradition der Mündlichkeit, die von reichen Bildwelten in kultischem Kontext dominiert gewesen war. Hieraus konstituiert sich dann in Aristoteles‘ Seelenkonzeption, an Hippias anknüpfend, die Lehre vom Gedächtnis als einem ‚Schatzhaus der Bilder‘. Daran schlossen nicht nur die Zweite Sophistik der Kaiserzeit, sondern auch die frühneuzeitlichen Lehren der Text- und Bildproduktion an (Koch 2013, 321–329). Weil das Bild also gegenüber anderen Speichermedien wie dem schriftlich fixierten Text schon als älteres Medium gelten darf, geht auch die Rhetorik von seiner Vorrangposition aus. Gut dokumentiert sind die rhetorischen Anwendungen der Lehre vom Schatzhaus der Bilder bei Quintilian: In seinen Visualisierungsanleitungen (φαντασίαι/phantasiai) verbindet er die Rede nach wie vor untrennbar mit der ikonischen Struktur der memoria (Institutio oratoria 8. 3. 62, vgl. 12. 10. 6): Eine große Leistung ist es, die Dinge, über die wir sprechen, deutlich darzubieten und so, daß man sie zu sehen scheint. Denn die Rede bewirkt noch nicht genug, wenn sie bis zu den Ohren reicht.



226 

 Nadia Koch/Thomas Schirren


Gehen wir nun vom Erfahrungswissen des Redelehrers Quintilian aus, dass die Persuasion mit mentalen Bildern besonderen Erfolg verspricht, können wir die Verbindung von den inneren Bildern des Redners zu denen der Hörer für die klassische Praxis sichern. Wenn die Phantasie des Redners es vermag, die inneren Bildwelten des Hörers zu aktivieren, gelangen wir zu einem rhetorischen Modell, das letztlich einen Fluss mentaler Bilder zwischen Redner und Rezipienten in Gang setzt.

1.3.3 Zusammenwirkung der Pisteis in der klassischen Malerei Wenn die klassische Rhetorik auch eine Persuasion durch künstlerisch gestaltete Bilder vorsieht, so ist zunächst zu zeigen, wie sich die drei rhetorischen Überzeugungsmittel Ethos, Pathos und Logos im Bild niederschlagen. Als Beispiel sei ein Gemälde herangezogen, das wir aus Beschreibungen recht gut kennen, weil es gerade von den Rhetoriktheoretikern sehr beachtet worden ist. Es handelt sich um eine Szene im Vorfeld des Troianischen Krieges, in der sich Agamemnon gezwungen sieht, seine Tochter Iphigenie der Artemis zu opfern. Die Bildkomposition lässt sich durch die descriptio des Plinius (Naturalis historia 35. 73) und einen Gemäldetypus der römischen Wandmalerei (Abb. 1) rekonstruieren. Während die in einer Gebärde des Schreckens erstarrte Iphigenie zum Altar getragen wird, sind die Mienen des Sehers Kalchas und des Odysseus von Trauer gezeichnet. Der Vater Agamemnon hingegen trauert mit verhülltem Haupt am Altar.

Abb. 1: Pompejanisches Wandgemälde nach griechischem Vorbild. Nach Curtius, Ludwig (1929): Die Wandmalerei Pompejis. Leipzig, 290–292 Taf. 5



Verbal-visuelle Rhetorik 

 227

Das Zusammenspiel von Ethos, Pathos und Logos im Bild erweist sich als ähnlich wie in der gesprochenen Rede: Unter dem visuellen Logos können wir all das verstehen, was die Disposition der Bildgegenstände auf der Makroebene zur Sacherschließung beiträgt, die Bezeichnung des Ortes durch die Angabe von Altar und Kultbild, das Hinzufügen der mythologischen Gestalten. Diese Angaben verbindet der Betrachter mit seinem mythologischen Vorwissen und entschlüsselt die Szene als Opferung der Iphigenie. Als Elemente der Erzählung, der narratio, sind die Figurentypen, nach griechischer Terminologie die schémata (σχήµατα), von größter Bedeutung. Diese sind nach antiker Vorstellung im Bild als Zeichen aufzufassen (Arist. Pol. 1340a 32–34; Koch 2000, 59 ff.). Formal verdichtet das schéma einen Handlungsablauf zu einer charakteristischen, leicht wahrnehmbaren Form und gibt so eine potentielle Handlung an; der Betrachter dekodiert sie sodann mit dem typologischen Vorwissen, das sein innerer Bildthesaurus generiert hat. Der Maler wählt die Figurentypen bereits im Stadium der inventio aus, was auf der Ebene der rhetorischen Produktionsstadien mit der Wahl der Topoi vergeichbar ist. Auf der Mikroebene trägt das Prinzip der korrekten Figurenproportionen (symmetria), zur perspicuitas der Bildgegenstände und zu ihrer inhaltlichen Gewichtung bei. Das schéma entspricht so einer produktiven Umsetzung der philosophischen eidos-Konzeption, ohne dass freilich von einer direkten Beeinflussung ausgegangen werden müsste. Gilt es zu klären, wie sich Ethos im Bild manifestiert, so stellt sich zuerst die Frage, um wessen Ethos es gehen soll – um das des Künstlers oder das der Protagonisten. Den klassischen Quellen zufolge machten sich die Betrachter in erster Linie Gedanken über das Ethos der Dargestellten. Denn man war der Auffassung, dass sich im schéma ihre Geisteshaltung offenbare (Xenophon, Memorabilien 3. 10. 5; Koch 2000, 217–219; Knape 2013, 311 ff.). Das schéma einer Figur kann aber schließlich auch zum Indikator ihrer Affekte werden, wie etwa die erstarrte Gestik die Todesangst der Iphigenie zum Ausdruck bringt. Noch differenzierter bildet der Künstler die Affekte im Gesicht. Beim Vater Agamemnon verzichtet er jedoch bewusst auf dieses Mittel, habe dessen Trauer, wie berichtet wird, doch jenseits aller Darstellbarkeit gelegen. Die darstellerische Lösung des Timanthes, das Gesicht zu verhüllen und so dem Betrachter zur Ergänzung zu überlassen, wird in der Literatur als besonderer Kunstgriff gelobt (Cicero, De oratore 74; Quintilian, Institutio oratoria 2. 13. 13). Während die pathetische Schilderung den Betrachter zur Empathie mit den Protagonisten bewegt, stehen dem Maler noch weitere Mittel zur Verfügung, um den Betrachter für das Bild einzunehmen. Diese betreffen, analog zur elocutio der Rede, die ästhetische Modellierung des Bildthemas. In der klassischen Malerei fallen hierunter besonders die Farbwahl und die Angabe von Licht und Schatten. Nicht zufällig kennen auch die Rhetoriker die chromata und lumina als Mittel der Stilistik, mit denen sie, wie die Maler, das Thema in ein angemessenes ästhetisches Gewand hüllen.



228 

 Nadia Koch/Thomas Schirren


2 Felder multimodaler Rhetorik 2.1 Ekphrasis im Rahmen der Progymnasmata Wenn man sich die Funktionsweise multimodaler Codes in der Rhetorik verdeutlichen will, liegt es nahe, im Anschluss an die Sophistik an die sogenannten Progymnasmata zu denken, in denen der Schüler grundlegende Verfahrensweisen einübt, die dem Ziel des rhetorischen Handelns in Form einer performierten Rede dienen. Es handelt sich dabei um aufeinander aufbauende Übungen, in denen unterschiedliche Kompetenzen spielerisch gelernt werden sollen. In diesem Zusammenhang ist die Übung der Ekphrasis von besonderem Interesse (vgl. Webb 2009 mit Lit.) Nach dem Lehrbuch des Theon soll es in dieser rhetorischen Übung um Folgendes gehen (Theon, Progymnasmata 11): „Die Ekphrasis ist eine erzählende Rede, die dasjenige, was gezeigt wird, deutlich vor Augen führt.“ Bemerkenswert ist an dieser Definition des 1.  Jahrhunderts, dass showing und telling verknüpft erscheinen. Es soll nicht nur beschrieben werden, sondern die Beschreibung soll sich als Erzählung formieren. Philostrat, ein Sophist der späteren Kaiserzeit (2./3. Jh.), hat diese Übungsform in seinem Werk Eikones zu Kabinettstückchen rhetorischer Brillanz erhoben (Schirren 2009). Der Erzähler dieses Textes betont den hohen Wert der Malerei (Geschichten der Heroen, Formen und Formationen in der Natur), der sich insbesondere im Paragone mit der Bildhauerei zeige: Denn die Malerei verfüge über das Mittel der Schattengebung, der Farbe und vermöge im gemalten Auge differenzierte Emotionen auszudrücken; sogar die unsichtbare, alles umgebende Luft könne gemalt werden. Daher gehe es bei den Bildbeschreibungen (εἰκόνες/eikones) nicht um Künstler oder Künstlergeschichte, sondern um εἴδη/eidé von Malerei, also die Formen und Inhalte im Gegensatz zur materialen Ausführung; wir hatten oben bereits auf die eidetische Konzeption der Inhalte hingewiesen. Aus dem Blickwinkel der rhetorischen Theorie könnte man auch sagen, es geht um die inventio, nicht um die Ausarbeitung (ἀπεργασία/ apergasia). Der Erzähler möchte einen Text verfassen, um Jugendliche im Ausdruck zu schulen (Philostrat, Eikones, Proömium § 3). Nun ist besonders merkwürdig, dass der Erzähler den Knaben, dem er eine Gemäldesammlung zeigen möchte, auffordert, sich nicht etwa das Bild einer homerischen Szenerie genau anzuschauen, um zu beschreiben, was zu sehen ist, sondern um die Bedeutung des Dargestellten zu erkennen, solle er sich zunächst an die Lektüre des homerischen Epos erinnern, aus dem das zu beschreibende Bild eine Kampfszene illustriert (Eikones 1. 1). In einem weiteren Schritt soll sich der Rezipient eine Aphrodite imaginieren, die selbst auf dem Bild nicht zu sehen ist, sondern nur ein ihr geweihtes Heiligtum. Auf dem Bild zu sehen seien nur ihre Epitheta, wie Spiegel und goldene Sandalen, die als Weihegaben aufgehängt seien; auf ihnen sei geschrieben, dass sie der Besitz der Aphrodite seien. Eine ähnliche Verschränkung



Verbal-visuelle Rhetorik 

 229

von beschriebenem Bild und innerfiktionaler Imagination findet sich auch in Eikones 1. 23 (Narkissos): Hier verfällt ein Jüngling dem Reiz des eigenen Spiegelbildes, das eine Quelle „malt“, aber das Bild malt diese Szene und der Rhetor beschreibt das Ganze wiederum im sprachlichen Code. Im Griechischen kann dies alles mit dem Verbum γράφειν (graphein: malen, schreiben) ausgedrückt werden, was die Parallelität der verschiedenen Modalitäten besonders deutlich macht. Der Erzähler konstatiert nun, dass es so zwei Narkissoi seien, die einander gleichen und in gleicher Sehnsucht zueinander entflammt sind, nur mit dem Unterschied, dass der eine ins Wasser getaucht erscheine, der andere in der Luft stehe. In der fiktiven Medialität des erzählten Bildes sind die beiden Narkissoi nämlich nicht mehr in ihrem fiktionsinternen Realitätsgrad zu unterscheiden. Nun generiert der Rezipient das beschriebene Bild durch Phantasmata, welche die Beschreibung bei ihm erzeugt. Aber auch diese im Rezipienten generierten Erscheinungen des betrachtenden und gespiegelten Jünglings sind medial ununterscheidbar. Nachdem diese Bilder aber nun im Rezipienten evoziert worden sind, kommen sie in einer irrealen Periode sogar in Bewegung: Vieles hätte man über die Haare sagen können, wenn wir ihn laufend angetroffen hätten. Tausenderlei nämlich sind die Bewegungen (κινήσεις/kinéseis) im Lauf und noch mehr, wenn der Wind durch sie bläst.

In der Beschreibung wird nun ein bewegtes Motiv als Irrealis vorgestellt. Der Begriff der kinésis (Bewegung) erhält in diesem Zusammenhang geradezu einen programmatischen Charakter. Das Bild des laufenden Narkissos ist nämlich auch eine in kinésis versetzte aisthésis, also ein phantasma, das vor dem inneren Auge des Rezipienten ablaufen soll. Der Irrealis steht für den Triumph der fiktiven Beschreibung über die fiktionsinterne Realität des fiktiven Bildes. Denn in der phantasia des Rezipienten sind diese Bilder genauso deutlich wie die angeblichen Bildgegenstände, ja sie übertreffen das gemalte Bild, indem sie in Bewegung geraten können. Hier wäre auf das Erhabenheitskonzept Longins zu verweisen, der in der enargeia ein besonders geeignetes Mittel erkennt, zur erhabenen Begeisterung zu gelangen: Phantasia wird allgemein all dasjenige genannt, das jedweden Gedanken produziert, der einen sprachlichen Ausdruck generiert. Und dieses Wort hat erst seine volle Geltung, wenn du das, was du sagst, unter dem Einfluss von enthusiasmos und Pathos zu sehen glaubst und deinen Zuhörern vor Augen stellen kannst (Longin, De Sublimitate 15. 1).

Vorgängig zum Vor-Augenstellen ist die Eigenimagination von Bildern; nur wer dies leistet, kann auch deutlich sprechen und seinen Zuhörern Bilder vermitteln. Ekphraseis können dazu dienen, dieses Vermögen in Gang zu bringen, gewissermaßen als Warming-up zu einer sprachlich perfekten Kommunikation. Diese lenkende Wirkung von sprachlich induzierten Vorstellungsbildern hatte sich auch die antike Philosophie zu Nutze gemacht, indem sie die Tugenden ekphrastisch als Lebende vorstellen ließ: 

230 

 Nadia Koch/Thomas Schirren


Kleanthes (stoischer Philosoph, 3. Jh.) pflegte nämlich seine Hörer anzuweisen, sich eine Voluptas im schönsten Gewande und königlichem Schmuck auf einem Thron sitzend vorzustellen; die Tugenden stünden wie Mägde dienstfertig zu Gebote, da sie nichts anderes täten und nichts anderes für ihr Geschäft hielten als der Voluptas zu dienen und ihr nur nach dem Munde redeten (soweit man das auf dem Bilde nachvollziehen könne), dass sie sich vorsehe, nichts unbedacht zu tun, das die Menschen etwa beleidige oder irgendetwas, woraus sich irgendein Schmerz ergebe (Cicero, De finibus 2. 69).

In Ciceros Bericht über den Stoiker Kleanthes wird die Bildbeschreibung zur Anweisung der Schüler, sich ein Tafelbild zu imaginieren. Die imaginierte bildliche Darstellung der thronenden Voluptas, umgeben von Virtutes, weist dem philosophischen Schüler seine Rolle als Mahner zur virtus zu; die philosophische Protreptik bedient sich hier einer bildlichen Verinnerlichung, um vor dem inneren Auge des Schülers ein Exemplum aufzustellen. In diesem Zusammenhang wäre auch an den Herakles des Prodikos zu denken, wie diesen Xenophon ἐναργῶς (enargós, eindrücklich) in einer ausführlichen Erzählung vor Augen führt. Die Anhänger des Epikur sollen einen Ring mit dem Bild des Meisters getragen haben, damit sie bei jedem Handeln diesen vor Augen hätten, selbst im Schlafzimmer habe man sein Porträt aufgehängt. Auf der anderen Seite darf man jedoch auch den pragmatischen Kontext der Ekphrasis nicht außer Acht lassen. Drei Ekphraseis Lukians, nämlich Zeuxis, Die Verleumdung des Apelles und De domo, dienten wahrscheinlich als προλαλιά (prolalia) einer Festrede (Pohl/Schirren 2001; Newby 2002). Die Beschreibung der klassischen Tafelbilder bzw. des Festsaales ist mehr als eine nur atmosphärische Einstimmung der Zuhörer auf den epideiktischen Kontext; sondern die Ekphrasis ist quasi transitorisches Medium, das die innere Bildwelt des Rezipienten für das kommende Ereignis aufnahmefähig macht und durch exempla gewissermaßen vorstrukturiert.

2.2 Exempla Im Sinne eines Evidenzaufweises fungieren auch rhetorische Exempla; unter Einbeziehung der kollektiven memoria werden konkrete Rollenmodelle vorgestellt, die eine Orientierung geben sollen und an Stelle von komplexen sachlogischen, ethischmoralischen oder politischen Argumentationen einen konkreten Einzelnen oder eine Gruppe nennen, die als Argument für oder gegen eine Position eingesetzt wird. Wobei als Argument implizit oft nur das „So war es einmal, so kann es wieder sein“ dient. In der Frühen Neuzeit schließt an diesen antiken Gedanken das multimodale Konzept des Emblems, der allegorischen Verbindung von scriptura und pictura, an, das einen Sinnspruch mit einem visuell aufs Wesentliche reduzierten Bild verschränkt (Daly 2008). Kennzeichnend für das Emblem in seiner kanonischen Form, die 1531 im Emblematum libellus des Andrea Alciato begründet wurde, ist die Dreiteilung in inscriptio, pictura und subscriptio (Abb. 2). 

Verbal-visuelle Rhetorik 

 231

Abb. 2: Emblem ‚In adulatores‘ aus Andrea Alciatio, Emblematum libellus, Augsburg 1531. Nach Daly 2008, 24 Abb. 2.

Nachdem der Leser im ersten Schritt, von der pictura visuell angesprochen, seine Phantasie aktiviert hat, weist ihm das Motto die Richtung moralischen Handelns. Das Epigramm der subscriptio unterstützt sodann die langfristige Eroberung des von pictura und inscriptio vorgegebenen Deutungsraumes. In Alciatos Emblem ‚In adulatores‘ beispielsweise geht es also nicht um das im Bild Dargestellte selbst, hier ein Chamäleon, sondern um ein ethisch-moralisches Feld des Schmeichlers, das das Motto aufruft und das im Exemplum dieser bestimmten Tierart eine erste Deutung erfährt. Die visuelle Kommunikation der Moderne macht sich diese Methode des wechselseitigen Verweisens zu eigen, wenn sie etwa Firmenlogos oder politische Kampagnen entwickelt (Abb. 3, Daly 2008, 489–517).



232 

 Nadia Koch/Thomas Schirren


Abb. 3: Retrospektiv gestaltete Embleme in einer nationalen Gesundheitskampagne Schottlands. Nach Daly 2008, 517 Abb. 27–29.



Verbal-visuelle Rhetorik 

 233

2.3 Umkehrungsfiguren: Rhetorische Figuren im Bild? Was die Rhetorizität des Bildes betrifft, so hat es in den letzten Jahrzehnten zahlreiche Ansätze in den Bildwissenschaften gegeben, rhetorische Strukturen in Gemälden, Plastiken, Architekturen, aber auch im Design aufzuweisen (Brassat 2005; Knape 2007; Joost/Scheuermann 2008). Dabei hat man sowohl untersucht, wie rhetorische Konzepte und Grundbegriffe in Theorien der Bildproduktion eingegangen sind als auch, wie in der technischen Ausgestaltung von Bildwerken bestimmte Persuasionsabsichten zutage treten. In der Tradition der Semiologie Roland Barthes‘ hat man sich besonders mit der Bildrhetorik von Massenmedien befasst: Bei der bildrhetorischen Analyse von Werbefotografien steht häufig das Produktionsstadium der elocutio im Vordergrund, wenn gefragt wird, inwieweit bestimmte Bildformen oder -formeln im visuellen Gefüge analog zur rhetorischen Figur und im Kontext der Bild-Text-Relationen funktionieren (Barthes 1964; Doelker 2007; Stöckl 2014). Daly hat darauf hingewiesen, dass Werbung und Firmenlogos aufgrund ihrer prägnant zugespitzten und formal reduzierten visuellen und verbalen Botschaft das Sinnbildhafte des Emblems ins Kommerzielle oder Politische umwenden; aufgrund ihrer persuasiven Strategien könne man sie als die eigentlichen Erben des Emblems betrachten (Daly 2008, 489–517). Im neuen Feld der Designrhetorik sucht man hingegen weniger nach Analogien zur klassischen figura, sondern man befasst sich stärker mit der Interaktion zwischen sprachlichen, visuellen und auch haptischen Produktionsästhetiken und der Pragmatik ihres multimodalen Zusammenwirkens (Joost/Scheuermann 2008).

3 Anwendungen Für eine Betrachtungsweise, die die gesamte Produktion und Rezeption eines Bildwerkes im sophistischen Sinne nach den Überzeugungszielen und -strategien in verschiedenen Modi befragt, eignen sich kunsttheoretische Traktate wie Bildmedien gleichermaßen, sofern ihr Wirkungskontext ausreichend dokumentiert ist. Das gilt epochenübergreifend besonders für solche Kunstlehren und Werke, die in rezeptionsästhetisch entwickelten Kulturen mit hochdifferenzierter Technik und entsprechend ästhetisch gebildetem Publikum entstanden sind. In einem solchen Setting entschlüsselt die Analyse der spezifischen Überzeugungsmittel die komplexen Strukturen, die insbesondere die visuellen im Zusammenwirken mit den sprachlichen Codes gemäß ihrer persuasiven Absichten steuern. Wie nach dem offeneren, sophistischen Rhetorikbegriff zu erwarten, gehört das Überzeugen mit und durch Bilder somit in zahlreichen Zentren der europäischen Tradition seit der griechischen Archaik zu den primären Kulturtechniken. In vielen Denkmälern zeigt sich seither, dass man die Überzeugungskraft der Bilder durch Einbindung von Texten verstärkt, zum Beispiel Statue mit Weihinschrift, oder aber einen literarisch bereits etablierten Diskurs



234 

 Nadia Koch/Thomas Schirren


visuell fortsetzt. Besonders erhellend sind Fragen nach der Rhetorizität des Bildes immer dann, wenn wir es mit einem Setting zu tun haben, in dem der rhetoriksystematische Fixpunkt Orator nicht als Individuum gefasst werden kann, sondern in einer Art Interessenverbund kulminiert. Hier kann es zu mehreren, teils divergenten Persuasionsebenen kommen, wenn etwa der potente Auftraggeber an einen zunehmend selbstbewussten, seine eigenen diplomatischen Interessen verfolgenden Hofkünstler gerät. Insofern kann man in der Antike die mit Alexander dem Großen anbrechende Epoche des ausgehenden 4. Jahrhunderts und in der Neuzeit besonders den Barock als Phasen begreifen, in denen die bildrhetorische Forschung besonders interessante Ergebnisse erbringen kann. In solchen Kontexten können wir immer wieder ein raffiniertes Zusammenwirken von Bild und Text beobachten, wenn malerische Bildinventionen etwa lateinische Dichtung oder griechische Ekphrasis visualisieren. So haben wir es beispielsweise in der Staatskunst der griechischen Poleis, in den Residenzen der hellenistischen Könige und im Europa der Frühen Neuzeit mit Kulturen zu tun, in denen Herrschaftsdiskurs, Kult und Kunst hochdifferenzierte multimodale Rhetoriken auf überregionaler Ebene ausbilden. Will man an den universellen Rhetorikbegriff der Sophistik anknüpfen, so ist das Bildprogramm des Parthenon auf der Akropolis von Athen ein aufschlussreiches Beispiel einer multimodalen Persuasion mittels Bild und Körper. Zum Exemplum der europäischen Ideengeschichte wurde die Bildwelt des Parthenon zudem dadurch, dass sie auch anderen Epochen immer wieder als Vorbild diente. Eine politische Aussage sucht besonders der 160 m lange Tempelfries (Neils 2001, Abb. 4–5) zu formulieren, den man im Sinne des rhetorischen genus demonstrativum interpretieren kann: Denn er stellt das Geschehen am höchsten Fest der Polis Athen, an den Panathenäen, in einer repräsentativen Auswahl von etwa 378 Personen mit 245 Opfertieren und Reitpferden dar (Neils 2001, 33), und zwar in einer Parallelbewegung zum real vollzogenen Festzug. Dies geschieht ausschließlich durch die körperliche Präsenz der idealtypisch, zumeist in heroischer Nacktheit gebildeten Protagonisten, in kalkuliertem Verzicht auf jeglichen visuell fassbaren Orts- oder Zeitbezug. Der Tempel der Stadtgöttin wird durch das ornamentum des Frieses also zum Gegenstand einer staatlichen Panegyrik. Das potentielle Publikum des Bildprogramms ist freilich weiter gefasst als das einer Festrede: Nicht nur die in der skulpierten Prozession aufeinanderfolgenden Gruppen selbst werden angesprochen, sich wiederzuerkennen, sondern sie werden zugleich anderen Heiligtumsbesuchern fremder Poleis vorgeführt. Insofern erreicht das visuelle Lob des Festzuges aufgrund der exponierten Lage des Tempels eine Öffentlichkeit, die man nach antiken Maßstäben durchaus Massenpublikum nennen könnte. Einer Festrede hat das skulpierte Analogon also voraus, dass es, anders als das einmalige Ereignis der Rede, verschiedene Rezeptionssituationen impliziert. Seine differenzierteste Botschaft aktiviert der Fries im Turnus des Festes  – jährlich bei den Kleinen und vierjährlich bei den Großen Panathenäen. An diesen Tagen kommt, um sich an die politischen und religiösen Funktionsträger der Polis Athen zu wenden, 

Verbal-visuelle Rhetorik 

 235

ein bestimmtes Kunstkalkül, ein sophisma zum Einsatz: Denn indem die an den Langseiten des Tempels zum Ostportal hin bewegten Festteilnehmer des Reliefs die tatsächliche Prozessionsrichtung der jährlichen Kultgemeinschaft abbilden (Abb. 5), stellen sie als ornatus des Tempels zwischen diesem und den Bürgern eine Verbindung her. Indem die Handelnden des Frieses in Form von Exempla mit der realen Gemeinschaft kommunizieren, geben sie dem Kult eine Richtung vor. Erst im Festvollzug entfalten sie also ihren eigentlichen Sinn. Dabei geht es dem Schöpfer des Bildprogramms darum, alle relevanten gesellschaftlichen Gruppen – alte und junge Bürger, Reiterei, Teilnehmer der musischen Agone, kultisches Personal – als gleichberechtigte Akteure an der Übergabe des goldenen Peplos zu beteiligen und anzusprechen. Denn sie alle bewegen sich bei leichter variatio im selben Rhythmus auf das Zentrum der Komposition am Ostfries zu, wo die Versammlung von den Olympischen Göttern wohlwollend betrachtet wird. Der Auftraggeber Perikles (und möglicherweise der als episkopos der Akropolis genannte Phidias) entwarf im kultischen Zentrum der Akropolis ein Bildprogramm, das den Kult der Stadtgottheit Athena in den Dienst des modernen Demokratieverständnisses stellte. Indem die Götter während der Festprozession mit den Bürgern nahezu auf einer Stufe agieren (Abb. 6), kulminiert die Polis im Kultgeschehen.

Abb. 4: Ostfries des Parthenon. Nach Berger, Ernst/Madeleine Gisler-Hurwiler (1996): Der Parthenon in Basel. Mainz, Taf. 128.



236 

 Nadia Koch/Thomas Schirren


Abb. 5: Themen des Parthenonfrieses, schematische Übersicht. Nach Hurwit, Jeffrey M (1999): The Athenian Acropolis. Cambridge, 180 Abb. 147.



Verbal-visuelle Rhetorik 

 237

Abb. 6: Zentralszene der Peplosübergabe an Athena in Untersicht, Rekonstruktion. Nach Stillwell, Richard (1969): The Panathenaic Frieze. In: Hesperia 38, Taf. 63. 14.

Richtungsweisend für die modernen Bilddiskurse ist das Werk des Peter Paul Rubens. Als Fallbeispiel eignet er sich deshalb besonders, weil sein bildrhetorisches Interesse sowohl auf der kunsttheoretischen als auch auf der Werkebene offenbar ist. Seine Lektüren, philosophischen Haltungen und kunsttheoretischen Standpunkte erlauben, in seinen Werken eine Vielfalt bildrhetorischer Absichten nachzuverfolgen. Zentral ist seine neostoisch beeinflusste Lehre der Affektregulierung, die das Betrachten von körperlich stark affizierten Figuren und komplexen Gewaltszenerien als ästhetischen Reinigungsprozess begreift (Heinen 1996; Heinen/Thielemann 2001). So kann etwa der Zorn des Neptun (Abb. 7) zur Metapher schicksalhafter menschlicher Erschütterung werden. Man hat hier auch Verbindungen zur Poetik des Aristoteles hergestellt und das Ziel der Katharsis, wie sie für die Tragödie konstitutiv ist, am Werke gesehen (Brassat 2001). Betrachtet man sein bildnerisches Werk als Gesamtheit, so ergibt es eine Exempla-Sammlung von Affekten und ihren Wechselwirkungen, wie wir sie in dieser Ausführlichkeit sonst nur in der Rhetorik des Aristoteles überliefert haben. Richtungsweisend für die modernen Bilddiskurse ist das Werk des Peter Paul Rubens. Als Fallbeispiel eignet er sich deshalb besonders, weil sein bildrhetorisches Interesse sowohl auf der kunsttheoretischen als auch auf der Werkebene offenbar ist. Seine Lektüren, philosophischen Haltungen und kunsttheoretischen Standpunkte erlauben, in seinen Werken eine Vielfalt bildrhetorischer Absichten nachzuverfolgen. Zentral ist seine neostoisch beeinflusste Lehre der Affektregulierung, die das Betrachten von körperlich stark affizierten Figuren und komplexen Gewaltszenerien als ästhetischen Reinigungsprozess begreift (Heinen 1996; Heinen/Thielemann 2001). So kann etwa der Zorn des Neptun (Abb. 7) zur Metapher schicksalhafter menschlicher Erschütterung werden. Man hat hier auch Verbindungen zur Poetik des Aristoteles hergestellt und das Ziel der Katharsis, wie sie für die Tragödie konstitutiv ist, am Werke gesehen (Brassat 2001). Betrachtet man sein bildnerisches Werk als Gesamt-



238 

 Nadia Koch/Thomas Schirren


heit, so ergibt es eine Exempla-Sammlung von Affekten und ihren Wechselwirkungen, wie wir sie in dieser Ausführlichkeit sonst nur in der Rhetorik des Aristoteles überliefert haben.

Abb. 7: Peter Paul Rubens, Zorn des Neptun, Gemäldegalerie Dresden. Nach Hilaire, Michel (2013): Le goût de Diderot, Ausstellungskatalog Montpellier. Montpellier, 79 Abb. 22.

Kunsttheoretisch steht Rubens Franciscus Junius nahe (Heinen 1996, 22), der als Humanist besonders am universellen Rhetorikbegriff der Sophistik Interesse fand (Koch 2013). Sein Traktat De pictura veterum entwirft eine bis ins 18. Jh verbindliche Theorie der Bildproduktion, die auf dem oben skizzierten sophistischen Konzept von der Techne fußt (Junius 1637). Das Theoriegebäude verbindet Elemente der antiken Rhetorik, Kunsttheorie und Poetik mit der barocken ästhetischen Erfahrung zu einer universellen Lehre eines stetigen Wechsels von künstlerischem Schaffen und Kunstgenuss. Mittler ist die phantasia, die im rhetorischen Konzept vom Erhabenen zentrale Kategorie. Wie oben im Zusammenhang der Aristotelischen eidos-Konzeption erwähnt, spielt es für den Betrachter keine Rolle, ob er seine Einbildungskraft mit literarischen oder visuellen Vorlagen anreichert. Entscheidend für alle Medien



Verbal-visuelle Rhetorik 

 239

ist ihre unmittelbare Präsenz, die enargeia, die mit ekphrastischen Mitteln wie mit einer affektisch aufgeladenen Malweise gleichermaßen erzeugt werden kann. Der so immer wieder aktualisierte Bildthesaurus gibt nicht nur vor, wie Wahrnehmungen dekodiert werden, sondern er wird auch zur Quelle wirkmächtiger inventiones. Diese können in jedem beliebigen Medium, auch in multimodalem Zusammenspiel, ausgeführt werden. Hiermit kehrt Junius zur Mnemonik der Sophistik zurück, indem er die visuell vorstrukturierte memoria als das primäre Speichermedium des Menschen festsetzt.

4 Fazit Vor dem Hintergrund der Rhetorik als einer universalen Persuasionswissenschaft ist die Verbindung visueller und verbaler Codes naheliegend. Als wirkungsorienterte Verfahrensweise kann sich Rhetorik multimodal betätigen, und diese Kompetenz ist ihr schon in die sophistische Wiege gelegt worden. Man kann differenzieren, auf welche Weise und welche semiotische Kategorien in den jeweiligen multimodalen Persuasionsprozessen zur Anwendung kommen; Ausgangspunkt war aber eine Referenzlosigkeit des Logos, der sozusagen als pures und unmittelbares Wirkungsinstrument und -potential angesehen und als solches instrumentalisiert wurde. So betrachtet hat die Rhetorik erst im Zuge ihrer linguistischen Befragung gelernt, als Zeichensystem zu agieren. Denn auch die bereits klassische, rhetorische Unterscheidung von res und verba wird rhetorikpraktisch immer wieder unterlaufen, da dem Redenden bzw. Performierenden gerade die Identität des Bezeichneten und Bezeichnenden in actu einen nicht zu verachtenden Persuasionsschub verleiht (excitat quit dicit spiritu suo, nec imagine et ambitu rerum, sed rebus incendit „Wer spricht, erregt die Zuhörer mit seinem Atem, und nicht mit den Bildern und weitschweifende Darstellung, sondern mit den Dingen selbst entflammt er“ Quint. Inst. 10,1,16). Der Mensch als animal symbolicum (Blumenberg) bedarf dieser fiktiven Versicherung seiner Welt, die er sich selbst schafft. Wort und Bild sind die Codes bzw. Bausteine dieser Welt, aus denen der Produzent ein Werk fertigt, in das er die Rezipienten zu zwingen versucht; wenn ihm dies gelingt, hat er sein Ziel, die Überzeugung, eigentlich schon erreicht.

5 Literatur Barthes, Roland (1964): Rhétorique de l‘image. In: Communications 4, 40–51. Blum, Herwig (1969): Die antike Mnemotechnik. Hildesheim (Spudasmata, 15). Brassat, Wolfgang (Hg.) (2005): Bild-Rhetorik. Tübingen (Rhetorik. Ein internationales Jahrbuch, 24). Brassat, Wolfgang (2001): Tragik, versteckte Kompositionskunst und Katharsis im Werk von Peter Paul Rubens. In: Heinen/Thielemann (Hg.) (2001), 41–69.



240 

 Nadia Koch/Thomas Schirren


Daly, Peter M. (ed.) (2008): Companion to Emblem Studies. New York. Diels, Hermann/Walther Kranz (1960/61): Die Fragmente der Vorsokratiker: griechisch und Deutsch. 3 Bd. 10. Aufl. Zürich. Doelker, Christian (2007): Figuren der visuellen Rhetorik in werblichen Gesamttexten. In: Knape (Hg.), 71–112. Heinen, Ulrich (1996): Rubens zwischen Predigt und Kunst. Weimar. Heinen, Ulrich/Andreas Thielemann (Hg.) (2001): Rubens Passioni. Kultur der Leidenschaften im Barock. Göttingen (Rekonstruktion der Künste, 3). Heinimann, Felix (1961): Eine vorplatonische Theorie der Techne. In: Museum Helveticum 18, 105–130. Joost, Gesche/Arne Scheuermann (Hg.) (2008): Design als Rhetorik. Grundlagen, Positionen, Fallstudien. Basel (Board of International Research in Design). Junius, Franciscus (1637): De pictura veterum. Amsterdam. Kerferd, George B./Hellmut Flashar (1998): Die Sophistik. Basel (Grundriss der Geschichte der Philosophie: Die Philosophie der Antike, 2 (1)). Knape, Joachim (Hg.) (2007): Bildrhetorik. Baden-Baden (Studia spiritalia, 45). Knape, Joachim (2013): Bildtextualität, Narrativität und Pathosformel. Überlegungen zur Bildrhetorik. In: Petra Schöner/Gert Hübner (Hg.): Artium conjunctio. Kulturwissenschaft und Frühneuzeitforschung. Aufsätze für Dieter Wuttke. Baden-Baden, 297–334. Koch, Nadia J. (2000): Techne und Erfindung in der klassischen Malerei. München (Studien zur antiken Malerei und Farbgebung, 6). Koch, Nadia J. (2013): Paradeigma. Die antike Kunstschriftstellerei als Grundlage der frühneuzeitlichen Kunsttheorie. Wiesbaden (Gratia: Tübinger Schriften zur Renaissanceforschung und Kulturwissenschaft, 50). Neils, Jenifer (2001): The Parthenon Frieze. Cambridge. Newby, Zahra (2002): Testing the Boundaries of Ekphrasis. Lucian “On the Hall“. In: Ramus 31, 126–135. Pohl, Rainer/Thomas Schirren (2001): Lalia, Prolalia. In: Historisches Wörterbuch der Rhetorik 5, 23–28. Schirren, Thomas (1998): Aisthesis vor Platon. Stuttgart (Beiträge zur Altertumskunde, 117). Schirren, Thomas (2009): „Bewegte Bilder“ – Die rhetoriktheoretischen Grundlagen der Ekphrasis in den Eikones des älteren Philostrat. In: Claus Reinholdt u. a. (Hg.): Aiakeion. Beiträge zur Klassischen Altertumswissenschaft zu Ehren von Florens Felten anlässlich seines 65. Geburtstages. Wien, 129–142. Schirren, Thomas/Thomas Zinsmayer (Hg.) (2003): Die Sophisten. Stuttgart. Stöckl, Hartmut (2014): Rhetorische Bildanalyse. In: Netzwerk Bildphilosophie (Hg.): Bild und Methode. Theoretische Hintergründe und methodische Verfahren in der Bildwissenschaft. Köln, 379–392. Webb, Ruth (2009): Imagination and Persuasion in Ancient Rhetorical Theory and Practice. Aldershot.



Charles Forceville

10. Pictorial and Multimodal Metaphor Abstract: Over the past decades, metaphor has come to be seen as a trope that governs thought, not just language. A consequence of accepting this view is that its manifestations should be examined in semiotic modes other than language alone. Research of non-verbal metaphor has hitherto mainly focused on its role in gesturing and in visuals. This chapter provides an overview of issues that deserve attention in the investigation of pictorial (or: visual) metaphor, and of multimodal metaphor involving visuals. These issues include: monomodal versus multimodal metaphor; identifying non-verbal metaphor; creative versus structural metaphor; diegetic versus extradiegetic source domains; metaphor in static versus dynamic discourses; metaphor and genre; metaphor and other tropes. 1 Research Context – Development of the Field 2 Description of Methods 3 Analysis of Examples – Applications 4 Critical Appraisal of the Method(s) 5 Conclusions and Outlook 6 References

1 Research Context – Development of the Field Metaphor has been a much-debated trope from time immemorial. Aristotle helped establish its fame and appeal by claiming that metaphor is essential both for rhetoric and for poetry. Good metaphor use, he stated “cannot be acquired from someone else, and is a mark of genius” (1987, 32). Aristotle here surely was referring to the type of metaphors that Black (1979) labels creative metaphors: unexpected and insightful ways of presenting something by equating it with something from a different category. Lakoff and Johnson’s monograph Metaphors We Live By resulted in a renewed interest in metaphor. Defining metaphor as “understanding and experiencing one kind of thing in terms of another” (Lakoff/Johnson 1980, 5), the authors claimed that human beings think metaphorically, and systematically metaphorize abstract, complex phenomena in terms of concrete, embodied phenomena. What counts as concrete and embodied is anything that pertains to what is experienced via sensory perception and motor skills (see Johnson 1987). This arguably echoes Aristotle’s exhortation about where to find inspiration for appropriate metaphorizing: “these are the sources from which metaphors should be taken: from the beautiful either in sound or in effect or in visualization or in some other form of sense perception” (1991, 225).



242 

 Charles Forceville

Lakoff and Johnson (1980) fathered Conceptual Metaphor Theory (CMT), which had a major impact on Cognitive Linguistics-oriented scholarship. It soon transpired that certain embodied metaphors (e.g., TIME IS SPACE, EMOTIONS ARE FORCES, GOOD IS UP) are pervasive across cultures, but also that their use is fine-tuned in local varieties. While metaphorical thinking is thus rooted in the body, it also displays significant cultural differences (e.g., Gibbs/Steen 1999; Yu 1998; Kövecses 2005). CMT has in the past 35 years spawned many dozens of books, PhD projects and conferences, probably thousands of papers – and two journals: Metaphor and Symbol and Metaphor and the Social World. For an idea of its current state, Gibbs (2008) and Kövecses (2010) are the best overviews. Despite CMT’s success, it took a while before scholars within the paradigm began to investigate one fundamental consequence of accepting the idea that metaphor is “primarily a matter of thought and action and only derivatively a matter of language” (Lakoff/Johnson 1980, 153): it should not only be possible that metaphors exist in non-verbal modalities; this would necessarily be the case; if not, CMT’s impressive findings about the systematicity of human metaphorizing might in the last resort be a feature of language alone, not of cognition. Two strands of CMT-friendly research explored non-verbal and not-purely-verbal manifestations of metaphorical thought. One strand pertains to the role that gestures play in conveying metaphors in spoken language. Key studies in this area are Müller (2008) and Cienki/Müller (2008). The basic idea here is that conceptual metaphors used in language are strengthened, or nuanced – and sometimes even created or contradicted – by people’s gestures. For example, a person might “weigh” the pros and cons of an issue by holding both hands, palms turned upwards, in front of the body and in line with the spoken language move them up and down vertically as if they were scales. Or he might invoke the TIME IS SPACE metaphor by waving toward the area in front of him as constituting the “future”. The second strand pertains to metaphors consisting of, or involving, visual information. Forceville’s (1996) project was premised on CMT’s rejection of the idea that metaphors could only manifest themselves in language, but in focusing on creative rather than on structural examples was actually more indebted to the “interaction theory” developed by Black (1979). While this early work pertained to print and billboard advertising, El Refaie (2003) broadened the examination to metaphors in political cartoons. CMT perspectives on metaphor in film are adopted for instance in Coëgnarts and Kravanja (2014) and some contributions in Fahlenbrach (2016). It became increasingly clear, however, that many metaphors are not cued in a single mode/modality, but draw on two or more modes simultaneously. Monomodal metaphors are “metaphors whose target and source are exclusively or predominantly rendered in one mode” (Forceville 2006, 383), while multimodal metaphors are “metaphors whose target and source are each represented exclusively or predominantly in different modes” (Forceville 2006, 384). Forceville and Urios-Aparisi (2009) present eighteen chapters focusing on various combinations of modes to create multimodal 

Pictorial and Multimodal Metaphor 

 243

metaphors in a range of media and genres. In this chapter I will mainly focus on metaphors involving visuals and written language.

2 Description of Methods A metaphor imposes an identity relation between two ‘things’ that are conventionally (or in a given context) considered as belonging to different categories. The result is usually an untrue statement (e.g. man is a wolf); but as Black (1979) pointed out, focusing on the true/false distinction in metaphor is fundamentally misguided. What good metaphors do is provide new perspectives on target domains, or even impose structure where before there was none. Each metaphor has two parts. In older models the first, “literal” part was often called the tenor, topic, or primary subject (Black 1979) and its second, “figurative” part the vehicle or secondary subject (Black 1979). They are now usually labeled target (domain) and source (domain), respectively. In “the world is a stage” (Shakespeare) and “football is war” (attributed to coach Rinus Michels), “world” and “football” are the metaphors’ targets, “stage” and “war” their sources. Both target and source evoke a network of features and connotations. They could thus be said to be part of a “semantic domain,” as long as this labeling does not obscure the awareness that attitudinal, emotive, as well as belief-related dimensions are part and parcel of both target and source domains, while moreover pragmatic considerations (such as genre-attribution) also play a crucial role in interpretation. Often the underlying identity relation between target and source (“A IS B”) is not already linguistically given in this form, but must be inferred from the metaphor’s surface manifestation. Several phrases in Pat Benatar’s 1980s hit single Love is a battlefield, such as “if your heart surrenders, you’ll need me to hold,” cue LOVE IS A BATTLEFIELD without having the convenient “A is B” surface structure. Three important points are to be made: (1) a metaphor often needs to be construed; and not every reader/viewer/analyst will do so; (2) sometimes, a target domain is to be recruited completely from extra-textual cues, for instance when a textually presented and exploited source domain suggests a state of affairs in the world that is critically evaluated in the metaphor ([BAD] STATE OF AFFAIRS IN THE WORLD IS REPRESENTED ACTIONS.) Among other things, this is a way to escape censorship; think of animation films “for children” in dictatorial regimes, or fables; (3) if the A and B are not already verbally given in the surface construction, the underlying A and B are to be labeled by the analyst, and this labeling may subtly “change” the metaphor. LOVE IS A BATTLEFIELD is not exactly the same as LOVE IS WAR and LOVE IS A STRUGGLE.



244 

 Charles Forceville

Once target and source have been construed, the metaphor is ready to be interpreted. Interpretation of a metaphor boils down to mapping (or “projecting”, Black 1979) at least one feature (connotation, value, attitude, emotion) associated with the source onto the target. Often a set of features that are structurally related in the source domain is mapped as a whole (or as far as seems relevant) onto the target domain. In this way, a well-chosen source domain can impose structure on an unknown target domain. This may occur as a heuristic in science (cf. e.g. Gentner/Jeziorski 1993); or it may provide a fresh view on a well-known target domain (cf. Indurkhya 1991), as happens in much poetry, or in persuasive communication. In view of the growing awareness that metaphors are dynamic, inviting actions, and are capable of elaboration or refinement (Cameron et al. 2009), finally, it may be useful to replace the standard formula A IS B by the formula A-ING IS B-ING, to emphasize that most metaphors function by inviting mapping what can be (mentally) done with/to/by … the source domain onto what can be (mentally) done with/to/by … the target domain. To sum up: interpreting something as a metaphor requires deciding (1) which are its two parts; (2) which is its target and which its source; and (3) which feature(s) is/ are to be mapped from source to target (Forceville 1996, 108). This sounds relatively simple and doable in the case of exclusively verbal discourse, but applying this model to non-verbal and multimodal communication poses extra challenges. After all, while language has the copula is at its disposal to impose an identity relation between target and source, or at the very least has grammar to guide its construal, visuals and other non-verbal modalities do not help us in this way. In short, to declare that metaphors can be expressed non-verbally and multimodally calls for other procedures that enable us to postulate a metaphorical identity-relationship between two phenomena belonging to different categories. Before addressing this crucial issue, however, the term multimodality must be clarified. Discussing multimodal metaphor would seem to require agreement on what counts as a mode/ modality. As the minefield of definitions and approaches sketched in Klug/Stöckl (2015) and represented in Jewitt (2013) shows, this is a daunting task; in fact it is so daunting that I circumvent it and opt provisionally for the following list of modes: spoken language, written language, visuals, music, sound, gestures, smell, taste, and touch. On the basis of his subdivision, I have proposed to distinguish monomodal and multimodal metaphor. The similarity between target and source in monomodal metaphors is cued by resemblance between them; this resemblance can take many forms. The similarity between target and source in multimodal metaphor is cued by co-referentiality (for instance: a seemingly smiling Orang-Utang accompanied by the text Mona Lisa in a billboard for the Amsterdam zoo Artis, yielding ORANG-UTANG IS MONA LISA, Forceville 1996, 158) or co-occurrence (for instance, an animated corncob and French bean solemnly stride toward a church-like package, accompanied by the tune of the Wedding March, yielding CORNCOB AND FRENCH BEAN ARE BRIDE AND BRIDEGROOM, Forceville 2009, 388).



Pictorial and Multimodal Metaphor 

 245

At least in theory, that is, we could have monomodal metaphors of the written-verbal, spoken-verbal, visual, musical, sonic, and gestural subtypes, while multimodal metaphors can draw on any permutation of two or more of these modalities. If we then take into account that we need to differentiate between whether a mode cues the target or the source; and that olfaction, taste (cf. Plümacher/Holz 2007), and touch qualify for modal status as well, the possibilities for postulating monomodal and multimodal metaphors of various types become intimidatingly large. However, of these theoretically possible subtypes only the ones involving (1) visuals in combination with (written or spoken) language, music and sound; (2) spoken language in combination with gestures; (3) and the combination of language and music (cf. Zbikowski 2009) have hitherto attracted systematic attention. Which other types exist, and how they can yield meaning, as well as whether more (sub)modes need to be postulated remains a matter for future research (cf. Forceville 2006 for more discussion). But whatever new types and developments may be discovered, they should, I propose, fit the following idea: Each metaphor has a surface manifestation whose appearance depends on the medium in which it occurs, since each medium enables (or “affords”) some modes but not others. For an identity-relationship to qualify as a metaphor, it should be possible to formulate a “conceptual” A IS B – however awkward this formulation may be (it is an approximation, after all, of what, presumably, is the underlying “mental” form that gives rise to it, or at least that enables us to discuss it). In the next section I will comment on other dimensions that need to be taken into account when analyzing purportedly pictorial/visual and multimodal metaphors, borrowing some examples I have used in earlier publications.

3 Analysis of Examples – Applications 3.1 Static versus Dynamic Discourses In static pictures and multimodal discourses involving static pictures and language both the identification of target and source and the mappable features must be identifiable more or less at a glance. In Forceville (1996) four subtypes of pictorial/visual metaphor were identified.

3.1.1 MP1 or Contextual Metaphor The principle here is that a visually rendered object is turned into the target of a metaphor by being depicted in a visual context in such a way that the object is presented as if it were something else – the source. A subtle example is provided by figure 1. We here see a design bag mounted on a pedestal in such a way that we are invited to con

246 

 Charles Forceville

strue the metaphor DESIGNER BAG IS SCULPTURE. Cues are the visual context of the pedestal and the spatial context of a museum – in fact specifically the Rijksmuseum in Amsterdam. This example clearly demonstrates the need for background knowledge: whoever does not recognize the pedestal for what it is, and/or does not identify the (Rijks)museum context, will not construe a metaphor. Incidentally, the fact that this ad appeared in the magazine of the upmarket Bijenkorf department store at the time of the re-opening of the Rijksmuseum in 2013, combined with the circumstance that this was one in a series of ads that all sported the CONSUMER GOOD IS SCULPTURE metaphor, helps the construal of the metaphor at least for the designated audience. But the point to be emphasized here is the categorization of the subtype: it is the visual context that provides the source. If one removes the bag from the pedestal and puts it on the floor of a different type of building, the metaphor is no longer there. The invited mapping, surely, is the prestige and aesthetics attached to (Rijks)museum-quality sculpture. Note that if the label “Rijksmuseum” had been included in the picture (perhaps in a plaque in the background saying “in memory of the restoration of the Rijksmuseum, 2013”), this example would have verged toward the multimodal variety.

Fig. 1: Contextual monomodal (pictorial/visual) metaphor: DESIGNER BAG IS SCULPTURE, Bijenkorf Magazine, April 2013.



Pictorial and Multimodal Metaphor 

 247

3.1.2 MP2 or Hybrid Metaphor What is typical of this subtype is that the target and the source have been physically integrated. We can recognize both, but we cannot “disentangle” them; they form a single gestalt. An example of this type is figure 2, a cartoon analysed by El Refaie (2009): here we see George Bush depicted as a toddler, the former cued by the head, the latter by his crawling way of moving. What is mapped from “toddler” to “Bush” is something like “(irresponsible) childishness.”

Fig. 2: Pictorial/visual metaphor of the hybrid type: GEORGE BUSH IS TODDLER. Cartoon by Nicholas Garland, Daily Telegraph, 2–11–2004.

3.1.3 Simile In this subtype, the target is saliently compared to a source, which it resembles in one way or another. This can be done visually by various means: for instance by juxtaposing target and source, by presenting them in the same form or posture, by depicting them with the same attention-drawing colour or in the same (deviant) style, by lighting them identically … – or by any combination of these. Figure 3 provides an example: the Nespresso coffee machine is juxtaposed to a New York-like skyline, inviting the metaphor NESPRESSO COFFEEMACHINE IS LIKE SKYSCRAPER. The intended mapping, state-of-the-art design, is suggested by the tag line, “CITIZ high design by Nespresso.”



248 

 Charles Forceville

Fig. 3: Pictorial/visual simile: COFFEE MACHINE IS CITYSCAPE, Bijenkorf Magazine, May 2009.

3.1.4 Verbo-Pictorial Metaphor In retrospect, it was misleading to categorize this as a subtype of pictorial/visual metaphor, as I did in Forceville (1996) since, in fact, the examples discussed under this subtype are unambiguous multimodal specimens of the verbo-pictorial variety. Figure 4 features two clear examples. I propose that in 4a we construe the metaphor BOXING IS CHESS and in 4b CHESS IS BOXING. If this is accepted, this means that, in the absence of any contextual cues, we construe the visual element as the target, and the verbal element as the source, rather than vice versa. My interpretation of 4a would be something like “Good boxing requires all the planning and intellectual creativity of good chess-playing,” and for 4b I suggest, “Good chess-playing requires the forcefulness and brutality of good boxing.” Incidentally, the reason we are likely to construe a metaphor here is that this is the only way in which this word & image combination achieves relevance (cf. Sperber/Wilson 1995).



Pictorial and Multimodal Metaphor 

Fig. 4a: BOXING IS CHESS (roll-down shutter “BKB – Het Campagnebureau” (Amsterdam, NL, 2014).

 249

Fig. 4b: CHESS IS BOXING (roll-down shutter “BKB – Het Campagnebureau” (Amsterdam, NL, 2014).

3.1.5 Integrated Metaphors or Product Metaphors The work by Thomas van Rompay and Nazli Cila, suggests a fifth category, which, however, only works for three-dimensional objects. Van Rompay (2005) researched how three-dimensional products (and by extension, I propose, buildings) lend themselves to metaphorizing by creating a product (the target) that assumes crucial formal qualities of something else (the source), with the goal of bestowing formal and/or conceptual features associated with that source onto that product. In Forceville (2008) I labeled this new category “integrated metaphors.” Cila (2013) extensively investigated how designers could be stimulated to create good specimens of such metaphors; she uses the term “product metaphors”. It is to be noticed that this category resembles the hybrid metaphor category, but that there is one crucial difference: whereas the hybrid metaphors depict non-existing gestalts (Carroll 1996 would call them “homospatially noncompossible”), the product metaphors very much physically exist in the real world. A good product metaphor presumably cues its source immediately, but of course its identification may be helped by a well-chosen name, as in figure 5 – in which case it verges toward the multimodal type. Cila (2013) emphasizes that a successful product metaphor draws on a source domain that suggests something of the product’s (= target) function.



250 

 Charles Forceville

Fig. 5: Product metaphor/integrated metaphor “Sister Lamp”, designed by José Manuel Ferrero: LAMP IS SISTER (example via Nazli Cila; see Cila 2013).

The types discussed above all feature static metaphors, which need to cue both target, source, and (potential) mappings in one glance. By contrast, time-based discourses are not constrained in this way. In these, target and source can be cued sequentially and the same holds for its various mappings. This means that the awareness that a metaphor is to be construed in the first place may become clear only after a while. We may be confronted with two phenomena, one after the other, in such a way that only after we have correctly processed the second phenomenon (seconds, minutes, or months later, depending on whether we watch a commercial, a person making a gesture while talking; a feature film; or a 24-instalment TV series) we understand that we are presented with a metaphor. A second important point is that time-based discourses may tend toward multimodality even more than static discourses. We may legitimately ask to what extent the typology of metaphors as sketched above (developed on the basis of studying static pictures and objects, and all exemplifying monomodal metaphors of the visual variety) applies to metaphors in dynamic discourse. Actually it does for visual metaphors in film, since a metaphor can unprob-



Pictorial and Multimodal Metaphor 

 251

lematically be created by contextualizing, hybridizing or juxtaposing a target by/with a source. The five types discussed above of course constitute “prototype categories” in the sense of Lakoff (1987). In practice, many specimens of metaphor display features belonging to more than one prototype. Categorizing a specimen as belonging to one type rather than another as such, of course, is not yet very informative; the possible usefulness of categorizing resides, as always, in its power to aid the detection of patterns. For instance, the hybrid type tends to be rather emphatic, and not every metaphor maker may like the idea that the target literally merges with a source. In my analysis of 27 computer ads of the type COMPUTER IS X (Forceville 2000), for instance, I found very few hybrids. I speculated that a reason for this might be that advertisers do not like to “compromise” their product by physically merging it with something else. Van Mulken et al. (2010) found that participants in an experiment considered hybrids more deviant than similes, and contextual metaphors more complex than both similes and hybrids. Significantly, however, this did not lead, as had been hypothesized, to a greater appreciation: “Understanding relatively difficult visual metaphors does not lead to an enhanced appreciation of the advertisement” (van Mulken et al. 2010: 3427). But the effect of choosing one subtype over another  – to be complemented by including multimodal metaphors of the verbo-visual variety)  – clearly requires extended experimental research.

3.2 Intradiegetic or Extradiegetic Source Domain? The degree of salience with which a source is cued is, I propose, to a considerable extent related to the question whether its presence is realistically or quasi-realistically motivated. In narratological terms, we would ask whether the source is part of the diegesis, that is, of the story or scenario (cf. Musolff 2006) that is presented at the moment we are presented with the metaphor, or whether it is not (which would make it extradiegetic or non-diegetic). In the case of the latter, we immediately realize there is something odd or “unnatural” about the presence of the source in the stretch of discourse at hand, which thus alerts us to the possibility that we need to construe a metaphor. In the former situation, the presence of the source somehow makes sense (or: with a little suspension of disbelief, can be interpreted to make sense) in its own right. Famous examples of extradiegetic source domains occur in Sergej Eisenstein’s films. At the end of Strike (1925), we see soldiers massacring innocent people; and these scenes are cross-cut with butchers slaughtering cattle. Since the slaughtering butchers are not part of the ongoing action of the soldiers pursuing the people, the source domain is completely extra-diegetic. By contrast, in a scene in Fellini’s La Strada (1954), we see the simpleminded heroine Gelsomina watching a procession of the Holy Virgin. The film cross-cuts between the enchanted Gelsomina and the statue of the Holy Virgin, and moreover, by a subtle camera movement, makes visible on the wall behind Gelsomina a poster in which the phrase “Madonna Immacolata” stands 

252 

 Charles Forceville

out. Combined with other narrative information, this invites the viewer to construe the multimodal metaphor GELSOMINA IS HOLY VIRGIN; since both the procession and the poster are part of the ongoing action, the source domain’s presence is diegetically/realistically motivated. It is noteworthy that there is nothing intrinsically better about the one or the other. Which is to be preferred depends on the goals of the metaphorizer. We can say, though, that by and large a metaphor with an extradiegetic source is probably more “didactic” than a diegetic source, forcing addressees to construe a metaphor (since there is no other motivation for the source’s presence) and to ponder its pertinent mappings. I venture that instructional films, books, and other media are likely to make deliberate use of a non-diegetic source in order to make a point. By contrast, the genre of advertising may urge creators to find a (quasi)realistic motivation for the presence of the source. This makes sense because it downplays the artificiality that, by definition, characterizes any metaphor, at least any creative metaphor: the imposition of an identity-creating relationship between two phenomena from different categories. Choosing a source domain that is, or could belong, to the scenario in which the target functions will make the metaphor seem less far-fetched. The diegetic-nondiegetic distinction, incidentally, straddles the monomodal-multimodal one. Two caveats are in order: a dynamic discourse can develop a scenario which gradually (quasi)motivates the presence of the source; and an advertiser may, tongue-in-cheek, want to flaunt the far-fetchedness of the metaphor.

3.3 Genre It is impossible to overestimate the influence of genre as a factor co-determining the construal of metaphors, and their interpretation, in multimodal discourse. Indeed, genre-attribution is, I insist, the very first decision we take  – albeit often subconsciously – once we are confronted with a discourse or a representation. Genre is the discursive equivalent of what Goffman (1974) called activity type and is the single most important pragmatic element governing the interpretation of “texts.” As soon as we know (or think we know) to what genre a discourse belongs, we recruit a whole range of expectations that steer and constrain our interpretations. Applied to visual and multimodal metaphors this means for instance that if we construe a metaphor in an advertisement or commercial with the target being (metonymically related to) the product – a typical situation – we know that we are to map only positive connotations from source onto target. In political cartoons, which critically portray a state of affairs, or a well-known person or stock character (often: a metaphor’s target), the genre invites us to map only negative connotations. A metaphor occurring in a pedagogical textbook is more likely to invite an internally structured set of mappings from source to target than a single feature (cf. e.g. Gentner/Bowdle 2008). A visual or multimodal metaphor in a feature film is not necessarily governed by the positive-negative



Pictorial and Multimodal Metaphor 

 253

continuum prevailing in advertising and cartoons, respectively. A metaphor in a film may for instance help characterize a protagonist, or an event.

3.4 Creative versus Structural Metaphors The examples hitherto discussed are all more or less creative metaphors  – which Lakoff and Turner (1989, 89), somewhat unfortunately, call “image metaphors”. They trigger novel, one-off mappings from a source to a target. The examples hitherto discussed are of this type. By contrast, the “metaphors we live by” are on the whole not creative but structural: they name correspondences that lay bare how we systematically understand “one thing in terms of another” (e.g. TIME IS SPACE, GOOD IS, UP/ BAD IS DOWN, EMOTIONS ARE PHYSICAL FORCES, and ARGUMENT IS WAR). This line of metaphor theory is exciting because it helps reveal the very “templates” of our thinking. Research on non-verbal and multimodal manifestations of structural metaphors is relatively young. Most metaphors involving gestures appear to be of this kind. Multimodal metaphor research in film has made forays with respect to LIFE IS A JOURNEY (e.g. Forceville 2006, 2013; Forceville/Jeulink 2011; Kromhout/Forceville 2013) and GOOD IS UP/LIGHT versus EVIL IS DOWN/DARK (Forceville/Renckens 2013); see also Urios-Aparisi (2010). It is to be realized, though, that there is a continuum rather than a dichotomy between “creative” and “structural” metaphors. A structural metaphor may be used in a context such that “new” mappings arise or be cued. Conversely, many supposedly “creative” metaphors are rooted in structural ones (Lakoff/Turner 1989). Moreover, creativity in metaphor may also reside in the choice of mode(s) (Forceville 2012).

3.5 Monomodal or Multimodal Metaphor? The definitions of monomodal and multimodal metaphor provided in section 1 are fairly straightforward – but their application is often less so. For one thing, written texts are exceptional in being more or less completely monomodal (discounting elements such as font type, lay-out, and cover design, which some scholars would consider “modes” in their own right). Communication in other media is less often so purely monomodal: static pictures are combined with language; spoken language is accompanied by gestures; animation shots have music and sound effects. All of these combinations can spawn metaphors. It makes sense to postulate a continuum between monomodal and multimodal metaphors. But as long as there are prototypical examples for any postulated category (cf. Lakoff 1987) – as I submit is the case here – the distinction between monomodal and multimodal metaphor makes sense. That being said, some qualifications need to be made. My definition stipulates that in a multimodal metaphor both target and source are rendered “exclusively or pre

254 

 Charles Forceville

dominantly” in different modes. Figures 4a and 4b exemplify this type  – but they are fairly exceptional. Often a target and/or source are cued in more than one mode. How necessary each of the modes is for identification of target and source may differ from one addressee to another. That is, what for one person would be a monomodal metaphor of the pictorial variety, would for another be a multimodal metaphor of the pictorial-verbal variety (for more discussion, cf. Bounegru/Forceville 2011). For present purposes, what matters is that it may depend on the context of access, or the addressee’s background knowledge, whether a given metaphor is considered to be monomodal or multimodal. One final remark needs to be made here. Even if the identification of target and source alone may be a monomodal affair, a full appreciation of a metaphor’s meaning depends on mapping appropriate (clusters of) features from source to target. These may be cued in various modes. Even if identification of target and source remains the defining criterion for distinguishing between monomodal and multimodal metaphors, recruiting the “right” features may depend on recruiting information cued in more than one mode. Such intricacies clearly nuance the overall distinction between monomodal and multimodal metaphor (and by extension between monomodal and multimodal discourse).

3.6 Metaphor and Other Tropes Black was right to warn that his model of interactive metaphor holds only for metaphor in the narrow sense, deploring the tendency “to regard all figurative uses of language as metaphorical, and in this way to ignore the important distinctions between metaphor and such other figures of speech as simile, metonymy, and synecdoche” (Black 1979, 20). This caveat should be taken to heart by students of non-verbal and multimodal metaphor as well. Metaphor is one trope among many, and it remains to be examined which other tropes do have a non-verbal or multimodal sister (or brother, or cousin). Unsurprisingly, given that CMT scholars have only rather late begun to pay systematic attention to other verbal tropes besides metaphor (Gibbs 1993; Barcelona 2000; Dirven/Pörings 2002), work on visual, let alone multimodal, varieties is still scarce. Here is a short list of pertinent studies. Abed (1994) is an early study focusing on verbo-visual puns. Teng and Sun (2002) extend Forceville’s (1996) “simile” subtype to theorize pictorial oxymoron, and also propose that the phenomenon of “pictorial grouping” qualifies for trope status (cf. also Teng 2009). Forceville (2009) shows how pictorial and multimodal metonyms can be no less creative and exciting than their more ‘famous’ metaphor siblings. Villacañas and White (2013) demonstrate how the Spanish artist Chema Madoz’ long-running campaign for a clothing brand depends on intriguing visual metonyms. Krasovska (2013) investigates 5780 visual and verbo-visual metonyms in Latvian posters, ads, and internet banners, partly drawing on Cicero’s discussion of the verbal variety of this trope. She also points out that meto

Pictorial and Multimodal Metaphor 

 255

nyms in verbo-visual discourse often co-occur with other tropes, such as metaphors, puns, and allusions. Negro Alousque (2014), examining twelve political cartoons by El Roto and Erlich in the Spanish newspaper El País reasons along similar lines. She emphasizes the central role of metonymy in political cartoons. Among her conclusions are that “part for whole metonymy seems to provide the basis for numerous metaphors” (Negro Alousque 2014, 78) and, with reference to the monomodality-multimodality continuum, that “the target and source of the metaphors are represented primarily in visual and verbal terms, whereas metonymies are encoded visually” (Negro Alousque 2014, 78). Finally, despite the fact that the best-known journal in the discipline is called Metaphor and Symbol, the latter trope has been virtually ignored by CMT scholars (for some thoughts on the idea that symbols are a special type of metonyms, cf. Forceville 2013).

4 Critical Appraisal of the Method(s) Research into visual and multimodal metaphor is still in its infancy, and it is too early to pass definitive judgements on its merits and problems. An important issue, as with verbal metaphor (cf. Pragglejaz 2007), remains the question what “textual” cues in a multimodal discourse are necessary to trigger the construal of a metaphor. This remains a very difficult matter for two reasons. In the first place, as stated, visual and multimodal metaphors have hitherto been insufficiently distinguished from non-verbal and multimodal varieties of other tropes: identifying such a metaphor can only be done if the identification procedure can distinguish between metaphors and other tropes. As suggested, most of the work on other tropes is still to be done. The second reason that problematizes identification procedures is that, as discussed above, the question whether a metaphor is construed or not may sometimes differ per individual. I thus agree that what we do know about how interpretation of visual metaphors takes place is that consumers use deviation from expectation in the […] image […] as a cue to stop seeing the image as a straightforward representation and to start thinking about possible metaphorical interpretations (Šorm/Steen 2013, 3).

Indeed, probably in most cases the awareness that two things are somehow “oddly” equated (a trigger for the possible construal of a metaphor – but also of other tropes, and non-tropes!) is almost inescapable (as for instance in the SHOE IS TIE and EARTH IS CANDLE examples discussed in Forceville 1996). But in other cases the construal depends on the perceptiveness and/or the “cognitive environment” (Sperber/Wilson 1995, 38) of the viewer (e.g. cf. fig. 1), as the depicted scene does not dictate a metaphorical reading. This means that “visual incongruity” (Šorm/Steen 2013, 26) is not a necessary criterion, a possibility that is briefly acknowledged by these authors in their 

256 

 Charles Forceville

discussion section (p. 30). Furthermore, while Šorm and Steen (2013) usefully break down the analyses of visual metaphor processing by viewers into several components (such as target construction, source construction, metaphor recognition, metaphor appreciation), they unfortunately do not distinguish between pictorial/visual and multimodal metaphors. For them, all verbal elements in their 12 item corpus (three ads, three cartoons, three brochures, and three works of art) are part of the context that “may help perception of metaphor-related objects or determining the metaphor’s meaning” (Šorm/Steen 2013, 26). Their stimulus 7, a cartoon visually featuring a hospital scenario, for instance, depends entirely on the verbal text for identification of the target, banking/bankers, and is therefore in my terminology unambiguously a multimodal metaphor of the verbo-pictorial variety. Similarly, it is unclear how many viewers would access the source domain in stimulus 4 (a Magritte painting called Checkmate) without the title. Here is another issue on which I disagree with these authors: while Šorm and Steen acknowledge the importance of genre in their experimental setup, I find it problematic that they represent the “visual art” genre by three Surrealist paintings, given the subversive nature of Surrealism (cf. Forceville 1988, 2002). Finally, the authors were right not to want to influence their participants by presenting verbalizations of the metaphors to them; but it would have been good if they themselves had committed themselves, in their discussions, to verbalizations of the A IS B format, since this would have helped attest their examples status as metaphors (rather than something else). The issue of the extent to which text-internal cues suffice to construe a metaphor and the extent to which pragmatic knowledge of various types is essential remains a thorny one. Schilperoord and Maes (2009) state that they “intend to account for the metaphoric conceptualization and critical stance of editorial cartoons in terms of what is actually shown in the image, rather than in terms of the cultural and external discourse context” (Schilperoord/Maes 2009, 219; emphasis in original). In my view they overestimate the degree to which it is possible to leave out pragmatic knowledge, specifically pertaining to genre-attribution, for the identification of the multimodal metaphors in the cartoons they discuss.

5 Conclusions and Outlook The theorization of non-verbal metaphor has only just begun  – as indeed has the study of multimodality as a whole. Actually, the challenges facing the former epitomize many of those in the latter. One issue that requires much more thought is what should count as a mode. In this chapter, as in my earlier work, I have been practical by simply postulating modes; I feared that if I would get bogged down in terminological and definitional issues, the stage of applying the concept (in whatever sense) would never be reached at all. However, the issue cannot be ignored, if multimodality



Pictorial and Multimodal Metaphor 

 257

is further going to develop into a serious academic discipline. But if mode is used for any variable that contributes meaningful information in discourse instead of as a technical term, the catalogue of modes will prove endless, meaning that the concept loses all discriminatory force. Even within the limits of my provisional list of modes there are numerous honorable scholarly projects to be conducted in the area of multimodal metaphor (and by extension of multimodal discourse). Let me sketch a few. Multimodality investigates how meaning emerges from the interaction between two or more modes. This means that the modes partaking in the multimodal metaphor/discourse need to be sufficiently well theorized on their own terms first – and subsequently require the analyst to be fairly well versed in both. The linguist thus needs to acquire expertise on visual discourse; the film scholar must invest time and energy in understanding music and acknowledge that language plays a major role in film. On that premise, there is a vast number of permutations of two or more modes that, at least in theory, give rise to a multimodal metaphor/discourse. Even the bestknown combination, the one drawing on word and image combinations, however, is only beginning to be understood (cf. Bateman 2014 for leads). It is notable, moreover, that for instance film scholars and comics scholars have a tendency to focus primarily on information provided by the visual mode, at the expense of the verbal mode; linguistic expertise and sensibility should here complement scholarship pertaining to the visual. More generally, my own sense is that it would be helpful to have a supramodal, and even supra-medial, model for analyzing communication. As a matter of fact, that model already exists in the form of Relevance Theory (Sperber/Wilson 1995); but this theory is in need of further development (cf. Forceville 2014 and Forceville and Clark 2014 for proposals). A second avenue for further research is studying multimodal metaphor/discourse with reference to genre. Metaphors undoubtedly have different functions in art films, advertising, cartoons, Facebook pages, and pedagogical text books, and they must therefore be systematically studied within, and compared across, genres. A third point for consideration is the host of other tropes besides metaphor that (may) have non-verbal and multimodal manifestations. Like the proverbial hammer that always seeks a nail, the current predominant focus on metaphor threatens to impoverish the rhetorical toolkit we need to compile for nuanced analysis of rich multimodal metaphor/discourse. Finally, rigorous theorizing and defining of terms can, and should, lead to the kind of hypotheses that in turn are testable in corpus research and in lab experiments. Here lie fine opportunities for cooperation between humanities scholars and social scientists.



258 

 Charles Forceville

6 References Abed, Farough (1994): Visual puns as interactive illustrations. Their effects on recognition memory. In: Metaphor and Symbolic Activity 9, 45–60. Aristotle (1987 [c.350 BC]): Poetics. Transl. and ed. by R. Janko. Indianapolis. Aristotle (1991 [c.350 BC]): On Rhetoric. A Theory of Civic Discourse. Transl. and ed. by G. A. Kennedy. New York. Barcelona, Antonio (ed.) (2000): Metaphor and Metonymy at the Crossroads. A Cognitive Perspective. Berlin. Bateman, John (2014): Text and Image. A Critical Introduction to the Visual/Verbal Divide. London. Black, Max (1979): More about metaphor. In: Andrew Ortony (ed.): Metaphor and Thought. Cambridge, 19–43. Bounegru, Liliana/Charles Forceville (2011): Metaphors in editorial cartoons representing the global financial crisis. In: Journal of Visual Communication 10, 209–229. Cameron, Lynne/Robert Maslen/Zazie Todd/John Maule/Peter Stratton/Neil Stanley (2009): The discourse dynamics approach to metaphor and metaphor-led discourse analysis. In: Metaphor and Symbol 24, 63–89. Carroll, Noël (1996): A note on film metaphor. In: Noël Carroll: Theorizing the Moving Image. Cambridge, 212–223. Cienki, Alan/Cornelia Müller (eds.) (2008): Metaphor and Gesture. Amsterdam. Cila, Nazli (2013): Metaphors We Design By. The Use of Metaphors in Product Design. Unpublished PhD thesis Technical University Delft, NL. Coëgnarts, Maarten/Peter Kravanja (eds.) (2014): Image [&] Narrative 15 (1). Dirven, René/Ralf Pörings (eds.) (2002): Metaphor and Metonymy in Comparison and Contrast. Berlin. El Refaie, Elisabeth (2003): Understanding visual metaphors. The example of newspaper cartoons. In: Visual Communication 2, 75–95. El Refaie, Elisabeth (2009): Metaphor in political cartoons. Exploring audience responses. In: Forceville/Urios-Aparisi, 173–196. Fahlenbrach, Kathrin (ed.) (2016): Embodied Metaphors in Film, Television, and Video Games: Cognitive Approaches. London. Forceville, Charles (1988): The case for pictorial metaphor. René Magritte and other Surrealists. In: Aleš Erjavec (ed.): Vestnik 9. Ljubljana, YU, 150–160. Forceville, Charles (1996): Pictorial Metaphor in Advertising. London. Forceville, Charles (2000): Compasses, beauty queens and other PCs. Pictorial metaphors in computer advertisements. In: Hermes: Journal of Linguistics 24, 31–55. Forceville, Charles (2002): The identification of target and source in pictorial metaphors. In: Journal of Pragmatics 34, 1–14. Forceville, Charles (2006): Non-verbal and multimodal metaphor in a cognitivist framework. Agendas for research. In: Gitte Kristiansen/Michel Achard/René Dirven/Francisco Ruiz de Mendoza Ibàñez (eds.): Cognitive Linguistics. Current Applications and Future Perspectives. Berlin, 379–402. Forceville, Charles (2008): Pictorial and multimodal metaphor in commercials. In: Edward F. McQuarrie/Barbara J. Phillips (eds.): Go Figure! New Directions in Advertising Rhetoric. Armonk, NY, 272–310. Forceville, Charles (2009): Metonymy in visual and audiovisual discourse. In: Eija Ventola/Arsenio Jésus Moya Guijarro (eds.): The World Told and the World Shown. Issues in Multisemiotics. Basingstoke, 56–74.



Pictorial and Multimodal Metaphor 

 259

Forceville, Charles (2012): Creativity in pictorial and multimodal advertising metaphors. In: Rodney Jones (ed.): Discourse and Creativity. Harlow, 113–132. Forceville, Charles (2013): Metaphor and symbol. SEARCHING FOR ONE’S IDENTITY IS LOOKING FOR A HOME in animation film. In: Review of Cognitive Linguistics 11, 250–268. Forceville, Charles (2014.): Relevance Theory as model for analysing visual and multimodal communication. In: David Machin (ed.): Visual Communication. Berlin, 51–70. Forceville, Charles/Eduardo Urios-Aparisi (eds.) (2009): Multimodal Metaphor. Berlin. Forceville, Charles/Marloes Jeulink (2011): The flesh and blood of embodied understanding. The source-path-goal schema in animation film. In: Pragmatics & Cognition 19, 37–59. Forceville, Charles/Thijs Renckens (2013): The GOOD IS LIGHT and BAD IS DARK metaphors in feature films. In: Metaphor and the Social World 3, 160–179. Forceville, Charles, and Billy Clark (2014): Can pictures have explicatures? In: Linguagem em (Dis) curso 14 (3), 451–472. Gentner, Dedre/Michael Jeziorski (1993): The shift from metaphor to analogy in Western science. In: Ortony (ed.): Metaphor and Thought. Cambridge, 447–480. Gentner, Dedre/Brian Bowdle (2008): Metaphor as structure-mapping. In: Gibbs 2008, 109–128. Gibbs, Raymond W., Jr (1993): Process and products in making sense of tropes. In: Ortony 1993, 52–176. Gibbs, Raymond W., Jr, (ed.) (2008): The Cambridge Handbook of Metaphor and Thought. Cambridge. Gibbs, Raymond W., Jr/Gerard J. Steen (eds.) (1999): Metaphor in Cognitive Linguistics. Amsterdam. Goffman, Erving (1974): Frame Analysis. An Essay on the Organization of Experience. New York. Indurkhya, Bipin (1991): Modes of metaphor. In: Metaphor and Symbolic Activity 6, 1–27. Jewitt, Carey (ed.) (2013): The Routledge Handbook of Multimodal Analysis. 2nd ed. London. Johnson, Mark (1987): The Body in the Mind. The Bodily Basis of Meaning, Imagination and Reason. Chicago. Klug, Nina-Maria/Hartmut Stöckl (2015): Sprache im multimodalen Kontext. In: Ekkehard Felder/ Andreas Gardt (Hg.): Handbuch Sprache und Wissen. (Handbücher Sprachwissen – HSW, Bd. 1). Berlin/Boston, 242–264. Kövecses, Zoltán (2005): Metaphor in Culture. Universality and Variation. Cambridge. Kövecses, Zoltán (2010): Metaphor: A Practical Introduction. 2nd ed. Oxford. Krasovska, Elīna (2013): Latvian and English summary of PhD Thesis Metonīmija un Figuratīvā Domāšana: Kognitīvās Stilistikas Pieeja [Metonymy and Figurative Thinking: A Cognitive Stylistic Approach], Latvia: Latvian Academy of Culture. Kromhout, Roelf/Charles Forceville (2013): LIFE IS A JOURNEY. The source-path-goal schema in the videogames Half-Life, Heavy Rain, and Grim Fandango. In: Metaphor and the Social World 3, 100–116. Lakoff, George (1987): Women, Fire and Dangerous Things. What Categories Reveal about the Mind. Chicago. Lakoff, George/Mark Johnson (1980): Metaphors We Live By. Chicago. Lakoff, George/Mark Turner (1989): More Than Cool Reason. A Field Guide to Poetic Metaphor. Chicago. Müller, Cornelia (2008): Metaphors Dead and Alive, Sleeping and Waking. A Dynamic View. Chicago. Musolff, Andreas (2006): Metaphor scenarios in public discourse. In: Metaphor and Symbol 21, 23–38. Negro Alousque, Isabel (2014): Pictorial and verbo-pictorial metaphor in Spanish political cartooning. In: Círculo de Lingüística Aplicada a la Comunicación 57, 59–84. Ortony, Andrew (ed.) (1993): Metaphor and Thought. 2nd ed. Cambridge. Plümacher, Martina/Peter Holz (eds.) (2007): Speaking of Colors and Odors. Amsterdam.



260 

 Charles Forceville

Pragglejaz (2007): MIP. A method for identifying metaphorically used words in discourse. In: Metaphor and Symbol 22, 1–39. Schilperoord, Joost/Alfons Maes (2009): Visual metaphoric conceptualization in editorial cartoons. In: Forceville/Urios-Aparisi, 213–240. Šorm, Ester/Gerard Steen (2013): Processing visual metaphor: A study in thinking out loud. In: Metaphor and the Social World 3, 1–34. Sperber, Dan/Deirdre Wilson (1995 [1986]): Relevance Theory. 2nd ed. Oxford. Teng, Norman Y. (2009): Image alignment in multimodal metaphor. In: Forceville/Urios-Aparisi, 197–211. Teng, Norman Y./Sewen Sun (2002): Grouping, simile, and oxymoron in pictures. A design-based cognitive approach. In: Metaphor and Symbol 17, 295–316. Urios-Aparisi, Eduardo (2010): The body of love in Almodóvar’s cinema. Metaphor and metonymy of the body and body parts. In: Metaphor and Symbol 25, 181–203. Van Mulken, Margot/Rob le Pair/Charles Forceville (2010): The impact of complexity on the appreciation of visual metaphor in advertising across three European countries. In: Journal of Pragmatics 42, 3418–3430. Van Rompay, Thomas (2005): Expressions. Embodiment in the Experience of Design. Unpublished PhD thesis, Technical University Delft, NL. Villacañas, Beatriz/Michael White (2013): Pictorial metonyms as creativity source in “Purificación García” advertising campaigns. In: Metaphor and the Social World 3, 220–239. Yu, Ning (1998): The Contemporary Theory of Metaphor. A Perspective from Chinese. Amsterdam. Zbikowski, Lawrence M. (2009): Music, language, and multimodal metaphor. In: Forceville/ Urios-Aparisi, 359–381.



Andrea Mayr

11. Multimodal Critical Discourse Analysis (MCDA) Abstract: Critical Discourse Analysis (CDA) has probably made the most comprehensive attempt to develop a theory of the inter-connectedness of discourse, power and ideology and is specifically concerned with the role that discourse plays in maintaining and legitimizing inequality in society. While CDA’s general thrust has been towards the analysis of linguistic structures, some critical discourse analysts have begun to focus on multimodal discourses because of the increasingly important role these play in many social and political contexts. Still, a great deal of CDA analysis has remained largely monomodal. The principal aim of this chapter is therefore to address this situation and demonstrate in what ways CDA can be deployed to analyse the ways that ideological discourses can be communicated, naturalised and legitimated beyond the linguistic level. The chapter also offers a rationale for a multimodal approach based on Halliday’s Systemic Functional Linguistics (SFL), by which it is directly informed. 1 A Systemic-Functional Approach to the Critical Analysis of Multimodal Discourse 2 Description of Concepts and Methods 3 An Example of the Critical Analysis of Multimodal Discourse 4 A Critical Assessment of the Methods 5 Conclusions 6 References

1 A Systemic-Functional Approach to the Critical Analysis of Multimodal Discourse A central point throughout this chapter is to illustrate the methodological strengths of a systemic-functional based CDA approach to the analysis of multimodal communication. The reason why CDA has become more multimodal in its analysis is the realisation that all levels of communication are shaped by power relations and ideologies, not just language. The question is: do we need a paradigm that uses principles that were originally formulated for the study of language to study other semiotic modes? After all, visually-oriented disciplines, such as Social Anthropology, Psychology, Film and Media Studies and traditional Semiotics, have analysed the meaning-making processes in non-linguistic communicative modes for decades, if not centuries. Nevertheless, a linguistics-based approach, it is suggested here, holds the promise



262 

 Andrea Mayr

of a degree of systematic analysis that these other disciplines have not offered. It was nineteenth-century traditional Semiotics, which first offered a systematic model for visual analysis, treating visuals very much like language and providing the foundation for later work that began to analyse the relationship between language and other modes of communication. According to van Leeuwen and Kress (2011, 107) four twentieth-century schools of linguistics have analysed semiotic modes other than language: (1) The Prague School of the 1930s and 1940s, which extended linguistics into the visual arts; (2) the Paris School of Semiotics, which used concepts and methods from structural linguistics and focused on popular culture and the mass media (e.g. Barthes 1977); (3) an American School which took an interest in the multimodal analysis of spoken and non-verbal communication (Birdwhistell 1973); and finally (4) the social semiotic school (Kress/Hodge 1988; Kress/van Leeuwen 1996), which has adapted Halliday’s social semiotic theory of communication, Systemic Functional Linguistics (henceforth SFL), for its mainly visual analyses. Halliday’s (1978, 4) recognition that “there are many other modes of meaning, in any culture, which are outside the realm of language” makes SFL a powerful model for theorizing and analysing how semiotic modes and resources combine to create meaning in multimodal texts. It has therefore proved to be eminently suitable for the kind of analysis that has been carried out in critical linguistics, social semiotics and (multimodal) CDA. Below the contributions that each of these inter-related strands has made to the critical analysis of multimodal discourses will be spelled out in more detail. The main part of the chapter however will explore how MCDA can enhance our understanding of meaning-making in multimodal communication in today’s multi-semiotic societies.

1.1 A Social Semiotic Theory of Communication The theory that underpins the critical analysis of multimodal discourse is Social Semiotics, which in turn owes much to the work of Critical linguists, notably Kress and Hodge (1978; 1988). In their pioneering book Social Semiotics (1988), Kress and Hodge applied Halliday’s grammatical system of linguistic modality (e.g. may, often, likely) to other semiotic modes (such as comics), revealing ideologies in visual as well as linguistic discourses. Expanding on this work in Reading Images, Kress and van Leeuwen (1996) introduced the term multimodality, which they have subsequently defined as the “phenomenon in texts and communicative events whereby a variety of ‘semiotic modes’ are integrated into a unified whole” (van Leeuwen/Kress 2011, 107). Multimodality starts from the position that all modes (means of expressions, such as 

Multimodal Critical Discourse Analysis (MCDA) 

 263

language and image) consist of a number of semiotic resources. These can be understood as the actions, materials and artifacts people draw on in specific moments and places to represent events and relations. Multimodality is therefore not an attempt to argue that language is less important; in fact, language analysis is key in multimodal analysis, but language as it is embedded within a frame of other semiotic resources, such as colour, gaze, sound and/or posture. As Baldry and Thibault (2006, 18) make clear, [M]ultimodal texts integrate selections from different semiotic resources to their principles of organization. […]. These resources are not simply juxtaposed as separate modes of meaning making but are combined and integrated to form a complex whole which cannot be reduced to, or explained in terms of the mere sum of its separate parts.

In their earlier work Kress and van Leeuwen had suggested that some of the principles of linguistic analysis found in Halliday’s (1978) theory, such as transitivity and modality, could be similarly applied to the “syntax” of visual communication. The models they have offered since across their work have been taken up more widely outside of linguistics and differ from other semiotic traditions in several important respects (cf. Machin 2009). First, while traditional semiotics (e.g. Barthes 1977) was very influential in Kress and van Leeuwen’s work, it also tended to limit its analysis to individual signs. Kress and van Leeuwen, however, were more interested in how images and other visual elements combine to make meaning or to create meaning potentials, which they describe as, “the totality of meanings that can be expressed by and through a given semiotic resource, as based on past documented or collectively remembered uses of the resource” (van Leeuwen/Kress 2011, 123). Second, multimodal researchers such as O’Toole (1994), O’Halloran (2005) and van Leeuwen (2005a and 2005b) in particular have explored what visual semiotic resources communicators have at their disposal in concrete situations, where these will be actualized and “where their use is subject to some form of semiotic regime” (van Leeuwen 2005a, 285). Their focus is therefore on the underlying repertoire of choices communicators can draw upon and how these enable or constrain kinds of interaction. This is again in contrast to traditional Semiotics, which saw language and other semiotic systems as fixed and largely unchangeable.

1.2 (Multimodal) CDA CDA, as it emerged in the late 1980s, considers discourse as a form of social practice and is specifically concerned with the “relations between discourse, power, dominance and social inequality” (van Dijk 1993, 249) and how discourse (re)produces and maintains these relations of dominance and inequality. CDA holds the view that language is a means of social construction: discourse does not merely reflect social



264 

 Andrea Mayr

processes and structures, but is itself seen to contribute to or construct the production and reproduction of these processes and structures (Fairclough/Wodak 1997). Because of CDA’s concern with exposing the often hidden ideologies that are reflected, produced and reproduced in every-day and institutional discourse, it is no coincidence that work in CDA has drawn upon SFL, just as critical linguistics and social semiotics have done. SFL theorizes language in a way which “harmonizes far more with the perspective of critical social science than other theories of language” (Chouliaraki/Fairclough 1999, 139). It therefore comes as no surprise that the extension of CDA into visual semiotics also has had its origins in early Hallidayan theory. In common with linguistics-based CDA, the multimodal critical discourse analysis approach employed in this chapter, MCDA, views non-linguistic forms of communication as a means of social construction (Machin/Mayr 2012). And although MCDA draws on the social semiotic approach to multimodality pioneered and developed by Kress and van Leeuwen (1996; 2001) and Kress (2010), what is different with MCDA is that these principles are used not only to understand the nature of non-verbal communication, as is the case in much of the work quoted above, but to carry out a critical analysis of linguistic and visual discourses in the broader tradition of CDA. MCDA can be seen as an expansion in that it provides a systematic model for the study of the interaction between the verbal and the visual, that is, the inter-semiotic relationships between modes. Applying many of the linguistic principles found in SFL, MCDA therefore shows how images, photographs, diagrams, graphics and/or sound work to create meanings which are often more implicit or indirect than language. This emerging research (e.g. Chouliaraki 2006; van Leeuwen 2008; Machin/Mayr 2012; Mayr/Machin 2012) highlights the multi-semiotic and potentially ideological character of most texts in contemporary capitalist societies, acknowledging that the visual has a particularly important role to play due to its less denotative and more symbolic nature compared to language. To illustrate this point further, let us briefly look at an example of a particular media representation of young people in the British popular press, which constructs them as a problem and as a threat to mainstream society. In the following headlines Hoodies to be banned from shopping centre Yobs rule streets Hoodie bike yobs attack teacher Teenage mother was shot down by hoodies

we find that by impersonalising young people as ‘hoodies’ and ‘yobs’, they are turned into generic types and ‘objectivated’ (van Leeuwen 2008, 46), that is, they are reduced to certain attributes. Visually, accompanying images are often chosen with stereotypical and generic portrayals of these ‘hoodies’ on housing estates. Just like the language, the imagery used – the generic picture of threatening young men in hooded tops and tracksuits – foregrounds their deviance and backgrounds structural reasons



Multimodal Critical Discourse Analysis (MCDA) 

 265

for their criminal behaviour. Images like these are not meant to document, but to symbolize certain types of young people, so that a small number of symbolic representations come to be regularly used in the news and broadcast media, which serve as the visual language of particular domains, in this case crime control. Such images can be purchased from commercial internet image banks (e.g. Getty), which are deliberately designed to be used for a variety of contexts and do no longer necessarily record reality (cf. Machin 2004). In the example above, the combined use of language and image forms part of wider media discourses on young people that create patterns of inclusion (teenage mother as one of ‘us’) and exclusion (yob and hoodies as the ‘other’), directing attention away from the links between poverty, lack of opportunity and deviance. Other crimes also tend to be represented through a number of stock persons, attributes and settings, as we shall see below in our multimodal analysis of a British television crime appeal programme.

2 Description of Concepts and Methods As stated above, MCDA applies tools many of which are derived from Halliday (1978; 1985), Kress and van Leeuwen (1996; 2001) and van Leeuwen (1996; 2005b), as they allow for the study of the visual as well as lexical and grammatical choices communicators make use of. Here some of these analytical categories, which will be used in the analysis below, are explained in some detail.

2.1 Social Actor Analysis Social Actor Analysis, a set of socio-semantic categories developed by van Leeuwen (1996) is a linguistic and visual inventory for describing and classifying people (social actors) and some of the ideological effects that these classifications may have. Here we focus on van Leeuwen’s categories of nomination, and categorisation, as these most clearly distinguish how the participants are represented in the case study analysed in the next section. Nomination is typically realised by proper nouns, (e.g. ‘Mr Tranter’). Social actors can also be categorised in two ways: either through functionalisation that is, through their profession or social activity (e.g. ‘detective’), which can connote legitimacy and status; or identification, that is, not through what they do but through what they ‘more or less permanently, or unavoidably, are’ (e.g. ‘criminal’) (van Leeuwen 1996, 54). Certain naming strategies can therefore foreground aspects of a person’s identity while backgrounding others. This level of analysis allows us to think about which kinds of social actors are individualised, (de) humanised and/or positively or negatively evaluated.



266 

 Andrea Mayr

2.2 Transitivity For the representation of social action, van Leeuwen (2008) draws on Halliday’s (1985) model of transitivity, which provides one means of analysing how readers’, listeners’ and viewers’ perception of the meaning of a text can be “pushed in a certain way” (Simpson 1993, 104). Transitivity is concerned with the semantic structure of clauses and refers, broadly, to who does what to whom and how. The idea behind analysing transitivity is to explore what social, cultural, ideological and political factors determine what process type (i.e. verb) is chosen in a particular type of discourse. Ideology may be implicitly inscribed through manipulation of agency, which can either be made clear (‘Police shot demonstrators’), be backgrounded (‘Demonstrators were shot by police’, or be deleted (‘Demonstrators were shot’). These choices may be significant, for example in media reports on acts of civil disorder. Transitivity consists of six categories of verb processes. The three main types, material, mental and relational processes, can be used to give participants different kinds of agency and character and will be focused on here as they are the most relevant ones for the analysis below. Material processes can be used to show who does what to whom. Usually, these are concrete actions that have a material result or consequence, such as ‘Soldiers arrested three insurgents’, but they may also represent abstract processes, such as ‘Prices have gone up’. Mental processes are processes of sensing and can be divided into three classes: ‘cognition’ (verbs of thinking, knowing or understanding), ‘affection’ (verbs of liking, disliking or fearing) and ‘perception’ (verbs of seeing, hearing or perceiving). Examples of the three classes of cognition, affection and perception are, respectively: ‘I understood the story’, ‘Mary liked the book a lot’ and ‘We saw many famous people’. Mental processes also allow us to gain an insight into the feelings or states of mind of certain social actors (‘People worry too much about financial security’). Relational processes on the other hand classify and identify social actors. They encode meanings about states of being, where things are stated to exist in relation to other things. They are expressed through the verb ‘to be’, which is the most frequent, but synonyms such as ‘become’, ‘mean’, ‘define’, ‘symbolise’, ‘represent’, ‘stand for’, ‘refer to’, ‘mark’ and ‘exemplify’ are also classed as relational processes. To ‘have’ in the sense of possessing something is another relational process, as in ‘She has a car’. Relational processes allow us to present as ‘facts’ what could be classed as opinion, as in ‘A lot of people have concerns about immigration’ or ‘All men are sexist’. Another important aspect of meaning in transitivity analysis are ‘Circumstances’ (adverbial groups or prepositional phrases), which detail where, when and how something happened. For example, in the sentence ‘Soldiers killed three civilians yesterday afternoon’, the two Circumstances tell us when and where the killing happened. Circumstances can also be represented visually by showing in an image where and how something happened. Transitivity can also be represented visually (Machin/Mayr 2012). Following Kress and van Leeuwen’s (1996) classification of images as either ‘narrative’ or ‘con

Multimodal Critical Discourse Analysis (MCDA) 

 267

ceptual’, we can say that because narrative images present actions and events, they are similar to material processes in linguistic transitivity. Conceptual images in turn represent social actors in terms of attributes and can therefore be related to relational processes. Thus the analysis of the inter-semiotic relationships between verbal and visual modes requires the identification of represented participants, the processes of activity described, the qualities of the participants and finally the circumstances in which the actions took place or developed (Ventola/Pinar 2009).

2.3 The Recontextualisation of Social Practice (M)CDA scholars typically analyse what is foregrounded, concealed or abstracted in discourses and what semiotic resources are used to achieve this. These discourses project certain social values and ideas and in turn contribute to the (re)production of social life. According to van Leeuwen and Wodak (1999, 99), discourses also represent a kind of knowledge about what goes on in a particular social practice, ideas why it is the way it is, what they refer to as discursive scripts. One very useful concept for analysing the discursive processes or scripts involved in representing social practices is recontextualisation (Bernstein 1996). Basically, recontextualisation means the transformation of social practices into discourses about social practices. And it is in this relocation of discourses that ideology operates. Discursive scripts also tell us what participants are involved in a social practice and what kind of values they hold. Van Leeuwen and Wodak (1999) suggest that what is important in this respect is the ways that actual, concrete participants, processes and settings are ideologically recontextualised or transformed, usually through the following techniques: (1) Substitution: As they are represented, the elements of a social practice and its social actors can be substituted for something else. For example, social actors can be represented through their appearance, behaviour and feelings, rather than their concrete actions. The details and complexities of their actions can be substituted through generalisation, which means that the more specific ‘micro-actions’ that make up their actions are abstracted. Abstraction always involves a loss of detail in the activities represented (e.g. ‘empower’ – what actions exactly are involved in ‘empowering’?). As we will see below, the complex processes of tackling crime may become substituted for a simplistic fight of ‘good’ versus ‘evil’ (see Mayr/ Machin 2012). (2) Addition: Recontextualisation also entails the addition of elements. Addition usually involves legitimation and reactions. Reactions in particular are a prominent feature in media discourses as they represent actors’ feelings, their worries, fears, problems, etc. For example, certain media representations of crime may espouse conservative and neo-liberal discourses, yet we are encouraged to align 

268 

 Andrea Mayr

with these on the basis of the feelings of certain represented participants we learn about, such as victims of crime. Representation always also involves legitimation as to why social practices must be the way they are. One way of legitimating representation is through the use of the voices of experts and officials, a strategy frequently used in media discourse (Machin/Mayr 2007). Another way of legitimating, more characteristic of tabloid newspapers, is personalisation. This is the credibility of the ordinary and everyday as opposed to the official. Personalisation can be an important strategy in the representation of mediated representations of crime, as we will see below. (3) Evaluation: Recontextualisation also always involves evaluation of the social practice that is written about. Events and people in each recontextualisation are represented according to the goals, values and priorities of the presenters. This can result in the linguistic and visual delegitimation of some social actors on the basis of more subtle assessements of their looks and behaviour, for example by describing people on benefits as ‘scroungers’ and showing very unflattering images of them in the popular press. (4) Deletion: A representation cannot represent all the aspects of a social practice, so it is important to ask which participants, actions, settings etc. have been deleted. A common strategy of linguistic deletion pointed out in CDA is the deletion of agents in passive sentence constructions or in nominalisations. One important example of the ideological role played by visual communication in the process of recontextualisation, is Abousnnouga and Machin’s (2013) analysis of British war monuments, on which depictions of suffering and violence were substituted or even deleted by representing soldiers in a heroic manner. As we shall see, recontextualisation always involves the substitution of complex details and activities through generalisation or abstraction and the addition or deletion of other elements. MCDA is therefore concerned with the ways that events become recontextualised both linguistically and visually, with actual participants, actions, settings and causality becoming suppressed, replaced, abstracted and evaluated. The question to ask is what semiotic resources are deployed in the recontextualisation of participants, goals, behaviours and values.

3 An Example of the Critical Analysis of Multimodal Discourse In this section, the analytical framework presented above will be applied to the critical multimodal analysis of one case study concerning mediated representations of 

Multimodal Critical Discourse Analysis (MCDA) 

 269

crime, based on research by Mayr and Machin (2012) on Britain’s leading television crime appeal programme, Crimewatch. For their analysis of how the represented participants or social actors were represented and evaluated linguistically and visually in Crimewatch, Mayr and Machin applied Social Actor and Transitivity Analysis. The analysis was also placed within the context of the ‘recontextualisation of social practice’ (van Leeuwen/Wodak 1999), as this helped to draw particular attention to the sequences of activity or scripts developed in Crimewatch as regards the representation of crime. The authors showed how actual participants, processes, settings and causality were recontextualised at different levels from the actual nature of crime as provided in sociological and criminological accounts. The participants (social actors) and processes were represented neither through a clear and logical account of events, nor a reasonable assessment of information, but through processes of abstraction, addition, substitution, evaluation and deletion. Crimewatch is modelled on its German predecessor, Aktenzeichen XY … Ungelöst, and has been running on a monthly basis in the UK since 1984. The programme focuses on real, unsolved crime cases, asks for help from the audience through public appeals, interviews policemen, and uses dramatized forms of narration in the form of reenactments and reconstructions. The Crimewatch episode analysed below was aired on BBC1 in 2011 and concerned the successful apprehension and conviction of a sex offender (‘Glen Tranter’) with the help of the programme and a member of the public, a British ex-pat (‘Michelle Mackenzie’). The police had turned to Crimewatch for help after they were unable to charge the offender for lack of evidence. Tranter, who had jumped bail and fled to Spain, featured on the programme’s ‘Most Wanted’ list. Michelle Mackenzie, who happened to watch this particular Crimewatch episode in Spain, recognized Tranter and overpowered him in the bar where she worked. He was flown back to the United Kingdom, where he was sentenced to six years’ imprisonment. As stated above, communicators have a range of choices available to them to decide how they wish to represent social actors. In CDA these semiotic choices are also referred to as “representational strategies” (Fowler 1991). Each choice can have the effect of connoting sets of ideas, values and attitudes that are not necessarily stated overtly. Linguistically, through use of tabloid-style language (dangerous predator, nasty piece of work) by the Crimewatch presenter, the sex offender (Tranter) was identified as a ‘monsterised’ criminal. These representational choices serve to dramatise and personalise the narrative, but they also play a part in the substitution of the actual concrete offender for a generic ‘type’. With its main emphasis on sensational crimes, Crimewatch thereby reinforces an image of crime as represented in the popular press, as was argued persuasively by Schlesinger and Tumber (1993) in their ethnographic analysis of the programme. The police were mainly functionalised as police and detectives and collectivised as a team. Central to police self-representation on Crimewatch is the image of a tightly operating, efficient and dedicated team who are at the same 

270 

 Andrea Mayr

approachable and human (see figure 1). Children were mentioned several times as evidence of the danger posed by Tranter, even though the programme never made it clear what crimes he was accused of. Michelle Mackenzie was nominated and personalised through telling her story of how she assisted the police. Here the process of recontextualisation can be detected. Media Studies research has shown that Crimewatch is not about crime patterns and their causes, but about dangerous personalities (cf. Jermyn 2007). The research into media representations of child abuse notes that this results in a highly misleading picture of sexual ‘predators’ who are at large in the community, when in actual fact sex offences have statistically been shown to be for the most part carried out by people known to the victim (Kitzinger 2004).

Fig. 1: Busy police procedure and teamwork on split screen (Crimewatch, 26 January 2011).

Visually, the sex offender was frequently individualised in close-ups and sometimes extreme close-ups of his face (see figure 2). His mug-shot also appeared several times throughout the re-enacted narrative, sometimes pinned to the wall in the police station, while the team of detectives were busily working on the case in the foreground. It also appeared when Michelle Mackenzie, the woman who overpowered him, gave her account. When individualised and named, the detectives were visually represented in close-shot, but never in extreme close-shot. This is consistent with them remaining slightly distanced and professional. When collectivised as part of an investigating team, the police as a whole were shown mainly in medium-shot. The police were also visually functionalised as they carried out their investigative activities, pointing at maps or being represented simply by busy hands on a keyboard. Some of these scenes were represented in a split screen montage, which is often used in police shows to suggest action and drama (see figure 1). Visual salience is therefore given to the ‘evil’, lone offender and police procedure, whereas the victims (children) are visually deleted. There is a sense that it is not so much the specific victims that are important but rather the broader public threat that Tranter constitutes. 

Multimodal Critical Discourse Analysis (MCDA) 

 271

Fig. 2: Offender (actor) in extreme close-up (Crimewatch, 26 January 2011).

In sum, the represented participants in the script were comprised linguistically of the ‘evil’ monster/stranger; the humane, yet highly professional, police who work as a team; the public heroine; the public and the victims. The actual details of the offence and its connection with broader patterns of crime and culture were absent, as personalities played their part in the drama of ‘good’ versus ‘evil’. As stated above, Transitivity Analysis can reveal what is represented as the doings of a social practice. It also sets up relations between participants. This is another important way in which ideologies that are implicit in representations can be revealed both linguistically and visually. In the Crimewatch episode, the offender was often described in terms of relational verb processes (was not fazed; was defensive/calm/relaxed), and mental verb processes (thought he was above the law; treated the police with contempt; and thought he was an Untouchable), which all serve as evidence of his criminal mind and generally abhorrent nature. In addition, many material processes were used to give a sense of his movements (disappeared; didn’t hang about; went on the run; fled the country), forming an important part of the narrative. In terms of visual transitivity, Tranter could also be seen in material processes, packing his bags and driving off anxiously in his car, which was then linguistically defined as going on the run. Without the linguistic comment, such scenes could of course connote a range of other activities. Tranter was also represented visually in terms of relational processes. He was shown with a sweaty face in many scenes and as unsettled as he fidgets in the interview with the police. This supports the representational strategies used by the police, which emphasised that he was a strange, and fundamentally guilty, individual, even though at this point he had not yet been charged or convicted. For the most part the actions of the police are represented through material processes (conduct a manhunt; snare) and a systematic list of procedural verb processes: brought into custody; interview; build a case; circulate information. As with the offender, the other notable category of verbs representing police action were again 

272 

 Andrea Mayr

mental and relational processes (knew he had connections, suspected he was working in Slough; were concerned, felt nervous). These serve to give us access to the thoughts of the police to show that they are human and approachable as well as professional. Finally, Mackenzie was also represented both linguistically and visually in terms of mental processes. The viewer was told that she instantly recognised Tranter’s face, knew something had to be done and was so glad she had been able to help. These are all ‘reactions’, which are an important technique in the recontextualisation of social practice (see figure 3). Concrete details about actual processes, events and their outcomes are replaced by evaluations and the viewer is given these for all of the participants shown in close-ups. Tranter thinks he is an Untouchable, the police are concerned and nervous and Mackenzie is certain and glad.

Fig. 3: View given of Mackenzie’s reaction and point-ofview shot (Crimewatch 26 January 2011).

As stated above, circumstances are another important part of Transitivity Analysis. At the end of the re-enactment of the case, Tranter can be seen in a nineteenth century-style prison cell, so as to connote a harsh justice system (see figure 4). Significantly, this is not represented linguistically. Most important is the close-shot of his face as he is locked into his cell both at the start and at the end of the re-enacted sequence. Shot from a vertical angle, the viewer looks down on Tranter, which suggests a sense of power over him (cf. Kress/van Leeuwen 1996). The circumstance is also especially interesting with regard to Mackenzie, who was shown in a dark room with beams of intense white light. Kress and van Leeuwen suggest that such reductions in the articulation of settings play an important role in shifting representation away from a documentary role towards a symbolic one. Clearly, in this case the viewer does not puzzle over where Mackenzie is depicted as sitting. But the use of colour, shadows and intense bright light add to the drama of the narrative. This confirms Fairclough’s (1995, 160) earlier analysis of Crimewatch being mainly a form of “fictionalised entertainment”. 

Multimodal Critical Discourse Analysis (MCDA) 

 273

Fig. 4: Tranter locked up in Victorian-style prison cell (Crimewatch, 26 January 2011)

In terms of transitivity, therefore, there is evaluation, a key dimension of recontextualisation. This is achieved through an emphasis on the mental processes of all the represented participants and the relational processes used to describe the offender. Sex crime is not something to be considered in terms of the complexities of the mainly domestic nature of sexual abuse, but fundamentally as an attack on the consensual values of the public. Common to these factual crime narratives is police professionalism, with officers operating dispassionately and shrewdly and outwitting the offender who underestimates them. Here again we can observe the strategies of substitution and addition that are used in the recontextualisation of crime-fighting.

4 A Critical Assessment of the Methods Using a British television crime appeal programme as a case study, the analysis by Mayr and Machin (2012) has sought to demonstrate how MCDA can enhance the critical analysis of multimodal discourses. The Social Actor and Transitivity Analysis has shown that a range of semiotic modes, such as language, images and sound are deployed to disseminate discourses on crime and crime-fighting. These serve the ideological purpose of directing attention away from structural explanations of crime and deviance. The authors also showed that the narration and the images serve slightly different roles in the re- and decontextualisation of crime, the legitimation of the police and the ‘othering’ of the offender. Importantly, the analysis was also placed within the context of the existing criminological and media studies research on Crimewatch, which goes some way towards studying processes of production, an area in CDA which has been somewhat neglected (but cf. below).



274 

 Andrea Mayr

What the MCDA method has also shown is that the visual plays a significant role in substituting the complexities and possible roots of the offender’s behaviour, representing him as sweaty, furtive and physically unappealing, something which could not be reasonably expressed linguistically in this context. Linguistically, Crimewatch stated that he is strange and feels above the law – a sense that he mocks the values and norms that the rest of society adhere to. This, in turn, it was demonstrated, cannot be so easily conveyed visually. But together the two modes help to present offenders more in terms of who they are and the threat they might pose, rather than through the actual crimes they have committed. The analytical methods presented in this chapter are suitable for observing how multimodal texts are composed, what semiotic resources are used in texts and what meaning potentials these may have. What cannot be gleaned from the application of these tools is how readers and viewers receive multimodal texts, nor what the intentions of the authors are. In order to avoid imposing analysts’ own assumptions of the intentions of authors and text producers the analysis should be supplanted with the Media and Cultural Studies literature on production and audience reception, which has shown how audiences deal with texts in many different ways and are influenced by their own personal dispositions and cultural background (cf. Kitzinger 2004; Jermyn 2007, ch.5 for an audience case study of Crimewatch). Researchers in (M)CDA have begun to address this omission, stressing the importance of carrying out interviews with journalists, editors and consumers (Machin/Mayr 2007; Machin/Niblock 2008). Machin and van Leeuwen (2007), for example, supported their multimodal analyses of global magazines and computer games through interviews with editors and designers, readers and users. In this way, they were able to provide links in terms of the ways that discourses are harnessed at different levels of semiotic production. However, the criticisms listed above should not distract from the advantages the analytical tools explored in this chapter have to offer in terms of enhancing MCDA’s potential to describe the semiotic choices found in multimodal texts. They allow us to show more clearly how they make meaning as well as what they may mean. In Media and Cultural Studies there has often been a tendency to hasten to the interpretative stage of the ‘what’ rather than the ‘how’.

5 Conclusions Although it is now widely recognized that both linguistic and non-verbal semiotic resources contribute to meaning in a particular context and culture, it is far from clear how the visual can add to the verbal or how they are coordinated to create meaning in context. The aim of this chapter has been to address this problem and to shed light on the inter-semiotic relationships between visual and verbal meanings and their realisation through various linguistic and visual modes. The analytical tools employed in



Multimodal Critical Discourse Analysis (MCDA) 

 275

this chapter have been derived from Halliday’s Systemic Functional Linguistics (SFL) and Kress and van Leeuwen’s visual Social Semiotics, which, it has been argued, complement each other as powerful models for the study of multimodal discourses. The main aim, though, of the critical analysis of multimodal discourse is to show how different semiotic resources allow certain aspects of reality to be shown while substituting and abstracting others. Multimodal research has come under criticism for imposing linguistic concepts on the analysis of visual communication, even from within its ranks (Forceville 1999; Kress 2010). The argument is that images cannot be subjected to the same analytical concepts and tools as language. However, this criticism overlooks the fact that the social component embedded in SFL and (M)CDA perhaps sets it apart from other linguistic approaches with narrower concerns about linguistic structures and makes it applicable to all semiotic modes. Still, the need remains to state what the advantages of the tools used in MCDA over the ones used in other disciplines are. Machin (2013) warns that by attempting to unravel how discourses are translated into other semiotic forms and social practices there is the risk of starting from a ‘language first’ sequence. He points to the work in Social Anthropology that has long shown that discourses have a multi-semiotic nature. We must bear in mind that what is called ‘multimodality’, mainly by people working in linguistics, overlaps with and is indebted to work in other long-established traditions of visual analysis, much of which have paved the way for later linguistic research that began to address the relationship between different semiotic systems or modes. It is, therefore, important that in our multi-semiotic societies MCDA engages with these disciplines in order to be able to stand up to scrutiny outside of its own discipline. This will also allow MCDA to establish and demonstrate what it has to offer in return in terms of an in-depth and systematic analysis of semiotic resources that serve to disseminate ideological discourses.

6 References Abousnnouga Gill/David Machin (2013): The Language of War Monuments. London. Baldry, Anthony/Paul Thibault (2006): Multimodal Transcription and Text Analysis. London. Barthes, Roland (1977): Image, Music, Text. London. Bernstein, Basil (1996): Pedagogy, Symbolic Control and Identity. London. Birdwhistell, Ray (1973): Kinesics and Context. Harmondsworth. Chouliaraki, Lily (2006): The Spectacle of Suffering. London. Chouliaraki, Lily/Norman Fairclough (1999): Discourse in Late Modernity. Rethinking Critical Discourse Analysis. Edinburgh. Dijk, Teun van (1993): Elite Discourse and Racism. Nebury Park, CA. Fairclough, Norman (1995): Critical Discourse Analysis. The Critical Study of Language. London. Fairclough, Norman/RuthWodak (1997): Critical discourse analysis. In: Teun van Dijk (ed.): Discourse as Social Interaction. London, 258–284.



276 

 Andrea Mayr

Forceville, Charles (1999): Educating the eye? Kress and Van Leeuwen’s reading images. The grammar of visual design. In: Language and Literature 8 (2), 163–177. Fowler, Roger (1991): Language in the News. Discourse and Ideology in the Press. London. Halliday, Michael (1978): Language as Social Semiotic. The Social Interpretation of Language and Meaning. London. Halliday, Michael (1985): An Introduction to Functional Grammar. London. Jermyn, Deborah (2007): Crime Watching: Investigating Real Crime TV. London. Kitzinger, Jenny (2004): Framing Abuse. Media Influence and Public Understandings of Sexual Violence against Children. London. Kress, Gunther (2010): Multimodality. London. Kress, Gunther/Robert Hodge (1978): Language as Ideology. London. Kress Gunther/Robert Hodge (1988): Social Semiotics. London. Kress, Gunther/Theo van Leeuwen (1996): Reading Images. The Grammar of Visual Design. London. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Leeuwen, Theo van (1996): The representation of social actors. In: Carmen-Rosa Coulthard/Malcolm Coulthard (eds.): Texts and Practices. New York, 32–70. Leeuwen, Theo van (2005a): Introducing Social Semiotics. London. Leeuwen, Theo van (2005b): Typographic meaning. In: Visual Communication 4 (2), 137–142. Leeuwen, Theo van (2008): Discourse and Practice. New Tools for Critical Discourse Analysis. Oxford. Leeuwen, Theo van/Ruth Wodak (1999): Legitimizing immigration control. A discourse-historical analysis. In: Discourse and Society 1 (1), 83–118. Leeuwen, Theo van/Gunther Kress (2011): Discourse semiotics. In: Teun van Dijk (ed.): Discourse Studies. A Multidisciplinary Introduction. 2nd ed. London. Machin, David (2004): Building the world’s visual language. The increasing global importance of image banks. In: Visual Communication 3 (2), 316–336. Machin, David (2009): Multimodality and theories of the visual. In: Carey Jewitt (ed.): The Routledge Handbook of Multimodal Analysis. London, 181–190. Machin, David (2013): What is multimodal critical discourse studies? In: Critical Discourse Studies 10 (4), 347–355. Machin, David/Theo van Leeuwen (2007): Global Media Discourse. London. Machin, David/Andrea Mayr (2007): Antiracism in the British government’s model regional newspaper. The ‘Talking Cure’. In: Discourse & Society 18 (4), 453–477. Machin, David/Sandra Niblock (2008): Branding newspapers. Visual texts as social practice. In: Journalism Studies 9 (2), 245–259. Machin, David/Andrea Mayr (2012): How to Do Critical Discourse Analysis. A Multimodal Approach. London. Mayr, Andrea/David Machin (2012): The Language of Crime and Deviance. London/New York. O’Halloran, Kay (2005): Mathematical Discourse. Language, Symbolism and Visual Images. London. O’Toole, Michael (1994): The Language of Displayed Art. London. Schlesinger, Philip/Howard Tumber (1993): Fighting the war against crime. Television, police and audience. In: British Journal of Criminology 33, 19–32. Simpson, Paul (1993): Language, Ideology and Point of View. London. Ventola, Eija/Maria Pinar (eds) (2009): The World Told and The World Shown. Palgrave Macmillan.



Michael Klemm/Daniel Perrin/Sascha Michel

12. Produktionsforschung

Abstract: Während die Struktur multimodaler Kommunikate inzwischen recht gut erforscht ist, weiß man immer noch wenig über deren konkrete Produktionsprozesse, also über die Verfahren und Muster des Doing Multimodality. Im Beitrag wird gezeigt, wie man mit ethnografischer Feldforschung, der Dokumentation und Reflexion von Textproduktionsprozessen sowie Experteninterviews die systematische Verknüpfung von Sprache, Bild und Ton erfassen und dabei zugleich Redaktions- und Senderkulturen sowie multimodale Stile oder Ideologien offenlegen kann. Zwei qualitative Verfahren werden vorgestellt: die langfristige Textproduktions- bzw. Schreibprozessforschung, mit der man Produktionsprozesse in einem spezifischen redaktionellen Kontext en detail erfassen kann, und die Kurzethnografie, mit der unterschiedliche Settings kontrastiv erforscht werden können. Als Fallbeispiele dienen die Produktion von Fernsehnachrichten und TV-Programmtrailern. 1 Zur Erforschung des Doing Multimodality 2 Darstellung der Methoden: Ethnografische Produktionsforschung 3 Beispieldiskussion: Der Fall Marslaser 4 Leistungsfähigkeit der Methoden: Kritische Beurteilung 5 Fazit/Ausblick: Desiderat Produktionsforschung 6 Literatur

1 Zur Erforschung des Doing Multimodality Während multimodale Kommunikate in den letzten Jahren vielfältig medienlinguistisch erforscht worden sind (vgl. z. B. Diekmannshenke/Klemm/Stöckl 2011; Schneider/Stöckl 2011), weiß man nach wie vor wenig über die vorausgehenden Produktionsprozesse. Wie werden Sprache, Bild und Ton zusammengefügt in konkreten redaktionellen Kontexten in Presse, Fernsehen oder Online-Medien, aber auch in professionellen wie privaten Konstellationen auf Websites oder in Sozialen Medien? Gibt es standardisierte Verfahren des Doing Multimodality oder sind die medienstrukturellen Unterschiede zwischen den Kommunikationsformen sowie die jeweiligen kontextuellen und kulturellen Besonderheiten so relevant, dass es (noch) sehr unterschiedliche Praktiken gibt? ‚Multimodales Denken‘ ist längst zum Normalfall geworden, etwa im journalistischen Alltag oder in Werbeagenturen (dazu Stöckl 2011), in der Selbstdarstellung von Politikerinnen und Politikern (Klemm 2011; Klemm/Trierweiler 2013) oder Privatleuten, wenn man etwa an den aktuellen Trend der ‚Selfies‘ denkt. Redakteure, Werbe-



278 

 Michael Klemm/Daniel Perrin/Sascha Michel

texter oder Kommunikationsstrategen integrieren häufig bereits in ihrer Textkonzeption visuelle Komponenten wie Aufmacherfotos (Key Visuals) und Grafiken oder in Online-Medien hypertextuelle und multimediale Texterweiterungen wie Audio- und Videodateien, zumal viele Beiträge inzwischen crossmedial für verschiedene Medienformate aufbereitet werden müssen (dazu Hicks/Perrin 2014). Regelmäßig reflektiert und geklärt werden müssen Sprach-Bild-Bezüge beim Bebildern von Artikeln oder beim Betexten von Fotos, bei der Kombination von verbaler Erklärung und Informationsgrafik (dazu Stöckl 2012) im Rahmen eines komplexen multimodalen ‚Textdesigns‘ (dazu bereits Blum/Bucher 1998), noch mehr bei der Produktion audiovisueller Zeichenkomplexen wie Werbespots, Einspielern in TV-Diskussionen (Klemm 2015) oder Nachrichtenfilmen (Gnach/Perrin 2011) am Schnittplatz. Viele dieser Prozesse finden arbeitsteilig statt und erfordern daher kommunikative Aushandlungen, etwa zwischen Redakteur und Cutter, die man wie die entstehenden Kommunikate selbst als Fenster zu Produktionsprozessen erforschen kann. Hier setzt eine produktionsseitige Multimodalitätsforschung an.

2 Darstellung der Methoden: Ethnografische Produktionsforschung Im Zentrum der Produktionsforschung steht das ethnografische Aufspüren und Analysieren von Handlungs- und Deutungsmustern im multimodalen Textherstellungsprozess, also von verbalen und nonverbalen Praktiken, die – für die Textrezipienten unsichtbar – hinter den Kulissen stattfinden. Dabei geht es nicht zuletzt darum, vermeintlich unreflektierte Routinen der Akteure im ethnomethodologischen Sinne aufzudecken, um zum Beispiel – aus Beteiligtenperspektive – „gute Praktiken“ von „kritischen Situationen“ (vgl. Gnach/Perrin 2011) abzugrenzen. Aus medienlinguistischer Perspektive wird vor allem das sprachliche und kommunikative Handeln der Akteure dokumentiert und interpretiert. Dabei geht es weniger um das subjektive Rollenverständnis und individuelle Agieren der einzelnen Textproduzentinnen und Textproduzenten als deren Integration in komplexe (z. B. redaktionelle) Handlungszusammenhänge und ihr ständiges Changieren zwischen externen Vorgaben und traditionellen Gepflogenheiten (z. B. aufgrund von Sender- und Redaktionskulturen) auf der einen und individuellen kreativen bzw. innovativen Praktiken auf der anderen Seite. Dieses rekursive Zusammenspiel von Struktur und Handlung führt exemplarisch vor Augen, wie Textproduzenten im Rahmen des stets kulturell vorgeprägten Settings mit den ihnen jeweils zur Verfügung stehenden semiotischen Mitteln Wirklichkeit konstruieren (können). Empirisch lässt sich dieses Doing Multimodality vor allem ethnografisch rekonstruieren, da sich die notwendigen Daten nur durch Feldaufenthalte authentisch erheben lassen (dazu u. a. Wintsch 2006)  – Fragebogenerhebungen oder standar

Produktionsforschung 

 279

disierte Befragungen stoßen hier schnell an ihre Grenzen. Brüggemann (2011) plädiert deshalb dafür, solche Produktionsprozesse datengeleitet und hermeneutischinterpretativ zu erfassen. Dabei können unterschiedliche Datenerhebungsmethoden der qualitativen Medienforschung (dazu Ayaß/Bergmann 2006 und Mikos/Wegener 2005) kombiniert bzw. trianguliert werden. Hierzu gehören: (im Idealfall) Ton- und/ oder Videoaufnahmen von den Produktionssettings und den Interaktionen zwischen den Textproduzenten, ansonsten zumindest ausführliche Feldnotizen im Rahmen einer teilnehmenden Beobachtung; (Computer)Aufzeichnungen von den authentischen Textherstellungsprozessen; zudem Leitfaden- bzw. Experteninterviews mit allen Beteiligten sowie Verbalprotokolle von nachträglichen Reflexionen über die Entstehung der produzierten Texte – diese Methoden werden im Folgenden noch ausführlich erläutert. Grob kann man zwei Formen von Medienethnografie bei der Produktionsforschung unterscheiden: zum einen langfristige Aufenthalte in einem Feld, über die detaillierte Binnenstrukturen und auch Wandelprozesse erfasst werden können; zum anderen „akkumulierte ethnographische Miniaturen“ (Bachmann/Wittel 2006, 191), bei denen durch zeitlich begrenzte Aufenthalte in mehreren Feldern ein breiteres Spektrum unterschiedlicher Settings abgedeckt wird, um typische Muster und Praktiken vergleichen zu können (so z. B. Bölz 2013). Welches Setting bevorzugt wird, hängt von den Möglichkeiten des Feldzugangs und vom Erkenntnisinteresse ab. Langfristige Ethnografie ermöglicht dichte Beschreibungen und differenzierte Analysen der Interaktionsstrukturen, ist aber aufwändig und in vielen Feldern kaum durchführbar (vgl. aber Perrin 2013). Kurzfristige Aufenthalte erlauben hingegen, auch wenn sie keine Detailstrukturen erfassen können, typisierende Vergleiche und damit zumindest symptomatische Rückschlüsse z. B. auf unterschiedliche Redaktions-, Senderoder journalistische Kulturen (dazu Hahn/ Schröder 2008), denn allgemeine Muster und Praktiken lassen sich nicht von einem einzelnen, noch so ‚tiefen‘ Feldaufenthalt ableiten. In Kapitel 2.1 werden wir mit der multimodalen Schreibprozess- und Redaktionsforschung eine langfristige Ethnografie und in Kapitel 2.2 mit dem Vergleich von Programmtrailer-Produktionen eine akkumulierte Kurz-Ethnografie vorstellen, um die Möglichkeiten und Grenzen beider Ansätze zu verdeutlichen. Die Auswertung der erhobenen Daten kann sich je nach Erkenntnisinteresse an den theoretischen und methodischen Prämissen verschiedener Ansätze orientieren: etwa an der angewandten Gesprächsforschung (u. a. Brünner/Fiehler/Kindt 1999), den ethnomethodologischen Studies of Work (u. a. Bergmann 2006), der Schreibprozessforschung (u. a. Perrin 2001; 2013; Gnach 2013), der multimodalen Diskursanalyse (u. a. Meier 2011) sowie einer kulturorientierten Journalismusforschung (u. a. Klaus/ Lünenborg 2000; Brüggemann 2011; Trümper 2011). Ziel ist stets, die rein produzentenzentrierte Mikroperspektive dadurch zu überwinden, dass z. B. mit der Redaktion die Mesoperspektive textherstellender Tätigkeiten fokussiert, zum anderen aber auch in Kombination mit Produkt- und Aneignungsanalyse ein holistisches Bild (vgl. Klemm/Michel 2014) des Zyklus von Produktion, Produkt und Rezeption gezeichnet 

280 

 Michael Klemm/Daniel Perrin/Sascha Michel

werden kann, das auch die Einflüsse gesellschaftlicher Dispositive und Diskurse auf die (multimodale) Textproduktion berücksichtigt. Ausgangspunkt der Produktionsanalysen ist die These, dass die Kombination von Sprache, Bild und Ton nicht zufällig ist, sondern zumindest impliziten Regeln und Zielen folgt. Es geht also darum, die komplexen Handlungen und Praktiken, die der multimodalen Sinnerzeugung zugrunde liegen, einzelfallübergreifend zu rekonstruieren und zu kategorisieren, jeweils unter Berücksichtigung der Kontextregeln (z. B. öffentlich-rechtliches vs. privat-kommerzielles Fernsehen) und Genredispositive (z. B. die politischen/ökonomischen/soziokulturellen Rahmenbedingungen von Nachrichtenfilmen im Vergleich zu Werbespots). Daraus ergeben sich etwa die folgenden Leitfragen: (1) Wie äußert sich in den Arbeitsabläufen und Kommunikationen das „verkörperte Wissen“ (Bergmann 2006) der Textproduzenten hinsichtlich des Zusammenspiels der unterschiedlichen Codes und Modalitäten? (2) Welche Arten von Redaktions- bzw. Senderkultur und Genrespezifika wirken auf die Konstruktion multimodaler Kommunikate ein und wie trägt das konkrete Handeln wiederum rekursiv zur Konstituierung oder Weiterentwicklung von Mustern bei? (3) Ergeben sich daraus spezifische oder übergreifende Stile, die als multimodale Manifestation einer Corporate Identity oder von journalistischen Kulturen interpretiert werden können? Auf diese und weitere Fragen gehen wir auch bei den folgenden Beispielanalysen ein.

2.1 Multimodale Schreibprozessforschung im Journalismus Die Progressionsanalyse ist ein Mehrmethodenansatz, mit dem Daten auf drei Stufen gewonnen und aufeinander bezogen werden: Vor dem Schreiben wird mit Interviews und teilnehmender Beobachtung die Arbeitssituation nachgezeichnet, während des Schreibens mit computergestützter Beobachtung die Schreibbewegung vermessen, nach dem Schreiben mit datengestützten retrospektiven Verbalprotokollen das Repertoire der Schreibstrategien erschlossen. Wie man die Progressionsanalyse anwenden kann, zeigt der Fall Wahlkampf: Ein Rundfunkjournalist löst Ausschnitte aus einer Wahlkampf-Rede und baut sie in einen neuen Beitrag ein. Dabei unterwirft er sie seinen institutionellen und medialen Produktionsbedingungen sowie seiner Kommunikationsabsicht: Er will mit auditiven Mitteln das „Floskelhafte, Provinzielle“ des Wahlkampfs zeigen (vgl. Abb. 3). An diesem Beispiel führen die nächsten Seiten die drei Stufen der Progressionsanalyse vor: Arbeitssituation (1), Schreibbewegung (2), Schreibstrategien (3 und 4). Die Daten dieser drei Ebenen ergänzen sich zum Gesamtbild (5).



Produktionsforschung 

 281

2.1.1 Die Arbeitssituation erfassen Vor dem Schreiben hält die Progressionsanalyse mit ethnografischen Interviews und Beobachtungen fest, in welcher Situation jemand schreibt und auf welche Erfahrung sie oder er dabei baut. Wichtig sind etwa die Schreibaufgabe, die Berufssozialisation oder ökonomische und technologische Einflüsse am Arbeitsplatz. Alle diese Faktoren sind einerseits Teil einer realen Welt, andererseits Teil der Vorstellung, die sich der Autor von der Welt macht und die sein Handeln motiviert. – Für die Fallstudie Wahlkampf lautet ein Ausschnitt aus der Situationsanalyse: Echo der Zeit ist die abendliche Hintergrundsendung zu den Nachrichten des Schweizer Radios DRS. Die Redaktion versteht sich laut Redakteur JS als „Bollwerk“ gegen die Tendenz zum Unterhaltungsjournalismus: Man wolle die Stärken des Mediums Radio nutzen, schnell über Neues informieren, Zusammenhänge verständlich aufzeigen, Meinungen kompetenter Persönlichkeiten vermitteln  – und dabei die Vielfalt der Präsentationsformen auskosten und mit der Sprache bewusst umgehen. JS, *1955, arbeitet als Auslandredakteur und Produzent bei Echo der Zeit. In der Fallstudie schreibt JS ein Feature zum Thema Wahlkampf in Österreich. Acht Minuten soll der Beitrag umfassen, davon gehen drei Minuten an Originalton-Sequenzen („O-Töne“), die JS an Schauplätzen in Österreich aufgezeichnet und bereits geschnitten hat. Diese „O-Töne“ mit Aussagen der Quellen stecken den Textaufbau schon ab. Am Vortag der Ausstrahlung „macht“ JS zwischen 14:00 und 16:30 Uhr den Beitrag. Er tippt zuerst die Stichwörter zu acht „O-Tönen“ ins Textfenster; seinen eigenen Text schiebt er als Moderation dazwischen. Dabei stützt er sich auf seine Eindrücke und auf Informationen aus mitgebrachten Zeitungen. Zwischendurch plaudert er mit Kollegen. Ausgestrahlt wird der Beitrag im Echo der Zeit vom 19. März 1998 in der Rubrik Echo Dossier. Er dauert mit der Anmoderation 9 Minuten 11 Sekunden. (Fall Wahlkampf, Situationsanalyse) Abb. 1: Fall Wahlkampf, Situationsanalyse

2.1.2 Die Schreibbewegung vermessen Während des Schreibens zeichnet die Progressionsanalyse jeden Arbeitsschritt auf, den jemand am Computer vollzieht. Dazu läuft hinter dem Textprogramm ein Aufzeichnungsprogramm. Das wissen die Schreibenden; anzunehmen ist, dass dieses Wissen sie am Anfang stärker irritiert, mit der Zeit weniger. Technisch bleibt der Aufzeichnungsprozess unsichtbar bis zur Auswertung. Diese Auswertung geschieht zum Beispiel in S-Notation: Überall dort, wo jemand seinen Schreibfluss unterbricht, um etwas zu löschen oder einzufügen, setzt die S-Notation das Break-Zeichen | in den Text. Gelöschte Stellen, Deletionen, stehen in [eckigen Klammern]; nachträgliche Einfügungen, Insertionen, stehen in {geschweiften Klammern}. Insertionen und Deletionen bilden zusammen die Revisionen. Die Zahlen unten an den Break-Zeichen und oben an den Klammern zeigen die Reihenfolge der Schritte, der Revisionen an: 

282 

 Michael Klemm/Daniel Perrin/Sascha Michel

Bürgermeister-Rede-Ton während 8'' aufziehen 3{, dann drunterhalten}3 |4 Es gehe 1{um die Zukunft2[ hat|2]2, 5[hat der Bürgermeister ge]5 |68[meint]8 |9}1 |3 6{9[e]9 |1010{sagte}10 |11 der 7[brüger|7 ]7Bürgermeister}6 |8 4 {,und11{ meinte den Semmeringtunnel, die Sozialpolitik22[ und]22 |23 23{,}23 |24 die EU-Osterweiterung 24{ und andere Wahlkampf-Themen}24 |25. Bd A) o-ton 2: Höger 08'' Bd A) o-ton 3: Höger 13'' Bd A) o-ton 4: Pröll 27'' Bd A) o-ton 4: Pröll 27'' Abb. 2: Fall Wahlkampf, Revisionen in S-Notation

Erkennbar wird hier, dass JS zuerst eine Liste von Originaltönen notiert hat und nun den ersten („Bürgermeister-Rede-Ton“) und den zweiten („BD A o-ton 2“) mit einer Überleitung verbindet, wobei er die Regieanweisung zum ersten Originalton mit „dann drunterhalten“ ergänzt (Revision 3). Ähnlich wird er anschließend die weiteren Originaltöne mit Übergängen verbinden.

2.1.3 Ein Verbalprotokoll erstellen Nach dem Schreiben erschließt die Progressionsanalyse die Repertoires individueller Schreibstrategien: Ist der Schreibprozess abgeschlossen, können sich die Autorinnen und Autoren in Echtzeit oder im Zeitraffer anschauen, wie der Text am Bildschirm entstanden ist. Dabei sagen sie laufend, was sie beim Schreiben getan haben und warum sie es getan haben. Ein Tonaufnahmegerät zeichnet diese datengestützten retrospektiven Verbalprotokolle auf. So kommentiert JS den Originalton des Redners: Und da geht es auch noch darum, dass das noch so ein schöner Ton ist, du weißt, so unterhaltsam, wenn der da so etwas radebrechend die Leute dazu aufruft, SP zu wählen, weil es geht um die Zukunft. Das ist all das Floskelhafte, Provinzielle. Das finde ich noch so schön, wenn man das so zeigen kann. Also es ist wirklich halt etwas Länder-ReisenVölker. Also so nach draußen schauen, ohne dass es jetzt gerade, ja, so knallharte Information sein muss, sondern auch etwas unterhalten. Abb. 3: Fall Wahlkampf, Protokoll zu Revision 53

JS’ retrospektives Verbalprotokoll ist natürlich nicht zu lesen als eine originalgetreue Wiedergabe der Überlegungen, die der Autor während des Schreibprozesses tatsächlich so angestellt hat. Vielmehr bringt JS, angeregt durch die Beobachtung seines eigenen Schreibens, einzelne der Überlegungen zur Sprache, die er in vergleichbaren Situationen anstellen könnte: Überlegungen, die in seinem Wissen über Sprache,



Produktionsforschung 

 283

zum Sprachgebrauch und besonders zur Textproduktion gründen. Sie heißen hier Schreibstrategien. Dabei sind Verzerrungen möglich. JS könnte zum Beispiel nur Dinge sagen, die er für erwünscht hält, – also von Strategien sprechen, mit denen er die Forschenden beeindrucken will. Bei der Datenaufzeichnung und -auswertung sind solche Verzerrungen stets mit zu bedenken und wenn möglich zu verhindern. Auch wichtig ist aber, dass kein heute greifbares Verfahren ein direktes Fenster in den Kopf öffnet; Strategien, Überlegungen, Denkmuster können stets nur indirekt erschlossen werden.

2.1.4 Die Schreibstrategien erschließen Unter Schreibstrategie verstanden wird hier die verfestigte, bewusste und damit benennbare Vorstellung davon, wie Entscheidungen beim Schreiben (bzw. multimodalen Textproduzieren) zu fällen sind, damit eine Schreibaufgabe optimal gelöst werden kann; damit also der Schreibprozess und das Textprodukt mit höherer Wahrscheinlichkeit eine zielgemäße Gestalt annehmen und eine zielgemäße Funktion erfüllen kann. Mit Blick auf die noch unverbundene Liste der Originaltöne etwa sagt JS: Ja gut, das hat natürlich etwas damit zu tun, dass man diese O-Töne ja so geschnitten hat, dass es einen Sinn- oder, hoffentlich einen Sinn gibt. So kann man es dann aneinanderreihen. […] Also, das Konzept entsteht eigentlich beim Schneiden der O-Töne. Respektive, eigentlich schon beim Aufnehmen, also beim Fragen hast du ja schon das Konzept, weil du hast das Thema, das du ausführen möchtest. Dann fragst du auch etwas in diese Richtung. Abb. 4: Fall Wahlkampf, Protokoll vor Revision 1

In diesen beiden Äußerungsfolgen zeigen sich Strategien: mit dem Informationsbeitrag auch unterhalten; dazu die Rede eines „radebrechend[en]“ Politikers als Originalton einbauen, also multimodal rekontextualisieren, weil „das so ein schöner Ton ist“ und weil sie „das Floskelhafte, Provinzielle“ zeigt; vor dem Schreiben die Originaltöne „aneinanderreihen“ und das Konzept des Beitrags „beim Schneiden der O-Töne“ entwickeln, wenn es nicht schon vor den Interviews feststeht.

2.1.5 Die Leistung der Progressionsanalyse Die Progressionsanalyse des Falls Wahlkampf ergibt also: Die Rekontextualisierungen erfüllen primär produktionstechnische und mediendramaturgische Funktionen;



284 

 Michael Klemm/Daniel Perrin/Sascha Michel

der Journalist steckt mit Originaltönen sowohl den Produktionsprozess als auch das Textprodukt ab. Zuerst bestimmt er die Abfolge der „O-Töne“, dann schreibt er seine Teile als Brücken von „O-Ton“ zu „O-Ton“. Dabei rekontextualisiert er die Originaltöne vorwiegend nach seiner eigenen Gestaltungsabsicht – die von der vermutbaren Handlungsabsicht des Sprechers im Originalkontext stark abweichen kann, wie das Beispiel der Wahlkampf-Rede zeigt.

2.2 Ethnografische Miniaturen zur Programmtrailer-Produktion Im Rahmen einer Feldforschung zur Produktion von TV-Programmtrailern wurden mehrere Redaktionen von Fernsehsendern oder beauftragte eigenständige Produktionsfirmen für die Dauer von zwei bis vier Tagen begleitet (vgl. Klemm/Michel 2014). Beim Sample wurde darauf geachtet, dass sowohl öffentlich-rechtliche als auch private Redaktionen abgedeckt wurden, um unterschiedliche Senderkulturen und Dispositive zu berücksichtigen. Die Erhebung, die insbesondere unterschiedliche Verfahren bei der Trailerproduktion identifizieren sollte, fand von September bis Oktober 2012 in den Trailer-Redaktionen von Globe tv (Produktionsunternehmen für Das Erste), Phoenix, NDR sowie RTL statt. Während des Feldaufenthalts wurden leitfadengestützte Experteninterviews mit leitenden Redaktionsmitgliedern durchgeführt, um die spezifischen institutionellen Rahmenbedingungen der Trailerproduktion zu erfassen, und Videoaufnahmen von relevanten Prozessen und Ereignissen gemacht. Da die meisten Autoren weitgehend allein an der Produktion von Trailern arbeiteten, folgte die Datenerhebung überwiegend dem Prinzip der sprachlichen Rekonstruktion von Handlungsabläufen, das heißt die unterschiedlichen nonverbalen Handlungsschritte mussten mittels begleitender Befragung versprachlicht werden. Interaktionen, die sich zwischen Cuttern, Sprechern und leitenden Redakteuren ergaben, wurden gesprächsanalytisch ausgewertet. Die Analysen zeigen, dass die Produktion von TV-Trailern keinem einheitlichen Muster folgt. Von der Sichtung des Rohmaterials bis zur Endabnahme eines leitenden Redakteurs – die einzigen obligatorischen Handlungsschritte – gibt es vielmehr optionale Praktiken, die sich individuell und redaktionell unterscheiden können. Innerhalb der Sender und Redaktionen jedoch sind die einzelnen Arbeitsschritte keineswegs variabel. So ist der Sichtung des Materials bei Globe tv etwa ein Briefing vorgeschaltet, in dem der leitende Redakteur zusammen mit den Trailerautoren und dem/den Praktikanten mögliche inhaltliche Gestaltungsaspekte diskutiert und die thematischen Schwerpunkte vorgibt. Beim NDR wiederum stellen die Kooperation von Autor und Cutter sowie zwischen Autor und leitendem Redakteur zentrale redaktionskulturelle Prämissen dar, während bei Phoenix die autonome Arbeit der Autoren charakteristisch ist. Daraus lässt sich auch der jeweilige institutionelle Stellenwert der Programmtrailer ableiten (z. B. bei RTL höher als bei Phoenix).



Produktionsforschung 

 285

Abb. 5: Kommunikative Aushandlungsprozesse zwischen Autorin (re.) und Cutterin bei der Trailerproduktion

Die multimodale Sinngebung wird somit von der lokalen Redaktions- und Senderkultur gerahmt, in der sich unterschiedliche Philosophien oder gar Ideologien der Verknüpfung von Sprache, Bild und Ton widerspiegeln (weswegen z. B. Trailer von Phoenix und RTL grundlegend anders gestaltet sein müssen, was vor allem die Experteninterviews deutlich zeigen). Dies äußert sich etwa beim Aushandeln von Bildelementen zwischen Autor und Cutter, manifestiert sich aber in erster Linie auf der Mikro­ebene im situativen Handeln des Redakteurs. Dieser ist es, der verantwortlich mit der Produktion der einzelnen Trailer betraut ist und die unterschiedlichen Zeichensysteme zusammenführt. Trotz aller seitens der Redakteure betonten Individualität lassen sich musterhafte Prozeduren und Routinen bestimmen, je nachdem, ob die Redakteure sprach-, bild- oder tonzentriert vorgehen (sollen/müssen). Beim sprachzentrierten Vorgehen lässt sich der Autor von dem zuerst produzierten Sprechertext leiten und wählt (ggf. mit Unterstützung des Cutters) passend die Bildelemente und die Musik aus. Das bildzentrierte Vorgehen verfährt genau andersherum, indem zunächst Bildausschnitte montiert werden, wozu schließlich der passende Text geschrieben und die Musik ausgesucht wird. Geht der Autor tonzentriert vor, lässt er sich ganz von einer selbst ausgewählten Musik leiten und schneidet im Rhythmus die Bilder zusammen bzw. erstellt den Sprechertext. Während die ersten beiden Varianten sehr häufig sind, ist letztere die Ausnahme, da die Trailermusik meist als Product Identity – neben der für einen Sender charakteristischen Sprecherstimme und dem vorgegebenen Layout – als identitätsstiftendes Element vorgegeben und somit Ausgangspunkt für das Arrangement aller anderen Modalitäten ist. Insgesamt offenbart die Produktionsanalyse, dass die Autoren Handlungsabläufen folgen, die durch eine ausgeprägte Hierarchie der Modalitäten geprägt ist: In einer Art Reißverschlussverfahren werden die übrigen Modalitäten der dominierenden Modalität eingegliedert, immer orientiert an der ‚von oben‘ erwarteten Stilgebung des Senders und dem Programmgenre: Diese kulturellen Muster sind aber oft die eher implizite Grundlage der Arbeit im Schneideraum. Die skizzierten Abläufe lassen sich als „gute Praktiken“ im Sinne von Gnach/ Perrin (2011) charakterisieren, als Muster mit der Option zur individuellen Variation,



286 

 Michael Klemm/Daniel Perrin/Sascha Michel

stellen also Prototypen des reibungslosen Produktionsablaufes dar. Dennoch finden sich in dem Korpus auch „kritische Situationen“ (Gnach/Perrin 2011), etwa wenn der zuvor erstellte Sprechertext nicht mehr zu den mit dem Cutter ausgehandelten Bildelementen passt, was eine partielle Reformulierung des Texts notwendig macht, oder wenn sich Texter und Cutter prinzipiell über die Gestaltungsstrategie uneinig sind. An zwei Fallbeispielen soll demonstriert wird, welche Rückschlüsse solche „kritischen Situationen“ zwischen Autor (A) und Cutter (C) auf das Doing Multimodality in Redaktionen erlauben: Fallbeispiel 1: „Hamburgs Hafenmeile“ 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

A: Und dann müssen wir noch ausm Anfang äh moderne also von den den neuen Bauten da Bilder, Luftbilder oder Bilder also erst irgendwie vielleicht nen Luftbild und dann… C: Und warum willst du diese gute Stimmung mit Fischmarkt, weil das ist doch eher dieses Klischee, was jeder kennt, was man überall… A: Ja, soll ja auch. Man soll sich da ja auch wiederfinden und so. Also ich finde jetzt nur die Domina zu zeigen, also das is ja schon lange eigentlich nich mehr so da. C: Also ich finde mit diesem Typen, der äh seinen Wagen zumacht, das find ich super, weil das sieht so aus er wird verdrängt … A: Ja, das ham wir doch eben gehabt irgendwie wir wollen doch nicht mit nem negativen anfangen…das is ja beim Themenwechsel, dann könn wir den nehmen. Aber erstmal wollen wir ja äh…. C: Aber das meinte ich ja eben, weil das kennen wir ja alle..also Fischmarkt irgendwie das kennen doch alle alle alle… A: Ja, aber das gibt es ja auch noch. C: Aber das ist ja das, was allmählich verdrängt wird…. A: Der Fischmarkt wird nie, never ever verdrängt, der ist da seit 125 Jahren. C: Ja, aber in der Form und der Kultur wird es wahrscheinlich irgendwann weniger werden… A: Jaaaaa, aber das möchte ich jetzt halt nicht…ich weiß nicht, ich möchte nicht mit so nem mit so nem, dann hat man doch kein Bock mehr das zu kucken, wenn’s irgendwie alles scheiße ist oder? C: Also ich hab kein Bock das zu kucken, wenn ich Bilder sehe, die ich schon hunderttausend Mal gesehen hab… A: Ja, ich natürlich auch nicht, aber…der Zuschauer…. C: Sagst du mal so…. A: Sag ich mal so, ja…der will nicht nur … Kummer und Sorgen haben, sondern auch unterhalten werden…und das ist ja, das ist jetzt hier nicht ne hochkritische Sendung. C: Nee? A: Nee! Nee, nö, das is so’n Bilderteppich von der Hafenmeile, wer da so wohnt, was die da so machen, was das da so kostet… C: Okay…..

Abb. 6: Transkript Interaktion Redakteurin – Cutterin



Produktionsforschung 

 287

Fallbeispiel 1 stellt einen Teilausschnitt der Produktion des TV-Trailers für die Dokumentation Hamburgs Hafenmeile im NDR dar. Strukturell handelt es sich hierbei um die Kernphase der Produktion, in der Autorin und Cutterin das konkrete Bildmaterial auswählen und diskutieren (sequenziell gerahmt von einer Prä- und Postproduktion). An diesem Punkt geht es um die Frage, ob die Bildsequenz eher das traditionelle (harmonische) oder das moderne (bedrohte) Stadtbild Hamburgs verkörpern soll. Während die Bildauswahl üblicherweise konsensuell verläuft, wird hier ein Dissens deutlich, der sich weniger als bildbezogener denn als inhaltlicher Konflikt herausstellt, aber für die Bildauswahl zentral wird. Während die Cutterin zudem – mit einem selektiven Zugriff ohne Kenntnis des Bezugstexts – trailerorientiert argumentiert und nur die Ästhetik dieses Komprimats (vgl. Klemm/Michel 2014) im Blick hat, orientiert sich die Autorin holistisch an der zu Grunde liegenden Dokumentation. Für sie stehen Genre- (Z 33 so’n Bilderteppich von der Hafenmeile und Z 31–32 das ist jetzt hier nicht ne hochkritische Sendung) sowie Adressatenangemessenheit im Zentrum des Interesses (Z 23–24 dann hat man doch kein Bock mehr das zu kucken, wenn’s irgendwie alles scheiße ist oder?). Dabei wird ein eher klischeehaftes Bild vom Zuschauer deutlich (Z 29–31 ja…der will nicht nur…Kummer und Sorgen haben, sondern auch unterhalten werden), das auf die Bildauswahl und damit die multimodal konstruierte Realität durchschlägt. Diese (vorgeschobene?) strikte Orientierung an der Zuschauererwartung impliziert zudem, dass ein Trailer keinen Raum für Experimente bereitstellt, die Angriffsflächen bieten könnten. Redaktionskulturell lässt sich dieser Gesprächsausschnitt als eine Aushandlung von hierarchischen Kompetenz- und Machtstrukturen zwischen Cutter und Autor lesen, was durch eine zweite Interaktion bei der Produktion eines anderen Programmtrailers gestützt wird:



288 

 Michael Klemm/Daniel Perrin/Sascha Michel

Fallbeispiel 2: „Schmeiß weg, kauf neu“ 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

C: A: C: A: C: A: C: A:

C: A: C: A: C: A: C: A: C: A: C: A: C:

Äh, da find ich den Anfang ganz gut. Was sagt er am Anfang? Er sagt irgendwie: „Oh mim Handy…äh…1,2 Jahre alt, oh ist das alt“ Ja… Und dann…ähm…“die Gesellschaft hat sich gewandelt“. Find ich auch nicht schlecht. Aber das ist dann irgendwie schon wieder so’ne Antwort, weißte, dann ham wir den ganzen Film erzählt. Du sollst dir das Ding ja ankucken und…ähm…das is so so’n Fazit find ich. Find’st du? Dass die Gesellschaft sich gewandelt hat? Weil ich frag ja was anderes, ob die Verschleißteile so konzipiert sind, dass…ähm…dass man immer was Neues kaufen soll, das hat mit der Gesellschaft ja jetzt nicht wirklich was zu tun, sondern mit der…Industrie…Kannst es ja mal rausnehmen. Also ich denk aber das is ja nicht die große Überraschung, das das sowas…äh…dass das…äh… Doch ich war schon überrascht, dass ich meinen nicht reparieren lassen konnte. Mit der Gesellschaft, dass die sich verändert hat. Achso. Aber das ist doch aber die Gesellschaft verändert sich, weil immer wieder dieses neue Kaufen dazukommt, isses ja auch so, dass sich die Industrie umstellt. (lacht) Ja, oder die Industrie macht es und die Gesellschaft verändert sich, also Henne oder Ei, also das is…äh…das können wir, glaub ich, nicht lösen. Okay. Ich glaube, die Industrie ist schuld, die Gesellschaft passt sich an. Also ich mag einfach mal ganz gerne so ne philosophische Aussage dadrin, das find ich irgendwie… Im Trailer? Ja. Da hast du gar keine Zeit nachzudenken glaub ich. Okay.

Abb. 7: Transkript Aushandlung Redakteurin – Cutterin

Ähnlich wie bei Fallbeispiel 1 entpuppt sich ein Dissens bezüglich der Frage des Bildmaterials als inhaltlicher Dissens: Während die Cutterin aus idealistischer, themenbezogener Perspektive argumentiert (Z 30–31 ich mag einfach mal ganz gerne so ne philosophische Aussage dadrin), nimmt die Autorin den (realistischen) Blickwinkel des Zuschauers ein, der das Ding ja ankucken (Z 9–10) soll und gar keine Zeit [hat] nachzudenken (Z 35).



Produktionsforschung 

 289

In beiden Interaktionen fügt sich die Cutterin letztlich, wenn auch etwas widerwillig, der Argumentation der Autorin, wie entsprechende Cues (Okay Z 35 bei Fallbeispiel 1 und Z 36 bei Fallbeispiel 2) verdeutlichen, und akzeptiert ihre der Autorin nachgeordnete hierarchische Rolle. Somit geben ethnographische Analysen des Doing Multimodality nicht nur Hinweise auf genretypische Bild-Sprache-Ton-Verknüpfungsverfahren, sondern auch Aufschluss über redaktionskulturelle Praktiken und Hierarchien  – und dies kontrastiv im Rahmen solcher Kurzethnographien, in denen zumindest Muster und Routinen deutlich werden. Noch etwas machen die Produktionsforschung und die auch darauf aufbauende Feinanalyse der Kommunikationsform TV-Programmtrailer deutlich: Die Produktion von Trailern unterscheidet sich zumindest in drei Aspekten fundamental von der Produktion eines Werbespots: Zum einen wird bei der Trailerproduktion in aller Regel auf vorhandenes Rohmaterial zurückgegriffen, während für den Werbespot neues Bildmaterial erzeugt wird. Die Aufgabe der Trailer-Autorinnen und -Autoren besteht gerade darin, vorhandene Kommunikate zu ‚recyceln‘ und in einer neuen Bedeutung und Funktion (nämlich Programmwerbung) zu rekontextualisieren. Dies ist zweitens verbunden mit einer spannungsfördernden Narration, die – auch dies im eklatanten Kontrast zur Produktwerbung – als ‚Cliffhanger‘ am Ende abbricht und bewusst offen gelassen wird: Erst das Betrachten der Sendung soll die kalkulierten Leerstellen des Trailers auflösen. Zum dritten basieren Werbespots auf einem extrem aufwändigen, arbeitsteiligen und kostspieligen Prozess mit vielen Arbeits- und Kontrollschritten und zudem auf einem detaillierten Storyboard, während Trailer mitunter die recht spontane Arbeit eines einzelnen Redakteurs sind, deren Ergebnis manchmal nicht einmal von höherer Ebene abgenommen wird – bei Werbespots undenkbar. Das Dispositiv Programm-Trailer unterscheidet sich somit in markanten Aspekten von dem eines Werbespots.

3 Beispieldiskussion: Der Fall Marslaser Am 9. März 2007 hält der Schweizerische Nationalfonds eine Medienkonferenz ab, um eine Neuheit von Alpes Lasers vorzustellen, einer Spin-off-Unternehmung der Universität Neuenburg. Die NASA soll damit ein Fahrzeug ausrüsten, das auf dem Mars nach Spuren von Leben suchen wird. Télévision Suisse Romande, das öffentliche Fernsehen der französischsprachigen Schweiz, berichtet darüber in der Abendausgabe der Hauptnachrichtensendung Téléjournal. Der Journalist J.R. lässt den Entwickler des Lasers ausführlich zu Wort kommen und ein Experiment vorführen. Wie der Laser aber Leben aufspüren und damit den Auftrag der NASA erfüllen helfen soll, bleibt im Dunkeln. Der Fall Marslaser zeigt, wie entscheidend Emergenz im Verarbeiten von Text und Bild ist.



290 

 Michael Klemm/Daniel Perrin/Sascha Michel

3.1 Das Produkt Im Nachrichtenbeitrag erfährt man, dass die Schweizer Firma Alpes Lasers stolz ist, den Laser zu fertigen, mit dem die NASA Spuren von Leben auf dem Mars entdecken will. Man sieht den Laser, die winzigen Bauteile, die Labors. Man hört von einem Marsfahrzeug, auf das der Laser montiert wird, und von organischen und anorganischen Methan-Molekülen, die identifiziert werden sollen. In einem Interviewausschnitt im Beitrag zeigt sich der Entwickler stolz, zur Klärung einer grundsätzlichen Frage beizutragen. Trotz dieser Vielfalt an Perspektiven und Details aber erfährt man nicht, wie es gelingen soll, mit einem Laserstrahl Spuren von Leben auf dem Mars zu entdecken; das Erklärstück ist nicht schlüssig. 018 A: le laser à cascade 019 on peut le focaliser sur une longueur d’onde bien précise 020 qui est la longueur d’onde à laquelle justement on va chercher 021 à détecter ces gaz qui seront la trace d’une vie passée sur mars 022 O: La société alpes lasers fabrique cette petite boîte 023 qui sera fixée au véhicule d’exploration 024 et qui projettera un faisceau laser dans l’atmosphère martienne 025 à la recherche de molécules de méthane 026 l’objectif est de savoir 027 si ces molécules sont d’origines minérales ou animales Abb. 8: Fall Marslaser, Erklärstück

Was fehlt, ist die Information, dass das Licht des gezeigten Lasers genau so schnell schwingt, dass es nur von organischen Methan-Molekülen zurückgeworfen werden kann, und dass auf dem Marsfahrzeug nicht nur ein Sender montiert ist, sondern auch eine Sonde, die das reflektierte Licht empfangen kann. Wo diese Sonde anschlägt, muss der Laserstahl auf organisches Methan getroffen sein – was dann gedeutet wird als Spur gegenwärtigen oder früheren Lebens auf dem Mars.

3.2 Der Prozess Warum fehlt das entscheidende, das sinnstiftende Glied im Erklärstück? Die Analyse der Prozessdaten zeigt, dass der Journalist J.R. stark mit sprachlichen (Vor)Formulierungen und Bildern arbeitet und sich kaum von der Ebene dieser Zeichen löst, um aus Distanz zum Detail zu fragen nach Sinn, Hauptaussage, Gesamtzusammenhang. Er entwickelt seinen Beitrag formgeleitet, als Nachrichten-Quotestory. Die Geschichte entsteht um Quotes und Bilder herum, die er am Vortag am Schauplatz aufgezeichnet hat.



Produktionsforschung 

0003 0004 0005 0006 0007 0008 0167 0168 0169 0183 0184

 291

je suis en train de regarder les images qu’on a tournées hier et puis si tu veux le but est d’arriver à isoler les morceaux d’interview pour pouvoir articuler mon texte autour des sonores que je vais garder dans la diffusion du sujet … parce que j’ai en haut la retranscription de tous les sonores oui des interviews que j’ai … ça me permet de voir en haut les sonores dont je dispose et puis de voir comment les intégrer au texte en bas

Abb. 9: Fall Marslaser, Verbalprotokoll

Zuerst schreibt J.R. alleine am Beitrag. In dieser Phase entwirft und überarbeitet er vor allem Ein- und Überleitungen, feilt an Formulierungen. Ausführlich überlegt er sich, wie er einen attraktiven Anfang gestalten kann mit einem Laser, dessen Strahl man nicht sieht. Ein Experiment vom Vortag im Labor soll helfen: Getroffen vom unsichtbaren Laserstrahl, entfacht sich ein Streichholz wie von selbst. Damit will J.R. die Aufmerksamkeit des Publikums gewinnen. 0025 0026 0027 0028 0029 0030 0031 0032 0033 0034

c’est la première phrase du texte et c’est là qu’il faut êtreessayer d’accrocher trouver la formule qui va le mieux avec les images et sera susceptible d’intéresser le téléspectateur et c’est pour ça que je la soigne un peu alors je parle d’abord sur ce laser qu’on voit pas et puis je ne sais pas où ça va m’amener mais il faut bien que j’essaye quelque part donc j’essaye

Abb. 10: Fall Marslaser, Verbalprotokoll

3.3 Bildeffekt vor Logik Nachdem J.R. den Anfang getextet hat, lässt er sich von Recherchenotizen und spontanen Ideen weiterziehen, ohne bewussten Plan. Das intuitive Vorgehen begründet er damit, auch der Klang der Sprache sei wichtig, nicht nur die Bedeutung. Als weitere Leitlinien für die Textproduktion nennt er zum Beispiel, die Adressaten mit der Botschaft zu erreichen und die Beitragszeit von 1:30 einzuhalten. Zudem will er mit einem



292 

 Michael Klemm/Daniel Perrin/Sascha Michel

möglichst fertigen Textvorschlag in den Schnittraum gehen, um die Cutterin zu entlasten und die Kollegen nicht warten zu lassen, die ihre Beiträge auch dort bebildern und vertonen müssen. 0134 0135

mais au moins j’ai quelques lignes érectrices qui me permettent de ne pas me perdre complètement […] 0260 B: hum hum c’est des idées qui viennent 0261 et puis comment est-ce qu’elles sont bien amenées 0262 pas très bien amenées 0263 ça honnêtement c’est plus inconscient que réfléchi 0264 parce qu’il y a aussi0265 il faut aussi faire attention à la sonorité Abb. 11: Fall Marslaser, Verbalprotokoll

Für die Erklärung seines wissenschaftlich-technischen Gegenstandes kopiert er Quotes ein  – transkribierte Teile aus dem Interview, das er mit dem Hersteller des Lasers geführt hat. Damit lagert er die Verantwortung für die Richtigkeit der Erklärung aus: comme ça je ne me fais pas totalement tuer par les scientifiques qui me disent voilà encore un journaliste qui ne ne comprend rien. Da der Gesprächspartner nur die technische Funktion seines eigenen Teilprodukts erklärt hat, bleibt der Gesamtzusammenhang im Dunkeln: Man erfährt, was den Laser auszeichnet, aber nicht, was und wie er zur Lösung des Problems der NASA beiträgt, Leben auf dem Mars nachzuweisen. l'inté64[er|64]64r65[e|65]65,66[^^|66]66êt de la 67[BN|67]67,68[bn|68]68,69[Ba|69]69Nasa70[, qui veut munir un véhicule d'exploration mat|70]70... A tel 71 [pou|71]71poi72[t|72]72nt qu78[e ]78|7979{'un véh147[ci]147|148148{ic}148|149ule d'exploration mar80[it|80]80tien ser81[ |81]81a équipé d'un laser 82[aà|82]82à cascade pour trouver des tra83[vec|83]83ces de vie dans l'atmosph84[pèr|84]84ère de la planète rouge.}79|85 85 {09.37.52: La raison c‘est que le laser à cascade on peut le focaliser sur une longeur d‘onde bien précise qui est la longueur d‘onde justement à laquelle on va chercher à détecter ces gaz qui seront la trace d‘une vie passée sur Mars et justement le laser à cascade a cette propriété unique qu‘on peut le faire émettre à ces longeurs d‘onde là146{.}146|147 97 [ 94 [A q86[e|86]86uel87[eq|87]87ques pât88[eé|88]88és de 89[am|89]89mai90[ns|90]90son de 91 l [0|91]91,92[=?|92]92'Univers93[ti|93]93ité|94]94Quelques pât95[e|95]95és de mais96[non|96]96on plus]97|98}85|9798[

Abb. 12: Fall Marslaser, S-Notation. Während der Autor an den Formulierungen der Ein- und Überleitungen zwischen den Quotes feilt, kopiert er die Erklärung (Mitte) als ganzen Textblock aus Notizen ein.



Produktionsforschung 

 293

3.4 Verpasste Chance kollaborativer multimodaler Textproduktion Später, beim Bildschnitt, suchen J.R. und die Cutterin anschauliche Bilder, etwa um im Einstieg zu zeigen, dass der Laser die Kraft hat, ein Streichholz zu entfachen, obwohl er für das Auge unsichtbar ist. Zwar fragt dann die Cutterin wiederholt, warum man mit einem solchen Laser Spuren von Leben finden und nachweisen könne. J.R. indes bleibt auch ihr die Erklärung des Gesamtzusammenhangs schuldig: 0507 0508 0509 0510 0511 0512 0513 0523 0524 0525 0526 0527 0528 0529 0530 0531

C: ouais mais j’comprends pas pourquoi il trouvil vont tuer la vie qu’y a alors B: non ils vont pas la tuer C: ben si l’laser il les brûle B: le laser il brûle mmh mmh c’est c’que j’craignais C: c’était pour ça qu’tu m’as choisi hein […] ils vont passer ils vont scanner l’atmosphère martienne pis voir si y a des molécules C: pour voir c’qui passe dedans B: c’qui passe dedans ils règlent la longueur d’onde du rayon laser sur ces molécules c’qu’explique le professeur C: d’accord

Abb. 13: Fall Marslaser, Schnittplatzgespräch

Die kritische Situation in dieser Textproduktion besteht also darin, aus vielen vorgefertigten Teilen etwas Neues herzustellen, das mehr ist als die Summe der Teile – und zugleich die weniger zentrale Information ausblendet. Die NASA liefert Hintergrundwissen zur Mission, die Interviews und Aufnahmen bei Alpes Lasers fokussieren auf das Teilprodukt Kaskaden-Laser, dazwischen wäre die Brücke zu schlagen: Welche Funktion erfüllt der Schweizer Laser in der Mission? Auf erneute Nachfrage und einen Anstoß der Cutterin – und dann kommt er [der Laserstrahl] zurück (Z 0546) – nähert sich J.R. einer Erklärung:



294 

0534 0535 0536 0537 0538 0539 0540 0541 0542 0543 0544 0545 0546 0547 0548 0549 0550 0551 0552

 Michael Klemm/Daniel Perrin/Sascha Michel

C: ok et pis après mais- ces ptites boîtes B: mmh mmh C: elles t’envoient l’laser B: mmh mmh C: mais elles font que envoyer l’laser B: ouais C: ou elles les elles font leselles doivent bien donner l’résultat B: oui elles envoient le rayon laser sur une longueur d’onde C: pis après y r’vient B: pis après il r’vient quand il rencontre le machin C: si il y aura quelque chose et si il rencontre quelque chose B: le truc c’est qu’il peut rencontrer qu’un seul type de heu il est programmé pour rencontrer qu’une seule catégorie de molécules

Abb. 14: Fall Marslaser, Schnittplatzgespräch

Zu diesem Zeitpunkt ist er aber stark mit dramaturgischen Überlegungen befasst. Er erkennt nicht, dass ihn die Cutterin etwas fragt, was sich auch das Publikum fragen könnte. So lässt er die leicht unscharfe Version stehen, der Laser sei „programmiert, nur eine Sorte Moleküle anzutreffen“. Die präzise Erklärung kann der Journalist nicht in den Formulierungen und Bildern seiner Quellen finden, er müsste sie selbst bauen: zum Beispiel beim Planen des Beitrags, indem er das Erklärstück zu Ende denkt, bevor er schreibt – oder beim Arbeiten mit der Cutterin, indem er ihre inhaltlichen Fragen als Warnsignal nutzt und ganz beantwortet, im Gespräch mit ihr und dann auch im Beitrag. Den grundsätzlichen Anspruch nämlich, die Hauptbotschaft klar und verständlich zu vermitteln, erhebt der Journalist durchaus: 0278 0279 0280 0281 0282 0283

on prend vite du temps si on veut rentrer dans tous ces détails-là il faut trouver des ellipses il faut arriver à faire passer le message de façon qu’il soit clair et compréhensible à tous les niveaux

Abb. 15: Fall Marslaser, Schnittplatzgespräch



Produktionsforschung 

 295

3.5 Umbau wäre bis zuletzt möglich Dass es bis zuletzt noch möglich gewesen wäre, den Offtext neuen Einsichten anzupassen, belegt ein später Schritt dieser Beitragsproduktion. Die Bilder sind ausgewählt und geschnitten, der Offtext gesprochen und aufgezeichnet. Man ist deutlich früher fertig geworden als geplant. Beim Anschauen des fertigen Beitrags bemerkt die Cutterin, dass es dramaturgisch geschickter sein könnte, im Beitrag früher zu sagen, wer den Laser herstellt. Daraufhin redigiert der Journalist den Anfang, teilt dem Sendungsleiter mit, er sei gleich fertig, und zeichnet zusammen mit der Cutterin den Offtext des Anfangs noch einmal auf. 0534 0535 0536 0537 0538 0539 0540 0541 0542 0543 0544 0545 0546 0547 0548 0549 0550 0551 0552

C: ok et pis après mais- ces ptites boîtes B: mmh mmh C: elles t’envoient l’laser B: mmh mmh C: mais elles font que envoyer l’laser B: ouais C: ou elles les elles font leselles doivent bien donner l’résultat B: oui elles envoient le rayon laser sur une longueur d’onde C: pis après y r’vient B: pis après il r’vient quand il rencontre le machin C: si il y aura quelque chose et si il rencontre quelque chose B: le truc c’est qu’il peut rencontrer qu’un seul type de heu il est programmé pour rencontrer qu’une seule catégorie de molécules

Abb. 16: Fall Marslaser, Schnittplatzgespräch

4 Leistungsfähigkeit der Methoden: Kritische Beurteilung Die Beispiele haben gezeigt, dass man durch ethnografische Redaktionsforschung und die Dokumentation wie Reflexion von Textherstellungsprozessen authentische Einblicke in die konkrete systematische oder auch spontane Verknüpfung von Sprache, Bild und Ton bei komplexen audiovisuellen Kommunikaten gewinnen kann. Deutlich werden dabei ebenso „gute Praktiken“, also bewährte Routinen und Muster, wie „kritische Situationen“ (vgl. Gnach/Perrin 2011). Deutlich werden zudem redakti-



296 

 Michael Klemm/Daniel Perrin/Sascha Michel

onskulturelle Vorgaben oder gar senderbezogene multimodale Ideologien, wodurch ein RTL-Trailer etwa spannungsreicher geschnitten sein muss als ein Phoenix-Trailer, der deutlich mehr auf Sprache Wert legt. Deutlich werden schließlich auch Konflikte und Hierarchien in der arbeitsteiligen multimodalen Textproduktion, ebenso der Einfluss aktueller technischer Wandelprozesse im Crossmedia-Zeitalter. Die empirische Produktionsforschung liefert so wertvolle Hintergrundinformationen für Produktanalysen und medienkulturelle Reflexionen, etwa über Ursachen, Formen und Folgen der zunehmenden ‚Audiovisualisierung‘ von Kommunikation. So erkenntnisreich und notwendig empirische und qualitative Produktionsforschung demnach ist, sie stößt auch schnell an Grenzen. Kurzfristige Ethnografien können nicht die erwünschte Tiefe erlangen, sie bleiben auf symptomatische Stichproben beschränkt. Eine langfristige ethnografische Erhebung von Produktionsprozessen hingegen ist, wie schon erwähnt, aufwändig und beeinflusst zudem die üblichen Abläufe, so dass Redaktionen tendenziell nur dazu bereit sind, wenn sie sich, etwa im Rahmen transdisziplinärer Aktionsforschung, Nutzen zum Erreichen auch ihrer praxisrelevanten Ziele versprechen. Den Forschenden wird dann Einblick gewährt, wenn in früheren ähnlichen Projekten solcher Praxisnutzen ausgewiesen werden konnte. Gefragt ist hier also eine Forschungsstrategie und -kultur konsequenter Zusammenarbeit von berufspraktischen und wissenschaftlichen Fächern (vgl. Perrin 2012; Perrin 2013, 197–205). Was leistet zum Beispiel die skizzierte Progressionsanalyse, was nicht? Sie erfasst einzelne Fälle multimodaler Textproduktion genau und vielschichtig, und sie kann Widersprüche und Parallelen feststellen zwischen dem, was ein Autor vor dem ­Schreiben über sein Schreiben sagt, was er beim Schreiben tut und was er danach zu Protokoll gibt. Als Mehrmethodenansatz verbindet die Progressionsanalyse also drei unterschiedliche, sich ergänzende Blickwinkel und ermöglicht so eine plastische Vorstellung vom Gegenstand. Sie bleibt aber im Kern auf die einzelnen Schreibenden ausgerichtet, auf das Textproduzieren als kognitiven und materialen Prozess. Die Erkenntnis über Wechselwirkungen zwischen der Organisation oder einer anderen Gemeinschaft und den kommunizierenden einzelnen Akteuren bleibt an die Schilderungen der untersuchten Akteure und an die teilnehmende und computergestützte Beobachtung an deren Arbeitsplatz gebunden. Das Verfahren ist aufwändig, schon im Einzelfall. Soll erforscht werden, wie ganze Gemeinschaften wie etwa Redaktionen ihre Texte in Zusammenarbeit produzieren, muss die Progressionsanalyse mit weiteren Methoden verbunden werden (vgl. Perrin 2013, 56–67).



Produktionsforschung 

 297

5 Fazit/Ausblick: Desiderat Produktionsforschung Produktionsanalysen zur Entstehung multimodaler Kommunikate sind  – auch aufgrund des geschilderten Aufwands und des schwierigen Feldzugangs – in den meisten Domänen nach wie vor ein Desiderat der medienlinguistischen wie kommunikationswissenschaftlichen Forschung. Dabei können sie auf der Mikroebene detailliert zeigen, wie und wozu Sprache, Bild, Ton und deren Subsysteme bei unterschiedlichen Genres systematisch kombiniert werden, welches Wissen darüber in Redaktionen vorhanden ist und welche (unterschiedlichen) Ablaufstrukturen, Reflexionen und Aushandlungsprozesse bis hin zu Konflikten für die Textproduktion erforderlich sind. Zudem lassen sich über die Analyse typischer Produktionsprozesse auf der Mesoebene auch komplexere Muster und Stile und damit multimodale Sender- und Redaktionskulturen rekonstruieren (z. B. öffentlich-rechtliche vs. privat-kommerzielle Sender), die auf der Makroebene als Symptome für (nationale) journalistische Kulturen oder die multimodale Gestaltung von Diskursen gedeutet werden können. So unterscheiden sich Nachrichtenkulturen zum Beispiel im interkulturellen Vergleich auch im Hinblick auf das multimodale Design, erkennbar etwa an den Sendungsintros, Farben und Logos, dem Studioarrangement, dem Moderationsstil, der Verwendung von animierter Schrift (Crawls), der Stilisierung von Nachrichten zwischen Sprechermeldung und Action News  – alles Ergebnis redaktioneller Entscheidungs- und Produktionsprozesse, die meist im Verborgenen bleiben. Viele relevante Settings und Genres wurden noch gar nicht produktionsanalytisch erfasst. Zum Beispiel Auslandsredaktionen, die in Filmreportagen über fremde Länder kulturelle Stereotype multimodal konstruieren  – nach welchen Kriterien, nach welchem Mustern, mit welchen Intentionen, mit welchen multimodalen Bausteinen? Oder die Produktion von TV-Jahresrückblicken und sonstiger Geschichtssendungen, die man als multimodales Auswahl- und Rekontextualisierungshandeln interpretieren kann, das unser kulturelles Gedächtnis beeinflusst (zur Produktanalyse vgl. Klemm in diesem Band). Oder die Herstellung von Imagefilmen in institutionellen oder unternehmerischen Kontexten. Viele weitere Anwendungsfelder ließen sich ergänzen. Die multimodale Produktionsforschung steht noch weitgehend am – allerdings viel versprechenden – Beginn.

6 Literatur Ayaß, Ruth/Jörg Bergmann (Hg.) (2006): Qualitative Methoden der Medienforschung. Reinbek. Bachmann, Götz/Andreas Wittel (2006): Medienethnographie. In: Ayaß/Bergmann, 183–219. Bergmann, Jörg (2006): Studies of Work. In: Ayaß/Bergmann, 391–405. Blum, Joachim/Hans-Jürgen Bucher (1998): Die Zeitung. Ein Multimedium. Textdesign – ein Gestaltungskonzept für Text, Bild und Grafik. Konstanz.



298 

 Michael Klemm/Daniel Perrin/Sascha Michel

Bölz, Marcus (2013): Fußballjournalismus. Eine medienethnografische Analyse redaktioneller Arbeitsprozesse. Wiesbaden. Brüggemann, Michael (2011): Journalistik als Kulturanalyse. Redaktionskulturen als Schlüssel zur Erforschung journalistischer Praxis. In: Olaf Jandura/Thorsten Quandt/Jens Vogelgesang (Hg.): Methoden der Journalismusforschung. Wiesbaden, 47–65. Brünner, Gisela/Reinhard Fiehler/Walther Kindt (Hg.) (1999): Angewandte Diskursforschung. 2 Bde. Opladen. Diekmannshenke, Hajo/Michael Klemm/Hartmut Stöckl (Hg.) (2011): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin. Gnach, Aleksandra (2013): Produktion von Fernsehnachrichten. Unterschiede zwischen der deutschund französischsprachigen Schweiz. Wiesbaden. Gnach, Aleksandra/Daniel Perrin (2011): Kritische Situationen und Gute Praktiken. Text-BildStrategien kooperativer Nachrichtenproduktion. In: Diekmannshenke/Klemm/Stöckl, 213–229. Hahn, Oliver/Roland Schröder (Hg.) (2008): Journalistische Kulturen. Internationale und interdisziplinäre Theoriebausteine. Köln. Hicks, Troy/Daniel Perrin (2014): Beyond single modes and media. In: Eva-Maria Jakobs/Daniel Perrin (eds.): Handbook of writing and text production Volume 10. New York et al., 231–253. Klaus, Elisabeth/Margret Lünenborg (2000): Der Wandel des Medienangebots als Herausforderung an die Journalismusforschung. Plädoyer für eine kulturorientierte Annäherung. In: Medien & Kommunikationswissenschaft 48 (2), 188–211. Klemm, Michael (2011): Bilder der Macht. Wie sich Spitzenpolitiker visuell inszenieren (lassen) – eine bildpragmatische Analyse. In: Diekmannshenke/Klemm/Stöckl, 187–209. Klemm, Michael (2015): Wenn Politik auf Video-Einspieler trifft. Zur multimodalen Argumentation in der politischen Fernsehdiskussion „Hart aber fair“. In: Heiko Girnth/Sascha Michel (Hg.): Polit-Talkshow. Interdisziplinäre Perspektiven auf ein multimodales Format. Stuttgart, 96–120. Klemm, Michael/Sascha Michel (2014): Medienkulturlinguistik. Plädoyer für eine holistische Analyse von (multimodaler) Medienkommunikation. In: Nora Benitt u. a. (Hg.): Korpus – Kommunikation – Kultur: Ansätze und Konzepte einer kulturwissenschaftlichen Linguistik. Trier, 183–215. Klemm, Michael/Carmen Trierweiler (2013): Visual Politics und (Un)Doing Gender in der Spitzenpolitik. Visuelle Selbstdarstellungsstrategien im Vergleich der Geschlechter. In: Kathleen Starck (Hg.): Von Hexen, Politik und schönen Männern – Geschlecht in Wissenschaft, Kultur und Alltag. Münster, 41–58. Meier, Stefan (2011): Multimodalität im Diskurs. Konzept und Methode einer multimodalen Diskursanalyse (multimodal discourse analysis). In: Reiner Keller u. a. (Hg.). Handbuch Sozialwissenschaftliche Diskursanalyse 1 – Theorien und Methoden. 3., erw. Aufl. Wiesbaden, 499–532. Mikos, Lothar/Claudia Wegener (Hg.) (2005): Qualitative Medienforschung. Ein Handbuch. Konstanz. Perrin, Daniel (2001): Wie Journalisten schreiben. Ergebnisse angewandter Schreibprozessforschung. Konstanz. Perrin, Daniel (2012): Transdisciplinary action research. Bringing together communication and media researchers and practitioners. In: Journal of Applied Journalism and Media Studies 1 (1), 3–23. Perrin, Daniel (2013): The Linguistics of Newswriting. Amsterdam/Philadelphia. Schneider, Jan Georg/Hartmut Stöckl (Hg.) (2011): Medientheorien und Multimodalität. Ein TV-Werbespot – Sieben methodische Beschreibungsansätze. Köln. Stöckl, Hartmut (2011): Werbekommunikation – linguistische Analyse und Textoptimierung. In: Karlfried Knapp u. a. (Hg.): Angewandte Linguistik. Ein Lehrbuch. 3., überarbeitete und erweiterte Aufl. Tübingen, 245–266.



Produktionsforschung 

 299

Stöckl, Hartmut (2012): Finanzen visualisieren – Die Text-Bild-Sorte Infographik. In: Osnabrücker Beiträge zur Sprachtheorie 81, 177–199. Trümper, Stefanie (2011): Redaktionskultur in Deutschland am Fallbeispiel der Frankfurter Allgemeinen Zeitung und der Bild-Zeitung. In: Monika Elsler (Hg.): Die Aneignung von Medienkultur. Wiesbaden, 173–192. Wintsch, Dani (2006): Doing News. Die Fabrikation von Fernsehnachrichten. Eine Ethnografie videojournalistischer Arbeit. Wiesbaden.



Michael Klemm

13. Kulturvergleich Abstract: Auch in einer zunehmend globalisierten, an transkulturellen Kommunikationsnetzwerken orientierten Welt spielen kulturelle Unterschiede nach wie vor eine signifikante Rolle. Kulturell geprägt ist auch die multimodale Gestaltung von Kommunikaten, etwa von Nachrichtenfilmen oder Werbespots  – einerseits durch Traditionen nationaler Medienkulturen, andererseits durch politisch und ökonomisch beeinflusste Sender- und Redaktionskulturen. Ausgehend von theoretischen und methodologischen Reflexionen (zum Kulturbegriff und zur multimodalen Diskursanalyse) steht die kontrastive Analyse von TV-Jahresrückblicken aus elf Ländern in Zentrum des Beitrags – insbesondere der Vergleich eines amerikanischen mit einem deutschen Filmbeitrag. Beide machen durch inhaltlich wie strukturell divergente Strategien aus einem identischen Ereignis  – der Tötung Osama bin Ladens im Mai 2011 – und identischem Ausgangsmaterial sehr unterschiedliche Realitätskonstruktionen, Diskursfragmente und potenzielle kollektive Erinnerungsbausteine. 1 Internationale und transkulturelle Medienkulturforschung 2 Kulturkontrastive multimodale Diskursanalyse 3 Beispieldiskussion. TV-Jahresrückblicke im internationalen Vergleich 4 Leistungsfähigkeit der Methoden – Kritische Beurteilung 5 Fazit/Ausblick. Mut zum Kulturvergleich 6 Literatur

1 Internationale und transkulturelle Medienkulturforschung Kommunikation, sei es im massenmedialen Kontext oder auch in sozialen Netzwerken, steht heute mehr denn je unter dem Einfluss der Globalisierung, die ja nicht nur eine wirtschaftliche und politische, sondern auch eine mediale und kulturelle Dimension hat – de facto sind diese Domänen aufs engste miteinander verwoben (vgl. z. B. Klemm 2012). In zunehmender Geschwindigkeit und territorialer Verbreitung sind deshalb nicht nur Waren, sondern auch Kommunikate unterschiedlichster Art via Satellit und Internet inzwischen im größten Teil der digitalisierten Welt verfügbar. Einerseits gleichen sich Textsorten und kommunikative Stile durch diesen permanent möglichen kulturübergreifenden Austausch tendenziell immer weiter an, was sich am markantesten in global verbreiteten standardisierten Medienformaten wie etwa Quiz- oder Castingshows zeigt. Andererseits fördert dies aber auch eine neue Vielfalt, da wir unser traditionelles Repertoire via medialer Vernetzung mit anderen Kulturen 

Kulturvergleich 

 301

sukzessive erweitern können. Und daneben bestehen trotz aller externen Einflüsse bewährte Traditionen fort, was dazu beiträgt, dass sich zum Beispiel Fernsehnachrichten, Werbespots oder Spielshows doch weiterhin je nach Land oder auch Sender in ihrer Gestaltung voneinander unterscheiden und dabei journalistische oder medienkulturelle Spezifika und Traditionen reflektieren, der allgemeinen Prophezeiung einer schleichenden Amerikanisierung (vgl. etwa Blum 2006) zum Trotz. Dass dies auch auf den (redaktionellen) Umgang mit multimodalen Zeichenressourcen zutrifft, ist die zentrale These dieses Beitrags. Unbestreitbar ist, dass wir – auch aufgrund eines radikalen Medienwandels, der durch eine Mediatisierung unseres Alltags (vgl. Krotz 2007) und einer Digitalisierung der Inhalte bestimmt ist – in einer Epoche stark zunehmender Kulturkontakte leben, die unsere Wahrnehmung von Welt signifikant prägen. Lokale Ereignisse werden zunehmend durch weit entfernte und medial vermittelte Vorgänge beeinflusst, Verständigung muss über nationale und kontinentale Grenzen hinweg angestrebt werden (vgl. Klemm 2012), um globale Probleme wie etwa die Folgen des Klimawandels in den Griff zu bekommen. Die ‚Verdichtung‘ der Welt durch Intensivierung und Vervielfältigung sozialer Netzwerke und Aktivitäten, die politische, wirtschaftliche, kulturelle und geografische Grenzen überschreiten (müssen), hat unser aller Leben verändert – ‚Globalität‘ ist bereits der Normalzustand. Allzu oft bleibt ‚Globalität‘ aber eine vage Chiffre, ohne auf Basis empirischer Daten und qualitativer Forschung etwa im Hinblick auf die Formen und Folgen des Medien- und Kulturkontakts differenziert und konkretisiert zu werden. Immerhin setzt sich derzeit auch in der Medienforschung die Erkenntnis durch, dass eine rein nationale Brille den Realitäten persönlicher wie gesellschaftlicher Kommunikation nicht mehr gerecht wird und man je nach Phänomen (auch) eine interkulturell vergleichende oder transkulturelle Perspektive einnehmen sollte (z. B. Hepp u. a. 2005; Thussu 2009; Kübler 2011; Ludes 2011; Esser/Hanitzsch 2012). Nationale Kontexte sind etwa für neue soziale Bewegungen wie Occupy Wallstreet nicht mehr die primäre Orientierungsgröße, denn bei Themen wie der weltweiten Finanzkrise und der daran anschließenden Kapitalismuskritik ist die transkulturelle „Netzwerkgesellschaft“ (Castells 2005) von Beginn an die notwendige ‚Spielfläche‘ des Diskurses und werden nationale Deutungskontexte geschwächt (vgl. Hepp 2009). Angesichts einer derart komplexen Konstellation scheint die heutige Globalität weniger von Gleichmacherei als von dynamischen Wechselverhältnissen zwischen Eigenem und Fremdem, zwischen Tradition und Innovation geprägt zu sein: die Folge sind unter anderem eine kulturelle Hybridität von Textsorten (vgl. Hauser/Luginbühl 2015) oder die lokale Adaption global verbreiteter Formate, auch im Hinblick auf deren multimodale Ausgestaltung. Der hier vertretene Kulturbegriff (ausführlicher Klemm 2008; Klemm/Michel 2014; vgl. auch Luginbühl 2014) begreift Kultur als Voraussetzung und Resultat unserer gesamten alltäglichen Lebensführung. Kultur ist dabei jener – durchaus konfliktäre (vgl. de Certeau 1988, Fiske 1989)  – Aushandlungsprozess, der Ordnung, Orientie

302 

 Michael Klemm

rung, Verfahrenssicherheit, kurz: Bedeutung und Sinnstrukturen schafft in einer oft als überkomplex empfundenen Welt. Insofern Kultur nur in Text, in Ausdrucksmöglichkeiten wie Kommunikaten oder Objekten wahrnehmbar wird, die es zu interpretieren gilt, wird Kultur als semiotisches Phänomen untersucht. Zudem wird Kultur als von Menschen im symbolischen Handeln konstruiert aufgefasst, als ‚Doing Culture‘, so dass man die Voraussetzungen, Verfahren, Funktionen und Konsequenzen solcher Konstruktionsprozesse rekonstruieren kann. Jedes Individuum partizipiert dabei an verschiedenen Kulturen, die schon in sich heute meist durch Kulturkontakt hybride (geworden) sind. Es gilt daher stets erst einmal herauszuarbeiten, was in unterschiedlichen Gemeinschaften unter Kultur verstanden wird und welche Deutungs- und Gestaltungsmöglichkeiten damit verbunden sind  – auch im kommunikativen und medialen Handeln. Kulturen sind nicht nur Wertegemeinschaften, die bestimmte weltanschauliche Positionen teilen (müssen), sondern auch Identitätsgemeinschaften, indem sie sich über ihre Einstellungen und Praktiken intern vergemeinschaften und nach außen hin abgrenzen. Sie sind aber auch Handlungs-, Kommunikationsund Interpretationsgemeinschaften, da nur über Kommunikation der Austausch über Regeln, Werte und Identitäten möglich ist. Zudem kann man Kultur ebenso als gesellschaftlichen Prozess betrachten, der die Gesamtheit der kulturellen Praktiken und Kommunikate im Bereich der praktischen Daseinsbewältigung und Vergemeinschaftung umfasst, wie als darauf basierende individuelle Praxis, das heißt als Produktion, Nutzung und Aneignung von kulturellen Phänomenen. Die Ausführungen sollten gezeigt haben, dass hier einer Verkürzung des Kulturbegriffs auf eine nationale bzw. ethnische Perspektive oder gar auf höchst umstrittene nationale ‚kulturelle Dimensionen‘ (vgl. Hofstede 2001) und ‚Kulturstandards‘ (vgl. Thomas 2011) eine Absage erteilt wird. Kulturen existieren vielmehr auf unterschiedlichen Ebenen einer Gesellschaft und bezogen auf Gemeinschaften verschiedenster Größe. Schon ein flüchtiger Blick auf unsere eigene Lebenswelt zeigt, dass man beispielsweise von einer homogenen ‚deutschen‘ Medienkultur allein schon angesichts der gravierenden Unterschiede zwischen Abonnements- und Boulevardzeitungen oder zwischen öffentlich-rechtlichen und privatkommerziellen Fernsehsendern nicht im entferntesten sprechen kann. Und dennoch spricht manches dafür, dass sich auch eine heterogene oder hybride deutsche Medienkultur (dazu Hepp 2013) von einer amerikanischen, japanischen oder chinesischen signifikant unterscheidet. Und ebenso unterscheiden sich journalistische Kulturen (vgl. z. B. Hahn/Schröder 2008; Lünenborg 2006). Daraus folgt, dass sich derart verstandene kulturelle Einflüsse auf die Produktionsprozesse und die Strukturen von (multimodalen) Medienkommunikaten auf einer Makro-, Meso- und Mikroebene analysieren lassen (vgl. Klemm/Michel 2014): Schon das jeweilige Regierungs- und Mediensystem (dazu Thomaß 2013, Blum 2014) übt auf einer gesellschaftlichen Makroebene Einfluss aus und beeinflusst wiederum auf der Mesoebene die jeweilige Verlags-/Sender- oder Redaktionskultur, was wiederum auf



Kulturvergleich 

 303

der Mikroebene zu konkreten Gestaltungshandlungen des einzelnen Textproduzenten führt (vgl. Klemm/Perrin/Michel i. d. B.). Zudem sollte man bei Kulturanalysen zumindest vier Konzepte kategorisch unterscheiden: – Multikulturalität als bloßes Nebeneinander verschiedener Kulturen in einer räumlichen und sozialen Einheit; – Crosskulturalität als Fokussierung auf die typischen Unterschiede zwischen Angehörigen verschiedener Kulturen, etwa auch im Medienhandeln; – Interkulturalität als Interaktion zwischen Angehörigen unterschiedlicher (Kommunikations)Gemeinschaften, die hinsichtlich der geteilten Wissensbestände und Formen des (kommunikativen) Handelns differieren und deshalb in der Interaktion etwas ‚Drittes‘, Neues kreieren – etwa in Organisationen, die auf Cultural Diversity Wert legen; – Transkulturalität als Ausdruck für Interaktions- und Kommunikationsprozesse, die ‚über verschiedene Kulturen hinweg‘ stattfinden (vgl. Hepp 2009) und bei denen kulturelle Differenzen nicht aufgehoben, aber aufgabenbezogen weniger relevant gesetzt werden (können), z. B. bei der Aneignung globaler ‚Events‘ oder Fanobjekte, für die sich eigene transnationale Kommunikationsformen etabliert haben (z. B. in sozialen Netzwerken). Leider werden diese Konzepte oft unreflektiert verwendet oder vermischt; in diesem Beitrag stehen vor allem Cross- und Transkulturalität im Vordergrund. Journalisten agieren auch in einer zunehmend transkulturell erweiterten Medienlandschaft noch häufig aus einer national oder lokal geprägten Perspektive, um ihre Zielgruppen zu bedienen. So konstatiert Peter Ludes (2011, 30): Netzwerkgesellschaften ersetzen nicht den Nationalstaat, sondern ergänzen und transformieren ihn. […] Netzwerkgesellschaften fehlt noch der Zusammenhalt, die institutionelle Stabilität, Loyalität und Geschichte von Gesellschaften im traditionellen Sinne. […] Journalismus ist vorrangig national. […] JournalistInnen re-/präsentieren nicht nur die jeweiligen kulturellen Perspektiven, sie setzen sie oft auch als selbstverständlich voraus.

Es gibt deshalb gute Gründe anzunehmen, dass sich Nachrichtenkulturen, also die Art der massenmedialen Vermittlung und Aneignung relevanter tagesaktueller Informationen, immer noch vergleichsweise stark an nationalen Traditionen und Relevanzsetzungen orientieren. So kann man trotz aller internationalen Standardisierungen in Nachrichtenselektion wie -produktion (z. B. Nachrichtenwerte bei der Themenauswahl, Pyramiden-Prinzip beim Meldungsaufbau, multimodale Gestaltungskonventionen nach dem Modell von CNN) die öffentlich-rechtliche deutsche Art der Nachrichteninszenierung von einer privatkommerziellen amerikanischen und einer staatlich gelenkten chinesischen unterscheiden – geprägt durch unterschiedliche Regierungsund Mediensysteme oder journalistische Kulturen (vgl. Hahn/Schröder 2008), aber



304 

 Michael Klemm

auch durch die Mentalität der Zielgruppe, in welcher Form man Nachrichten ‚erwartet‘ und ‚wertschätzt‘. In der Erfassung des Verhältnisses von Mikro und Makro, konkret von nationalem bzw. kulturellem oder aber transnationalen bzw. transkulturellem Einfluss auf die Konstruktion medialer Kommunikate, liegt meines Erachtens auch eine Aufgabe der Multimodalitätsforschung. Welche Genres oder welche Themenentfaltungen (z. B. Fakten präsentieren vs. Nachrichten erzählen) werden in einer Kultur bevorzugt? Welche Zeichentypen (z. B. Off-Kommentar oder Musik), welche Kameraeinstellung, welcher Schnittrhythmus, welcher Grad von Emotionalität der Bilder, kurz welche multimodale Ästhetik ist (un)typisch für Diskursbeiträge in dieser Kultur? Was unterscheidet z. B. einen Hollywood- von einem Bollywood- oder Nollywood-Film in multimodaler Hinsicht? Erforschen lassen sich diese kulturell geprägten Semiosen vor allem qualitativ durch vergleichende Fallanalysen, die jede für sich nur exemplarische, aber empirisch gesättigte Interpretationen leisten können und in der Summe doch aussagekräftig sind. Zum Forschungsstand: Nicht nur die Medien- und Kommunikationswissenschaft hat sich wie beschrieben inzwischen der international vergleichenden Forschung zugewandt. Bereits seit den 1980er-Jahren hat sich innerhalb der europäischen Medien- und Text(sorten)linguistik ein Zweig entwickelt, der sich mit kontrastiver und kulturvergleichender Forschung von Medienkommunikation befasst (z. B. Lüger/Lenk 2008; Luginbühl/Hauser 2010; Czachur 2011; Hauser/Luginbühl 2012), neuerdings auch im Rahmen eines allgemeinen Cultural Turn in der Text- und Diskurslinguistik und einer breiteren soziolinguistischen Betrachtung (vgl. u. a. Androutsopoulos 2014)  – einen umfassenden Überblick gibt das Internetportal www. kontrastive-medienlinguistik.net. Zahlreiche Textsorten wurden inzwischen kulturkontrastiv analysiert, von diversen Pressegenres bis hin zu Todesanzeigen (Eckkrammer 1996). Die Analysen beziehen sich allerdings meist auf Schriftkommunikation und Printkorpora, selten auf Unterschiede in der Multimodalität von Kommunikaten. Am häufigsten wurde noch Werbung als multimodales Kommunikat kulturkontrastiv untersucht (vgl. z. B. Bendel/Held 2008; Nielsen 2012; aber auch außerhalb der Linguistik Dahl 2004 und 2007; de Mooij 2013), auch weil international Werbetreibende prinzipiell vor der Entscheidung stehen, ob sie ihre Kampagnen transkulturell identisch gestalten oder besser kulturspezifisch an die jeweilige Zielgruppe anpassen. Fernsehnachrichtenfilme wurden ebenfalls im Hinblick auf ihre multimodale Gestaltung verglichen (vgl. Shoemaker/Cohen 2005; Holly 2011; Luginbühl 2011, 2014). Noch seltener wurden bislang Produktionsprozesse miteinbezogen, im Sinne eines Doing Multimodality (dazu Klemm/Perrin/Michel in diesem Band). Eine systematische kulturvergleichende Multimodalitätsforschung steht somit noch weitgehend am Anfang.



Kulturvergleich 

 305

2 Kulturkontrastive multimodale Diskursanalyse Grundlegend für die Analyse ist ein Ansatz, der an anderer Stelle als „Medienkulturlinguistik“ charakterisiert wurde (ausführlich Klemm/Michel 2014). Er vereint methodische Kategorien und Konzepte aus der Medien- und Kommunikationswissenschaft, der Kulturwissenschaft und der Linguistik. Alle genannten Disziplinen haben theoretische Konzepte und Methoden entwickelt, die für eine holistische Erforschung von Medienkommunikation und Medienkultur wertvolle Orientierung geben: die Sprachwissenschaft Basiskonzepte wie Zeichen(system), Kommunikationsform, Textsorte, Medialität oder Multimodalität; die Kulturwissenschaft mit ihren Bezugsdisziplinen etwa Diskurs und Dispositiv, aber auch Methoden wie die Ethnographie; die Medienbzw. Kommunikationswissenschaft Konzepte wie Medienkultur, Mediatisierung, aber auch Mediensystem oder Journalistische Kultur  – solche Konzepte stecken die Rahmenbedingungen ab, innerhalb derer sich Medienkommunikation und Medienkultur entfalten, und sind somit auch Bezugspunkte einer transdisziplinären und für weitere Impulse offenen Medienkulturlinguistik. Die folgende Beispielanalyse stützt sich insbesondere auf den Ansatz der multimodalen Diskursanalyse (vgl. z. B. Meier 2011; Fraas/Meier/Pentzold 2013), die wiederum grundlegend von der wissenssoziologischen (Keller 2011, 2013) oder linguistischen (Busse 2013; Roth/Spiegel 2013) Diskursanalyse und  – im Hinblick auf Multimodalität – der Sozialen Semiotik (Kress/van Leeuwen 2001) bzw. der Bildlinguistik (Diekmannshenke/Klemm/Stöckl 2011) beeinflusst wird. Ausgangspunkt ist eine Dispositivanalyse, welche die Rahmenbedingungen des jeweiligen Diskurses wie der verwendeten Medien rekonstruiert (vgl. Hickethier 1993; Dreesen/Kumiga/Spieß 2013): Was sind die gesellschaftlichen und medienstrukturellen Voraussetzungen, damit diese Art von Medientext als Diskursbeitrag entstehen konnte? Die Dispositivanalyse umfasst die involvierten gesellschaftlichen Teilsysteme, die relevanten Akteure und Orte des jeweiligen Diskurses sowie die Einstellungen und Handlungen der Diskursbeteiligten und ‚kartografiert‘ auf diese Weise die jeweilige „Diskursarena“. Die anschließende Korpuserstellung folgt dem Prinzip des Theoretical Sampling der Grounded Theory (vgl. z. B. Mey/Mruck 2011; Fraas/Meier 2012). Im Korpus werden Schlüsseltexte identifiziert und dem Prinzip der maximalen und minimalen Kontrastierung folgend miteinander in Beziehung gesetzt. Die anschließende Feinanalyse eines Textes greift je nach Bedarf auf unterschiedliche Methoden zurück, etwa eine stilpragmatische Textanalyse zur Identifikation wesentlicher Sprachhandlung und Stile (Püschel 1995) oder eine sozialsemiotische Analyse multimodaler Strukturen (vgl. z. B. Meier 2011). Ebenso können aber auch Schlagwörter und Metaphern, Frames und Narrative aufgespürt und interpretiert werden, je nach Kommunikat. Das Ziel ist letztlich, den zugrundeliegenden Diskurs aus verschiedenen Perspektiven möglichst umfassend zu rekonstruieren und die relevanten Diskurspositionen, aber auch die unausgesprochenen Grenzen des Sag- und Zeigbaren heraus

306 

 Michael Klemm

zuarbeiten. Welche Machtstrukturen oder auch kulturellen Prägungen sorgen dafür, dass bestimmte Aussagen oder Gestaltungsformen möglich sind (vgl. Mayr i. d. Bd.)? Oder gerade nicht. Der Fokus liegt dabei auch aus forschungspraktischen Gründen auf ‚verdichteter‘ Kommunikation, auf ‚multimodalen Komprimaten‘, die als Diskursfragmente interpretiert werden können, etwa (Wahl)Werbespots, Imagefilme, Programmtrailer (vgl. Klemm/Michel 2014, Klemm/Perrin/Michel in diesem Band), Videoeinspieler in Diskussionssendungen (vgl. Klemm 2015) oder (animierte) Informationsgrafiken (vgl. Klemm 2011a). Oder, wie im Folgenden diskutiert wird, TV-Jahresrückblicke.

3 Beispieldiskussion. TV-Jahresrückblicke im ­internationalen Vergleich Im Rahmen des Beitrags kann ich die skizzierte, überaus komplexe Herangehensweise nur an einem einzigen Fallbeispiel exemplifizieren: dem Vergleich der inhaltlichen und strukturellen Gestaltung von TV-Jahresrückblicken. Bislang gibt es kaum Untersuchungen zu diesem Genre, abgesehen von einem DFG-Projekt mit anderer Zielsetzung (vgl. Ludes 2011, 2012) und vereinzelten Analysen zu Jahrhundertrückblicken (vgl. Holly 2003; Grampp 2004). Funktional betrachtet sind Jahresrückblicke eine frühe ‚Instanz‘ im unendlichen Prozess der massenmedialen ‚Einspeisung‘ von Ereignissen ins kollektive Gedächtnis einer Gesellschaft (dazu z. B. Halbwachs 1925; Erll 2011). Sie haben dem Leitsatz ‚Zukunft braucht Herkunft‘ folgend den Auftrag, gesellschaftliche Erinnerungsarbeit zu leisten oder zumindest anzustoßen, und besitzen daher in vielen Kulturen einen hohen Stellenwert. Auch wenn Peter Ludes Jahresrückblicke als eher „westliches Format“ einstuft: In ihnen verfestigen sich – wie in allen Textsorten (vgl. Luginbühl 2014) – bewährte kulturelle Praktiken, hier des kollektiven Erinnerns. Jahresrückblicke können als Übergangsritual betrachtet werden: die wichtigsten Ereignisse eines Jahres werden selegiert, kommentiert, eingeordnet, im gewissen Sinn ‚abgeschlossen‘  – und ‚ausgewertet‘ im Hinblick auf Memorierung und künftiges Handeln. Sie bedienen über die multimodale Aufbereitung von Ereignissen und die angestrebte „Anschlusskommunikation“ (Charlton/Klemm 1998) unter den Zuschauern zunächst das kommunikative Gedächtnis, zielen aber perspektivisch als Objektivationen auch auf die langfristige Verankerung im kulturellen Gedächtnis einer Gesellschaft (dazu z. B. Assmann/ Hölscher 2008). Sie stellen Ressourcen für Verständigung und Vergemeinschaftung durch kollektives Erinnern und Einordnen bereit: In Jahresrückblicken wird vergangenes Handeln beurteilt, werden Werte und Normen auf öffentlicher Bühne verhandelt oder gar propagiert, tritt das Fernsehen als diskursive Formation im Sinne Foucaults mit dem Gestus einer meinungsbildenden moralischen Instanz auf – zumindest in Deutschland (vgl. ausführlicher Klemm 2012). 

Kulturvergleich 

 307

Strukturell betrachtet sind TV-Jahresrückblicke bzw. deren einzelne Filmbeiträge komplexe, in jeder Hinsicht kontrollierte und reflektierte Selektionen, Rekombinationen und Neu-Kontextualisierungen von bereits gesendetem Material zu neuen Kommunikaten, zu Diskursfragmenten mit einer dezidierten Botschaft und Orientierungsfunktion. Aus Sicht einer multimodalen Kultur- und Diskursforschung interessant ist vor allem, wie dabei in großen Teilen identisches Filmmaterial, das von weltweit agierenden Nachrichtenagenturen stammt, in den jeweiligen Ländern und Redaktionen zu unterschiedlichen Realitätskonstruktionen und Deutungsangeboten verarbeitet wird. Die Selektions-, Interpretations- und Gestaltungsmacht der Redaktionen gewinnt hier somit besondere Relevanz für den jeweiligen Diskurs. Im Zuge der Dialektik von Erinnern und Vergessen (vgl. Esposito 2002) werden Ereignisse von den Redaktionen ausgewählt und aufbereitet, die aufgrund (kulturspezifisch und/oder sender- bzw. redaktionskulturell geprägter) journalistischer Rationalitäten als besonders erinnerungswürdig deklariert werden; mal mit lokalem/nationalem Fokus, mal im globalen Maßstab. Zugleich kann man die Kommunikate auch auf jeweilige kulturelle Besonderheiten hin untersuchen, da hier differente Erinnerungskulturen und -praktiken innerhalb der rituellen ‚Erinnerungsfigur‘ TV-Jahresrückblick rekonstruierbar scheinen, wenn ein identisches Ereignis auf der Grundlage identischen Materials inhaltlich und strukturell unterschiedlich aufbereitet wird. Jahresrückblicke sind hochgradig komprimierte und multimodal aufbereitete Erinnerungsressourcen: Sie können bestehen aus: O-Tönen, Bildern, On- und OffKommentaren, Musik und Geräuschen. Typische Bausteine sind „mediale Geschichtsklischees“ (Holly 2003, 217): Dazu gehören Bilder, aber auch O-Töne, Musik oder Geräusche, die sich quasi in das kollektive Gedächtnis brennen (können). Pörksen (1997, 27 f.) bezeichnet weit verbreitete Bilder als „Visiotype“ und definiert sie „parallel zu Stereotyp“ als ein „Typus sich rasch standardisierender Visualisierung“ und „eine durchgesetzte Form der Wahrnehmung und Darstellung, des Zugriffs auf ‚die Wirklichkeit‘“. Solche „Schlagbilder“ gewinnen wie Schlagwörter häufig diskursive Macht: sie haben programmatischen Gehalt und herausgehobenen Status in der öffentlichen Kommunikation, verkürzen komplexe Argumentationen, markieren und grenzen Ideologien ab und leiten zum Handeln an (vgl. Diekmannshenke 2011). Prominente Beispiele für solche Visiotype oder Global Images sind retrospektiv betrachtet etwa das Foto von der damals neunjährigen Kim Phuc auf ihrer Flucht vor NapalmBomben aus dem südvietnamesischen Dorf Trang Bang am 8. Juni 1972 (vgl. dazu Paul 2006) oder vom Kniefall von Bundeskanzler Willy Brandt 1970 im Warschauer Ghetto. Das erste Foto dient als Ikone der Anti-Kriegs-Bewegung, das zweite als Symbol der Aussöhnung und der Anerkennung kollektiver Schuld – bis heute. Solche Visiotype bilden somit nicht nur Wirklichkeit ab, sondern erzeugen diese, gerade auch im Kontext der überlieferten Bildmuster und Mythen unserer Kultur und Geschichte. Ebenso wie Visiotype gibt es auch Audiotype kollektiven Erinnerns (etwa Kennedys „Ich bin ein Berliner“ oder Martin Luther Kings „I have a dream“) und heute vermehrt Audiovisiotype (z. B. die Filmsequenz, als das Flugzeug am 11. September 2001 

308 

 Michael Klemm

in den zweiten Turm des World Trade Centers kracht). Zum Zeitpunkt der Produktion von TV-Jahresrückblicken ist meist schon erkennbar, welches mediale Geschichtsklischee das Potenzial haben könnte, ins kollektive Gedächtnis einzugehen. Es spricht angesichts des aktuellen gesellschaftlichen Bedeutungsgewinns laufender Bilder vieles dafür, die etablierte Visual History (Paul 2006) systematisch zu einer Audiovisual History auszubauen – unter anderem am Beispiel von TV-Jahresrückblicken. Dabei umfasst die Dialektik von Erinnern und Vergessen im TV-Jahresrückblick nicht nur die Themenauswahl, sondern auch das Hervorheben bestimmter Aspekte eines Ereignisses durch solche diskursprägenden Elemente oder aber deren Ausblenden, wenn nicht gar Verbergen. Ludes (2012) spricht daher neben „Key Visuals“ (als Schlüssel zu den jeweiligen kulturellen ‚Erzählungen‘ über ein Ereignis) auch von „Key Invisibles“ (als mehr oder weniger strategischen Ausblendungen von Aspekten)  – dieses Zusammenspiel wird im Folgenden am diskutierten Fallbeispiel noch deutlich werden. Den skizzierten Analyserahmen möchte ich nun an einem Ereignis und dessen massenmedialer Rekonstruktion konkretisieren (dazu auch Klemm 2012): der Tötung des lange gesuchten und für die Anschläge des 11. September 2001 verantwortlichen Terroristenführers Osama Bin Laden in der Nacht zum 2. Mai 2011 im pakistanischen Abottabad durch amerikanische Spezialeinheiten der Navy Seals im Rahmen der „Operation Neptune Spear“. (Unter anderer Fragestellung und mit anderer Datenbasis beschäftigen sich auch Fraas/Meier 2012 mit diesem Fallbeispiel im Rahmen einer multimodalen Diskursanalyse). Dass es sich um ein global bedeutsames Ereignis handelte, wird schon daran sichtbar, dass sich nach Bekanntwerden bis zu 5000 Tweets pro Sekunde damit befassten und in den Folgemonaten zahlreiche TV-Dokumentationen, drei Bücher sowie ein Spielfilm von Kathryn Bygelow dazu entstanden. Das Ereignis wurde in der Weltöffentlichkeit kontrovers diskutiert, insbesondere im Hinblick auf die Legitimität der Tötung Bin Ladens und dessen Rolle in der Terrororganisation Al Khaida zum Zeitpunkt der Erschießung. Besonders kritisch wurde der Diskurs in Deutschland geführt (vgl. die Dokumentation auf http://www.tagesschau. de/ausland/binladen142.html): So gab es sowohl eine breit diskutierte Kritik an der Tötung selbst wie auch an der öffentlich geäußerten Freude von Bundeskanzlerin Merkel über den Tod Bin Ladens. Laut dem repräsentativen ARD-Deutschland-Trend vom Mai 2011 waren 52 % der Bundesbürger der Meinung, dass die Amerikaner eine Festnahme hätten durchführen sollen, 64 % sahen keinen Grund zur Freude. Hingegen hielten nach einer repräsentativen amerikanischen Umfrage 87 % der befragten US-Bürger Bin Ladens Tötung für legitim und richtig. Viele Details der Operation blieben – bis heute – unklar: es gab keine Filmaufnahmen, keine Fotos des toten Bin Laden (bzw. nur gefälschte), der Leichnam wurde unverzüglich im Meer bestattet. Ob Bin Laden sich gewehrt hatte oder ohne Gegenwehr erschossen wurde, blieb ebenso unklar wie das Ausmaß seiner Aktivitäten im pakistanischen Versteck. Ein wesentlicher Baustein des Diskurses war  – auch angesichts der wenigen Bilder vom Tatort – das vom persönlichen Fotografen Obamas gemachte und direkt 

Kulturvergleich 

 309

nach der Operation verbreitete so genannte „Situation-Room-Foto“, auf dem zu sehen ist, wie der US-Präsident und sein Stab die Militäraktion aus dem Weißen Haus verfolgen (s. Abb. 1), das binnen 48 Stunden allein auf Flickr 1,5 Millionen mal betrachtet und in der Folge vielfach publizistisch analysiert worden ist (z. B. von CNN: „What ‚Situation Room Photo‘ reveals about us“). Das Foto wurde sogar auf eigens veranstalteten wissenschaftlichen Tagungen oder in mehreren Sammelbänden bis ins Detail seziert (vgl. Kauppert/Leser 2014; Przyborski/Haller 2014)  – und avancierte schnell zu einem weit verbreiteten, meist satirisch bearbeiteten Meme im Social Web. Schnell wurde deutlich, dass dieses Foto – und keines vom Tatort oder vom Opfer Bin Laden – als Visiotyp des Ereignisses in das kulturelle Gedächtnis eingehen würde, und zwar weltweit. Damit verbunden war und ist ein moderner Mythos: „Obama sah Bin Laden sterben“, auch wenn rasch bekannt wurde, dass die Anwesenden nur die Gespräche der Einsatzkräfte hören und keine Live-Aufnahmen des Geschehens sehen konnten. Wie auch bei anderen „Bildern des Jahrhunderts“ spielt die historische Wahrheit für die Memorierung solcher Visiotype und ihrer Bedeutung als kulturelle Geschichtengeneratoren nur eine begrenzte Rolle (vgl. Paul 2006). Umso wichtiger war es aber als fast obligatorischer Bestandteil der TV-Jahresrückblicke zum Ereignis.

Abb. 1: Visiotyp zur Tötung Bin Ladens: das „Situation-Room-Foto“

Der Analyse lag ein Korpus von insgesamt 24 Filmbeiträgen zu Grunde, die Jahresrückblicken aus 11 Ländern entstammten. Das Korpus konzentrierte sich auf Nachrichtensender bzw. Nachrichtenredaktionen, das heißt, Unterhaltungsformate wie Talk oder Spielshows als Jahresrückblicke wurden nicht aufgenommen. Es fanden aber öffentlich-rechtliche wie staatliche wie privat-kommerzielle Sender Berücksichtigung. Die Tabelle auf der folgenden Seite zum Aufbau des Gesamtkorpus zeigt, wie unterschiedlich die TV-Jahresrückblicke schon in struktureller Hinsicht waren, wenn man Kriterien wie etwa Länge, Moderation, Themenreihenfolge, Ortsbezug oder den (Nicht)Einsatz von Off-Kommentar und Musik betrachtet. Im gegebenen Rahmen kann ich hier – gemäß dem Grounded-Theory-Prinzip der maximalen Kontrastierung – nur zwei Filmbeiträge exemplarisch analysieren und auf 

310 

 Michael Klemm

mögliche kulturelle Unterschiede bzw. Prägungen hin untersuchen: den Beitrag aus dem ZDF-Rückblick Album 2011 – Bilder eines Jahres und jenen des amerikanischen Senders ABC. (Zum Vergleich des ZDF-Beitrags mit einem australischen SBS-Beitrag vgl. Klemm 2012) Der ZDF-Beitrag dauert etwa 70 Sekunden, der ABC-Beitrag knapp 30. Auch sonst unterscheiden sich die beiden Beiträge in wesentlichen Punkten, wie gezeigt werden wird. Analysiert werden die Beiträge wie erläutert nach den Prinzipien einer multimodalen Diskursanalyse (vgl. z. B. Meier 2011), deren Ziel es unter anderem auch ist, „kulturelles Wissen aus Texten systematisch gewinnen und geordnet darstellen“ (Habscheid 2009, 41) zu können. Dazu werden alle Zeichentypen des analysierten Kommunikats – also Sprache, Bild und Ton mit ihren diversen Subcodes – en detail betrachtet, in einer multimodalen Verschriftung (Transkription) getrennt nach Zeichentypen dokumentiert (vgl. Schneider/Stöckl 2011, 28–33, 39–44) und dann in ihrem transkriptiven Zusammenspiel (vgl. Holly 2006; 2011) interpretiert. Ziel der Analyse ist herauszufinden, mit welchen semiotischen Mitteln die Produzenten die ‚Realität‘ bezüglich der Tötung Bin Ladens konstruieren und welche Deutungen und Diskursbeiträge den Zuschauern dadurch angeboten werden. Durch die Kontrastierung der Fassungen soll exemplarisch erörtert werden, ob bzw. wo es sich eher um eine kulturübergreifend homogene (transkulturelle) oder kulturell spezifische Perspektivierung und Interpretation des Ereignisses handelt. Vorteilhaft für den multimodalen (Kultur)Vergleich ist in diesem Fall, dass wie erwähnt nur sehr wenig Bildmaterial vom Ereignis selbst vorhanden war (und dies fast nur aus einer vom Militär zensierten Quelle, gerahmt durch eine strategische Bildpolitik der amerikanischen Regierung), so dass die Unterschiede bei der Nachbearbeitung umso deutlicher zu Tage treten sollten. Die vergleichende Analyse (aller Korpusdaten) wurde von folgenden Ausgangsfragen inspiriert: – Wie geht man mit der unsicheren Datenlage um? – Welche Bilder werden (nicht) gezeigt? – Welche Protagonisten werden (nicht) gezeigt? – (Wie) Werden diese Bilder sprachlich kommentiert? – Wie werden die Ereignisse prosodisch moduliert? – (Wie und wozu) Wird die Tonebene/Musik eingesetzt? – Wie werden die Ereignisse auf diese Weise multimodal für das kollektive Gedächtnis ‘aufbereitet‘? – (Wie) Werden Deutungen der eigenen Nation/Kultur integriert oder auch angestoßen? – (Wie) Werden sie auf die Zukunft bezogen? – Worin unterscheiden sich die Re-Konstruktionen und Erinnerungspolitiken (?) dieser Ereignisse im internationalen (oder interkulturellen?) Vergleich?





19:00

25:00

RTE (irland)

SkyNews (Aus)



















































chrono









































them

































nat















































int

















































HN































SN



























(•)































Fotos Film

Bild











On-K























Off-K

Gesprochene Sprache









(•)











































O-Ton orig

Ton























(•)

























komm. Ger

Schrift­ sprache

































Musik

Mod. = moderiert | Off-Spr. = Sprecher aus dem Off | chrono = chronologische Reihenfolge | them = thematisch festgelegte Reihenfolge | nat = nationale Themen | int = internationale Themen | HN = Hard News | SN = Soft News | Fotos = Fotos oder Standbilder | Film = bewegte Bilder | On-K = Kommentar im On | Off-K = Kommentar aus dem Off | O-Ton = Originalton aus Nachrichten | orig = Original-Schriftzüge aus Nachrichten | komm = eigens erstellte Kommentare | Ger = (Original-)Geräusche

6:45

3:31

RIA (Russland)

TheGuardian (GB)



1:00

8:00





25:00

Press TV (Iran)

Reuters (GB)

3:35



1:48

SBS (Aus)



22:00

New York Times

OneMinuteNews (YouTube, USA)

Ten News (Aus)



3:21

Newsline (Aus)





1:08

1:07

Channel 4 (GB)











IDF (Israel)

18:00

3:06

CBS Canada

Associated Press



2:25

3:35

Al Jazeera (VAE)

2:25

1:45

AFP (Frankreich)

AFP (Frankreich)

Associated Press



4:40

ABC News (USA)



4:30

12:00

ABC Australia

ABC GMA (USA)





40:00

59:00

ARD

ZDF

OffSpr.

Präsentation Themen(abfolge)

News Show mod.

in Min.

Format

Sender 2011

Dauer

Formale, inhaltliche und semiotische Struktur von TV-Jahresrückblicken (bezogen auf Internationales Korpus Jahresrückblicke 2011)

Kulturvergleich   311

Abb. 2: Strukturelle Analyse der Jahresrückblicke im Korpus



312 

 Michael Klemm

Rekonstruiert man die jeweilige dispositive Rahmung der beiden Beiträge, werden grundlegende Unterschiede schon vor der Textanalyse deutlich. So handelt es sich bei ABC um einen Privatsender im Rahmen eines mehr oder weniger komplett kommerziell organisierten Mediensystems (vgl. z. B. Blum 2014). Beim ZDF handelt es sich hingegen um einen öffentlich-rechtlichen Sender im Rahmen eines dualen Mediensystems, das neben kommerziellen Privatsendern auch einen – insbesondere im Informationsbereich – starken und einflussreichen öffentlich-rechtlichen Sektor hat. Schon die unterschiedlichen Geschäftsmodelle (werbe- vs. gebührenfinanziert) lassen auf deutlich anders geprägte Sender- und Redaktionskulturen schließen. (Dass diese Dichotomie für eine Erklärung von Unterschieden nicht ausreicht, zeigen jedoch die Unterschiede zwischen den beiden öffentlich-rechtlichen Sendern ZDF und SBS in Klemm 2012.) Zudem sind die Amerikaner unmittelbar betroffen von diesem Ereignis, war doch Bin Laden seit dem traumatischen 9–11 der Staatsfeind Nummer eins. Hinzu kommt eine prinzipiell anders geprägte politische Mentalität: in den USA tendenziell eine eher patriotische, in Deutschland eine skeptische Haltung gegenüber der eigenen Kultur. Diese dispositiven Rahmenbedingungen sollte man bei der Analyse berücksichtigen. Der ABC-Beitrag (s. das Transkript in Abb. 3) verzichtet komplett auf einen OffKommentar und montiert stattdessen in einer schnellen Abfolge von Themen Archivbilder und Originalbeitrags-Fetzen mit Live-Statements unterschiedlicher Reporter. Diese typisch amerikanische ‚Action-News-Rahmung‘ wird zunächst begleitet durch einen Tusch zum Auftakt und laute und schnelle Musikrhythmen, die nach 10 Sekunden durch eine spannungsheischende, geradezu pathetische Spielfilmmusik abgelöst werden, gemixt mit ebenso emotionalen Originalstimmen von Reportern oder jubelnden Passanten, bildlich gestützt durch Visiotype amerikanischer Identität und Stärke (Weißes Haus, Präsident, Nationalflaggen). Der Beitrag endet und gipfelt in einem Auszug aus der Rede Obamas an das amerikanische Volk, mit einem Zitat, das geradezu zu einem Audiotyp des Ereignisses geworden ist: „Justice has been done“. Unterlegt werden diese präsidentialen Worte mit dem Bild eines am Ground Zero knieenden Angehörigen eines Opfers des 11. Septembers (auch ein Bild, das mehrfach in Jahresrückblicken verwendet wurde, u. a. bei Al Jazeera). Im Kern geht es somit um Genugtuung und die Legitimierung des ‚Kriegs gegen den Terror‘ und speziell der Tötung Bin Ladens. Die redaktionell konstruierte Erinnerung zielt hier also eher – wenig überraschend – auf eine Unterstützung der amerikanischen Position, die Rechtmäßigkeit der Tötung wird nicht angezweifelt, alles andere fällt dem medialen Vergessen anheim. Der ZDF-Beitrag (s. Abb. 4 mit dem Transkript) wirkt gegenüber diesem emotionalisierten Stakkato geradezu nüchtern, verzichtet gänzlich auf Musik und ist wesentlich getragen vom bedächtig gesprochenen Off-Kommentar des Heute-Moderators Matthias Fornoff. Der Beitrag konzentriert sich (bis auf die Archivaufnahme einer Drohne) auf Bilder zum aktuellen Ereignis, darunter auch vage und verwackelte, eigentlich nicht sendefähige Bilder vom (bluttriefenden) Tatort  – bessere wurden 

Kulturvergleich 

 313

von amerikanischer Seite ja nicht geliefert. Einige Sequenzen wurden auch in Jahresrückblicken anderer Länder und Sender verwendet (neben dem Situation-Room-Foto z. B. Bilder von jubelnden Amerikanern vor dem Weißen Haus), erhalten hier aber eine deutlich andere Betextung. Fornoff kritisiert in knappen Worten unverhohlen provokativ den amerikanischen Präsidenten („Der Friedensnobelpreisträger Obama lässt mit Drohnen und Spezialkommandos Terroristen töten, planvoller als George W. Bush es je wagte.“) und weckt Zweifel an der Legitimität des Vorgehens  – was unterscheidet planvolles Tötenlassen noch von Ermordung, auch wenn er dies nicht so ausspricht? Ebenso distanziert er sich von den Reaktionen der amerikanischen Bevölkerung und deren „USA, USA“-Rufen („Die Freude darüber ist verständlich, aber irgendwie auch befremdlich.“). Er nimmt – vor dem Hintergrund des im Mai 2011 in Deutschland geführten und oben skizzierten Diskurses  – eine dezidiert skeptische Haltung ein, so dass vor allem die umstrittene Legitimität von Bin Ladens Tod fokussiert wird („Amerika hat sich gerächt.“), nicht die Verbrechen des „Terrorfürsten“.



314 

 Michael Klemm

Abb. 3: Transkript des ABC-Beitrags



Kulturvergleich 

 315



316 

 Michael Klemm

Abb. 4: Transkript des ZDF-Beitrags



Kulturvergleich 

 317

Fornoff ordnet somit das Ereignis für die Zuschauer auch moralisch ein und knüpft dabei an die Tradition des ‚Albums‘ an, das Ereignisse seit langem nicht nur nachrichtlich zusammenfasst, sondern moralisch wertet oder im Hinblick auf Lehren für die Zukunft interpretiert. Zwischen „Justice has been done“ und der Kritik an den „USA, USA“-Rufen, zwischen Jubelbildern bzw. Ground-Zero-Pathos und Aufnahmen vom blutigen Tatort – als jeweils zentralen Inszenierungselementen – offenbart der deutsch-amerikanische Vergleich bzw. die Kontrastierung von ABC und ZDF markante Unterschiede, inhaltlich wie strukturell. Fasst man die multimodalen Konstruktionen zusammen, ergeben sich je nach Land und Sender divergente Muster der Montage, die auch abweichende Bedeutungskonstruktionen nahelegen: „Amerikanische“ Konstruktion:

„Deutsche“ Konstruktion:

– O-Ton-Collage (Action News) – Verzicht auf Off-Kommentar – Schlüsselbilder: Jubel, Obama, Ground Zero (kein Tatort) – Musikuntermalung: Dynamik (schnell, laut), Pathos, Emotion – Prosodie: emotional, pathetisch – Sprache-Bild-Kongruenz – Dynamische Montage (Zoom, Einblendungen, Ton- und Licht-effekte)

– wenig O-Töne (Geräusche) – dominierender Off-Kommentar – Schlüsselbilder: Obama, Tatort (Blut, Chaos), Drohne, Jubel – keine Musikuntermalung – Prosodie: moralisch, kritisch – Sprache-Bild-Inkongruenz – Statische Montage (Schnitt, langsamer Zoom), aber dynamische Bilder (Wackel­ kamera)

Abb. 5: Schematischer multimodaler Vergleich der beiden Beiträge

Dieses Beispiel ist meines Erachtens typisch für die unterschiedliche multimodale ‚Verarbeitung‘ globaler Ereignisse in lokalen journalistischen Kontexten, selbst bei Ländern wie Deutschland und USA, deren Bürger viele Anschauungen teilen. Noch wesentlich deutlicher werden die Differenzen etwa, wenn man den russische RiaNovosti-Beitrag betrachtet, bei dem der Sprecher mit monotoner und harter Stimme in Zweifel zieht, ob Bin Laden überhaupt tot ist („However no evidence was provided as a proof of Bin Laden’s death.“) Betrachtet man die Daten des Bin-Laden-Korpus in ihrer internationalen Vielfalt, lassen sich in den Rückblicken mehrere häufig verwendete Bildklischees (Situation Room, schießender oder fernsehender Bin Laden) und Sprachklischees („Justice has been done“, „USA, USA“) identifizieren, die  – als „Mythomotoren“ (Paul 2006, 19)  – das Potenzial zur rituellen Verfestigung und Verankerung dieses Ereignisses im globalen kulturellen Gedächtnis haben (etwa in Kombination mit dem ebenfalls mehrfach gezeigten 9-11-Memorial am Ground Zero). Diese Klischees tauchen einerseits in typischen Schlagwort-Prosodie-Musik-Standbild-Kombinationen auf, als multimodale Muster der Erinnerungskonstruktion, die transkulturell verwendet wurden bzw. werden und somit perspektivisch Deutungen des Ereignisses  – durch Wieder-



318 

 Michael Klemm

holung „automatisiert“ und „trivialisiert“ (Holly 2003) – nahelegen. Sie werden aber andererseits auch je nach Land, Sender oder Redaktion unterschiedlich montiert, kommentiert und als Narrative konnotiert (z. B. positive vs. negative Rahmung der Jubelschreie in ABC bzw. ZDF). Somit wird in solchen Analysen zumindest symptomatisch sichtbar, wie transkulturell, aber auch wie redaktionell und kulturell spezifisch globale Ereignisse multimodal verarbeitet und für die kollektive Erinnerung aufbereitet werden (können) – obwohl es zumindest in der westlichen Welt breiten Konsens über die Beurteilung des Terroristen Bin Laden gab/gibt. Darüber hinaus zeigt das Fallbeispiel auch (was hier nicht weiter ausgeführt werden kann), wie politische Akteure mit ihrer audiovisuellen Politik die Berichterstattung und damit letztlich auch die massenmediale Erinnerung beeinflussen möchten (grundlegend zur Visuellen Politik z. B. Hofmann 1999; Paul 2006; Klemm 2011b). Das NDR-Medienmagazin Zapp dokumentierte seinerzeit, wie die amerikanische Regierung im Mai 2011 mit einer aktiven Bildpolitik (einerseits durch die Verknappung bzw. Zensur des Bildangebots, anderseits durch die Lancierung des Situation-Room-Fotos in sozialen Netzwerken oder die Kommentierung von BinLaden-Archiv-Fotos aus seinem Versteck) in die massenmediale Berichterstattung und damit die Vorstufen der kollektiven Erinnerung vordringen konnte  – selbst in deutschen Zeitungen. Zugespitzt: Aus Datenunsicherheit über die Umstände und die Legitimität der Tötung Bin Ladens sollte Deutungsklarheit werden. Die massenmediale (und mehr denn je multimodale) Re-Konstruktion von Ereignissen kann somit auch Teil einer Erinnerungspolitik sein, die (lokalen, regionalen, nationalen?) Interessen und Überzeugungen, aber auch kulturellen Prägungen und journalistischen Traditionen folgt. Massenmediale Erinnerung in Jahresrückblicken oder noch mehr im Rahmen des heute beliebten ‚Histotainments‘ ist aus dieser Perspektive betrachtet stets glokalisiert. Sie folgt globalen Diskurssträngen in globalen Mediennetzwerken, wird aber lokal ‘gefiltert‚ und für die eigene Zielgruppe neu aufbereitet, inhaltlich wie strukturell. In der Gestaltung von TV-Jahresrückblicken werden somit auch crosskulturelle Unterschiede – zumindest symptomatisch – sichtbar.

4 Leistungsfähigkeit der Methoden – Kritische Beurteilung Die kulturvergleichende multimodale Diskursanalyse teilt die Grundsatzprobleme jeder interkulturellen oder kontrastiven Forschung. Diese beginnen schon bei der Klärung eines angemessenen Kulturbegriffs jenseits überkommener nationaler Stereotype oder gar ‚Kulturstandards‘, die in Zeiten globaler kommunikativer Vernetzung und zunehmender Hybridisierung kultureller Praktiken weniger denn je zutreffen. Nationalität und Ethnizität sind lediglich Parameter neben anderen wie z. B. Gender oder Generation und zudem beeinflusst durch politische oder ökonomische 

Kulturvergleich 

 319

Rahmenbedingungen, die sich laufend wandeln können. Das Kulturkonzept sollte daher weniger an Nation oder Ethnie, denn an Gemeinschaften unterschiedlicher Größe und Zusammensetzung geknüpft werden, die durchaus transnational organisiert sein können, etwa Sender oder Redaktionen. Zudem kann man stets kritisch hinterfragen, wie kulturspezifisch die analysierten Phänomene sind. Wie ‚deutsch‘ ist z. B. die von Fornoff und der ZDF-Redaktion offerierte Lesart der Tötung Bin Ladens? Die Konstruktion gründet immerhin auf einem in Deutschland geführten moralischen und politischen Diskurs, der in dieser Form in vielen anderen Teilen der Welt nicht stattfand. Und sie folgt für deutsche TV-Jahresrückblicke, zumindest im öffentlich-rechtlichen Fernsehen, typischen multimodalen Mustern oder Stilen (ernste Rahmung, dominierender, einordnender Off-Kommentar, Verzicht auf Musik). Aber wie ‚amerikanisch‘ ist die ABC-Variante der multimodalen Erinnerungskonstruktion, wenn z. B. ein arabischer Sender wie Al Jazeera oder das australische SBS teils ähnliche Muster verwenden? Aber auch sie folgt zumindest typischen Stilen amerikanischer Year-in-Reviews, die im Korpus mehrfach zu finden sind: O-Ton-Collagen mit Musik und Tempo, Emotion und Pathos, keine Off-Kommentierung. Die bei ABC und ZDF identifizierten multimodalen Muster passen zumindest – unabhängig von strittigen nationalen medienkulturellen Stereotypen – prototypisch zu sender- und redaktionskulturellen Unterschieden zwischen privatkommerziellen und öffentlich-rechtlichen Anbietern. Das Beispiel SBS, das der ABC-Variante deutlich mehr ähnelt als dem ZDF-Beitrag (vgl. Klemm 2012), deutet aber auch hier an, dass im Zeitalter der Medienkonvergenz solche etablierten Grenzen aufweichen. Gemeinsame angelsächsische Journalismustraditionen, aber auch geteilte politische Einstellungen scheinen hier bedeutsamer für die multimodale Konstruktion zu sein als Unterschiede im Mediensystem. Trotz aller berechtigten Skepsis, ob solche kontrastiven Untersuchungen kulturspezifische Differenzen offenlegen oder vielleicht anders erklärbare Unterschiede, wäre es ein Fehler, kulturelle Unterschiede unter Annahme einer prinzipiellen Transkulturalität globalisierter Gesellschaften für obsolet zu erklären. Die kulturvergleichende Medienlinguistik zeigt immer wieder exemplarisch, dass es überaus produktiv sein kann, mit aller interpretativen Vorsicht Unterschiede zu rekonstruieren, die im besten Falle zu mehr gegenseitigem Verständnis und interkultureller Verständigung führen kann – heute notwendiger denn je.

5 Fazit/Ausblick. Mut zum Kulturvergleich Die komplexe Interaktion zwischen Globalem und Lokalem führt nicht so sehr zu uniformen massenmedialen Kommunikaten, sondern zu vielfältigen Ausdrucksformen kultureller Hybridität, zu lokalen Adaptionen aufgrund nach wie vor bedeutsamer



320 

 Michael Klemm

politischer, ökonomischer, sozialer, religiöser, ethischer wie ethnischer Unterschiede in der Wirklichkeitskonstruktion, die auch durch transnationale Medien bzw. Kommunikationsformen oder temporäre Allianzen über nationale Grenzen hinweg nicht einfach nivelliert werden. Dies betrifft auch den kulturell differenzierten Umgang mit multimodalen Ressourcen im Rahmen der Wirklichkeitskonstruktion, sei es z. B. in Journalismus, Politik, Wirtschaft, Wissenschaft oder in der alltäglichen Lebenswelt. Der Beitrag hat exemplarisch gezeigt, wie aus einem identischen Ereignis auf der Grundlage identischen Materials sehr unterschiedliche multimodale Konstruktionen entstehen können, die auch auf (medien)kulturelle Unterschiede und divergent verlaufene gesellschaftliche Diskurse zurückzuführen sind. Die jeweils spezifische Kombination und Transkriptivität von Sprache, Bild und Ton folgt dabei (kultur)typischen Mustern und Stilen, im Kontrast von patriotischen Action News und skeptischdistanzierter Welterklärung. Weitere kulturvergleichende Fallanalysen unterschiedlichster Textsorten und Formate, nicht nur in puncto Massenmedien, sondern auch im Hinblick auf Soziale Medien wie Facebook oder Twitter, wären meines Erachtens hilfreich, um das komplexe Verhältnis von Globalität und Lokalität in Zeiten weltumspannender Kommunikation besser zu erfassen und empirisch zu konkretisieren – auch im Hinblick auf den unterschiedlichen Einsatz multimodaler Ressourcen. Um nur ein weiteres Anwendungsbeispiel anzudeuten: Die multimodale Konstruktion anderer Kulturen in TV-Auslandsmagazinen minutiös in verschiedenen Ländern zu untersuchen, würde es ermöglichen, typische massenmediale Muster der impliziten und expliziten Hervorbringung des Eigenen und des Fremden kulturkontrastiv zu erfassen – gegebenenfalls aus der Perspektive einer kritischen Diskursanalyse. Nicht mit dem Ziel generalisierbarer Aussagen (die es auch mit anderen Methoden seriös nicht geben kann), sondern als wertvolle Heuristiken und Bausteine im Rahmen einer Grounded Theory und medienkulturlinguistischen Diskursanalyse, die sich datengeleitet, interpretativ und schrittweise ein Bild von der auch kulturell geprägten multimodalen Konstruktion zentraler Diskurse macht.

6 Literatur Androutsopoulos, Jannis (Ed.) (2014): Mediatization and Sociolinguistic Change. Berlin/Boston. Assmann, Jan/Tonio Hölscher (Hg.) (1988): Kultur und Gedächtnis, Frankfurt a. M. Bendel, Sylvia/Gudrun Held (Hg.) (2008): Werbung – grenzenlos. Interkultureller Blick auf multimodale Gestaltungsstrategien aktueller Werbetexte. Frankfurt a. M. Blum, Roger (2006): Mediensysteme gehorchen der Politik. Ein Weltatlas nach medienpolitischen Kriterien. In: NZZ Online, 27.10.2006, online: http://www.nzz.ch/2006/10/27/em/ articleDOOQB.html (letzter Zugriff: 10. Februar 2015). Blum, Roger (2014): Lautsprecher und Widersprecher. Ein Ansatz zum Vergleich der Mediensysteme. Köln. Busse, Dietrich (Hg.) (2013): Linguistische Diskursanalyse: neue Perspektiven. Wiesbaden.



Kulturvergleich 

 321

Castells, Manuel (Hg.) (2004): The Network Society. Cheltenham. Certeau, Michel de (1988): Kunst des Handelns. Berlin. Charlton, Michael/Michael Klemm (1998): Fernsehen und Anschlußkommunikation. In: Walter Klingler/Gunnar Roters/Oliver Zöllner (Hg.): Fernsehforschung in Deutschland. 2. Bd. Baden-Baden, 709–727. Czachur, Waldemar (2011): Diskursive Weltbilder im Kontrast. Linguistische Konzeption und Methode der kontrastiven Diskursanalyse deutscher und polnischer Medien. Wroclaw/ Warschau. Dahl, Stephen (2004): Cross-cultural advertising research: What do we know about the influence of culture on advertising? Middlesex University Business School Discussion Paper No 28, online: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=658221 (letzter Zugriff: 10. Februar 2015). Dahl, Stephen (2007): Advertising Across Cultures. In: Nashreen Thaer/Swapna Gopalan (eds). Marketplace Anthropology. Hyderabad. Diekmannshenke, Hajo (2011): Schlagbilder. Diskursanalyse politischer Schlüsselbilder. In: Diekmannshenke/Klemm/Stöckl, 161–184. Diekmannshenke, Hajo/Michael Klemm/Hartmut Stöckl (Hg.) (2011): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin. Dreesen, Philipp/Lukas Kumiega/Constanze Spieß (Hg.) (2012): Mediendiskursanalyse. Diskurse – Dispositive – Medien – Macht. Wiesbaden. Eckkrammer, Eva Martha (1996): Die Todesanzeige als Spiegel kultureller Konventionen. Eine kontrastive Analyse deutscher, englischer, französischer, spanischer, italienischer und portugiesischer Todesanzeigen. Bonn. Erll, Astrid (2011): Kollektives Gedächtnis und Erinnerungskulturen. 2. Aufl. Stuttgart. Esposito, Elena (2002): Soziales Vergessen. Formen und Medien des Gedächtnisses der Gesellschaft. Frankfurt a. M. Esser, Frank/Thomas Hanitzsch (Hg.) (2012): The Handbook of Comparative Communication Research. London. Fiske, John (1989): Understanding Popular Culture. London. Fraas, Claudia/Stefan Meier (2012): Multimodale Stil- und Frameanalyse – Methodentriangulation zur medienadäquaten Untersuchung von Online-Diskursen. In: Roth, Kersten/Carmen Spiegel (Hg.): Angewandte Diskurslinguistik. Felder, Probleme, Perspektiven. Berlin, 135–161. Fraas, Claudia/Stefan Meier/Christian Pentzold (Hg.) (2013): Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln. Grampp, Sven (2004): Das Nullmedium erinnert sich. Formen der Geschichtsdarstellung in TV-Jahrhundertrückblicken. In: Fabio Crivellari u. a. (Hg.): Die Medien der Geschichte. Konstanz, 379–404. Habscheid, Stephan (2009): Text und Diskurs. München. Hahn, Oliver/Roland Schröder (Hg.) (2008): Journalistische Kulturen. Internationale und interdisziplinäre Theoriebausteine. Köln. Halbwachs, Maurice (1925 [1985]): Das Gedächtnis und seine sozialen Bedingungen. Frankfurt a. M. Hauser, Stefan/Martin Luginbühl (Hg.) (2012): Contrastive Media Analysis. Approaches to Linguistic and Cultural Aspects of Mass Media Communication. Amsterdam. Hauser, Stefan/Martin Luginbühl (Hg.) (2015): Hybridisierung und Ausdifferenzierung: Kontrastive Perspektiven linguistischer Medienanalyse. Bern. Hepp, Andreas (2009): Transkulturalität als Perspektive: Überlegungen zu einer vergleichenden empirischen Erforschung von Medienkulturen. In: Forum Qualitative Sozialforschung 10 (1), Art. 26, http://nbn-resolving.de/urn:nbn:de:0114-fqs0901267 (letzter Zugriff: 10. Februar 2015)



322 

 Michael Klemm

Hepp, Andreas (2013): Medienkultur. Die Kultur mediatisierter Welten. 2., überarbeitete Auflage. Wiesbaden. Hepp, Andreas u. a. (Hg.) (2005): Globalisierung der Medienkommunikation. Wiesbaden. Hickethier, Knut (1993): Dispositiv Fernsehen. Programm und Programmstrukturen in der Bundesrepublik Deutschland. In: Knut Hickethier (Hg.): Institution, Technik und Programm. München, 171–243. Hofmann, Wilhelm (Hg.) (1999): Die Sichtbarkeit der Macht. Theoretische und empirische Untersuchungen zur visuellen Politik. Baden-Baden. Hofstede, Geert (2001): Culture’s Consequences – Comparing Values, Behaviors, Institutions and Organizations Across Nations, 2. Aufl. Thousand Oaks. Holly, Werner (2003): „Ich bin ein Berliner“ und andere mediale Geschichts-Klischees. Multimodale Stereotypisierungen historischer Objekte in einem Fernsehjahrhundertrückblick. In: Ulrich Schmitz/Horst Wenzel (Hg.): Wissen und neue Medien. Berlin, 215–240. Holly, Werner (2006): Mit Worten sehen. Audiovisuelle Bedeutungskonstitution und Muster „transkriptiver Logik“ in der Fernsehberichterstattung. In: Deutsche Sprache 1–2, 135–150. Holly, Werner (2011): Bildüberschreibungen. Wie Sprechtexte Nachrichtenfilme lesbar machen (und umgekehrt). In: Diekmannshenke/Klemm/Stöckl, 233–253. Kauppert, Michael/Irene Leser (Hg.) (2014): Hillarys Hand: Zur politischen Ikonographie der Gegenwart. Bielefeld. Keller, Reiner (2011): Diskursforschung. 4. Aufl. Wiesbaden. Keller, Reiner (2013): Zur Praxis der Wissenssoziologischen Diskursanalyse. In: Reiner Keller/Inga Truschkat (Hg.): Methodologie und Praxis der Wissenssoziologischen Diskursanalyse. Bd 1 Interdisziplinäre Perspektiven. Wiesbaden, 27–69. Klemm, Michael (2008): Medienkulturen. Versuch einer Begriffsklärung. In: Hamid Reza Yousefi u. a. (Hg.): Wege zur Kultur. Gemeinsamkeiten – Differenzen – Interdisziplinäre Dimensionen. Nordhausen, 127–149. Klemm, Michael (2011a): Bilder der Wissenschaft. Verbale und visuelle Inszenierungsstrategien der populären Wissenschaftspräsentation. In: Olivier Agard/Christian Helmreich/Hélène Vinckel (Hg.): Das Populäre. Untersuchungen zu Interaktionen und Differenzierungsstrategien in Literatur, Kultur und Sprache. Göttingen, 437–455. Klemm, Michael (2011b): Bilder der Macht. Wie sich Spitzenpolitiker visuell inszenieren (lassen) – eine bildpragmatische Analyse. In: Diekmannshenke/Klemm/Stöckl, 187–209. Klemm, Michael (2012): Verstehen und Verständigung aus medienwissenschaftlicher Sicht: Von der nationalen Brille zur transkulturellen Perspektive? In: Hamid Reza Yousefi/Klaus Fischer (Hg.): Verstehen und Verständigung in einer veränderten Welt. Theorie – Probleme – Perspektiven. Wiesbaden, 41–53. Klemm, Michael (2015): Wenn Politik auf Einspielfilme trifft. Zur multimodalen Argumentation in der politischen Fernsehdiskussion Hart aber fair. In: Heiko Girnth/Sascha Michel (Hg.): Polit-Talkshow. Interdisziplinäre Perspektiven auf ein multimodales Format. Hannover, 96–120. Klemm, Michael/Sascha Michel (2014): Medienkulturlinguistik. Plädoyer für eine holistische Analyse von (multimodaler) Medienkommunikation. In: Nora Benitt u. a. (Hg.): Korpus – Kommunikation – Kultur: Ansätze und Konzepte einer kulturwissenschaftlichen Linguistik. Trier, 183–215. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Krotz, Friedrich (2007): Mediatisierung. Fallstudien zum Wandel von Kommunikation. Wiesbaden. Kübler, Hans-Dieter (2011): Interkulturelle Medienkommunikation. Wiesbaden. Ludes, Peter (2011): Elemente internationaler Medienwissenschaften. Wiesbaden.



Kulturvergleich 

 323

Ludes, Peter (2012): Schlüsselbilder und Schlüssel zu Unsichtbarem: Brasilianische, chinesische, deutsche und US-amerikanische Fernsehsichten. In: Joachim Knape/Anne Ulrich (Hg.). Fernsehbilder im Ausnahmezustand: Zur Rhetorik des Televisuellen in Krieg und Krise. Berlin, 65–99. Lüger, Heinz-Helmut/Hartmut E. H. Lenk (Hg.) (2008): Kontrastive Medienlinguistik. Landau. Luginbühl, Martin (2011): Vom kommentierten Realfilm zum multimodalen Komplex. SpracheBild-Beziehungen in Fernsehnachrichten im diachronen und internationalen Vergleich. In: Diekmannshenke/Klemm/Stöckl, 257–276. Luginbühl, Martin (2014): Medienkultur und Medienlinguistik: Komparative Textsortengeschichte(n) der amerikanischen „CBS Evening News“ und der Schweizer „Tagesschau“. Bern. Luginbühl, Martin/Stefan Hauser (Hg.) (2010): MedienTextKultur: Linguistische Beiträge zur kontrastiven Medienanalyse. Landau. Lünenborg, Margreth (2005): Journalismus als kultureller Prozess. Zur Bedeutung von Journalismus in der Mediengesellschaft. Ein Entwurf. Wiesbaden. Meier, Stefan (2011): Multimodalität im Diskurs: Konzept und Methode einer multimodalen Diskursanalyse (multimodal discourse analysis). In: Reiner Keller u. a. (Hg.). Handbuch Sozialwissenschaftliche Diskursanalyse 1 – Theorien und Methoden. 3., erw. Aufl. Wiesbaden, 499–532. Mey, Günter/Katja Mruck (Hg.) (2011): Grounded Theory Reader. Wiesbaden. Mooij, Marieke K. de (2013): Global marketing and advertising: understanding cultural paradoxes. Fourth Edition. Thousand Oaks. Nielsen, Martin (2012): Werbekommunikation kulturkontrastiv. In: Nina Janich (Hg.). Handbuch Werbekommunikation: Sprachwissenschaftliche und interdisziplinäre Zugänge. Tübingen, 305–320. Paul, Gerhard (Hg.) (2006): Visual History. Ein Studienbuch. Göttingen. Pörksen, Uwe (1997): Weltmarkt der Bilder. Eine Philosophie der Visiotype. Stuttgart. Przyborski, Aglaja/Günther Haller (Hg.) (2014): Das politische Bild. Situation Room: Ein Foto – vier Analysen. Opladen/Berlin/Toronto. Püschel, Ulrich (1995): Stilpragmatik – Vom praktischen Umgang mit Stil. In: Gerhard Stickel (Hg.). Stilfragen. Berlin/New York, 303–328. Roth, Kersten Sven/Carmen Spiegel (Hg.) (2013): Angewandte Diskurslinguistik: Felder, Probleme, Perspektiven. Berlin. Schneider, Jan Georg/Hartmut Stöckl (Hg.) (2011): Medientheorien und Multimodalität. Ein TV-Werbespot – Sieben methodische Beschreibungsansätze. Köln. Shoemaker, Pamela J./Akiba A. Cohen (Hg.) (2005): News Around the World. London. Thomas, Alexander (2011): Das Kulturstandardkonzept. In Wilfried Dreyer/Ulrich Hößler (Hg.). Perspektiven interkultureller Kompetenz. Göttingen, 97–124. Thomaß, Barbara (Hg.) (2013): Mediensysteme im internationalen Vergleich. 2. Aufl. Konstanz. Thussu, Daya Kishan (Hg.) (2009): Internationalizing Media Studies. London.



III Aspekte multimodaler Textsorten



Ulrich Schmitz

14. Multimodale Texttypologie Abstract: Wenn man den Textbegriff auf sämtliche Kommunikate ausdehnt, die irgendein sprachliches Element enthalten, öffnet sich ein kaum überschaubares Feld vielfältiger multimodaler Texte. Ein typologischer Zugriff kann Orientierung bringen und den Blick für bisher wenig beachtete Merkmale und Zusammenhänge schärfen. Jedoch würde eine in sich geschlossene einheitliche Klassifikation entweder zu grobkörnig ausfallen oder aber sich als endlose Sisyphos-Arbeit erweisen und in keinem Fall nützliche Erkenntnisse zeitigen. Nach Diskussion textlinguistischer Probleme (Kapitel 1) werden hier deshalb zunächst einschlägige Begriffe definiert (Kapitel 2 und 3) und dann fünf verschiedene Ansätze zur Diskussion gestellt, die je nach Anwendungszweck ausgewählt, verknüpft, abgewandelt und/oder ausgebaut werden können. Drei Typologien sortieren nach Modiverbund, Kommunikationsform bzw. Sorte (Kapitel 4 bis 6). Eine spannt mehrdimensionale skalare Räume auf, in welche die jeweiligen multimodalen Textexemplare eingeordnet werden können (Kapitel 7). Eine weitere folgt semiotischen Eigenschaften der verwendeten Zeichen (Kapitel 8). Abschließend wird an Nutzen und Grenzen von Typologien erinnert (Kapitel 9). 1 Texte: Mono- oder multimodal? 2 Definitionen 3 Abgrenzung monomodaler von multimodalen Texten 4 Typologie multimodaler Texte nach Modi-Kombination 5 Typologie multimodaler Texte nach Kommunikationsform 6 Typologie multimodaler Texte nach Sorte 7 Ein skalarer Ansatz zur Klassifikation multimodaler Texte 8 Ikon, Index und Symbol 9 Schluss 10 Literatur

1 Texte: Mono- oder multimodal? „Ach, was muß man oft von bösen / Kindern hören oder lesen!“ (Busch 1865, Vorwort) Hören oder lesen  – sprechen oder schreiben: Das sind die Modi, an die man bei sprachlicher Kommunikation zuerst denkt; und es sind auch die Lernbereiche des Deutschunterrichts (z. B. KMK 2005, 7). Wer an Texte denkt, denkt an fortlaufenden Fließtext, der von vorn nach hinten gelesen wird und ohne weitere Zutaten in sich selbst verständlich ist (seltener auch an mündliche Sprache, die ebenfalls in chronologischer Zeitfolge aufgenommen wird). Doch Wilhelm Buschs Bubengeschichte in sieben Streichen ist durchweg bebildert: Man bekommt nicht nur etwas zu lesen, 

328 

 Ulrich Schmitz

sondern auch viel anzuschauen. Gleich zwischen den nächsten beiden, ebenso schräg gereimten Zeilen „Wie zum Beispiel hier von diesen,/ welche Max und Moritz hießen.“ erblicken wir die Konterfeis der beiden Übeltäter. Der Wortlaut verweist mit „diesen“ deiktisch aufs unmittelbar folgende Bild; und die Illustration vermittelt uns eine klare (nach diesen Worten überraschend liebenswürdige) Vorstellung von den beiden, wie sie sprachlich kaum prägnanter formuliert werden könnte. Solche Text-Bild-Gefüge, in denen Sprache und Bild wechselseitig miteinander verbunden sind, prägen heute die öffentliche Kommunikation. Sowohl geschriebene als auch gesprochene Sprache kam und kommt oft aber auch in Verbindung mit anderen Modi vor. Mündliche Kommunikation verläuft immer schon multimodal: unmittelbar eingebettet in Situationen, begleitet von Mimik, Gestik und anderen Formen körpernaher Bedeutungsträger wie Lautstärke, Prosodie, Stimmführung. Einige dieser nonverbalen Ausdrucksträger bleiben selbst in der technisch reduzierten telefonischen Kommunikation erhalten. Auch schriftliche Texte sind technisch reduzierte Kommunikate. Geschriebene Texte sind mehr oder weniger situationsentbunden und gelten über den Moment hinaus. Dieser kulturell unschätzbare Vorteil ist ursprünglich erkauft durch den Zwang zu standardsprachlich einigermaßen gepflegter Ausformulierung (z. B. in ganzen Sätzen und kohärentem Monolog) und durch weitgehenden Verzicht auf alle Informationsträger außer Buchstaben und Interpunktionszeichen. Erst nach und nach entdeckten Schreiber weitere Gestaltungsmöglichkeiten, etwa durch Absatzgliederung, Layout und Typographie (Raible 1991). Dank Buchdruck und zunehmender, weil gesellschaftlich nützlicher Distanzkommunikation wurde Schriftlichkeit in Gestalt scheinbar monomodaler, in sich geschlossener schriftlicher Texte für einige Jahrhunderte das dominante Mittel öffentlicher Kommunikation und der entscheidende Träger von Wissen, Kultur und Tradition. Daran orientierte sich die Bedeutung von Text. Sowohl im Alltagsdenken als auch in der Wissenschaft sind Texte zunächst (also prototypisch) geschriebene Folgen vorrangig grammatisch korrekt (,schriftsprachlich‘) ausformulierter Sätze, die in ihrer Gesamtheit einen mehr oder weniger geschlossenen, kohärenten Sinn ergeben. Knapp formuliert: Text ist der Wortlaut von Schriftstücken oder (mit Hausendorf/Kesselheim 2008, 14 u. 18) etwas offener: ein „lesbares Etwas“, nämlich Wortlaut, der gescannt werden kann (vgl. die Diskussion in Adamzik 2004, 31–48). Dabei wird die materielle Erscheinungsform des Textes größtenteils ignoriert. Sie gilt als weitgehend bedeutungsneutral. Dieser weithin geläufige Textbegriff unterstellt Monomodalität: Der Gedanke werde allein durch Schrift ausgedrückt (sola scriptura). Tatsächlich zeichnet sich die Geschichte der Schriftlichkeit dadurch aus, dass monomodale Beschränkungen nach und nach gesprengt werden. Die Erfindung des Spatiums als Worttrennzeichen (mündliche Kommunikation ist nicht darauf angewiesen), die immer weiter sich ausdifferenzierende Interpunktion (im Deutschen folgt sie eher grammatischen Regeln als Merkmalen mündlicher Kommunikation), Typographie, Layout und Textdesign nutzen immer stärker visuelle Gestaltungsmög

Multimodale Texttypologie 

 329

lichkeiten zur Übermittlung, Gliederung und ergonomischen Rezeptionserleichterung bei immens wachsenden Informationsmengen. Seit der Erfindung und Verbilligung von Vierfarbdruck, audiovisuellen und schließlich digitalen Medien werden herkömmliche Texte immer mehr mit anderen Botschaftsträgern und Modi verbunden. Technisch bedingte Einschränkungen von Distanzkommunikation wurden also nach und nach aufgehoben. Außerdem können nonverbale Modi auch jenseits einzelsprachlicher Grenzen verstanden werden, erleichtern also globalisierte Kommunikation, besonders auch im Internet (Schmitz 2012). Heute sind zeitgleiche berufliche und private Farbvideotelefonate über Kontinente hinweg Standard für wachsende Teile der Bevölkerung; und pure Schriftlichkeit ohne multimodale Einbettung kommt relativ (nicht absolut) immer seltener vor. Textlinguistik folgt dieser Entwicklung mit Verspätung. Brinkers ebenso klassisches wie einflussreiches Lehrbuch führt seit seinem ersten Erscheinen 1985 bis in die neuesten Auflagen eine starke Kommunikationsorientierung in die Textlinguistik ein, aber nicht konsequent durch. Er nennt Text „eine begrenzte Folge von sprachlichen Zeichen, die in sich kohärent ist und die als Ganzes eine erkennbare kommunikative Funktion signalisiert“ (Brinker 2010, 17). Danach wären auch mündliche Äußerungen Texte, evtl. sogar Dialoge. Im Folgenden schränkt er den Gegenstandsbereich der Textlinguistik ohne nähere Begründung jedoch ein, und zwar auf „im Wesentlichen Texte, die sich als Folgen von Sätzen manifestieren“ (Brinker 2010, 17); bei seinem Satzbegriff wären erhebliche Teile mündlicher Kommunikation damit implizit ausgeschlossen. Tatsächlich konzentriert sich Brinker erklärtermaßen auf „den schriftkonstituierten monologischen Text“ (Brinker 2010, 19), in der Durchführung dann tatsächlich auf zusammenhängende Folgen schriftsprachlich korrekt gebildeter Sätze, also monomodale prototypische Ganztexte mit in sich geschlossenem Sinn. Leider wird nirgends ganz klar und eindeutig gesagt, was ausgeschlossen wird und warum (mündlich? dialogisch? diskontinuierlich? fragmentarisch? multimodal?). Dass beispielsweise Wilhelm Buschs Bubengeschichte oder auch ein modernes Werbeplakat nur als Einheit aus Worten und Bildern wahrgenommen wird, wird gar nicht bedacht. Außerdem: Je ,kommunikativer‘ ein Text daherkommt, desto weniger in sich geschlossen (und folglich texthafter in Brinkers Sinn) ist er. Und umgekehrt: Je stärker ein Text den Brinkerschen Vorgaben entspricht, desto situationsentbundener (und folglich ,weniger kommunikativ‘) wird er sein. Dieses Dilemma kennzeichnet erhebliche Teile der Textlinguistik und wird in letzter Zeit auch stärker bewusst. Die gut fünfzig Textdefinitionen, die Klemm (2002) zu zwei Dutzend Gruppen zusammengestellt hat, lassen teilweise auch fragmentarische und/oder mündliche Texte zu, allenfalls vier oder fünf davon mindestens implizit auch Multimodalität. Eine ebenso frühe wie seltene Ausnahme bildet der dort nicht genannte Karel Hausenblas (1977, 148). Er unterscheidet „linguale Texte (immer mit paralingualen Elementen)“, „außerlinguale Texte“ und „gemischte Texte (entweder mit der Dominanz von lingualen oder außerlingualen Elementen)“, allerdings ohne das näher auszuführen. Vater (1992, 25) kommt nach einer Diskussion der damals relevanten Literatur 

330 

 Ulrich Schmitz

zu keinem eindeutigen Ergebnis. Er akzeptiert, „daß nicht-sprachliche Kommunikationsmittel zum mindesten bei einigen Textsorten eine Rolle spielen“ und verabschiedet auch das „Kriterium der Abgeschlossenheit“, verzichtet aber auf eine eigene Textdefinition und konzentriert sich im Rest seiner Einführung in die Textlinguistik doch weitgehend auf monomodal verstandene Beispiele prototypischer schriftlicher Ganztexte und bildet damit die vorherrschende Lehre gut ab. In der jüngsten Neuauflage erklärt er es ausdrücklich für „problematisch“, „,Mischtexte‘, die nichtsprachliche Komponenten (z. B. Bilder) enthalten“, als Texte zu betrachten (Vater 2001, 21). Doch auch Schriftgelehrte und Textlinguisten können nicht länger ignorieren, dass bei zusehends fortschreitender Ästhetisierung der alltäglichen Zeichenwelt auch Schrift in öffentlichen Räumen, alten und neuen Medien immer häufiger, enger und intensiver mit Bildern und anderen Modi verknüpft wird. Der Vorschlag von Fix (2001, 115), „von der faktischen Auflösung des sprachlichen Textes in einen multimedialen Text auszugehen und die Untersuchungsinstrumentarien danach einzurichten“, fällt allmählich auf fruchtbaren Boden. Erst in letzter Zeit geraten multimodale Elemente oder Einbettungen von Texten mehr in den Blick (Bucher/Gloning/Lehnen (Hg.) 2010; Jewitt (ed.) 2009; O‘Halloran (ed.) 2004 u. 2008; Ventola/Charles/Kaltenbacher (eds.) 2004; bei Schriftlichkeit z. B. Bateman 2008; Deppermann/Linke (Hg.) 2010; Diekmannshenke/Klemm/Stöckl (Hg.) 2011; Roth/Spitzmüller 2007; Schmitz 2005; Stöckl 2004a; Tabaoda/Habel 2013; bei Mündlichkeit Deppermann (ed.) 2013; Fricke 2012; Müller et al. (eds.) 2013; Schmitt (Hg.) 2007; Stukenbrock 2014). In dem Maße allerdings, wie der Terminus „multimodaler Text“ sich einbürgert (Liebert/Metten 2012), stellt sich die Frage nach Definition und Klassifikation multimodaler Texte. Schon ,monomodale‘ (i.e. herkömmliche rein schriftliche) Texte wurden und werden in einer derart unübersichtlichen Vielfalt von Verfassern, Anlässen, Zwecken, Kontexten und Erscheinungsformen produziert, dass ein Bündel unterschiedlicher typologischer Zugriffe ergiebiger sein kann als ein einheitliches Tableau (Heinemann 2000a u. 2000b). Ein vollständiger Atlas multimodaler Textsorten mit all ihren Varianten scheint gänzlich unmöglich. Menschen gestalten, nutzen, variieren, ergänzen, erweitern und ändern die Konventionen und Muster ihrer täglichen Kommunikation so produktiv, wie ihre jeweiligen Lebenszwecke und Wünsche das erfordern. Das passt nicht in ein Schema. Deshalb schlagen wir im Folgenden einen terminologischen Rahmen (Kapitel 2 und 3) sowie diverse Klassifikationszugriffe und -kriterien (Kapitel 4 bis 7) vor, auf deren Grundlage unterschiedlich robuste Komplettund Teiltypologien für unterschiedliche Zwecke möglich sind. Kapitel 8 fügt eine theoretisch fundierte Perspektive hinzu. Kapitel 9 gibt einen kurzen Ausblick.



Multimodale Texttypologie 

 331

2 Definitionen Modus und Text sind vieldeutige Begriffe. Kress/van Leeuwen (2001, 21) zum Beispiel definieren „modes“ sehr weit und abstrakt als „semiotic resources which allow the simultaneous realization of discourses and types of (inter)action“. Dazu gehören beispielsweise auch Architektur, Gesten und Farben. (Auf dieser Grundlage ist Multimodalität die übliche Standardform menschlicher Kommunikation; Kress 2010, 1.; ähnlich Norris (2004, 9): „All interactions are multimodal.“; vgl. Norris 2012.) Auf der anderen Seite liest etwa Butor (1992) „die Stadt als Text“. So anregend solche Ansätze für viele wissenschaftliche Unternehmungen auch sind, so führen sie doch in die Irre, wenn es um die Verbindung dessen geht, was beide Begriffe – Modus und Text – bezeichnen sollen. Würden sie zu weit oder zu eng gefasst, umschlösse die angestrebte multimodale Texttypologie entweder sämtliche Kulturleistungen oder aber eine zu gleichartige Menge spezifischer Kommunikate (z. B. ausschließlich Gefüge aus schriftlichem Text und statischem Bild). Deshalb wird Modus im Folgenden verstanden als einer der fünf Kommunikationsträger gesprochene und geschriebene Sprache, stehendes und bewegtes Bild sowie Audio (incl. Musik und Geräusch). Text wird verstanden als nach außen abgegrenztes Zeichengebilde, das mindestens ein sprachliches Zeichen enthält. Die für eine multimodale Texttypologie relevanten zehn Termini (Text, Kotext, Kontext, Situation, Kode, Modus, Material, Medium, Kommunikationsform, Textsorte) werden in unterschiedlichen Zusammenhängen unterschiedlich definiert. Definitionen (lat. für ,Abgrenzungen‘) benennen nicht etwa, wie manchmal angenommen wird, ein unterstelltes Wesen des bezeichneten Sachverhalts, sondern grenzen für einen bestimmten Zweck den Geltungsbereich des gemeinten Referenten gegenüber demjenigen anderer Definitionen ab. Für eine multimodale Texttypologie erscheinen die folgenden Definitionen als besonders praktikabel. Als Text gilt jedes nach außen (z. B. durch ungefüllte Zeiten oder Flächen) abgegrenzte Zeichengebilde, das mindestens ein sprachliches Zeichen enthält. Man unterscheidet visuelle (z. B. schriftliche) von akustischen (mündlichen) Texten. Letztere heißen manchmal auch Monologe, Dialoge, Gespräche oder Diskurse. Adamzik (2002) trägt gute Gründe dafür vor, den Text-Begriff an (schriftgebundenen) Alltagsvorstellungen auszurichten und mündliche Botschaften ,Diskurse‘, multimodale Botschaften hingegen ,Kommunikate‘ zu nennen. „Mindestens muss das Sprachliche eine bedeutende oder sogar dominante Rolle spielen“ (Adamzik 2002, 173). Für den Zweck einer multimodalen Texttypologie plädieren wir für einen weiten Text-Begriff, damit auch ohne terminologische Verrenkungen nichts aus dem Blick gerät (vgl. auch Fix 2008a u. 2008b). Einschränken kann man das Feld von Fall zu Fall dann immer noch. Kotext ist die engere oder weitere textliche Umgebung eines Textstückes innerhalb eines Textes. (Zum Beispiel sind die beiden Sätze vor und nach diesem Satz sein Kotext, je nach Betrachtungsweise aber auch der gesamte Abschnitt.)



332 

 Ulrich Schmitz

Kontext ist die semiotische Umgebung des Textes. (Z. B. kann dieses gesamte Handbuch der Kontext des vorliegenden Beitrages sein.) Situation heißt die lebensweltliche Umgebung, in deren Rahmen der jeweilige Text eine Rolle spielt. (Z. B. kann ein Seminar, in der dieser Aufsatz diskutiert wird, eine solche Situation sein.) Kode ist ein System vereinbarter Zeichen (z. B. türkische vs. deutsche Standardsprache, Dialekt, Kleiderordnung). In multikodaler Kommunikation sind mehrere Kodes von Belang. (Der vorliegende Aufsatz kommt monokodal daher.) Modus bezeichnet in diesem Zusammenhang nicht eine grammatische Kategorie des Verbs, sondern die Art der Präsentation und Wahrnehmung. Streng genommen müsste Modus sich auf den genutzten Sinneskanal beziehen (also auditiv, visuell, olfaktorisch, gustatorisch und haptisch). Von besonderen Fällen (z. B. Blindenschrift) abgesehen dominieren in menschlicher Kommunikation aber die ersten beiden so sehr, dass man als Modi insbesondere gesprochene Sprache, geschriebene Sprache, stehendes Bild (z. B. als Foto), bewegte Bilder (z. B. als Film) sowie Audio (z. B. Musik) unterscheidet, weil sie auf unterschiedliche Weise rezipiert werden. Exkurs zu Modus: Stöckl (2004b, 17 f.) nennt (1) Bild, (2) Sprache, (3) Geräusche und (4) Musik als vier zentrale Modalitäten mit den jeweiligen ,medialen Varianten‘ (1) statische und dynamische Bilder, (2) statische Schrift, animierte Schrift und gesprochene Sprache sowie (4) musizierte und notierte Musik. Für den Zweck einer multimodalen Texttypologie bringt diese Einteilung einige Nachteile mit sich. Erstens würde der besondere Stellenwert der in multimodalen Texten immer vorkommenden sprachlichen Elemente nicht hinreichend abgebildet. Zweitens würde der zentrale Unterschied zwischen visuell und akustisch zu erfassenden Texten nur an untergeordneter Stelle erscheinen. Teils daraus folgend würden drittens sehr unterschiedlich große Klassen entstehen. Viertens müsste die Unterscheidung zwischen musizierter und notierter Musik beispielsweise auch eine Unterscheidung zwischen vorgetragener und notierter Schriftsprache nach sich ziehen. Und fünftens erscheint der Koch/ Oesterreicher (1985 u. 1994) folgende Gebrauch von „medial“ unglücklich, weil nicht klar genug von „modal“ unterschieden. Wenn manchmal auch Prosodie bzw. Typographie und Layout als eigenständige (Design)Modi gelten, ist das nicht ganz korrekt, weil sie notwendig an die ersten vier genannten Modi (Mündlichkeit, Schriftlichkeit, statische und dynamische Bildlichkeit) gebunden sind, indem sie ihnen eine Erscheinungsform verleihen. Deshalb nennt Stöckl (2004b, 16 f.) Typographie eine „periphere“, noch besser „subsidiäre Zeichenmodalität mit eigenen Ressourcen“, mit deren Hilfe durchaus ein „sekundäres“, nämlich „konnotatives semiotisches System“ aufgebaut werden kann (Stöckl 2004b, 13; vgl. Spitzmüller 2012). – Norris (2004, x) unterscheidet „embodied“ und „disembodied modes“, also körpergebundene (wie Mimik, Gestik, Proxemik, Blickverhalten) von körperfernen Modi (wie Druckerzeugnisse und Musik) und argumentiert, dass beide nicht unbedingt an Sprache gebunden sein müssen. In solchen Fällen handelt es sich allerdings nicht um Texte im oben definierten Sinn. 

Multimodale Texttypologie 

 333

Bi- bzw. multimodal heißen alle Botschaften, die mehr als einen der so bestimmten Modi nutzen (prototypisch z. B. Tonfilme oder Wort-Bild-Gefüge beispielsweise in Illustrierten oder computergestützten Präsentationen). In einem weiten Sinn könnte man auch nur aus Worten bestehende Texte, deren Design (prosodisch bzw. typographisch) in bedeutsamer Absicht gestaltet wurde, bimodal nennen (z. B. Slogans in Werbeanzeigen). In der Regel kommen solche Texte allerdings in Verbindung mit anderen Modi vor und sind dann ohnehin bi- bzw. multimodal. Material ist der Werkstoff, der zu Zeichen geformt wird oder sie trägt (z. B. Tinte oder Pixel bzw. Papier und Glas). Medium ist ein technisches Hilfsmittel der Kommunikation (z. B. ein Kugelschreiber oder ein Smartphone). Kommunikationsform heißt (nach Brinker 2010, 128) der durch mediale Merkmale geprägte, kommunikativ-funktional aber nicht festgelegte Rahmen, innerhalb dessen kommuniziert wird (z. B. Telefongespräch, Fernsehsendung, Chat, Brief). Textsorten sind demgegenüber „immer an eine bestimmte (dominierende) kommunikative Funktion (die Textfunktion) geknüpft“ (Brinker 2010, 128) (z. B. Liebesbrief, Mahnschreiben, Hirtenbrief). Textsorten sind „komplexe Muster sprachlicher Kommunikation […], die innerhalb einer Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind. Der konkrete Text erscheint immer als Exemplar einer bestimmten Textsorte.“ (Brinker 2010, 120)

3 Abgrenzung monomodaler von multimodalen Texten Mit diesen Überlegungen wird der Begriff multimodaler Texte bewusst weit gefasst. Als multimodale Texte gelten sämtliche nach außen (z. B. durch ungefüllte Zeiten oder Flächen) abgegrenzte Zeichengebilde, die mindestens ein sprachliches Zeichen enthalten und mindestens zwei der fünf Modi gesprochene Sprache, geschriebene Sprache, stehendes Bild (z. B. Foto), bewegte Bilder (z. B. Film) und Audio (z. B. Musik) nutzen. Um die Terminologie nicht zu kompliziert zu machen, fällt Bimodalität (Nutzung nur zweier der fünf Modi) als Sonderfall ebenfalls unter Multimodalität. Dass prototypische Filme selbst multimodal sind (indem sie gesprochene und manchmal auch geschriebene Sprache sowie eine zusätzliche Tonspur nutzen), sei registriert; im Audiobereich gilt Analoges für Lieder. Da die akustische oder optische Erscheinungsform von Zeichen nicht als eigenständige Modi gelten, weil sie notwendig an andere Modi gebunden sind, gibt es durchaus monomodale Texte. Im mündlichen Bereich denke man an automatisch erzeugte Ansagen etwa in Bahnhöfen oder Smartphones. Schriftlich sind prototypische private und geschäftliche Briefe (ohne illustrierende Zusätze) monomodal, 

334 

 Ulrich Schmitz

beispielsweise aber auch Speisekarten, Gäste- und Tagebucheinträge, E-Mails, SMS, Blogs und Chats. Solange Design, wie oben begründet, nicht als eigenständiger Modus gilt, mögen Stimmführung bzw. Typographie, Layout und sonstige Erscheinungsformen auch noch so gezielt durchgestaltet sein: Es bleiben monomodale Texte. Allerdings gibt es  – wie immer bei Definitionen  – Übergangsbereiche mit fließenden Grenzen, die je nach Zweck unterschiedlich gezogen werden können. Die närrische Verkleidung eines Büttenredners samt Redeunterbrechung durch applaus-heischendes Orchester, auch dekorativ gestaltete Initialen in mittelalterlichen Handschriften machen die Texte noch nicht multimodal, auch nicht ein Firmenlogo auf dem Geschäftsbriefbogen oder die bedienungsanleitenden Ikons im Formular des Textverarbeitungsprogramms. Wo aber hören nur schmückende Bildchen im Poesie-Album auf, und wo fangen Bilder an, textunterstützende Bedeutung zu tragen? Auf der anderen Seite gibt es für die meisten prototypisch monomodalen Kommunikationsformen und Textsorten auch viele eindeutig multimodale Exemplare: Arzt-Patienten-Interaktionen am Ultraschallbild, Unterrichtsgespräche mit Lehrbuch und Tafelbild, PowerPoint-gestützte Vorlesungen, Liebesbriefe mit eingefügten Zeichnungen, Speisekarten mit Abbildungen der angebotenen Gerichte, Blog-Einträge mit zugehörigen Audio- und Videodateien etc. pp. Nur wenn die Gesamtbedeutung eines Textes durch Zusammenwirken mindestens zweier Modi erzeugt wird, ist er multimodal.

4 Typologie multimodaler Texte nach Modi-Kombination Es liegt nahe, für eine Typologie multimodaler Texte zunächst von den fünf Modi auszugehen. Da Texte mindestens ein sprachliches Zeichen enthalten und alle anderen Elemente fakultativ sind, sind gesprochene vs. geschriebene Sprache (Mündlichkeit und Schriftlichkeit) die hier dominanten Modi. Im ersten Schritt ergeben sich für vorwiegend mündliche multimodale Texte die folgenden Kombinationsmöglichkeiten (S = statisch, D = dynamisch):



Multimodale Texttypologie 

 335

Tab. 1: Moduskombinationen mündlicher Texte schriftlich

S-Bild

D-Bilder

Audio

+

Vorlesung mit Skript +

Dialog zum Handy-Foto +

Team-Analyse eines Fußballspiels +

+

Beispiele

+

+

polizeiliche Führerscheinkontrolle +

+

ärztliche Ultraschallfilm-Erläuterung +

+

Hörbuch, Lied

+

+

Klavierunterricht Beratung über eine Werbekampagne

+

Wallfahrt

+

+

Spielfilm

+

+

+

Ausstellungsbesuch mit Audioguide

+

+

+

+

+

+ +

+

Konferenz einer Online-Redaktion +

Ausstellungsführung mit Audioguide

+

+

Schreibkonferenz zur Opernaufzeichnung

+

+

experimentelle Kunstinstallation

Vorwiegend schriftliche multimodale Texte können die folgenden anderen Modi nutzen: Tab. 2: Moduskombinationen schriftlicher Texte mündlich

S-Bild

D-Bilder

Audio

+

Vorlesen durch Mensch oder Computer +

Fotoalbum, Stadtplan, Werbeplakat +

Online-Nachricht mit Film +

+

Beispiele

+

+

Partitur im Vollzug Bilderbuch-Vorlesen

+

+

+ +

+

+ +

Zifferblatt, Ermittlungsakte +

elektronische Grußkarte

+

animierte elektronische Postkarte



336 

 Ulrich Schmitz

Tab. 2 (fortgesetzt) mündlich

S-Bild

D-Bilder

Audio

Beispiele

+

+

+

Kuckucksuhr

+

+

+

+

+

+ +

+

+ +

+

+

+

aufwendige Computerpräsentation

Diese Typologie ist zwar vollständig: Sämtliche multimodalen Texte lassen sich in eine der beiden Tabellen einordnen. Doch sie ist nicht sonderlich differenziert. Und sie hilft auch nicht viel weiter, denn die verschiedenen Zeilen sind sehr unterschiedlich stark besetzt. Beispielsweise gibt es zahllose höchst unterschiedliche multimodale Gefüge aus schriftlichem Text und statischem Bild, aber nur wenige, in denen erst die Verbindung von geschriebenem mit gesprochenem Text die beabsichtigte Bedeutung trägt.

5 Typologie multimodaler Texte nach Kommunikationsform Von den in Kapitel 2 definierten Termini eignen sich Kommunikationsform (Kapitel 5) und Textsorte (Kapitel 6) am besten für eine ergiebigere Klassifikation. Früher vorgeschlagene Klassifikationen von Kommunikationsformen (Holly 2001, 33 f.; Brinker 2010, 127 f.; Schmitz 2004, 58) kann man für eine Typologie multimodaler Texte wie in Tabelle 3 anpassen und erweitern. (E/A bezeichnet die Möglichkeit, (sich) aktiv ein- oder auszuschalten. Bei Nebenbei-Medien vor allem im öffentlichen Raum ist das nicht möglich.)



Multimodale Texttypologie 

 337

Tab. 3: Potentiell multimodale sprachgebundene Kommunikationsformen

(+) – + (+) + (+) + – (+) – (+) (+) + – + (–) – + + + + – – (+) + (+) + + + + (+) –

(+) – (–) – – – – – + – + + (+) (–) – – + (–) + (–) (–) – – – + – – – – – – –

(+) – (–) – – – – + + + + + + + – – + (+) + (+) (–) – – – + (+) – – – – – (+)

– +/– +/– – – + + + + + +/– + + – – – – – + +/– + (+) (+) – – (+) + + + + + +

– + + + + + + + + + + + + – (–) – – +/– + –/+ + – – (–) +/– + + + + + + +

E/A

Audio

– – + + + + + – (+) – – – – – + + – + + + + + + + + + + + + + + –

Einweg

D-Bild

+ + + – – – – + + + + + + + – – + – (–) – – – – – (+) – – – – – – +

öffentl.

S-Bild

+ +/– – – – – +/– +/– +/– – – – – + + + + + +/– +/– (+) + + – +/– + – – +/– – – +

schriftl.

+ + (–) – – – – + + – – + + + – (–) + – (+) +/– – (–) + +/– +/– + – – – – – +

III Nutzung

mündl.

Gespräch (f to f) Monolog Präsentation Brief Ansichtskarte Buch Presseartikel Hörfunksendung Fernsehsendung Hörbuch Video/DVD Kinofilm Theateraufführung Telefongespräch Fax SMS (u.Ä.) Skype (u.Ä.) App Hypermedia Wiki Blog Twitter Chat E-Mail Computer offline Gerätedisplay Warenverpackung Autoaufkleber Plakatwerbung Graffito Straßenschild Durchsage

II Modus aktuell

flüchtig

I Sein

+ + + + + + + + + + + + + + + + + + + + + + + + + + – – – – – –



338 

 Ulrich Schmitz

6 Typologie multimodaler Texte nach Sorte All diese Kommunikationsformen sind von technischen Bedingungen des jeweils benutzten Mediums geprägt, das nur bestimmte Modi übertragen kann. Medien beeinflussen also die Möglichkeiten bi- bzw. multimodaler Verknüpfung. Außerdem eignet sich nicht jede Kommunikationsform für jede Textsorte. Beispielsweise können Kochrezepte in vielerlei Kommunikationsformen auftreten und dann deren modale Möglichkeiten ausnutzen: rein mündlich im persönlichen Gespräch und (ggf. mit Audio-Untermalung) im Hörfunk, rein schriftlich (und ggf. illustriert) in Brief, Buch, Presse, Apps und Warenverpackung, mündlich plus Film in Fernsehen, mit zusätzlicher Schrift in Hypermedia – nicht aber in Graffiti oder in öffentlichen Lautsprecherdurchsagen. Auch Liebesbriefe eignen sich in unterschiedlichen, auch multimodalen Varianten für mehrere Kommunikationsformen, kaum aber für Computerpräsentationen und gar nicht für Straßenschilder. Umgekehrt kommen in den meisten genannten Kommunikationsformen sehr unterschiedliche Text-, Bild-, Film- und/oder Tonsorten vor, die je nach Textfunktion und kommunikativem Zweck die modalen Möglichkeiten unterschiedlich nutzen. Kommentare in der Print-Presse beispielsweise verzichten immer auf Fotos, Meldungen oft, Reportagen nie; Dossiers können Fotos, Zeichnungen und Diagramme nutzen, Wetterberichte nur Diagramme, Karikaturen kommen mit sehr wenig Worten aus etc. Übrigens verlangen manche Kommunikationsformen bzw. Textsorten weniger gestalterischen Aufwand (Alltagsgespräche, Telefonbücher, Romane, wissenschaftliche Aufsätze, private Videos), andere mehr (Theateraufführungen, Online-Zeitungen, Werbeplakate, Warenverpackungen, Filmkunst). Detaillierte Untersuchungen würden zu einer sehr umfangreichen vieldimensionalen Tabelle führen; dafür ist an dieser Stelle kein Platz. Wir begnügen uns mit grob gerasterten Hinweisen und einigen markanten Beispielen; zahlreiche hier nicht genannte Sorten und Varianten sind möglich. Vater (2001, 15) schlägt folgende vier Dimensionen zur Textsorteneinteilung vor: „mündlich vs. schriftlich, einsätzig vs. mehrsätzig, monologisch vs. dialogisch, rein sprachlich vs. gemischt (andere Kommunikationsformen einschließend)“. Wenn man eine multimodale Texttypologie daran anschließen will, muss man die erste und die vierte Dimension durch ,Modusmix‘ (zwei bis fünf aus mündlich, schriftlich, stehendes Bild, bewegte Bilder, Audio) ersetzen. Die zweite sollte durch ,kurz vs. komplex‘ oder besser ein näher zu beschreibendes Kontinuum zwischen diesen beiden Polen ersetzt werden. (Kurz wären etwa ein Logo oder eine Erkennungsmelodie, komplex ein Fotoroman oder ein Dokumentarfilm.) Zusammen mit der dritten Dimension „monologisch vs. dialogisch“ (und ggf. Subtypen auch bei computerbasierter Interaktivität) ergäbe sich ein dreidimensionales Modell, in das jeder multimodale Text eingeordnet werden kann. Je nach Zweck und Erkenntnisinteresse lassen sich jedoch auch weitere Dimensionen hinzufügen, zum Beispiel in Anlehnung an Brinkers (2010, 94–112 u. 

Multimodale Texttypologie 

 339

126) fünf Textfunktionen (Information, Appell, Obligation, Kontakt, Deklaration), nach Themenspezifik (vgl. Adamzik 2004, 126–136) und/oder nach Kommunikationsbereichen bzw. Verwendungsdomänen (vgl. Brinker u. a. (Hg.) 2000, 604–761), ggf. auch nach Komplexitätsgrad, Medium, Material, Mono- vs. Multikodalität, Situation, Kontext, kulturellem Hintergrund und historischer Epoche. Insbesondere kann von Fall zu Fall auch die Art der Beziehungen zwischen den einzelnen Modi von besonderem Interesse sein. (1) In syntaktischer Hinsicht geht es darum, mit welchen Mitteln die Modi innerhalb eines multimodalen Textes aufeinander verweisen. Für Verknüpfungen von schriftlichem Text und statischem Bild hat Wetzchewald (2012) eine vollständige Klassifikation solcher Junktoren erarbeitet. (2) Unter semantischem Blickwinkel fragt man danach, in welcher inhaltlichen Beziehung die verschiedenen Modi zur Gesamtbotschaft beitragen. Nöth (2000, 492–494) nennt für Text-Bild-Beziehungen fünf solcher Typen, nämlich Redundanz, Dominanz, Komplementarität, Diskrepanz und Kontradiktion. Daran kann man sich auch bei anderen intermodalen Verhältnissen orientieren. (3) Semantisch-pragmatisch außerdem relevant sind Einschränkungen, Erweiterungen oder Stabilisierungen von Bedeutungen eines Modus durch einen anderen. Beispielsweise werden Bilder durch Bildunterschriften monosemiert (z. B. bei Pressefotos) oder polysemiert (z. B. bei Gemäldetiteln von Konrad Klapheck), Diagramme durch Legenden erst verständlich, riskante Bildmetaphern (z. B. in der Werbung) durch Paratexte stabilisiert. Im tatsächlichen Gebrauch werden solche Text-Bild-Gefüge ihrerseits oft in erläuternde schriftliche Texte und/oder mündliche Ausführungen eingebettet. (4) In dominant pragmatischer Perspektive schließlich schaut man auf die synästhetische Rezeption und Wirkung multimodaler Texte: Wie wird das Zusammenspiel beispielsweise von gesungenem Wortlaut, Melodie, Gesichtsausdruck und Hintergrund in einer FernsehShow wahrgenommen? Abgesehen von Untersuchungen auf der Grundlage von Blickaufzeichnungen (Bucher/Schumacher (Hg.) 2012) steht die Forschung hier erst ganz am Anfang. Ein weiteres Kriterium zur Klassifikation multimodaler Texte kann sich daraus ergeben, wie prototypisch die jeweiligen Modi in der Gesamtbotschaft vertreten sind bzw. wie stark sie sich den anderen Modi anverwandeln. Durch intensive typographische und visuelle Gestaltung können schriftliche Texte beispielsweise in konkreter Poesie oder in Logos Bildqualitäten annehmen; ein dynamisch gezeigter Ablauf kann im Film durch Zeitlupe bis zum Standbild verlangsamt werden; ein schriftlich vorbereiteter Text kann mündlich vorgetragen werden  – und jeweils auch umgekehrt. Derartige Übergänge zwischen den Modi werden umso stärker genutzt und zu neuen semiotischen Formen ausgebaut, je intensiver Multimodalität zur schnellen Übermittlung komplexer Informationen eingesetzt wird, beispielsweise in Infografiken, Icons für Software und Smartphone-Apps sowie in Computerspielen. All das zeigt, dass Typologien umso schneller an Grenzen stoßen, je detaillierter sie ins Einzelne gehen. Erstens gibt es sowohl theoretisch als auch tatsächlich derart viele Arten multimodaler Texte, dass differenzierte Typologien schnell unübersicht

340 

 Ulrich Schmitz

lich werden. Zweitens wird der theoretisch denkbare Formen- und Gestaltungsreichtum so intensiv ausgenutzt, dass mit neuen Bedürfnissen, Techniken und Kommunikationsformen fortwährend neue Möglichkeiten entdeckt und multimodale Texttypen erzeugt werden. Exemplarisch seien nur die folgenden aufgezählt: (1) vorwiegend mündlich: Alltagsgespräche, Demo-Parolen, (aufgezeichnete) Reden, (aufgezeichnete) Interviews, Videokonferenzen, Theaterdialoge, Hörbücher; (2) vorwiegend schriftlich: Inschriften (auf Grabsteinen, an Gebäuden), Laufschriften, Displays, Scheckkarten, Rabattmarken, Konkrete Poesie, Kreuzworträtsel, andere Rätsel, Mathematikaufgaben (mit und ohne Lösung), Partituren/Noten, T-Shirt-Aufdrucke, Warenverpackungen, Warenbegleitmaterialien (Labels, Tags, Dokumente etc.), (ausgefüllte und unausgefüllte) Formulare, Tabellen, Netzpläne, Infografiken, Diagramme, Ansichtskarten (Rückseite), Freecards, Flyer, Chats, Twitter, soziale Netzwerke, Straßenschilder, Ladenschilder, Anzeigetafeln (z. B. vor Gerichtssälen, in Bahnhöfen etc.); (3) vorwiegend bildlich: Fotos, Bilder, Ansichtskarten (Vorderseite), Kirchenfenster, Plakate, Karikaturen, Comics, Wappen, Bierdeckel, Briefmarken, Aufkleber, Freecards, Piktogramme, Graffiti, Logos, Banner, Hyperlink-Markierungen, AppIcons, Smartphone-Apps, Wegweiser, Orientierungssysteme, Flucht- und Rettungspläne, Landkarten, Straßenkarten, Navigationssysteme, Baupläne; (4) vorwiegend audiovisuell: Videoclips, Trailer, Filme, Werbespots, PowerPointPräsentationen, Online-Animationen, Simulationssoftware, Computerspiele; (5) vorwiegend Audio: akustische Warnsignale, Klingeltöne, Musik, Lieder; (6) wechselnd multimodal: Opern, Hypermedia, Homepages Aus dem Rahmen fallen Strichcode und QR-Code. Sie verwenden weder Bilder noch Alphabetschrift, sondern einen je eigenen optoelektronisch lesbaren Kode. Damit sind sie sowohl monokodal als auch monomodal. Oft treten sie allerdings in multimodalen Kontexten auf, zum Beispiel zusammen mit Alphabetschrift und statischen Bildern auf Warenverpackungen oder Werbeplakaten.

7 Ein skalarer Ansatz zur Klassifikation multi­ modaler Texte Unterschiedliche Ansätze zur Bildung von Typologien eröffnen unterschiedliche Perspektiven auf ihren Gegenstand und laden zu unterschiedlichen Erkenntnissen ein. Alternativ zu den merkmalsbezogenen Klassifikationen der Kapitel 4 bis 6 lassen sich auch Skalen über unterschiedliche Grade an Prototypizität der fünf einzelnen Modi denken und miteinander verbinden. Mündlichkeit erscheint am prototypischsten (also häufigsten, ausgeprägtesten und charakteristischsten) in dialogischer Interaktion zwischen zwei Partnern, die 

Multimodale Texttypologie 

 341

in der gleichen Situation am selben Ort zur gleichen Zeit körperlich anwesend sind und ohne technische Hilfsmittel miteinander sprechen. Weniger prototypisch sind Telefonate (weil die körperliche Kopräsenz beider Partner fehlt und ein technisches Medium benutzt wird), noch weniger maschinelle Spracherkennung und -produktion etwa in Smartphones (weil auch noch ein menschlicher Partner fehlt). Nur ein einziges äußerliches Merkmal von Mündlichkeit schließlich wird realisiert, wenn längere, rein monologische schriftsprachliche Texte vorgelesen und in technischer Aufzeichnung massenhaft reproduziert werden, zum Beispiel in Form von Kants Kritik der praktischen Vernunft als siebenstündiges Hörbuch (www. kant-hoerbuch.de). Schriftlichkeit ihrerseits ist am klarsten vertreten in langen, kohärenten, monologischen und monomodalen Ganztexten, etwa in der gedruckten Fassung von Kants Kritik der praktischen Vernunft. Weniger prototypisch sind Briefe (weil sie kürzer und auf Antwort angelegt sind), noch weniger syntaxfreie Kurztexte in multimodaler Umgebung, zum Beispiel die vier weißen Majuskeln „STOP“ auf dem roten achteckigen Verkehrsschild, von dessen visueller Erscheinung deren Bedeutung abhängt. Die visuelle Gestalt dieses Verkehrsschildes wiederum steht exemplarisch für besonders wenig ausgeprägte statische Bildlichkeit. Stärker ausgeprägt ist sie beispielsweise auf ikonischen Verkehrszeichen (z. B. für Wildwechsel oder Schleudergefahr), noch stärker bei idealisierender Porträtmalerei und sehr stark auf unbearbeiteten Dokumentarfotos. Dementsprechend können unkommentierte Dokumentarvideos als Musterbeispiele dynamischer Bildlichkeit gelten. Am anderen Ende dieser Skala, auf der wie bei den anderen viele Zwischenstufen eingetragen werden können, stehen kaum bewegliche Langzeitsimulationen nächtlicher Firmamentbewegungen im Planetarium, einfache animierte Bannerwerbung im Internet und abstrakte Lichtinstallationen. Prototypisch für den Audio-Modus ist komponierte Musik (monomodal, also ohne Gesang), weniger prototypisch sind konventionalisierte Tonfolgen (z. B. Klingeltöne am Telefon), noch weniger beiläufige Geräusche. Nun lassen sich diese Skalen auf zweierlei Weise kombinieren: monomodal und multimodal. Erstens kann zwischen den beiden Prototypikalitäts-Endpunkten je zweier Skalen ein neues (monomodales) Kontinuum aufgemacht werden. Für das Feld zwischen konzeptioneller Mündlichkeit (links) und konzeptioneller Schriftlichkeit (rechts) haben Koch/Oesterreicher (1985, 1994, 2008) das vorgeschlagen: Ganz links steht dort die prozesshafte, vorläufige „Sprache der Nähe“ im vertrauten Gespräch zweier Partner, ganz rechts etwa ein schriftsprachlich elaborierter abgeschlossener Roman. In ähnlicher Weise hilft ein erdachtes Kontinuum zwischen prototypischer Schriftlichkeit (links) und prototypischer statischer Bildlichkeit (rechts), die Bedeutungsträger auf Sehflächen nach Art und Grad ihrer Gestaltung zu ordnen: Ganz links steht der erwähnte Roman, dessen typographisches Erscheinungsbild für Verfasser und Leser weitestgehend gleichgültig ist. Ganz rechts stehen völlig schriftfreie ikonische Bilder, zum Beispiel realistische Landschaftsmalerei. Dazwischen werden die 

342 

 Ulrich Schmitz

vielen Übergangsformen von Werbetypographie, konkreter Poesie und Kreuzworträtseln über schrift- bzw. bilddominante Logos und Vignetten bis zu Bilderrätseln und Witzen ohne Worte eingeordnet. Die Skala zwischen Schrift und dynamischem Bild nimmt Laufschrift auf Anzeigetafeln oder in TV-Nachrichtentickern auf, sodann animierte Schrift in Computerpräsentationen und Werbebannern, bewegte Leuchtreklame und typographisch gestaltete Schriftfilme. In die Skala zwischen statischem und dynamischem Bild werden Bewegungsfotografie, Zeitreihenfotos, Intervallaufnahmen bzw. Serienfotografie (z. B. für Bewegungsabläufe wie bei Muybridge 1901), trickanimierte Stills (wie z. B. in Trailern des Fernsehsenders Arte) und Zeitlupe eingereiht. Die denkbaren anderen monomodalen Misch-Skalen sind weniger ergiebig, weil die Übergangsfelder zwischen den betreffenden prototypischen Formen selten bespielt werden, nur speziellen Zwecken dienen (z. B. Gebärdensprache zwischen Mündlichkeit und bewegtem Bild) oder zu multimodalen Kommunikaten führen (z. B. statisches Bild und Audio). Für multimodale Kommunikate interessanter sind zweitens Kombinationen je zweier oder mehrerer der oben besprochenen fünf Skalen monomodaler Prototypikalität (ggf. auch der genannten Übergangs-Skalen). Kreuzt man beispielsweise die Skala für gesprochene Sprache mit der für Audio, so ergibt sich ein zweidimensionaler Raum, in dessen entsprechende Positionen auf der x- und y-Achse Sprechgesang und Lieder platziert werden. In den entsprechenden Raum über Schrift und Audio passen unterschiedlich aufwendig aufbereitete Typen von Hörbüchern, in den dreidimensionalen Raum über gesprochene Sprache, dynamische Bilder und Audio Filme und so fort. In den dreidimensionalen Raum über Schrift, statisches und bewegtes Bild gehören in eine Ecke Zifferblätter analoger Uhren (wenig prototypische, weil fragmentarische Schrift; wenig prototypisches, weil nicht ikonisches statisches Bild; wenig prototypisches, weil mit den Zeigern sehr langsames und eintöniges dynamisches Bild) und in die Nähe einer gegenüberliegenden Ecke zum Beispiel manche Webseiten zum Geocaching (jeweils prototypische Anteile an Schrift, statischem und dynamischem Bild). In solche mehrdimensionale Übergangsräume zwischen verschieden deutlich ausgeprägten Modi können sämtliche multimodalen Kommunikate einsortiert werden, mögen sie real bereits vorkommen oder noch nicht erprobt worden sein. Man ahnt, welch gewaltiger Aufwand nötig ist, um eine möglichst vollständige Sammlung und Klassifikation anzulegen. Dennoch mag dieses theoretische Modell für bestimmte konkrete Zwecke hilfreich sein, insbesondere dann, wenn es gilt, zahlreiche nah verwandte multimodale Sorten nach Art und Grad ihrer Ähnlichkeit und Differenz zu bestimmen.



Multimodale Texttypologie 

 343

8 Ikon, Index und Symbol Typologien haben grundsätzlich drei Nachteile. Erstens laden sie zu Scholastik ein: Gern möchte man die bunte Vielfalt der Empirie in die geordneten Schubladen mehr oder weniger intelligent ausgedachter Sortierungen pressen. Wer den Besonderheiten der einzelnen Fälle dennoch möglichst gerecht werden will, macht immer neue Unter-, Neben- und Sonderklassen auf. Schließlich wird die Typologie zum unergiebigen Selbstzweck: immer komplexer, unübersichtlicher, weniger praktikabel. Zweitens geht darüber leicht das eigentliche wissenschaftliche Interesse verloren. Ordnung allein räumt auf, trägt sonst aber nicht unbedingt zu Erkenntnis bei. Und drittens kann übertriebene Typologisierung auch den Blick für den einzelnen Fall vernebeln. Dabei sollten gerade bei kulturellen Leistungen idiographisches (einzelfallbezogenes) und nomothetisches (verallgemeinerndes) Interesse in einem ausgewogenen Verhältnis stehen und einander wechselseitig bereichern. Wenn man sich bei Klassifikationsbemühungen vor allzu pedantischem Positivismus schützen will, sollte man deshalb die jeweils begrenzte Leistungsfähigkeit unterschiedlicher typologischer Ansätze bedenken und den Anschluss an theoretische Fundamente suchen. Für multimodale Texte (wie für alle semiotischen Erzeugnisse) bietet sich Peirces Philosophie an. Peirce unterscheidet drei Zeichenklassen: Symbol, Index und Ikon (Peirce V, 73–76). Die Klassenzugehörigkeit hängt davon ab, wie ein Zeichen gemeint und verstanden wird. Wenn Zeichenträger und Referenzobjekt nicht durch reale Zusammengehörigkeit oder durch Ähnlichkeit, sondern durch konventionelle Regeln miteinander verbunden sind (wie meist bei sprachlichen Zeichen), handelt es sich um symbolische Zeichen (Peirce IV, 447). Bei indexikalischen Zeichen hingegen sind Zeichenträger und Referenzobjekt faktisch (z. B. ursächlich) miteinander verbunden (etwa bei Anzeichen für Wetterumschwünge) (Peirce II, 306 u. III, 361). Bei ikonischen Zeichen schließlich erkennen Zeichenverwender eine Ähnlichkeit zwischen Zeichenträger und Referenzobjekt (Peirce V, 73). Zeichen können auch zwei oder alle drei Arten vereinen (Peirce II, 292–302), so etwa onomatopoetische Wörter (symbolisch und ikonisch) oder Fotos (indexikalisch und ikonisch); insofern kulturelle Muster die Deutung prägen, sind auch symbolische Aspekte im Spiel. In gesprochener und geschriebener Sprache (erster und zweiter Modus) verwendet man vornehmlich symbolische Zeichen, denn die verwendeten Kodes beruhen auf Konvention. Die meisten (also prototypischen) statischen und bewegten Bilder (dritter und vierter Modus) sind auf den ersten Blick ikonischer Art. Denn man unterstellt eine Ähnlichkeit zwischen dem, was man sieht (z. B. kleine, zweidimensionale Abbilder skandierender Personen in einer Nachrichtensendung), und dem, was vermutlich gemeint ist (eine handfeste Demonstration). Aufgrund der physikalischen Entstehung (hier Spuren von Lichtstrahlen und Schallwellen) sowie konventioneller Regeln der Bedeutungszuweisung (hier Ausblendung der materiellen und proportionalen 

344 

 Ulrich Schmitz

Unterschiede, Deutung als tagesaktuelle Dokumentation etc.) können aber auch indexikalische und symbolische Momente beteiligt sein. Ikonische Zeichen treten in drei Unterklassen auf: als Bild (image), Diagramm oder Metapher (Peirce II, 277). Bilder repräsentieren Qualitäten des Objekts (z. B. eine Pantomime), Diagramme repräsentieren Relationen oder Proportionen des Objekts (z. B. eine Straßenkarte), Metaphern stellen eine Ähnlichkeit des Objekts zu einem anderen her (z. B. Biene als Zeichen für Fleiß). (Vorwiegend bild-ikonische Zeichen werden manchmal ,darstellende Bilder‘ genannt, Diagramme auch ,Strukturbilder‘; z. B. Sachs-Hombach/Schirra 2011, 98.) Nonverbale auditive Zeichen (fünfter Modus) sind ikonisch, wenn sie ihrer Bedeutung ähneln (z. B. Hörner für Jagd in Programmmusik). Sie sind indexikalisch, wenn sie ursächlich mit der gemeinten Bedeutung verbunden sind (z. B. Donnergrollen als Zeichen für bevorstehendes Unwetter). Und sie sind symbolisch, wenn Konventionen ihr Verständnis steuern (z. B. Moll-Tonarten für Trauer). Die für diese Klassifikation relevanten Merkmale (Konvention, Kontiguität und Ähnlichkeit von dreierlei Art) können helfen, multimodale Texte nach ihrer semiotischen Architektur einzuteilen. Wenn beispielsweise eine Infografik zur Bevölkerungsentwicklung mit dem Foto einer größeren Menschengruppe hinterlegt ist, kann man dieses Foto durchaus als Bild-Ikon wahrnehmen. In diesem multimodalen Kotext, nämlich in Verbindung etwa mit chronologisch angeordneten Säulen- und Liniendiagrammen, wirkt es vermutlich aber auch als Metapher für Bevölkerungsexplosion. Jene Diagramme selbst sind auch in der Peirceschen Terminologie Diagramme, nämlich ikonische Zeichen, die Größenverhältnisse vor Augen führen. Die zugehörigen Zahlen, Legenden und Begleittexte hingegen haben symbolischen Charakter. Auch die gesamte Infografik hat symbolischen Charakter, insofern sie nicht auf Anhieb (durch bloßen Augenschein) verstanden werden kann, sondern mehr oder weniger eingebürgerten Konventionen folgt, die erlernt werden müssen. (Zu Diagrammen auch als Typen multimodaler Texte vgl. Bauer/Ernst 2010.)

9 Schluss Was Adamzik (2008, 175) über monomodale Textsorten bemerkt, gilt für multimodale nicht minder: „Klassifikationen auf verschiedenen Abstraktionsebenen und unter verschiedenen Kriterien“ sind möglich und sinnvoll. Welche man auswählt, hängt vom jeweiligen Ziel und Untersuchungsmaterial ab. Typologien eignen sich „weniger als Sortier- denn als Beschreibungswerkzeug“. Eine statisch-produktorientierte Sicht muss „durch eine dynamisch-verwendungsorientierte Sicht ersetzt oder mindestens ergänzt werden“ (Adamzik 2008, 175). Im vorliegenden Handbuch-Artikel wurden zunächst geeignete Definitionen bestimmt und dann mehrere Kriterien zum Entwurf multimodaler Texttypologien



Multimodale Texttypologie 

 345

vorgeschlagen: (1) Kombinationen von Modi, (2) Kommunikationsformen, (3) Textund andere Sorten, (4) Übergangs- und Mischskalen zwischen Prototypen, (5) Orientierung an den Peirceschen Zeichenklassen. Da derzeit „Theorie und Analysemethodik für multimodale Kommunikate […] noch weitestgehend unterentwickelt“ sind (Schneider/Stöckl 2011, 7), mögen diese Vorschläge als Diskussionsrahmen und Anregungen für die weitere Arbeit dienen. Eine vollständige Typologie ist weder möglich noch sinnvoll. Sinnvoll sind von Fall zu Fall zweckorientiert konstruierte Typologien. Sie sollten jeweils so gebaut sein, dass sie einander nicht widerstreiten, sondern ergänzen können. Es braucht noch viel theoretische Reflexion und empirische Forschung, um die enorme multimodale Produktivität unserer Kulturen zu erfassen, kritisch zu begleiten und hier und da vielleicht konstruktiv anzuregen.

10 Literatur (Online-Quellen zuletzt eingesehen am 1.12.2014) Adamzik, Kirsten (2002): Zum Problem des Textbegriffs. Rückblick auf eine Diskussion. In: Ulla Fix u. a. (Hg.): Brauchen wir einen neuen Textbegriff? Frankfurt a. M. u. a., 163–182. Adamzik, Kirsten (2004): Textlinguistik. Eine einführende Darstellung. Tübingen. Adamzik, Kirsten (2008): Textsorten und ihre Beschreibung. In: Janich (Hg.), 145–175. Bateman, John A. (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal Documents. Basingstoke. Bauer, Matthias/Christoph Ernst (2010): Diagrammatik. Einführung in ein kultur- und medienwissenschaftliches Forschungsfeld. Bielefeld. Brinker, Klaus (2010): Linguistische Textanalyse. Eine Einführung in Grundbegriffe und Methoden. 7. Aufl. [11985]. Berlin. Brinker, Klaus u. a. (Hg.) (2000): Text- und Gesprächslinguistik, Bd. 1: Textlinguistik. Berlin/New York (Handbücher Sprach- und Kommunikationswissenschaft, HSK 16.1). Bucher, Hans-Jürgen/Thomas Gloning/Katrin Lehnen (Hg.) (2010): Neue Medien – neue Formate. Ausdifferenzierung und Konvergenz in der Medienkommunikation. Frankfurt a. M./New York. Bucher, Hans-Jürgen/Peter Schumacher (Hg.) (2012): Interaktionale Rezeptionsforschung. Theorie und Methode der Blickaufzeichnung in der Medienforschung. Wiesbaden. Busch, Wilhelm (1865): Max und Moritz. Eine Bubengeschichte in sieben Streichen. München. [Auch unter ]. Butor, Michel (1992): Die Stadt als Text. Graz/Wien. Deppermann, Arnulf (ed.) (2013): Conversation analytic studies of multimodal interaction. In: Journal of Pragmatics 46 (1), 1–172. Deppermann, Arnulf/Angelika Linke (Hg.) (2010): Sprache intermedial. Stimme und Schrift, Bild und Ton. Jahrbuch des Instituts für Deutsche Sprache 2009. Berlin/New York. Diekmannshenke, Hajo/Michael Klemm/Hartmut Stöckl (Hg.) (2011): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin. Fix, Ulla (2001): Zugänge zu Stil als semiotisch komplexer Einheit. Thesen, Erläuterungen und Beispiele. In: Eva-Maria Jakobs/Annely Rothkegel (Hg.): Perspektiven auf Stil. Tübingen, 113–124.



346 

 Ulrich Schmitz

Fix, Ulla (2008a): Nichtsprachliches als Textfaktor. Medialität, Materialität, Lokalität. In: Zeitschrift für germanistische Linguistik 36 (3), 343–354. Fix, Ulla (2008b): Text und Textlinguistik. In: Janich (Hg.), 15–34. Fricke, Ellen (2012): Grammatik multimodal. Wie Wörter und Gesten zusammenwirken. Berlin/Boston (Mass.). Hausenblas, Karel (1977): Zu einigen Grundfragen der Texttheorie. In: František Daneš/Dieter Viehweger (Hg.): Probleme der Textgrammatik II. [Studia grammatica XVIII.] Berlin, 147–152. Hausendorf, Heiko/Wolfgang Kesselheim (2008): Textlinguistik fürs Examen. Göttingen. Heinemann, Wolfgang (2000a): Textsorte – Textmuster – Texttyp. In: Brinker u. a. (Hg.), 507–523. Heinemann, Wolfgang (2000b): Aspekte der Textsortendifferenzierung. In: Brinker u. a. (Hg.), 523–546. Holly, Werner (2001): Einführung in die Pragmalinguistik. Fernstudienprojekt zur Fort- und Weiterbildung im Bereich Germanistik und Deutsch als Fremdsprache. Berlin. Janich, Nina (Hg.) (2008): Textlinguistik. 15 Einführungen. Tübingen. Jewitt, Carey (ed.) (2009): The Routledge Handbook of Multimodal Analysis. London/New York. Klemm, Michael (2002): Ausgangspunkte. Jedem seinen Textbegriff? Textdefinitionen im Vergleich. In: Ulla Fix u. a. (Hg.): Brauchen wir einen neuen Textbegriff? Antworten auf eine Preisfrage. Frankfurt a. M. u. a., 17–29. KMK (2005) [Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Hg.)]: Bildungsstandards im Fach Deutsch für den Primarbereich. Beschluss vom 15.10.2004. München. [Auch unter ]. Koch, Peter/Wulf Oesterreicher (1985): Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In: Romanistisches Jahrbuch 36, 15–43. Koch, Peter/Wulf Oesterreicher (1994): Schriftlichkeit und Sprache. In: Günther Hartmut/ Ludwig Otto (Hg.): Schrift und Schriftlichkeit. 1. Halbbd. (Handbücher Sprach- und Kommunikationswissenschaft, HSK 10.1). Berlin/New York, 587–604. Koch, Peter/Wulf Oesterreicher (2008): Mündlichkeit und Schriftlichkeit von Texten. In: Janich (Hg.), 199–215. Kress, Gunther (2010): Multimodality. A Social Semiotic Approach to Contemporary Communication. London/New York. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Liebert, Wolf-Andreas/Thomas Metten (2012): Multimodal text. In: Carol A. Chapelle (ed.): The Encyclopedia of Applied Linguistics 7. New York. (). Müller, Cornelia et al. (eds.) (2013): Body – Language – Communication. An International Handbook on Multimodality in Human Interaction, vol. 1 (Handbücher Sprach- und Kommunikationswissenschaft, HSK 38.1). Berlin/Boston (Mass.). Muybridge, Eadweard (1901): The Human Figure in Motion. An Electro-photographic Investigation of Consecutive Phases of Muscular Actions. London. Nöth, Wilfried (2000): Der Zusammenhang von Text und Bild. In: Brinker u. a. (Hg.), 489–496. Norris, Sigrid (2004): Analyzing Multimodal Interaction. A Methodological Framework. New York/ London. Norris, Sigrid (2012): Multimodal communication. Overview. In: Carol A. Chapelle (ed.): The Encyclopedia of Applied Linguistics 7. New York (http://onlinelibrary.wiley.com/ doi/10.1002/9781405198431.wbeal1345/abstract).



Multimodale Texttypologie 

 347

O’Halloran, Kay L. (ed.) (2004): Multimodal Discourse Analysis. Systemic Functional Perspectives. London/New York. O’Halloran, Kay L . (2008): Systemic functional-multimodal discourse analysis (SF-MDA). Constructing ideational meaning using language and visual imagery. In: Visual Communication 7 (4), 443–475. Peirce, Charles S. (1931–1958): Collected Papers. Vols. I-VI eds. Charles Hartshorne/Paul Weiss; vols. VII-VIII ed. Arthur W. Burks, Cambridge, MA. Raible, Wolfgang (1991): Die Semiotik der Textgestalt. Erscheinungsformen und Folgen eines kulturellen Evolutionsprozesses. Heidelberg. Roth, Kersten Sven/Jürgen Spitzmüller (Hg.) (2007): Textdesign und Textwirkung in der massenmedialen Kommunikation. Konstanz. Sachs-Hombach, Klaus/Jörg R.J. Schirra (2011): Prädikative und modale Bildtheorie. In: Diekmannshenke u. a. (Hg.), 97–119. Schneider, Jan Georg/Hartmut Stöckl (2011): Vorwort. In: Jan Georg Schneider/Hartmut Stöckl (Hg.): Medientheorien und Multimodalität. Ein TV-Werbespot – sieben methodische Beschreibungsansätze. Köln, 7–9. Schmitt, Reinhold (Hg.) (2007): Koordination. Analysen zur multimodalen Interaktion. Tübingen. Schmitz, Ulrich (2004): Sprache in modernen Medien. Einführung in Tatsachen und Theorien, Themen und Thesen. Berlin. Schmitz, Ulrich (2005): Blind für Bilder. Warum sogar Sprachwissenschaftler auch Bilder betrachten müssen. [Zuerst 2003.] In: Osnabrücker Beiträge zur Sprachtheorie (OBST), H. 69, 187–227. Schmitz, Ulrich (2012): Multimodality and globalization. In: Carol A. Chapelle (ed.): The Encyclopedia of Applied Linguistics, vol. 7. New York, 4034–4039 (http://onlinelibrary.wiley.com/ doi/10.1002/9781405198431.wbeal0825/abstract). Spitzmüller, Jürgen (2012): Typographie. In: Christa Dürscheid (Hg.): Einführung in die Schriftlinguistik. 4. Aufl. Göttingen, 207–238. Stöckl, Hartmut (2004a): Die Sprache im Bild – das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Konzepte, Theorien, Analysemethoden. Berlin/New York. Stöckl, Hartmut (2004b): Typographie. Gewand und Körper des Textes – Linguistische Überlegungen zu typographischer Gestaltung. In: Zeitschrift für Angewandte Linguistik (ZfAL) 41, 5–48. Stukenbrock, Anja (2014): Deixis in der Face-to-face-Interaktion. Berlin/Boston (Mass.). Tabaoda, Maite/Christopher Habel (2013): Rhetorical relations in multimodal documents. In: Discourse Studies 15 (1), 65–89. Vater, Heinz (1992): Einführung in die Textlinguistik. Struktur, Thema und Referenz in Texten. München. Vater, Heinz (2001): Einführung in die Textlinguistik. Struktur und Verstehen von Texten. 3. Aufl. München. Ventola, Eija/Cassily Charles/Martin Kaltenbacher (eds.) (2004): Perspectives on Multimodality. Amsterdam. Wetzchewald, Marcus (2012): Junktoren zwischen Text und Bild – dargestellt anhand der Unternehmenskommunikation im Internet. Duisburg.



Terry D. Royce

15. Intersemiotic Complementarity in Print Advertisements Abstract: This chapter investigates the co-occurrence of visual and verbal modes in multimodal print magazine advertisements, in this case a typical instance of the types found in The Economist magazine. The proposal advanced is that a social semiotic, metafunctional view of communication as developed by Halliday is an effective theory for informing attempts to account for the visual-verbal semantic interface in texts of this type. Halliday’s metafunctional view interprets communicational meaning in terms of three main metafunctions: ideational meanings, interpersonal meanings, and textual meanings. It is argued that visual-verbal intersemiotic relations can be described in terms of intersemiotic complementarity, and that this complementarity can be identified and explicated through the adaptation and application of the linguistic concepts and analytical techniques derived from Systemic Functional Linguistics (SFL). An analytical framework is presented and applied to the selected multimodal text. 1 Introduction: Promotional Discourse Genres and Multimodal Print Advertising 2 Multimodal Print Advertisements: The Economist 3 The Visual-Verbal Interface in Multimodal Print Magazine Advertisements 4 An Analytical Framework for Multimodal Print Magazine Advertisements 5 Intersemiotic Complementarity and Synergy on the Page 6 Discussion and Conclusions 7 References

1 Introduction: Promotional Discourse Genres and Multimodal Print Advertising Promotional discourse, especially in the decades before the technological explosion in media that has changed so much in the ways that we communicate and connect with each other, has generally been characterized by the ‘hard-sell’ type of advertisement, where the sole aim was to promote some idea, product or service to an identified market or customer. The growth of new technologies in mass communication has facilitated a shift to more varied forms of advertising, and the rise of what some have termed aspirational advertising (cf. Reeve 2007 on the promotional discourse of the BlackBerry), whereby certain types of desires are named and implied and which work to generate in the potential customer something to aspire to (something which can be

Intersemiotic Complementarity in Print Advertisements 

 349

clearly seen in the advertisement analysed in this paper: professional and personal achievement). The analysis of this more recent type of promotional discourse has been distinguished by the early work of Kathpalia (1992), and more in-depth analysis by Bhatia (1997; 2002; 2005). The primary focus in this work has been to extend the concept of rhetorical moves to the ways that they may operate in the production of various generic structures. In this approach a genre-based linguistic description can be identified through an association between communicative purpose and specific rhetorical processes such as narration, evaluation, description, explanation, instruction etc., each of which may potentially give rise to, or give shape to a range of promotional products such as book blurbs, book reviews, advertisements, sales letters, and job applications (Bhatia 2005; 217). Within these specific promotional products, advertisements of various types can potentially arise: TV commercials, radio advertisements, and print-based advertisements. This narrowing process of moving through layers of generic generalization and making distinctions between more specific realizations permits the identification of sub-types of print advertisements: straight-line advertisements, picture-caption reminder advertisements, image-building advertisements, testimonials, and pretend genre (cf. Kathpalia 1992). These various sub-types all seek to address the same communicative purposes, but they realise them via different strategies aimed at promoting a product or service (Bhatia 1997; 2002; 2005). The exceptional feature in this sampling of the kinds of analysis of generic patterns in promotional discourse is that like other extant approaches, it focuses almost exclusively on the linguistic realizations of meanings in the genre. The growth of new technologies in mass communication since the 1980’s and the kinds of texts that have arisen as a result have lead to an explosion in the use of different kinds of visual means to communicate messages. One of the most outstanding features of these new, modern forms of communication is that they consist of a multiplicity of signs. Not only are there written, and verbal or spoken signs, the subject of modern linguistic analysis (of which the work of Bhatia et al. are typical instances), but there are visual signs, as in human non-verbal behaviours (gestures), photography, architectural design, cinema, theatre, television, sculpture, painting, fashion design, the dance, advertising images, icons on computer screens, and a multiplicity of non-specific images, which guide, instruct, constrain or allow, protect or warn. There are even also the aural signs, as in classical or any other kind of music. These linguistic, visual and aural sign types can occur singly, or may occur in combination as in the aural, spoken and visual modes in stage plays, the aural and visual in ballet, or the aural, visual and written in musical birthday cards. This potential for a multiplicity and variety of co-occurring signs has in recent times raised consciousness of the visual sign as a conveyor of meaning in combination with other modes of meaning. This development has also led to increasing interest amongst multimodal communication researchers to explain how these co-occurring sign systems work together to produce coherent meanings.

350 

 Terry D. Royce

This has generated a great deal of theoretical interest in explaining the ways that images can realize their meanings in general (cf. Kress/van Leeuwen 1990; 1996; 2001; O’Toole 1994), and in the midst of this work a range of visual promotional texts have been analysed: for example, television commercials (Baldry 2000; Thibault 2000; Baldry/Thibault 2006; Forceville 2007; 2008), informational (AIDS) advertisements (O‘Halloran 2008), use of metaphor (Phillips/McQuarrie 2004; Forceville 2007; 2008), tourist brochures (Hiippala 2012a; 2012b; 2013), cross-cultural and cross-linguistic multimodal advertisements (Bowcher 2012; Lantolf/Bobrova 2012), and even magazine covers, in their role as advertisments for whole magazines (Held 2005).

2 Multimodal Print Advertisements: The Economist The multimodal advertisement analyzed in this chapter is a typical multimodal print magazine text for The Economist magazine, whether it be an economics or business article, or one of a range of advertisements placed at various points throughout a typical issue of the magazine. It is a text where the verbal (written) meanings co-occur with some kind of graphic or image. There are basically three categories of visual communication utilized in a typical issue of The Economist magazine (Royce 1999a/b, Royce/Bowcher 2007): – Naturalistic visuals  – portrayals of what may be considered ‘natural’ views, or images which viewers would consider a recognizable form of a representation of reality as viewed by the human eye, as in a photograph. – Mathematical visuals – visuals used to show structure, demonstrate numerical relationships, illustrate dynamic relations, clarify processes, and explicate procedures. A magazine example is a banking or investment advertisement for differing rates of return on term deposits. – Spatial visuals – various forms of map visuals. Meanings are displayed on a flat surface for locative purposes. A magazine example is an advertisement by a travel company with a tour route map. Hyperreal Photo

Colour Photo

B/W Photo

Sketch Drawing

Sketch Caricature

Line Sketch

Fig. 1: The Naturalistic Visual Continuum.

The naturalistic category of visuals, which is the category of most relevance for this type of advertisement in The Economist, can be interpreted as a continuum of representation from the ‘hyper-real’ or ‘more than real’ photograph (Kress/van Leeuwen 1996, 166) to a line drawing of a simplified or abstracted reality. This continuum of possibilities, summarized in Figure 1 above, can be divided into the sub-categories of

Intersemiotic Complementarity in Print Advertisements 

 351

photographs and sketches, with the colour photograph being the closest approximation to what the human eye would see.

3 The Visual-Verbal Interface in Multimodal Print Magazine Advertisements The proposal advanced in this chapter is that a social semiotic, metafunctional view of communication (derived from Systemic Functional Linguistics – hereafter SFL) is an effective theory for informing attempts to account for the visual-verbal interface in multimodal print magazine advertisements. According to the SFL view, language is viewed in a “social semiotic perspective”, where “social” refers firstly to the social system (synonymous with culture) and secondly to the fact that language is to be interpreted in terms of its relationship to social structure (Halliday 1978; 1985, 3 f.). To Halliday semiotics is not simply “the general study of signs”, but is “the study of sign systems […] the study of meaning in its most general sense” (Halliday/Hasan 1985, 3 f.). The discipline of linguistics can be seen as one “kind of semiotics” which studies the ways that language is a meaning-making system. However, Halliday makes the point that there are other ways of meaning, other than through language […] there are many other modes of meaning, in any culture, which are outside the realm of language (Halliday 1978; 1985, 4).

As stated above, these other modes of meaning may comprise many forms, and these can be interpreted as a set of semiotic systems, and as sets of interrelated systems of meaning (Halliday/Hasan 1985, 34). The assumption that semiotic systems interrelate seems to be an established one, and has been examined by various semioticians (cf. Schapiro 1973; Barthes 1977). It has more recently also been investigated from various angles by researchers working within the SFL view of communication (cf. Lemke 1998; Kress/van Leeuwen 2001; Lim Fei 2004; Macken-Horarik 2004; O’Halloran 2004; Unsworth 2004; Martinec/Salway 2005; Walsh 2006; Djonov 2007; Unsworth 2007). The issue that these researchers have examined is the assumption that different semiotic systems can and do work together semantically, and how this co-functioning of the visual vis a vis the verbal/ written mode can be understood. To address this issue with multimodal print magazine advertisements, this chapter presents a theoretically-motivated investigation of the proposition that both the verbal and visual modes, while utilizing the meaning-making features peculiar to their respective semiotic systems, do “work together” in various contexts to project a unified, coherent message to their viewers/readers. It is important to note that this complementarity in multimodal advertisements does not imply that the visual semiotic and verbal semiotic simply co-occur on the

352 

 Terry D. Royce

page space and have a simple conjunction relationship. Rather, the implication is that the relationship is synergistic in nature. The concept of synergism is generally defined as the ability of elements, in the act of combining, to produce a total effect that is greater than the sum of its individual elements. It is the aim of this chapter therefore to explain how this synergism is realized, and to explore the idea that intersemiotic complementarity occurs in ideational, interpersonal and textual (composition) terms. To do this, a multimodal text in the form of a full-page advertisement extracted from one instance of The Economist magazine shall be analyzed (hereafter referred to as the MBA text).

4 An Analytical Framework for Multimodal Print Magazine Advertisements A multimodal text is here defined as any text which utilizes verbal (written) and more than one other semiotic code to project its meanings, and will accord with Halliday/ Hasan’s view that it is “a semantic unit: not of form, but of meaning” (1976, 1 f.), and that it is functional, or that it “is doing some job in some context” (Halliday/Hasan 1985, 10). Cohesion is also viewed in terms of meaning, in that it refers to the “relations of meanings that exist within the text, and that define it as a text” (Halliday/ Hasan 1976, 4). Although Halliday/Hasan here are referring primarily to language in its spoken or written forms, they are aware of the fact that their view of text as contextualized meaning and function permits the consideration of other modes of meaning-making. Thus, a text “may be either spoken or written, or indeed any other medium of expression that we may like to think of” (Halliday/Hasan 1985, 10). A strength of the SFL theoretical model is that the concept of a text in terms of metafunctional meaning also permits an analysis of semiosis from three different metafunctional perspectives, the ideational, interpersonal and textual; with the assumption that an analytical focus on any one necessarily implies that the other two are and should be considered as operating simultaneously. Further, the view that communication involves “systems of meanings” and the act of communication involves making simultaneous selections from those systems in terms of what is going on (the field of discourse), who is taking part (the tenor of discourse), and the role assigned to language (the mode of discourse), suggests that it is a paradigm which can be usefully applied to other systems of meaning besides language. This has been clearly demonstrated by the early work of O’Toole (1994) and Kress/van Leeuwen (1990; 1996) in their applications to other visual modes. What this chapter will ask, however, is whether this theory can also accommodate the synergistic sense of intersemiotic complementarity between language and those other semiotic systems (Halliday/Hasan 1985, 26).

Intersemiotic Complementarity in Print Advertisements 

 353

The analytical framework developed also draws on aspects of Kress/van Leeuwen’s (1990; 1996) work on a grammar of images as well as O’Toole’s (1994) reinterpretations of the metafunctions of language in his examination of the language of displayed art. O’Toole interprets the metafunctions to be ‘representational’ for ideational, ‘interactional’ for interpersonal, and ‘compositional’ for textual, to provide interesting analyses of the ways that the visual modes of sculpture, architecture, and classical art project their meanings. His work is important too in terms of its application of the Hallidayan linguistic principle of ‘rank scale’ to the interpretation of displayed art – here art is viewed and interpreted in terms of a hierarchy of meaningful units, which for O’Toole is interpretation at the levels of the work as a whole, episode, figure, and member (1994, 14 f.). In this chapter the metafunctions will be interpreted in the following ways. The ideational metafunction is the function of language to represent the ‘goings on’ in the world. In analyzing visuals, the starting point is to identify the represented participants, or all the elements or entities that are actually present in the visual, whether animate or inanimate. The interpersonal metafunction is the function of language to represent the roles and statuses that participants hold in any form of interaction, and here the interactive participants are the foci – this includes the participants who are interacting with each other in the act of reading a visual: the graphic designer or drawer, the viewer, and the social relations between the viewer and the visual. The textual metafunction is that function of language through which a text can be recognized as having coherence, rather than as a series of unconnected word meanings, and the focal point here is viewing a multimodal text in terms of its coherent structural elements or composition. This relates to aspects of layout and design, which combine and integrate the interactive and represented participants in the way that the graphic designers or drawers wished to present at a particular point in time (Kress/van Leeuwen 1996, 183). The representation of the ways that intersemiotic complementarity can be explicated can be represented in Table 1 below, which shows a range of potential ways in which these intersemiotic metafunctions reflect relations between different semiotic systems in a multimodal text. The term composition has been bracketed under Halliday’s textual because it captures more fully the sense of two modes interacting with each other to project meaning coherently on the page. This is in agreement with Kress/van Leeuwen’s usage, but is at slight variance with O’Toole’s usage (1994, 278), where it is used in the traditional sense of composition within a piece, and the artistic interpretation of how the elements of a work of art cohere for a sense of visual unity or wholeness within the work.

354 

 Terry D. Royce

Table 1: Analytical Framework for Visual-Verbal Intersemiotic Complementarity META­ FUNCTION

Visual Meanings

←Intersemiotic ­Complementarity→

Verbal Meanings

IDEATIONAL

Variations occur according to the Coding Orientation. In the Naturalistic Coding we look at: – Identification of represented participants – Activity portrayed – Circumstances of means, accompaniment and setting – Attributes of represented participants

Various lexico-semantic ways of relating the experiential and logical content or subject matter represented or projected in both visual and verbal modes through the intersemiotic sense relations of: – Repetition – Synonymy – Antonymy – Meronymy – Hyponymy – Collocation

Lexical elements which relate to the visual meanings. These lexical items arise according to: – Identification (participants) – Activity (processes) – Circumstances – Attributes

INTER­ PERSONAL

Variations occur according to the Coding Orientation. In the Naturalistic Coding we look at: – Address to the viewer – Level of Involvement of viewer – Power relations between viewer and represented participants – Social Distance between viewer and represented participants – Modality – believability or acceptability of the portrayal

Various ways of intersemiotically relating the reader/viewer and the text through MOOD and Modality through the intersemiotic semantic relations of: – Reinforcement of address – Attitudinal Congruence – Attitudinal Dissonance

Elements of the clause as exchange which relate to visual meanings. These arise according to: – The MOOD element in the clause realising speech function – The MODALITY features of the clause – Attitude – use of attitudinal adjectives.

Various ways of mapping the modes to realise a coherent layout or composition by – Information Valuation on the page – Salience on the page – Degree of framing of elements on the page – Inter-visual synonymy – Reading paths

The body copy (verbal element) as an orthographic whole realised by various typographical conventions: – General Typesetting – Copyfitting – Other Typesetting Techniques

Variations in visual meanTEXTUAL ­(Composition) ings occur according to choices made in: – Information Value – intra-visual placement – Visual Salience – Framing of visual elements

Intersemiotic Complementarity in Print Advertisements 

 355

5 Intersemiotic Complementarity and Synergy on the Page The multimodal advertisement analyzed here (see Figure 2 below) is a metafunctional construct in that it is a complex of simultaneously interacting ideational, interpersonal and textual (composition) meanings. A reader (hereafter the reader is assumed to be the viewer) would interact with this complexity by comprehending the experiential and logical content represented and referred to in the visual and verbal sectors of the page, as well as any interrelationships between them. The reader would also be asked to respond to the ways he or she is being addressed in terms of any potential visual or verbal offers or statements, questions asked or commands issued, as well as a variety of projected attitudes and judgements. Further, the reader would need to appreciate visually and verbally the timeliness and topicality of the product being advertised, or its contextual relevance, as well as the coherence between one part of the page and every other part. The multimodal MBA text was placed in the September 11, 2011 issue of The Economist advertising an Executive MBA degree offered by two universities: UCLA and the National University of Singapore (NUS). It includes two instances of the visual mode (a naturalistic colour photograph and university insignia or logos) and the verbal mode (printed language of varying fonts).

356 

 Terry D. Royce

Fig. 2: The MBA Text (Source: The Economist Magazine, September 11, 2011, p. 51)

Intersemiotic Complementarity in Print Advertisements 

 357

5.1 Ideational Intersemiotic Complementarity The framework used for an (ideational) lexico-semantic intersemiotic complementarity analysis utilizes the concept of sense relations in lexical cohesion as outlined by Halliday (1994, 330–334) and Halliday/Hasan (1985, 80–82), and adapts the analytical tool of cohesive chains, which is commonly used to illustrate the ways that lexical items in text are semantically related (Halliday/Hasan 1985, 84). The term intersemiotic sense relations will be used, and the adaptations are explained with the help of created examples in figure 3 below: VISUAL MESSAGE ELEMENT [VME]

VERBAL

The figure of a scientist glossed as: scientist

The figure of Alan Greenspan glossed as: Alan Greenspan

(similarity relations)

A graph showing rates of temperature increases glossed as: increases

(opposition relations)

A visual showing the types of marsupials in desert areas, glossed as the superordinate Hyponym: marsupials A table listing the production sectors of the US economy experiencing greater profits glossed as the superordinate Meronym: US economy A visual showing the rate of growth of GDP figures for the US economy over a 10 year period glossed as: US growth

(class/sub-class relations)

(part/whole relations)

(expectancy relations)

A lexical reference to: scientists A lexical reference to: Chairman of the Fed. A lexical reference to temperature decreases: decreases. A lexical reference to: kangaroo (a type or sub-class of marsupial).

A lexical reference to one of the production sectors in the US economy: Car production. (referring to a specific part of the US economy) A lexical reference which can be recognized as appropriate to the general topic area of growth in the US economy: consumer confidence.

Fig. 3: Intersemiotic Sense Relations

As Table 1 indicates, in examining the ideational features of the MBA text, the first step is to determine who or what is in the visual frame (the represented participants, whether animate or inanimate), what action is taking place (in terms of who or what

358 

 Terry D. Royce

is the actor and who or what is the recipient or object of that action), and what those actions represent circumstantially according to the wider context of situation. An examination of the MBA text in terms of the identification of represented participants, or who or what is in the visual frame, reveals a naturalistic colour photograph of a youngish man, possibly in his mid-thirties, standing upright and facing potential viewers on a slight angle with his arms folded across his chest. In the top left-hand corner there are also two university insignia signifying UCLA and the National University of Singapore (NUS). The primary visual in this text is the man’s whole image. Going down the visual rank from the whole figure to the rank of member (body part or feature), we see that the most salient represented participant features are the clothes: a white business shirt opened at the collar, and a black sports or suit jacket, over a pair of jeans (partial view). The size of these elements in relation to the whole figure makes them the features with visual weight, which is “the dynamic power in an object by virtue of its conspicuousness, size, shape, location etc.” (Arnheim 1988, 229). Other less salient features are the partially obscured wrist watch, which appears to be a complex, multifunctional, high-tech time piece (possibly a Tag Heuer or Rolex), all of which suggest (financial) success, innovation, and power. Indeed, the Tag Heuer website advertises its range of products in terms of our unrivalled combination of innovation, heritage and legacy (Tag Heuer Website 2013). Associated with these elements are the cuff links, and the wedding ring on his left hand. In terms of the Activity, or what action is taking place, we can see that it is the action of posing in some kind of stance, and the message is focussed by the man’s smile with the top half of his clear and white teeth, a facial gesture which when enacted can potentially project a range of states of being, because people smile for all sorts of reasons, only one of which is to signal happiness. Many kinds of smiles come from our feelings – the fear smile, the dampened smile, the contempt smile, the miserable smile, nervous smile, etc. (Morgan 2012, cf. http://publicwords.com/how-to-decodeother-peoples-body-language/)

This one seems to be one of confidence and self-satisfaction. The represented participants outlined above all form part of the whole figure, which is organized into this pose. It is in Kress/van Leeuwen’s (1996) terms a conceptual representation encoding what they refer to as an analytical process, which involves the part/whole relation of the carrier (the whole) and its possessive attributes (the parts). These possessive attributes are denotative features which do not reveal much beyond their straightforward identification – they do, however, realize connotative meanings, somewhat akin to what Kress/van Leeuwen refer to in their categorization of the symbolic process within the set of processes they identify as conceptual representations (Kress/van Leeuwen 1996, 108). These processes are about what a participant means or is. In other words, they are connected to the symbolism or messages conveyed by the participant relations portrayed. Where there are two participants, the participant whose meaning is established in the relation is also the carrier, and

Intersemiotic Complementarity in Print Advertisements 

 359

the participant which represents the meaning or identity itself is the symbolic attribute. This is the symbolic attributive process, where objects in images are significant due to inter alia their conventional symbolic value, or are made prominent by being foregrounded or looking slightly incongruent in some way (Kress/van Leeuwen 1996, 108). The circumstances, or where, who with and by what means, are also interesting in terms of the lack of a background setting, and the fact that no other human or non-human participants are in the visual frame with which actional vectors might be formed. There is, therefore, no sense that the objects worn or carried by the main participant are used in any action beyond that of display. This lack of any circumstantial elements, therefore, serves to accentuate what is on display, and this is the symbolic attributes of the represented participants both singly and in combination. The symbolic attributes projected here are realized by the portrayal of a human carrier posing in an angled stance that conveys elements of power, control, and success. The main participant is not holding anything in the foreground (and therefore not displaying anything), but in the simple act of wearing what he is wearing, and folding his arms across his chest he is projecting a state of being, connoting power, control, and success. The carrier’s open-necked business shirt under his jacket suggests an air of (in)formality that is accentuated by the use of cufflinks; and the portrayal of an expensive watch connotes the sense of (financial) success. All of these elements connote that he is a businessman who belongs to a particular organization or commercial sphere, and one could even argue that what he is wearing could be construed as a uniform of some sort. At the rank of the whole figure therefore, the symbolic attributes of these represented participants combine into a visual gestalt (Arnheim 1969; 1974), which confers on the man the meaning of a successful executive manager. Given these interpretations, the symbolic attributes of the most prominent of the ideational representations can be identified and summarized in Table 2 below. Table 2: Visual Message Elements Represented Participant Visual Message Elements (Symbolic/connotative meanings) Whole figure Man in his mid-thirties Open-necked white ­business shirt Black sports jacket

A person involved in the upper echelons (management) of some company. A symbol of potential (man in the prime of his life, with a future). A symbol of relaxed control, leadership in a business or management context. A symbol of relaxed control, leadership in a business or management context. Cuff-links A symbol of leadership, success (expensive tastes?), balancing the sense of relaxed control. Luxury Watch A symbol of success, international travel, innovation, expensive tastes. Insignia (text & symbol) A symbol of the two universities (here it is UCLA & NUS).

360 

 Terry D. Royce

Starting with the visual message elements outlined in Table 2, and checking through the verbal aspect of the text for semantically-related lexical items produces a series of lexical inventories. This method is an adaptation of the use of lexical strings which express semantic relations between the lexical items – here they express the semantic relations between the visual message elements and the lexical items found in the verbal aspect of the text, and as such constitute what may be referred to as an inventory or list of intersemiotic semantic relations. The sentence-level breakdown of the verbal aspect of the text into sentences is presented in Table 3 and the results of this procedure can be seen in Table 4 below. Decisions about which lexical items to include or exclude in relation to each visual message element are based on the notion that the lexical items should be the closest semantically to each visual element, or be reasonably expected to co-occur or collocate in a text drawn from a particular context of situation. All uses of language have an immediate environment in which they operate, and this text is an instance of language that is being used in a particular area, or field of interaction. Table 3: Verbal Aspect of the MBA Text No

Sentence/Fragments

1 2

Executive MBA This busy Co-President travels extensively yet is able to achieve Two World-Class MBAs in 15 months. Frederick Eck. Class of 2011 Co-President The Randolph Group, Inc, Illinois, USA Global Learning Global participants Global locations Global faculty 6 sessions, 2 x Singapore, 2 x Los Angeles, 1 x Shanghai, 1 x Bangalore One-of-a-Kind Format 6 sessions, 2 weeks each, Every 3 months, Ideal for frequent travellers, Unaffected by relocation Two World-Class MBAs, Graduate with 2 MBAs from UCLA Anderson School of Management National University of Singapore Information Sessions AMERICAS Boston, Hawaii, Las Vegas, Los Angeles, Mexico City, New York, San Francisco, Seattle Toronto, Vancouver, (plus multiple dates) ASIA Bangalore, Bangkok, Beijing, Brunei, Ho Chi Minh City, Hong Kong, Jakarta, Kuala Lumpur, Manila, Mumbai, New Delhi, Seoul, Shanghai, Singapore, Taipei, Tokyo, (plus multiple dates) EUROPE / MIDDLE EAST / OCEANIA Amsterdam, Auckland, Dubai, London, Stockholm, Sydney, (plus multiple dates) Register now: ucla.nus.edu

3 4 5 6 7 8 9 10 11 12 13 14

15 16 17

Intersemiotic Complementarity in Print Advertisements 

 361

The analysis of this text in ideational terms reveals clear evidence of visual-verbal intersemiotic complementarity, as indicated by the large number of lexical items which relate to the topic-focus of the advertisement. This topic-focus is the possibility of obtaining an MBA from two major universities while still being involved in the usual successful business activities. As Table 4 shows, the central topic inventory to do with the universities offering this kind of study and the global locations shows there is a significant usage of lexical items which intersemiotically collocate (C) within that particular field, as well as instances of intersemiotic meronymy (M), where class, faculty and sessions (which refer to parts of what universities consist of or do) form meronyms of the superordinate universities, and Boston, Bangalore, Sydney etc. form meronyms under the superordinate America, Asia, and Oceania etc. Other significant visual symbolic attributes are intersemiotically related, too. The inventory representing the company manager is complemented verbally by the repetition of such terms as management, and this is collocationally supported in varying strengths by such lexical items as executive, and co-president. The complementarity between the man connoting potential, leadership and success and the verbal aspect of the text is also evidenced by the collocational achieve, busy, frequent travellers and world-class, and the repetition of travel. Table 4: Ideational Intersemiotic Complementarity SYMBOLIC ATTRIBUTES OF REPRESENTED PARTICIPANTS S’s

Company Manager (Man)

1 2

Executive(S) Co-President (S)

3 4 5 6 7

8

Co-President (S) Randolph Group, Inc(H)

Man in 30’s (potential & prime of life) achieve(C)

Control & Leadership leadership & success (business (cufflinks) shirt & jacket)

Success Insignia: (luxury watch) Universities & World Travel

busy(C) travels(R) World-Class(C)

MBA(C) MBAs(C)

Class(M)

USA(M) Global x4 (C) Learning(C) locations(C) faculty(M) Singapore etc. sessions(M) x4 (M) frequent travel- sessions(M) ers(C) relocation(C)

362 

 Terry D. Royce

Table 4: (continued) SYMBOLIC ATTRIBUTES OF REPRESENTED PARTICIPANTS S’s

Company Manager (Man)

9

Management (R)

10 11 12 13 14 15

16 17

Man in 30’s (potential & prime of life)

Control & Leadership leadership & success (business (cufflinks) shirt & jacket)

Success Insignia: (luxury watch) Universities & World Travel

World-class(C)

AMERICAS(M) Boston etc. x10 (M) ASIA(M) Bangalore etc. x16 (M) EUROPE(M) MID. EAST(M) OCEANIA(M) Amsterdam etc. x6 (M)

MBAs(C) Graduate(C) MBAs(C) UCLA(R) School(C) National University of Singapore(R) sessions(M)

Register(C) ucla.nus.edu (R)

5.2 Interpersonal Intersemiotic Complementarity An examination of the interpersonal features involves a consideration of the ways that relations between the visual and the viewer are set up. The ways in which the producer and viewer of a visual are placed socially in relation to each other are important because this can affect the visual topic, the ways that it can be read, and as a result the ways that it can be interpreted. An examination of these interpersonal features will require an analysis of intersemiotic aspects of address, levels of involvement, power relations and social distance, and an analysis of visual-verbal modality. Taking Halliday’s notion of speech functions and the speech acts they can realize, and Kress/van Leeuwen’s re-interpretation of these into ‘image acts’ in their visual grammar (1996), we can see that visual forms of communication can also

Intersemiotic Complementarity in Print Advertisements 

 363

realize similar forms of address, but through the meaning-making features which are peculiar to visual semiotic systems. In Halliday’s exposition of the speech functions, speakers can give information (make a statement), which can then be agreed with or contradicted, or they can give goods and services (make an offer), which can then be accepted or rejected. Also, speakers can demand information (ask a question), which can then be answered or disclaimed, or demand goods and services (give a command), which can then be obeyed or refused (Halliday 1994, 69). Kress/van Leeuwen propose, however, that in Western cultures, visuals generally perform only two image acts, and not the full range that is possible with the four primary speech functions. These they refer to as visual ‘offers’ and ‘demands’ (Kress/van Leeuwen 1996, 129). This is presumably an attempt to deal with the fact that the nature of the medium being employed, and the chronological and physical distance between the interlocutors (the drawer/graphic designer and the viewers) precludes the viewer from actually physically responding to an offer or demand for goods and services. Thus, when images offer, they most commonly offer information, and when they demand, they most often demand the particular goods and services, which would realize a particular social relation, or some kind of response from the viewer. The realization of a visual demand is determined by the presence or absence of a gaze, which indicates a form of direct or indirect address to the viewer (Kress/van Leeuwen 1996, 121–130). The producer is thus using the image to act on or do something to the viewer. The gaze always takes the form of a vector formed by the glance of one or more of the animate represented participants outwards to the viewer of the visual. This may often be supported by some kind of physical gesture. The animate represented participant(s), which could be human or animal (mostly human), will demand something via one or more pairs of eyes looking directly at the viewer; and what is demanded by the represented participant(s) in the image depends entirely on how the look is conveyed. There may be a smile (suggesting friendliness), a direct stare (suggesting contempt), or a raised eyebrow (suggesting a quizzical or questioning action). Each of these actions requires some kind of response from the viewer in terms of entering into some kind of social relation, which in this case is to accede to or deny the demand (Kress/van Leeuwen 1996, 122–123). The colour photograph of the executive in the MBA text can be interpreted as a visual demand via a statement which can be either accepted or not accepted. It depicts the young executive whose gaze, supported by slightly raised eyebrows, folded arms and a confident, self-satisfied smile, is directed right at the eyes of the viewer, and this is realized by the fact that a straight-line vector can be drawn from his eyes directly to the eyes of the viewer. It is a portrayal of a man who is directly addressing the viewer with some kind of statement. However, the image in and of itself does not fully reveal what that statement is – the viewer only knows that he or she is being directly addressed by being asked to accept or not accept something, and some kind of a response or an answer is required.

364 

 Terry D. Royce

This something is complemented by the rest of the page, with the verbally-provided statement to the left of the man’s head. If one assumes a reading path of image to verbal text, then a look at the verbal aspect after the image reveals a sentence which realizes the declarative MOOD. Thus, the image, which makes a visual statement, is immediately and directly complemented intersemiotically by the verbal statement. Here is an instance of intersemiotic reinforcement of address, where the reader is addressed in the same way by both modes – there is firstly a visual statement which projects to the viewer the various ideational meanings already considered, and then there is the repetition of this form of address via a sentence which is declarative in MOOD. This intersemiotic complementarity in terms of reinforcement of address obtains whether the reading path is image to verbal or vice versa. Once the main statement is delivered via both modes, the form of address continues with another series of statements, which moves from the personal to the collective. The reader is provided with a stream of information which firstly identifies (names) the executive in the visual frame, and then declares the features and locations of the UCLA and NUS MBA programs and services. Thus we have a kind of supplementary reinforcement of the main address, with the verbal text continuing on in addressing the reader and requiring some kind of response. Whether the reader accepts or rejects the address, this series of statements sets him or her up to receive the advertising message, which is that the MBA program is offered world-wide and can be scheduled into any executive’s busy schedule. This interpretation of the MBA text as being a multimodal or composite text consisting of visual and verbal statements is supported by the level of involvement required of the reader in responding to these statements. The photograph of the executive is a naturalistic visual, which, in terms of the horizontal angle, has a slightly angled, mostly frontal point of view (as opposed to an oblique one). The frontal plane of any viewer of this visual is parallel to the frontal plane of the most visually salient represented participant who is slightly angled. There is thus a strong degree of involvement with the man required on the part of the viewer, not by choice (although that may be the case), but by the requirement to be involved, which is coded (or loaded) into the visual by its constructor(s). It is a scene showing someone almost fully facing towards any potential viewers, and the frontal nature of the angle puts the viewers in the direct line of address. The viewer is thus strongly engaged and addressed in this photograph. This level of engagement of the reader is intersemiotically reinforced by the degree of social distance between the represented participants and the viewer(s), as realized by the size of frame, which permits how much of the human body is shown in the visual frame. There is thus the close up, the medium shot, and the long shot, each of which is associated with the varying distances between people when they talk to each other face to face, where it can be intimate or friendly (as in a spouse or friend or acquaintance), or unknown (as in a complete stranger) (Kress/van Leeuwen 1990, 44; 1996, 130).

Intersemiotic Complementarity in Print Advertisements 

 365

In the image, the degree of social distance between the represented (human) participant and the viewer can be characterized as one of a close social to personal distance, which is realized by a medium close shot, where his full figure is not shown, but is cut off at the upper thigh. This can be contrasted with the ‘up close and personal’ sense of the close-up shot, where the frame includes only the upper body (head and shoulders), and with the long shot, where full figures are shown along with a great deal of the physical context in which they are placed. The medium close shot here however has the effect of making the figure portrayed seem to be socially included with the viewers with a decided sense of personal involvement as well, and lends weight to previous interpretations, which suggest it is a portrayal which asks the viewer to socially engage with the represented participant. The power relations between the viewers and the represented participants in a visual are encoded in the vertical angle formed between them. There are three possibilities here: a high angle, a low angle and an eye-level angle. The high angle encodes the meaning that the viewers are looking down on the represented participants, suggestive of a superiority to them or of their insignificance, a low angle that the viewer is looking up to them, suggestive of an inferior position to them or of their superiority, and an eye-level angle is suggestive of equality between the viewer and the represented participants. The image of the executive forms an eye-level angle between the viewer and himself and therefore does not place him in either a superior or inferior position. These power relations of equality, combined with the frontal point of view encoded in the horizontal angle and the sense of inclusion produced by the encoded social distance, support the idea that the image is attempting to include or engage the viewer rather than dominate or elevate the viewer (although the sense of an upward head angle may lessen this equality). In the MBA text therefore, we have instances of intersemiotic complementarity in terms of both the verbal and visual modes addressing the viewer/reader in the same way – both make statements which can be accepted or rejected. Either of these responses is appropriate, because the reader is then exposed to further information. Therefore, in terms of address, involvement, social distance, and power relations, there is clear evidence of the intersemiotic relation reinforcement of address, which realizes interpersonal intersemiotic complementarity. From the kinds of attitudes presented by the visual mode, we see that when questions are asked or information is offered, it can be answered or disclaimed, affirmed, or denied by the viewer(s). In language the truth or credibility of what is represented by a speaker or writer is expressed through the use of modality at the clause level, and the polarity between the affirmation and denial of this offered information is expressed in terms of whether something exists, or whether it is real or unreal. In between these two extremes there are other possibilities which express degrees of certainty or uncertainty, where perhaps something could happen, or of usualness, where something might sometimes happen, but not always.

366 

 Terry D. Royce

In the visual semiotic code, visuals can also be interpreted in terms of the truth, credibility, and probability of what they represent to the viewer(s), and the information they offer can also be affirmed or denied according to whether something exists, or real or unreal, as well as whether other possibilities exist, which can express degrees of certainty or uncertainty, or of usualness. The interpretation of the degrees to which a visual is considered to be real or unreal, credible or incredible, possible or impossible depends in the first instance on its coding orientation (Kress/van Leeuwen 1996). The MBA photograph is a naturalistic visual, which are considered to be real/unreal or possible/impossible depending on the degree of accuracy of their representation of reality (cf. figure 1 for the continuum of naturalistic visuals used in The Economist magazine). The MBA photograph is an attempt to represent familiar objects, characters and actions (real or fictional), which are easily recognizable to the viewers, via the use of full colour for this naturalistic photographic form. As such the visual modality of the individual portrayed in the MBA text, in terms of it being real or credible, is high. There is less freedom for the viewer(s) to agree or disagree with the portrayal, or to contradict it. It is therefore presented as an acceptable interpretation of reality, and carries a higher modality in terms of its probability as an accurate representation of ‘truth’ than, say, a full colour courtroom sketch of the same man. However, although this type of naturalistic visual can be interpreted as an accurate or real portrayal, this is mediated by the fact that the subject is presented with no setting, which has the effect of drawing attention to the meanings that the makers wish to attach to what this man is doing, wearing and projecting. An examination of the verbal aspect of the text reveals that there is no indeterminacy with regard to the truth or believability of the information declared. When the writers of this verbal text present information, they realize a presentation of certainty with no modulation. We thus have a highly credible image complemented by direct, believable and unmodulated verbal text. Both image and verbal text project an attitude that the multimodal message presented is truthful, believable and sincere – it is an intersemiotic presentation of certainty. In terms of address therefore, we have intersemiotic complementarity that is realized by the attitudinal congruence generated by the certainty and credibility that has been projected.

5.3 Textual (Compositional) Intersemiotic Complementarity An examination of the textual features of a multimodal text involves an examination of those features of the layout or composition which allow the elements on the page to be viewed as coherent parts of the one composite text. These features are not placed on the page randomly, but are placed there for various purposes, the most important of which is to convey to the readers a sense of unity, of co-operation, and of coherence in terms of the ideational and interpersonal messages.

Intersemiotic Complementarity in Print Advertisements 

 367

There are a number of important visual-verbal compositional aspects in this text which show that both the modes work together to produce a coherent and unified multimodal message for the readers. These compositional aspects are basically concerned with where the visuals are placed spatially on the page in terms of horizontal/ vertical, left/right, or central placement, the relative size of the visual and verbal elements to each other, or visual salience, how the visuals and the type interact in the page space, and how the visuals interact with each other. A consideration of information valuation on the page shows that there are two important spatial propensities operating in terms of the vertical or top/bottom and the horizontal or left/right placement of the image and the verbal text on the page. Vertically the page has four sections – the top left-side has the verbal statement, the less-valued left-side bottom of the page is occupied by the verbal statement naming the executive and three descriptions about learning, format, and outcomes (of the two MBAs). The upper middle right side is occupied by the image and under this is the boxed information sessions detail. It is interesting to note that the most highly valued sector (Kress/van Leeuwen 1996, 193 f.), the top half of the page, is occupied by both the visually- and verbally-posed statements. Their relatively close placement together in this more prized sector of the page means that the multimodal statements are more highly valued for attracting reader attention. In terms of the horizontal or left/right placement of the image and the verbal text, they occupy the middle or central section, and form basically two halves of this section. The image is placed in a primary position in relation to the magazine’s spine, and its visual salience in terms of size means that a casual reader flipping through the magazine will more easily see the image of the executive first and may be attracted to it because of the directness of his gaze. This accords with the ‘attract’ function of images in advertising and in many of the articles in The Economist magazine, which is to grab the attention of the reader. On the other hand, the image and the verbal text are both placed towards the centre of the page, also a primary position in terms of visual weight and a divider or balancing centre between the two halves of the page centre. One of the functions of composition is to engage in a “striving for unity” (Arnheim 1988, 133), and this is evidenced by the equality in the division of the page into two halves. The complementarity relation salience on the page has to do with the relative sizes of the visuals (their visual salience) compared to the verbal aspect of the text and the space each takes up on the page. It is concerned with how important the elements are to the compositional makeup of the text. The size of the image of the executive in relation to the amount of space taken up by the verbal type shows that it is visually significant and has an important part to play in the transmission of the topic-focus of the text. This effect is accentuated by the fact that his image forms over three quarters of the top section of the page, and well over two-thirds of the right hand side of the page. Further, his image carries visual weight in terms of the colour saturation provided by his dark coat, making it more visually salient.

368 

 Terry D. Royce

In relation to the degrees of framing of elements on the page, the first and most obvious feature here is the fact that the page space can be divided up clearly into balanced sections. In many texts, visuals often compete with the verbal aspect for page space of the text to varying degrees. Here, however, there is no strong sense of competition but a clear demarcation and balancing in terms of spatial allocation. There are uniform proportional divisions (white spaces) between the verbal (type) space and the visual space of the photograph and the other elements. This text displays a typical and clear division in framing terms. Although there is no conventional but strict framing device like a drawn-in line border, there is an orderly, clear space around the visual to delineate it precisely from the other parts of the page. The image is not overly forcing the verbal type to conform to its shape, a technique referred to as a runaround and commonly used by graphic designers for effect. Here there is a clear even space between the visual and the type, so that the arrangement of the elements on the page in relation to each other creates a sense of unity and little if any sense of competition for page space. The overall effect on the reader is one of textual intersemiotic complementarity, in that the image forms an integral part of the page; the two modes in a sense occupy their page spaces in an orderly and non-disruptive way, and the reader retains a sense of visual unity so that the message can be easily projected. These intersemiotic textual features work in concert with the interpersonal and ideational intersemiotic semantic relations in the text to satisfy several conditions of intersemiotic complementarity.

6 Discussion and Conclusions In this chapter a framework for the analysis of multimodal print magazine advertisements has been presented, which helps understand how intersemiotic complementarity can be realized. It has been argued that a metafunctional interpretation of visual-verbal intersemiotic relations in multimodal advertisements will prove fruitful in clarifying the ways that these intersemiotic relations are realized. It has also been argued that both the verbal and visual modes project their meanings in concert, and that this interrelationship is one of intersemiotic complementarity. Through an analysis of the MBA text in terms of the three metafunctions, the ideational, the interpersonal, and the textual (composition), it has been demonstrated that in this text this complementarity is realized ideationally through the intersemiotic lexico-semantic sense relations of repetition, synonymy, hyponymy, meronymy, and collocation (no antonymy), interpersonally through meanings projected in both modes through the reinforcement of intersemiotic forms of address (Mood), and textually (compositionally) via the complex interplay of various compositional relations of information value, salience, and framing on the page.

Intersemiotic Complementarity in Print Advertisements 

 369

Although this advertisement does not seem overly complex, it also proves an amazingly rich source of complexity in multimodal meanings and intersemiotic complementarity. Apart from this there are other areas where these understandings could be applied and the levels of analytical delicacy could be developed further. One area that may be of interest is how the visual and verbal modes realize intersemiotic complementarity at the level of a multimodal text’s discourse structure, and even in terms of texts as realizations of a particular generic structure. Other areas of interest could be investigations of the ways that intersemiotic complementarity is realized when applied to other screen-based modes, which include the aspect of hypertextuality, where the reading path moves the viewer through several layers of information and thus through different screen-based pages (cf. Djonov 2007). Other modes such as the aural-visual on television could also be explored, especially in terms of the usefulness of this kind of analysis in first and second language pedagogy, as well as in many subject and discipline areas which utilize multimodal methods for projecting meaning.

7 References Arnheim, Rudolph (1969): Visual Thinking. Berkeley/Los Angeles. Arnheim, Rudolph (1974): Art and Visual Perception. Berkeley/Los Angeles. Arnheim, Rudolph (1988): The Power of the Centre. A Study of Composition in the Visual Arts. Berkeley/Los Angeles. Baldry, Anthony, (ed). (2000): Multimodality and multimediality in the distance learning age. In: Papers in English linguistics. Campobasso, Italy. Baldry, Anthony/Paul Thibault (2006): Multimodal Transcription and Text Analysis. A Multimedia Toolkit and Coursebook. London. Barthes, Roland (1977): Image, Music, Text. New York. Bhatia, Vijay K. (1997): Genre analysis today. In: Revue belge de philologie et d’histoire, Tome 75 fasc. 3, 629–652. Bhatia, Vijay (2002): Applied genre analysis. A multi-perspective model. In: Ibérica: Revista De La Asociación Europea De Lenguas Para Fines Específicos (AELFE) 4, 3–19. Bhatia, Vijay K. (2005): Generic patterns in promotional discourse. In: Persuasion Across Genres. A Linguistic Approach. Philadelphia, 213–225. Bowcher, Wendy (ed). (2012): Multimodal Texts From Around the World. Cultural and Linguistic Insights. London. Djonov, Emelia (2007): Website hierarchy and the interaction between content organization, web-page and navigation design. A systemic functional hypermedia discourse analysis perspective. In: Information Design Journal 15, 144–162. Forceville, Charles (2007): Multimodal metaphor in ten Dutch TV commercials. In: The Public Journal of Semiotics I 1, 15–34. Forceville, Charles (2008): Pictorial and multimodal metaphor in commercials. In: Edward F. McQuarrie/Barbara J. Phillips (eds): Go Figure! New Directions in Advertising Rhetoric. Armonk NY, 272–310. Halliday, Michael (1978): Language as Social Semiotic. London.

370 

 Terry D. Royce

Halliday, Michael (1985): An Introduction to Functional Grammar. London. Halliday, Michael (1994): An Introduction to Functional Grammar. 2nd edition. London. Halliday, Michael/Ruqaiya Hasan (1976): Cohesion in English. London. Halliday, Michael/Ruqaiya Hasan (1985): Language, Context and Text. Aspects of Language in a Social-Semiotic Perspective. Oxford. Held, Gudrun (2005): Magazine covers–a multimodal pretext-genre. In: Folia Linguistica 39 (1–2), 173–196. Hiippala, Tuomo (2012a): The localisation of advertising print media as a multimodal process. In: Bowcher, 97–122. Hiippala, Tuomo (2012b): Modelling multimodal genre in print media. A case study of tourist brochures. In: Proceedings of the 10th World Congress of the International Association for Semiotic Studies (IASS/AIS)’. Universidade da Coruna, A Coruna, 1501–1510. Hiippala, Tuomo (2013): The interface between rhetoric and layout in multimodal artefacts. In: Literary and Linguistic Computing 28 (3), 461–471. Kathpalia, Sujata Surinder. (1992): ‘A Genre Analysis of Promotional Texts’. (Unpublished Ph.D. dissertation. Singapore: National University of Singapore.) Kress, Gunther/Theo van Leeuwen (1990): Reading Images. Geelong, Victoria. Kress, Gunther/Theo van Leeuwen (1996): Reading Images. The Grammar of Visual Design. London. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Contemporary Communication. London. Lantolf, James/Larysa Bobrova (2012). Happiness is drinking beer, A cross-cultural analysis of multimodal metaphors in American and Ukrainian commercials. In: International Journal of Applied Linguistics 22 (1), 42–66. Lemke, Jay (1998): Multiplying meaning. Visual and verbal semiotics in scientific text. In: James Martin/Robert Veel (eds): Reading Science. Critical and Functional Perspectives on Discourses of Science. London, 87–113. Lim, Fei (2004): Developing an integrative multi-semiotic model. In: O’Halloran, 220–246. Macken-Horarik, Mary (2004): Interacting with the multimodal text. Reflections on image and verbiage in ArtExpress. In: Visual Communication 3, 5–26. Martinec, Radan/Andrew Salway (2005): A system for image-text relations in new (old) media. In: Visual Communication 4, 337–371. Morgan, Nick (2012): How to Decode Other People’s Body Language, (http://publicwords.com/ how-to-decode-other-peoples-body-language/, accessed February 5, 2013.) O’Halloran, Kay (ed.) (2004): Multimodal Discourse Analysis. Systemic Functional Perspectives. London/New York. O‘Halloran, Kay (2008): Systemic functional-multimodal discourse analysis (SF-MDA). Constructing ideational meaning using language and visual imagery. In: Visual Communication 7 (4), 443–475. O’Toole, Michael (1994): The Language of Displayed Art. London. Phillips, Barbara/Edward McQuarrie (2004): Beyond visual metaphor. A new typology of visual rhetoric in advertising. In: Marketing Theory 4 (1–2), 13–136. Reeve, Rebecca (2007): ‘Constant Connectivity in a Wireless Age. The Discursive Promotional Strategies of the BlackBerry’. (Unpublished MA thesis. Canada: Concordia University.) (http:// rebecca-reeve.com/constant-connectivity/, accessed November 1, 2014.) Royce, Terry (1999a): ‘Visual-Verbal Intersemiotic Complementarity in The Economist Magazine’. (Unpublished Ph.D. dissertation. United Kingdom: University of Reading.) Royce, Terry (1999b): Synergy on the page. Exploring intersemiotic complementarity in page-based multimodal text. In: JASFL (Japan Association of Systemic Functional Linguistics) Occasional Papers 1, 25–49.

Intersemiotic Complementarity in Print Advertisements 

 371

Royce, Terry/Wendy Bowcher (eds.) (2007): New Directions in the Analysis of Multimodal Discourse. New York. Schapiro, Meyer (1973): Words and Pictures. On the Literal and the Symbolic in the Interpretation of a Text. The Hague. Thibault, Paul J. (2000): The multimodal transcription of a television advertisement. Theory and practice. In: Anthony Baldry (ed.): Multimodality and Multimediality in the Distance Learning Age, Campobasso, Italy, 311–385. Unsworth, Len (2004): Comparing school science explanations in books and computer-based formats. The role of images, image/text relations and hyperlinks. In: International Journal of Instructional Media 31, 283–301. Unsworth, Len (2007): Multiliteracies and multimodal text analysis in classroom work with children’s literature. In: Royce/Bowcher, 331–360. Walsh, Maureen. (2006): The ‘textual shift’. Examining the reading process with print, visual and multimodal texts. In: The Australian Journal of Language and Literacy 29 (1), 24–37.

Helen Andersson/David Machin

16. A Multimodal Approach to Song Abstract: This chapter explores a social semiotic approach to the way we can analyze how meaning is created by both the lyrics in pop songs and also by the way that these lyrics are sung. Linguists have established certain principles as to how meaning is created in speech, not by word choice alone, but through how these are spoken in terms of pitch ranges, voice qualities, articulation and rhythms. Here we draw on some of this research along with research findings from enquiries into sound meaning from semiotics and psychology to analyze the meaning of three pop songs. In the tradition of social semiotics we identify the underlying choices for meaning making in song and demonstrate how different singers draw on these to communicate meaning, alongside, or even very differently to, the lyrics themselves. We analyze the choice of words, but also how these are realized though pitch, notation, articulation, sound qualities and rhythm. 1 Language and Sound as Communication 2 Meaning Resources in Sound 3 A Social Semiotic Approach 4 Results 5 Conclusion 6 References

1 Language and Sound as Communication In popular music meaning is communicated in part by song lyrics. But we cannot understand the way that these produce meaning by analysis of the words alone. Singers also communicate ideas, attitudes and moods through their voice qualities, their use of different pitch ranges, different kinds of articulation, the notes they choose and different rhythms. These vocal lines will then also be heard as part of a musical composition. The same melodic line will have different meaning if accompanied by a delicately strummed acoustic guitar, where open strings ring out, as compared to a distorted electric guitar where chords are tightly hammered out and then quietened. In this chapter, however, our focus is on voice alone as we take some steps to explore how we can use a social semiotic approach to look at the multimodal communicative resources available to singers to create meaning. Specifically we have chosen three songs about desire and longing for women performed by male singers.



A Multimodal Approach to Song  

 373

2 Meaning Resources in Sound Analyses of the meaning of sound and music are often made through vague adjectives (Barthes 1977; van Leeuwen 1999). A casual observer may describe a singer using adjectives such as ‘soulful’, as ‘melancholic’ or as ‘intense’. But what sound qualities and semiotic choices allow such meanings to be heard? These adjectives point more to the effect of the music rather than telling us what, exactly, it is in the music that communicates these meanings. There are only a handful of notable exceptions in popular music studies where attention has been given to the way that sounds themselves create meaning (Tagg 1982; Middleton 1984; Walser 1993). In music semiotics there has been more in depth work such as Tagg/Clarida (2003) and Scott (2003) and in music psychology there has been work identifying the way that certain kinds of pitches, sound qualities and articulations are associated with different kinds of emotions by listeners (Gabrielsson/Lindström 1995; Gabrielsson/Juslin 2003). Here we draw on ideas found in this work, but wish to explore the contribution that can be made by a social semiotic approach in allowing us to better document and inventory the qualities of pop songs that allow meanings like ‘soulful’ to be heard. There is a body of work which has looked at the kinds of topics covered by songs and also at how these have changed over time although much of this good work is relatively old. Horton (1957) found at the time that 83 % of all records were about love. Later Carey (1969) showed that these love songs tended to change over time. Earlier songs tended to emphasize fate where relationships are something that simply happens to people and where being alone is negatively evaluated. In more recent popsongs couples had more agency in bringing relationships about but where being alone can be evaluated more positively. There was also a shift away from romantic love to physical desire. Wilkinson (1976) also showed that in love songs women and men tend to have equal agency, although Carey (1969) had earlier suggested that women gradually shifted over time to become less passive. But this research did not consider how attitudes to love, relationships and their loss, will be also communicated through the way lyrics are sung. The lyrics of a song about the tragedy of a lost love, for instance, could be sung with sense of sadness or anger in the voice. Other researchers have pointed to the way that song lyrics tend not to be about specific clear events or circumstances but about people ‘wishing’, ‘regretting’ or ‘hoping’ (Murphy 1992; Cutler 2000), in short they are about feelings, moods and mental states. Earlier, Horton (1957) had made the observation that in pop songs we are also very rarely told who the participants are but rather they simply involve ‘I’ and ‘you’. Even songs that give the impression of being about protest and social commentary tend to be highly unspecific about actions, places and identities (Machin 2010). Walser (1993) writing on the lyrics in Heavy Metal music, pointed to the frequency of the topic of insanity, indicating feelings of alienation and lack of purpose. Given this emphasis on moods and states of mind in lyrics it would be highly useful to also account for how ways of singing affect the expression of emotions. In what follows we 

374 

 Helen Andersson/David Machin

offer a set of tools that allow us to break down and more carefully observe the choices that comprise such an ‘interpretation’. We explore how we can present an inventory of the different kinds of resources available for singers to express specific kinds of emotions and attitudes. We look in turn at pitch movement and pitch ranges, phrasing, voice qualities, notation and rhythm. We compare how these resources are drawn upon in the three sample songs, showing how this kind of description can allow us to be more specific as to what comprises a ‘soulful’ or ‘intense’ voice. The three songs we compare are It’s what I go to school for (Busted), Martha (Tom Waits) and Ain’t no sunshine when she’s gone (Bill Withers).

3 A Social Semiotic Approach According to Kress (2010), drawing on the principles of Hallidayan (1978) linguistics, all communicative modes can best be studied ‘social semiotically’. This is the difference between seeing language as based on a fixed grammar, or as a functional grammar. A grammar approach sees people as following rules. A functional approach rather means that there is an emphasis on language use in particular instances to accomplish specific aims, where the analyst identifies patterns of use and their meaning potentials. Here a mode of communication, like language, visuals or sound should be understood not through rules and structures but in terms of what it can accomplish. So we ask how people or institutions design communication to achieve specific aims. The study of sound from this perspective, therefore, seeks to identify and inventory the semiotic options that are available to communicators, and the choices they make. Importantly, these options should be seen not as fixed, but as having ‘meaning potential’ that is realized in context and in combination with other choices. To investigate the underlying meaning potentials available to musicians this analysis draws extensively on the work of the musicologist Cooke (1959), who believed that it was possible to describe and inventory the ‘rule-book’ of classical music. Using a vast range of examples he attempted to document the underlying principles of melody and rhythm upon which composers draw in order to communicate things like ‘sadness’, ‘outpouring of emotion’, ‘entrapment’, etc. Tagg’s work (Tagg 1982) is also important for this analysis. He has described the way that, through their repetition in our lives, we have come to make cultural associations between particular musical patterns and sounds on the one hand and emotions, attitudes, settings and events on the other. A composer can therefore rely on a certain combination of notes as being heard by listeners as ‘romantic’ or ‘scary’. Tagg (1984) discusses the emergence of sounds and music as communicative acts in hunter-gatherer societies in terms of the way they could be used to express the



A Multimodal Approach to Song  

 375

attitudes and ideas associated with certain activities such as initiation rites, marriage ceremonies, harvests and the hunt. Tagg suggests: Obviously, the pace required in conjunction with a hunt – intensity of heartbeat, speed of eye, of hands, arms, feet and breathing – will be far greater than that needed for singing a child to sleep […] In the case of the hunt, quick, sudden movements enacted with the precision of split seconds are vital ingredients of the activity, but they would be detrimental when trying to send a child to sleep (Tagg 1984, 8).

Just as Tagg seeks to identify which specific elements are present in kinds of musical experience  – quickness and suddenness versus gentleness and lingering  – so the same kind of question can be asked for the kinds of music we analyze in this paper. Drawing on van Leeuwen (1999) we can, initially, establish two kinds of origins for the meanings of music and sound qualities. These help to provide us with our first building blocks for identifying the affordances available for communication through sound:

3.1 Provenance Sounds and sound qualities can have meaning through cultural accumulation of associations. For example, to a Northern European listener panpipes suggest ‘nature’ or simple, ancient cultures especially those from Latin America. The sitar is used to represent Indian culture or perhaps esoteric thought or mysticism in general. Such associations may have no actual connection to time or place; for example, the bagpipes are associated with Scotland even though they were only recently introduced into the country in the 20th Century (Trevor-Roper 1983). The fact that we experience certain musical notes and note sequences as communicating specific emotions also lies in a cultural accumulation of associations. Tagg (1982) was interested in the ways that certain music came to be able to represent different kinds of landscape and character in the 19th century. These associations gradually became established for listeners due to repetition. The music used in movies for romantic moments, drawing on this cultural history of sound, simply sounds ‘romantic’ to us when we hear it. Provenance can also help us to think about the way certain genres of music can come to have meaning and built up associations. Elements of these genres of music can then be drawn upon for their specific connotations. A boy band may use sounds from punk music or blues to bring associations of grittiness or authenticity to their music. Of course, in the process of music marketing such associations across music genres can be something that is discussed extensively.



376 

 Helen Andersson/David Machin

3.2 Experiential Meaning Potential Sounds can also have meaning from associations of things in the real world. Arnheim (1969) argued that communication is steeped in “experiential associations” (Arnheim 1969, 117). He explains that “human beings are naturally aware of the structural resemblance uniting physical and non-physical objects” (Arnheim 1969, 118). So, we might clap our hands together to suggest a conflict of interest between two people. There is no actual clapping or physical collision going on in the interaction, but communication works by drawing on our experiential association of these to understand something of the way that people may not agree. In the same way, the sound associated with crashing objects could be thought to suggest discord as opposed to a gentle drifting sound that might mean something more temperate or agreeable. It also appears to be the case that much of the sound qualities in music along with our experience of musical rhythm itself may be linked to our use of language (Levitin 2006). Our ears and brains are finely tuned not just to listen for the meanings of words and grammar but also to the manner in which these are delivered – to voice quality and to the rhythms in speech. This paper also draws extensively on the observations on the meaning of sound quality by van Leeuwen (1999), who has attempted to inventory some speech qualities that comprise the available resources for speakers to create meanings not only through word choice but additionally through voice quality. His observations are combined here with the linguistic theory of Brazil/Coulthard/ Johns (1980), McConnell-Ginet (1988) and the musical theory of Schaffer (1977), and Tagg (1984; 1994) in order to look also at the sound qualities of musical instruments. One important point to make about the way we present the meaning potentials in this analysis is that while we present them each in turn, in isolation, they never in fact make meaning in this way. Their meaning potential is always realized in combination with other resources. We begin by looking at the way that pitch provides a resource for communicating emotion. But this will be used alongside resources such as voice qualities of loudness or softness, and different kinds of more abrupt or gentle articulation. However, for the purposes of documenting the different resources it is necessary to present them in this artificially fragmented fashion. Of course, we could go on to add further layers of resources by analyzing instrumentation and arrangements. But this is beyond the scope of a single chapter and not part of the aim here, which is to show how such analyses can be done. What is more, in this paper we will be dealing with the first lines of each song only as it would be infeasible to deal with the whole song in the space available. This is sufficient for us to demonstrate how this approach can be applied.



A Multimodal Approach to Song  

 377

4 Results 4.1 The Lyrics The three songs we compare in this paper are about slightly different kinds of desire. These allow us to consider how the singers deploy different kinds of semiotic resources, as regards pitch movement and pitch ranges, phrasing, voice qualities, notation and rhythm to communicate these kinds of desire. The first of the songs is It’s what I go to school for by the boyband Busted. Lyrically the song tells a cocky tale about a boy’s desire for a teacher. It tells of his lust for her and his complete confidence that he will eventually have her, which he does. The second song is Martha by Tom Waits. Lyrically the song talks about a man who calls the telephone operator in the hope of finding the number of a woman who he was in love long ago. It is not clear what he seeks other than to get her to remember the good times they had together. He assumes she will now be married with children. The third song is Ain’t No Sunshine by Bill Withers. Lyrically it appears to be a kind of inappropriate or destructive love song. We find this in the line: Hey, I oughtta leave young thing alone and the repetition of I know just before this sentence. Lyrically there is a sense that he is struggling with himself and his feelings – trying to convince himself. But as he says later on: only darkness every day (when she´s gone). What is of interest to us in the analysis that follows is how we can analyze the multimodal realization of these lyrics through sound.

4.2 The Meanings of Pitch Movement and Pitch Range When we speak, or when we sing, both the direction of pitch movement and the range of this movement can have important meaning potential. This is related to kinds of mood expressions and how expansive these are. Cooke (1959) suggests that in classical music ascending melodies are associated with outward expressions of emotions whilst descending melodies are associated with incoming emotion. What he means by this is the difference between giving out energy and the need to take on energy such as when we need consolation. This is due to the association of higher pitches with higher levels of energy and brightness and lower pitches with associations of low levels of energy. The movement from one to the other expresses a shift in either direction: a movement from a high pitch to a low pitch can communicate a sense of falling of energy; the opposite, a gradual slide from low to high pitch, can give a sense of a picking up of spirits. National anthems often use stepped increases in pitch to suggest the brightness and energy of the national spirit interspersed with some use of lower pitch to suggest the solemnity and importance of the nation. The lamentful songs of singer-songwriters often descend in melody to give a sense of regret and



378 

 Helen Andersson/David Machin

moodiness. Such meaning potentials, therefore, can be found across genres of music. We can summarise these in table 1 below. Table 1: Meaning potentials of direction of pitch movement Pitch direction

Meaning potential

Ascending melody

Building of mood/outward expression/increase in energy

No pitch movement

Emotional stasis/containment/reserved

Descending melody

Drooping of emotions/inward contemplation/decrease in energy

As well as increases and decreases in pitch there is important meaning potential in the range of the pitch change – a large pitch range can communicate a sense of letting more energy out. Brazil et al. (1980) note that pitch range in speech is akin to excitement, surprise or anger. In contrast, a small pitch range can mean holding more energy in, restrained emotions, holding back or even resoluteness. A newsreader will speak using a restricted pitch range to suggest a neutral stance; different stances would emerge if they were to use a large pitch range. The precise meanings of these pitch ranges will depend on how they are combined with other choices. For example, low pitch ranges could have different meaning if combined with different voice qualities such as loudness versus softness, where a neutral stance could shift to aggressive certainty. Soul singers will use a large pitch range to communicate an outward expression of emotions. The meaning potential of pitch range can be summarize as in table 2 below. Table 2: Meaning potential of pitch range Pitch range

Meaning potential

Effect

High

Emotionally expansive

Emotionally open/subjective

Low

Emotionally contained

Repressed/contained/objective

We can now apply these observations to the three songs. We present each of these in turn here in the form of a graph, which allows us to illustrate and describe how pitch moves and to what extent in each case. The numbers along the horizontal axis at the bottom represent the sequence of notes produced by the singer. The numbers on the vertical axis represent increases in pitch. The numbers placed on the lines reproduce these. We will be coming back to these later. At this point they allow us to show the number of notes the melody lines use.



A Multimodal Approach to Song  

 379

Graph 1: It’s what I go to school for (Busted)

Graph 1 for It’s what I go to school for shows that the opening lines of the song each start with several notes where there is no pitch movement. We can see this where the note ‘3’ is used four times. This is then followed in each line by descending pitch, with a short modulation at the end. And where the pitch does descend this is only over a range of two notes. Therefore, we can say that these melodic lines are highly contained in terms of emotional expression, compared to what we will find in the other examples. The use of the descending pitch here gives a sense inwardness and drop off in emotional energy, in contrast to say a national anthem, which would use an ascending melody. So in this case while the lyrics are cocky and speak about the desire for and successful seduction of a teacher by a school boy, the melody communicates no real anxiety, nor excitement about this. The static and then descending melody even suggests, despite the claim to her voice echoing in his mind and counting the days till she’s mine, something emotionally unengaged. There appears to be little passion. Of course, the stasis in pitch could communicate holding back or suppressed emotions, but as we show, other choices in semiotic resources point to this not being the case.



380 

 Helen Andersson/David Machin

Graph 2: Martha (Tom Waits)

In the case of Martha pitch direction is uneven although there are a number of phrases which descend, for the words ‘Op—er----at------or’ and ‘been so ma-----ny’. However, what the graph shows, compared especially to the example below in graph 3, is the rapid shifts in pitch direction. These appear in two ‘statements’ each of which has a narrow pitch range, but which is connected with the jump in pitch between notes 9 and 10 following the horizontal axis. The feeling here is one of emotional intensity with the quaver in the pitch movement, which is both controlled and also exhibits bursts of energy. We might interpret this as part of the way this song is setting up a narrative, which develops as it progresses and which is about the singer’s regrets and hopes.

Graph 3: Ain’t no sunshine (Bill Withers)



A Multimodal Approach to Song  

 381

Graph 3 shows that Ain’t no sunshine is again very different. We find single and even burst of outgoing emotional energy. It does not quaver as in the case of Martha, nor descend over a highly restricted range as in It’s what I go to school for. At the melodic level it does not suggest the emotional complexity of Martha, even if at the level of the lyrics there is something darker and inappropriate. But as we will show shortly, there are elements in this melody that do point to something darker.

4.3 Phrasing and Articulation in Melodies Another important aspect of the voicing of the lyrics and melodies that is related to pitch is the phrasing (see table 3). Singers can use longer phrases where they hold onto vowels, or they can sing using shorter bursts. In musicology this is often referred to as ‘envelope’. It describes the attack and decay of phrases. A jazz singer like Julie London would use longer, more gentle phrasing, whereas a national anthem would tend to use more lively bursts. Bell/van Leeuwen (1994) have noted that shorter phrases are associated linguistically with sincerity, certainty, weight and therefore with authority. Newsreaders speak in short even phrases for just this reason. In contrast, longer, lingering articulation suggests the opposite. We might therefore expect to hear folk singers using short bursts in their lyrics to communicate sincerity. The opposite case, where singers produce longer lingering statements, suggests rather slow burning internal emotion as in the case of many jazz or soul singers. McClary (1991), in a study of opera music, observed that the music for white male characters is often based on shorter dotted notes, for women we find longer, lingering notes. As with the above-mentioned authors we do not wish to specify what constitutes a long, or short, note. What is important is that we draw our attention to which end of the continuum the singer might be placed. Table 3: Meaning potentials of note articulation Articulation of notes

Meaning potential

Shorter dotted notes

Abrupt, lively, hurried, certain, objective

Longer lingering notes

Emotionally lingering, subjective

In the case of It’s what I go to school for we find some longer notes on the chorus. In the verse, shown in the graph above we find mainly shorter, more spoken articulation. There is a sense of hurry and certainty here. The singer has no doubt about the outcome of his desire for the teacher. As in the lyrics the articulation is cocky. Of course, we could say that these shorter bursts using restricted pitch range point to his objective belief in his desire, which is pent-up and presently controlled. Again, later observations will suggest that this is not the case. 

382 

 Helen Andersson/David Machin

For Martha we find broken articulation, jerky leaps to high pitches and also lingering notes. There is a sense here of sincerity and weight but also of emotional lingering. The jerky articulation also points to the singer’s emotional unevenness, perhaps as they try to conceal their own regret and loss. Along with the descending pitches this helps to evoke a complexity of emotional introspection. This appears to be a singer who, in middle age decides to try to look up a lost love from his youth, which, in his immaturity he allowed to drift away at the time. The unevenness, descending pitches and the combination of highly restricted pitch ranges and fast bursts point to the emotional complexity of this process. In the case of Ain’t no sunshine we find only long notes and lingering emotions. Here there is no hurry, no liveliness and no certainty. As with the lyrics the singer does not know when the object of his love will return nor where she is. It is easy to imagine the effect produced if this articulation were used for the lyrics of It’s what I go to school for: The same lyrics would immediately become sad, longing and emotionally expansive.

4.4 Sound Qualities In this section we move onto the meaning of the voice qualities of each of the singers. As listeners of music it is here that we tend to use adjectives to describe voices such as ‘beautiful’, ‘soulful’ or ‘jazzy’. In this section we are interested in the exact qualities of voices that communicate such meanings. For this purpose we draw on a number of studies of voice quality (van Leeuwen 1999; Caldwell 2013) and on enquiries into the voices of singers (Machin 2010). In the semiotics of popular music, too, a number of fascinating studies have looked into the meaning potentials of sound qualities (Tagg/ Clarida 2003, 2012; Scott 2003). As with the meanings created by pitch it is important to be clear that these resources make meaning in combination. While we make some comments on how these combinations can work we will deal with each of these in turn for the purposes of building up the inventory (see table 4).

4.4.1 Tension This simply describes whether singers sing with an open or closed throat. When we become tense in everyday situations, our throats tend to close up. When we are relaxed, our throat is open and sounds can resonate. Punk singers often use tight, tense vocalisation whereas a female jazz singer like Julie London will use open throat and lingering notes. In our three examples it is only in the case of Martha that we hear tension. It’s what we go to school for contains no tension; there is no real sense that he is stressed or tense about the relationship with the teacher. Ain’t no sunshine is also sung with an open throat. In this way, while we find an emotionally lingering and 

A Multimodal Approach to Song  

 383

expansive expression of pain, the open throat suggests a more melancholic yet not grieving, nor angry contemplation of his lost love.

4.4.2 Breathiness This communicates the degree of intimacy suggested by a voice. The meaning potential here relates to contexts where we hear people’s breath. This is usually in moments of confidentiality when they whisper in our ear and share their thoughts with us. This can also be in moments of sensuality. We hear people’s breath when they are experiencing emotional strain or euphoria. In addition we hear people’s breath when they are panting because of some physical or emotional exertion or strain. Of our three songs it is Ain’t no sunshine where breathiness is most important. We hear the texture of the singer’s voice very clearly with some breathiness. There is a sense here of the singer sharing his intimate feelings with the listener. This is also an emotional burst that suggests a sensual kind of love, which is why there is a lack of tension. This is important for the way the song works. In the case of It’s what I go to school for’ we hear no intimate breathiness. This is by no means an intimate sensual song. In the case of Martha we also hear some slight breathiness and texture in the singer’s voice. Here, too then, the singer offers a sense of their inner feelings to us.

4.4.3 Loud/Soft Louder sounds can mean weight and importance. Loud sounds can take up physical and social space. Loud sounds can be used to suggest power, status, threat or danger. They can also be overbearing and unsubtle. In contrast softness can suggest subtlety and measure but also gentleness or weakness. In rock music singers tend to shout taking up social space and communicate a sense of force, rather than being soft, tentative or confidential, which may be the case in some jazz or folk ballads. In Martha we find the lyrics almost spoken. There is no sense of loudness or taking up of social space here. As with breathiness this is more about intimate thoughts in line with the inward-looking, descending melodies. Aint no sunshine has a similar lack of loudness. The singer is not taking up social space here nor representing his power but indicating something more personal. Of the three songs it is It’s what I go to school for that has the greatest sense of loudness. There is a sense of these young men taking up social space as they shout out about their success seducing the teacher.



384 

 Helen Andersson/David Machin

4.4.4 Distortion/Degrees of Raspiness Sounds can be rough and gravelly or very smooth. Raspiness can mean contamination of the actual tone, signifying worn or dirty sound qualities. It can also produce a sense of aggression as in growling or it may suggest something machine-like as in a roaring engine. In rock music distorted guitars can suggest excitement as opposed to the well-oiled warm soft sounds of an acoustic guitar on a folk song. Distortion can also mean pure emotion and authenticity where there is no pretence at purity but an intention to reveal the world in all its gritty lack of order and in its wear and tear. In the electronic synthesizer music of the 1980s raspy synthesizers were used to connote mechanisation and dehumanisation. In the three examples it is the use of the raspiness in Tom Wait’s voice on Martha that is most notable. While the melodies descend over restricted pitches and also jump about, the raspiness points to worn-out or raw emotions or to a wider experience of the world. This helps to communicate the authenticity of the feelings in the song. In the case of It’s what I go to school for there is some slight raspiness. Given the context of the other semiotic choices in melody and articulation this suggests something of excitement and a hint of authenticity, although this disappears later in the song. Martha uses large amounts of raspiness in the husky voice of Waits suggesting emotional wear and raw feelings.

4.4.5 Nasality Van Leeuwen (1999) points to the meaning potential of nasality. This is often associated with complaining or with contempt. It can be contrasted with singing from the back of an open throat. This was mostly found in punk music. The contrast between these two forms of voice can be found in the versions of My Way by Frank Sinatra and by the Sex Pistols. The latter satirized the song through dirty guitar sounds and highly nasal vocals. It is only in the case of It’s what I go to school for that we find nasality. The faces of the singers are seen to be highly contemptuous in the video as they sneer, as they look at the teacher bending over and sing of her already having a boyfriend being no obstacle. This is also expressed at the level of nasality. The lyrics are about a woman whose voice ‘echoes in his mind’. But this is articulated though restricted, descending melodies, some shouting and a slightly cocky nasality and with no intimacy. Table 4: Summary of meaning potentials for sound qualities Sound quality

Meaning potential

Breathiness

Intimacy

Loud/soft

Taking up social space

Raspy/smooth

Grittiness/energy vs. naturalistic and sensual



A Multimodal Approach to Song  

 385

4.4.6 Rhythm One important meaning potential for the expression of lyrics in pop music is rhythm. We have already pointed to the importance of this in the examples from Tagg (1984) earlier in the chapter. He notes that music associated with a hunt, for example, will include quick and sudden musical movements, perhaps punctuated with periods of waiting. A lullaby, in contrast, would utilize a gentle and regular rhythm. One problem with analyzing rhythm is that it is hard to pin down. Cooper and Meyer (1960) in a classic musicological work on rhythm explained that is hard to identify and describe since it is often the product of the interaction of many sounds. Rhythm is not the same as ‘beat’ as is often assumed to be the case. A regularly rising and falling melody can on its own bring a sense of rhythm, for example. To help us to say something more systematic about rhythm in our analysis here (see table 5) we have drawn on Cooke’s (1959) analysis, and also on Tagg/Clarida (2003). These two authors allow us think about the kinds of physical movement that different types of music suggest. And we can also ask how this movement is structured in time. So, rhythms can be even (in pop music) or uneven (as may be the case in jazz). Uneven rhythms can communicate a sense of difficulty, or, if the unevenness is repeated, a sense of being prevented from moving forwards or remaining in one particular place. Unevenness can also suggest creativity as it metaphorically points to something changing, reacting and refusing to conform. Rhythms can be fast or slow, which may suggest energy or relaxation or sluggishness. Rhythms can suggest lightness or weight due to light or heavy bass drum beats respectively; they can suggest stasis through constant beat tones (such as a single bass drum pulse) or forwards motion through alternating tones (such as between a snare and bass drum), hesitation (as in Reggae) or progress. They can also suggest a side-to-side swaying motion (as in Swing) as opposed to a forward action like that found in some pop ballads or the more relentless and forceful forward motion in military marches. In swing music, therefore, we can say that there is emotion that is to be dwelt upon rather than a suggestion of momentum. Van Leeuwen (1999) has also drawn attention to the difference between binary rhythms, which suggest walking or running, and triple time that we find in waltzes, which suggests something more akin to skipping. Finally, music may or may not be organized on the basis of metronomic time. Scholars have pointed to the relatively short history of metronomic time in music, which is connected to the rise of the clock and the mechanization of society. Music without metronomic time can therefore suggest the sacred or ancient. Modern listeners will hear this when hearing a Gregorian chant, while they were in fact designed at the time as part of a systematic control and subjugation of popular forms of music and creativity (Chanan 1994).



386 

 Helen Andersson/David Machin

Table 5: Meaning potentials for rhythms Rhythmic quality

Meaning potential

Even/uneven

conformity vs. creativity; ease vs. difficulty

Fast/slow

hurry vs. leisurely; energy vs. lack of energy; rush vs. patience

Lightness/heaviness

mobility or clumsiness important vs. unimportant; strength weakness

Stasis/motion

restriction vs. freedom; marking ground vs. progress; hesitation vs. certainty

Metronomic time

modern and secular vs. sacred and ancient

We can use these meaning potentials to look at the kinds of movement and structuring of space in the three songs. In It’s what I go to school for the movement suggested is skippy and light, enhanced by a tambourine. It also produces a sense of forward motion. There is certainly no heaviness, restriction or hesitation. In contrast Martha is not strong on metronomic time. We also find a sense of slight unevenness due to the pace of articulation, although this in itself suggests a sense of forward motion, if not fluidity. Any bodily movement conveyed is a slight sense of side-to-side motion, especially in the chorus section where we hear the strings. Overall this helps to communicate a sense of musing and lack of momentum unlike It’s what I go to school for. In Ain’t no sunshine this is certainly not a light quick forward motion as in the case of It’s what I go to school for but we do find some gentle forward movement, which at the same time suggests a slight sway from side to side. But at no time is there a sense of weight here. The meaning communicated is that the emotionally expansive singer moves musingly onwards. He certainly does not have the light energy of It’s what I go to school for but neither does he have the same sense of trouble and unevenness as we find in Martha.

4.5 The Meaning of Musical Notes Tagg (1982) points to the importance of the actual musical notes that are chosen for any melody. He suggests that since we have been hearing these notes used in specific ways and combinations for a long period of time, in our culture they now have fairly established meanings. In terms of the model we are using in this paper we could say that certain kinds of combinations of notes can make meaning due to their provenance since they have become associated with certain kinds of ideas, places, person, etc. So a film composer, for example, will know what kinds of notes and note combinations to use to create a sense of ‘longing’, of ‘romance’, or ‘fun’. But a social semi-



A Multimodal Approach to Song  

 387

otic approach would also want to draw attention to the way that such meanings will always be shifting slightly as they are used in practical communicative situations for specific purposes. And we would want to make the point that the meanings of notes themselves should be seen as meaning potentials that will be realized in contexts as they are combined with other notes and are articulated in different ways, as we have been examining so far in this chapter. In his classic study, Cooke (1959) carried out intensive research into how composers used notes in classical music finding that each individual note in a scale has its own particular established meaning. Describing the meaning of notes in any given melody is, however, slightly problematic as we usually hear many notes articulated at the same time when singers are accompanied by backing instruments. What is more, each of these may be using groups of notes in the form of chords, all of which interact to create the overall affect. But nevertheless it can be highly useful to look at the kinds of notes that have been used in a melody. As Cooke observed, there do appear to be certain patterns. In this section we will quickly explain the meaning of musical notation following Cooke’s model (see table 6). On a piano there are sequences of 8 notes (octaves) that repeat up the keyboard. Note 8 is in fact the start of the next 8 notes and so on, so there are in fact only 7 different notes. These are called a ‘scale’. Each of these from 1 to 8 has its own meaning potential. It has a different kind of effect on the listener. Some of these notes are used more than others. In the lead melody of a song, certain notes are used more often since they create a solid connection to the musical accompaniment or make for easy-sounding music. These are notes 1 and 5. Note 1 is the main defining note of the scale, which anchors the melody to the scale firmly and roundly. Note 5 is similar in sound to note 1 and therefore is also good for anchoring the melody to the scale. Note 3 is important for other reasons, although it will also sound very stable and grounded. Notes 1, 3 and 5 have become the basis of western music. Note 3 is also a happy, joyful note. Or else it can be lowered by half a note to create a sadder feel to a melody. This is what is meant by a ‘minor’ scale. Many people are roughly aware that there are ‘major’, or happy melodies, and ‘minor’, or sad melodies. While this is broadly the case, many happy melodies can be found that use minor notes, such as God Rest You Merry Gentlemen. This is simply because all of these semiotic resources have meaning potential. A minor note placed in certain contexts can bring rather a sense of emotional depth. Notes like 1, 3 and 5 allow the music to feel ‘easy’ or ‘rounded’ as it is characteristic of much pop music. In contrast, jazz will use many notes that do not produce this solid connection in order to create tension. Note 2 is associated with transition, the sense that movement is about to happen, or with the promise of something to follow. A lengthened note 2 can suggest limbo or entrapment. Note 4 is used to give a sense of building or moving forwards. It can also be used to create sense of space or possibility. Note 6 has a similar value as note 3 and can be used to create a sense of brightness to 

388 

 Helen Andersson/David Machin

the melody. But it also gives a sense of flux, so it is typically used to indicate pleasurable longing or nostalgia. Note 7 is associated with longing and is often used in love songs. It can sound wistful and a little lamentful. This can also have minor versions, which sound more chilling and sad. The meaning potentials of these notes can be summarized in the following table: Table 6: Meaning potentials of notes Note

Meaning potential

1

Anchoring note

2

Something unfinished or about to happen

3

Happy or sad/chilling note

4

A sense of building, moving forwards

5

Anchoring note

6

Similar to 3 but can bring sense of nostalgia

7

Slightly painful, emotional yearning

To begin with in It’s what I go to school for we find a very simple grounded melody. The numbers of the notes chosen can be seen in Graph 1, which was used to help visualize pitch range. The main notes found on the melody line are numbers 1 and 3; it begins on a happy note 3. The extensive use of the note 2 evokes a sense of something about to happen, but here it is used in alternation with note one to create a very emotionally contained sense of what this outcome will be. Overall, notation does not point to a complex or painful emotional experience, but a simple and pleasant one that moves forward unproblematically. In Martha, while we find descending phrases, they often end in a rise that stops on a building fourth note. This produces a sense of hope and expectation to the melody. It suggests that things will move forward, even if here the restricted emotions of the individual phrases and the descending lines suggest something slightly bleaker. We also find the use of the painful 7th note. Also we find grounding notes in note 5 and note 8 (the first note) and note 2 which evokes a sense that something is not completed here. But we find only major notes, which here help to keep the song from too much bleakness. While there is some pain here these are basically fond memories. In Ain’t no sunshine we find mainly grounding notes. It begins with a deeper note 5 producing a sense that the melody starts from emotionally deep down. Other grounding notes are the 1st and 3rd. In this sense this song is not about emotional complexity. There is something simple about what is being expressed here. The melody then goes directly to the very painful minor 7th note and up to the minor 3rd. This is an emotional expression, a burst of sadness, which is straightforward.



A Multimodal Approach to Song  

 389

Overall, as with pitch, articulation and sound qualities we find that notation also contributes to the meaning of the lyrics. It’s what I go to school for is overall cocky, passionless and largely emotionally disengaged, with some slight sneering. It is also light and skippy. Notation suggests pure happiness and simplicity. Put crudely, it is a song about passion where musically there is none. Martha is both emotionally contained and jumpy in terms of pitch. There are extremes of containment and expression here, recounted intimately and rawly. In notation too, we find some complexity although without minor notes. And the use of note 4 suggests some forward movement. In terms of notation, as with other semiotic qualities, the song is emotionally engaging but never bleak. Ain’t no sunshine is expansive in terms of pitch. It is an open-throated emotional and slightly intimate expression of missing love. In notation it is not complex, but expresses pain.

5 Conclusion Overall, what we have begun to show in this analysis is that it is possible to take some steps to systematically describe and analyze the different semiotic resources that allow singers to realize specific meanings. These are semiotic choices that are used in the process of meaning making as the chosen words of the lyrics are articulated in meaning. In the sample analyses we have shown, for the most part, a correspondence between lyrical meaning and the harnessing of other semiotic resources. Perhaps, one notable finding was the emotional disengagement in the song It’s what I go to school for. However, what we have presented here must be viewed as a first step. For inspiration this approach draws extensively on the ground-breaking work by van Leeuwen (1999). But we also realized in our research that a multimodal approach would need to clearly show that it has engaged with already existing, extensive work on sound meaning accomplished for example in the psychology of sound. On the one hand this will present a wealth of information about the nature of sound and sound qualities. But it will also allow us to demonstrate the great contribution that an approach that draws on the idea of a functional grammar can make. Multimodality allows us to move on from more traditional semiotic approaches. It seeks to be predictive in its models. And, through its social semiotic approach it avoids many of the problems encountered by the tradition of semiotics that sought to identify grammar and syntax in sound and music (Monelle 1992). But to make a broader contribution to scholarship in sound beyond linguistics we would need to go even further than the extensive interdisciplinary enquiry we have made for our work on sound and music already published (Machin 2010; Machin/Richardson 2012).



390 

 Helen Andersson/David Machin

Multimodal research in sound would also need to commit at some point to the precise nature of the inventories of semiotic resources for sonic communication. In multimodality, as in Systemic Functional Linguistics in general, theorists favour the summarizing of resources in system networks. However, this can have the effect of glossing over the actual nature of these different kinds of resources. While it may be easier to present pitch direction and range as a system of choices, it seems much harder to do the same for voice qualities for example. Finally, multimodal research into sound and music will need to accommodate relevant research from cultural studies (Breen 1991; Harris 2000; Bennett/Peterson 2004). The fact is that when people listen to music they rarely sit and listen to the lyrics. They may hear just one or two words that catch their attention. And when we listen to pop music it may carry associations for us beyond the meaning conveyed by individual semiotic choices, even if these worked for us at one moment in time. People in their middle age listen to the music of their youth as it reminds them of different times in their lives. Teenagers enjoy music that allows them to explore group membership and subcultures. But while we must be mindful to matters of reception we should be clear that as with any form of communication there must be underlying patterns in sound and music for it to work as communication. Musicians can be skillful users of semiotic resources with a keen sense of how to use them in specific contexts. The process of studying the use of semiotic resources in sound involves analyzing how these have been used historically, how they are used now and how they may become future resources. While this study may be an attempt to look for a kind of code book of meaning making in music, it is a code book that is continually being revised and updated.

6 References Arnheim, Rudolf (1969): Visual Thinking. Berkeley, CA. Bell, Phillip/Theo van Leeuwen (1994): The Media Interview. Confession, Contest, Conversation. Kensington, New South Wales. Bennett, Andy/Richard A. Peterson (eds.) (2004): Music Scenes. Local, Trans-Local and the Virtual. Nashville, TN. Brazil, David/Malcolm Coulthard/Catherine Johns (1980): Discourse Intonation and Language Teaching. London. Breen, Marcus (1991): A stairway to heaven or highway to hell? Heavy metal music in the 1990s. In: Cultural Studies 5 (2), 191–203. Caldwell, David (2013): The interpersonal voice. Applying appraisal to the rap and sung voice. In: Social Semiotics, 24 (1), 40–55. Carey, James T. (1969): Changing courtship patterns in the popular song. In: American Journal of Sociology 74 (6), 720–731.



A Multimodal Approach to Song  

 391

Chanan, Michael (1994): Musica Practica. The Social Practice of Western Music from Gregorian Chant to Postmodernism. London. Cooke, Deryck (1959): Language of Music. Oxford. Cooper, Grosvenor/Leonard B. Meyer (1960): The Rhythmic Structure of Music. Chicago. Cutler, Cecelia (2000): Chanter en yaourt. Pop music and language choice in France. In: Popular Music and Society 24 (3), 117–134. Gabrielsson, Alf/Patrick Juslin (2003): Emotional expression in music. In: Richard. J. Davidson/Klaus R. Scherer/Hill H. Goldsmith (eds.): Handbook of Affective Sciences. Oxford, 503–534. Gabrielsson, Alf/Lindström, Erik (1995): Emotional expression in synthesizer and sentograph performance. In: Psychomusicology 14 (1–2), 94–116. Halliday, Michael A.K. (1978): Language as Social Semiotic. The Social Interpretation of Language and Meaning. London. Harris, Keith (2000): Roots? The relationship between the global and the local within the extreme metal scene. In: Popular Music 19 (1), 13–30. Horton, Donald (1957): The dialogue of courtship in popular songs. In: American Journal of Sociology 62 (6), 569–578. Kress, Gunther (2010): Multimodality. London. Leeuwen, Theo van (1999): Speech, Music, Sound. London. Levitin, Daniel J. (2006): Your Brain on Music. London. Machin, David (2010): Analysing Popular Music. Image, Sound, Text. London. Machin, David/John E. Richardson (2012): Discourses of unity and purpose in the sounds of fascist music. A multimodal approach. In: Critical Discourse Studies 9 (4), 329–345. McClary, Susan (1991): Feminine Endings – Music, Gender and Sexuality. Minneapolis, MN. Middleton, Richard (1984): Music and Markets. Cambridge. McConnell-Ginet, Sally (1988): Language and gender. In: Frederick Newmeyer (ed.): Linguistics. The Cambridge Survey. (Vol IV. Language: The Sociocultural Context). New York, 75–99. Monelle, Raymond (1992): Linguistics and Semiotics in Music. New Jersey. Murphey, Tim (1992): Music and Song. Resource Books for Teachers. Oxford. Schafer, Raymond Murray (1977): The Tuning of the World. Toronto. Scott, Derek B. (2003): From the Erotic to the Demonic. On Critical Musicology. Oxford. Tagg, Philip (1982): Nature as a musical mood category. In: Nordens Working Paper Series (Retrieved from http://www.tagg.org/articles/xpdfs/nature.pdf). Tagg, Philip (1984): Understanding musical time sense. In: Tvarspel – Festskrift for Jan Ling (50 ar). Goteborg: Skriften fran Musikvetenskapliga Institutionen (Retrieved from http://www.tagg.org/ articles/xpdfs/timesens.pdf). Tagg, Philip (1994): From refrain to rave – The decline of figure and the rise of ground. In: Popular Music 13 (2), 209–222. Tagg, Philip. (2012): Music’s Meanings. A Modern Musicology for Non-Musos. New York. Tagg, Philip/Bob Clarida (2003): Ten Little Title Tunes. Towards a Musicology of the Mass Media. New York. Trevor-Roper, Hue. (1983): The invention of tradition. The highlander tradition of Scotland. In: Eric Hobsbawm/Terance Ranger (eds.): The Invention of Tradition. Cambridge, 15–41. Walser, Robert (1993): Running with the Devil. Power, Gender and Madness in Heavy Metal Music. Hanover/London. Wilkinson, Melvin (1976): Romantic love, the great equalizer? Sexism in popular music. In: The Family Coordinator 25 (2), 161–166.



Werner Holly

17. Nachrichtenfilme als multimodale audiovisuelle Texte Abstract: Nachrichtenfilme können als prototypisches Genre sekundärer Audiovisualität gelten, die durch die Beteiligung von technischen Medien konstituiert wird. Die zentrale Fragestellung solcher Texte betrifft die Relationierung von zwei (und mehr) Zeichenarten, für deren Beschreibung hier ein transkriptionstheoretisches Format herangezogen wird. Eine Beispielanalyse zeigt, dass Nachrichtenfilme nur die letzten Fassungen wechselseitig transkriptiver Bild-Sprach-Beziehungen sind, die schon im angebotenen Agenturmaterial vorliegen, in ihrer dynamischen Performanz dann aber wie einem Reißverschluss gefügt wirken, nicht zuletzt wegen der Komplementarität der beteiligten Zeichenarten; sie ist semiotisch und funktional begründet und bietet Spielraum für hochinterpretative Kombinationen. 1 Audiovisualität in Nachrichten: Typologisches 2 Fragestellung: Zeichenarten in Relationen 3 Transkriptivität: Bezugnahmepraktiken 4 Beispielanalyse: die performative Dynamik des Sprach-Bild-Reißverschlusses 5 Fazit 6 Literatur

1 Audiovisualität in Nachrichten: Typologisches Mit dem Terminus Audiovisualität wird auf eine bestimmte Form der Multimodalität verwiesen, d. h. darauf, dass durch audiovisuelle Kommunikate beim Rezipienten gleichzeitig mehr als ein Mode, also mehr als ein Sinneskanal adressiert wird, und zwar der Hör- und der Sehsinn. Man kann den Terminus aber auch anders verwenden, z. B. als prinzipielle Eigenschaft von Sprache, die entweder auditiv rezipiert wird (als gesprochene Sprache) oder visuell (als Gebärden- oder Schriftsprache), wobei man – entgegen einer verbreiteten Gepflogenheit – sogar der visuellen Gebärdensprache einen ontogenetisch und phylogenetisch zeitlichen Vorrang zugeschrieben hat (Jäger 2001); im Kontext der Gestenforschung hat man andererseits postuliert, dass die Lautsprache selbst zwar primär auditiv sei, aber durch die normalerweise praktizierte Simultaneität mit der visuellen gestischen Ebene eigentlich multimodal (Fricke 2012, 44), also sowohl auditiv als auch visuell. Im letzteren Fall kann man auch von primärer Audiovisualität sprechen (Holly 2004a, 124), weil die Medialität dabei ohne technische Komponenten auskommt.



Nachrichtenfilme als multimodale audiovisuelle Texte 

 393

Im Folgenden wird dagegen von sekundärer Audiovisualität zu reden sein, weil hier mit Nachrichten nicht die Neuigkeitenvermittlung unter kopräsenten Interaktionsteilnehmern (1:1) gemeint ist, sondern ein durch technische Medien ermöglichtes und geprägtes Genre in entsprechenden mehr oder weniger institutionalisierten, mehr oder weniger öffentlich zugänglichen, aktuell ausstrahlenden Kommunikationsformen (1:n), die von klassischen Printmedien (Flugschriften, Presse) über modernere auditive (Radio) und audiovisuelle (Kinowochenschau, Fernsehen) reichen und noch darüber hinaus, bis hin zu den internetbasierten Plattformen, die unterschiedlichen klassischen und moderneren interaktiven und digitalisierten Kommunikaten (n:n) Auftrittsmöglichkeiten verschaffen, heute nicht selten auf der Grundlage von Videos. Dass bei der Herstellung und Übermittlung entsprechender Nachrichtengenres auch andere Kommunikationsformen involviert waren und sind (Briefe, Telegrafie, Telefonie, Telefax u. v. a.), versteht sich ohnehin. Mediengeschichtlich kann man den unbestreitbaren Erfolg der sekundären Audiovisualität darin sehen, dass sie es – anders als die historischen Vorläufer-Kommunikationsformen  – erlaubt, die semiotische Fülle und Körpernähe der primären Audiovisualität über zeitliche und räumliche Grenzen hinweg zu tragen und damit Defizite ihrer Vorläufer – die in anderer Perspektive allerdings Stärken sein können – wieder auszugleichen und mit weiteren bewegten Bildern sogar darüber hinaus zu gehen; dies hat Züge einer inneren Logik der Medienentwicklung, die sich nicht nur an den jeweiligen technischen Möglichkeiten, sondern auch an fundamentalen an­thropologischen Dispositiven zu orientieren scheint (Holly 1996; 1997). Audiovisuelle Nachrichtensendungen in elektronischen Medien, wie wir sie vor allem aus dem Fernsehen kennen, sind ziemlich komplex strukturierte Formate, die in Varianten existieren (Burger 1990, 153; Wittwen 1995, 42 ff.). Sie sind aus verschiedenen Perspektiven mit verschiedensten Fragestellungen untersucht worden (Ludes/ Schütte/Staab 2002, 2308 ff.; Meyer/Ontrup/Schicha 2000, 163 ff.; s. auch Kamps/ Meckel 1998; Schaap 2009; zusammenfassend Holly 2004b, 54 ff.). Ihrer MagazinGrundstruktur entsprechend können sie unterschiedliche Elemente enthalten wie Sprechermeldung, Nachrichtenfilm, (Korrespondenten)bericht, Reporterbericht, liveReportage, Kommentar, Interview, Statement, weitere visuelle Elemente (Typografie, Fotografie, Grafik, Trickfilm); hier soll es nur um Nachrichtenfilme gehen und zwar überwiegend unter dem Aspekt der spezifischen Ausprägung von Audiovisualität, die sie hervorbringen. Andere institutionelle, soziale und politische Aspekte von Nachrichtensendungen können nur am Rande in den Blick genommen werden. Im Zentrum der weiteren Darstellung liegt demnach die Frage nach der Typisierung von verschiedenen Zeichenarten (Kodes, die hier von den Modes, d. h. Sinneskanälen, auch teminologisch unterschieden werden) und vor allem nach ihrer Relation; zunächst geht es um einige gängige Ansätze bei deren Konzeptualisierung (Kapitel 2), danach um das hier vorgestellte Konzept einer Transkriptivitätsanalyse auf der Grundlage verschiedener Arbeiten von Ludwig Jäger (z. B. 2002; 2004) (Kapitel 3). Im Weiteren wird darauf aufbauend die performative Dynamik des Zusammenspiels 

394 

 Werner Holly

von gesprochener Sprache und bewegten Bildern in die Metapher eines „Sprach-BildReißverschlusses“ gefasst und an einem Beispiel im Detail entwickelt (Kapitel 4).

2 Fragestellung: Zeichenarten in Relationen Audiovisuelle Kommunikationsformen (zu diesem Begriff Holly 2011a) ermöglichen mit dem bimodalen einen multikodalen Operationsraum: Alles, was visuell und auditiv als Zeichen verstanden werden kann, gehört hier zum multimedialen Potenzial; das sind – anders als häufig in den Blick genommen – nicht nur gesprochene Sprache (einschließlich der Körpersprache) und bewegte Bilder, sondern auch Geräusche, Töne, Musik, Schrift, statische Bilder (Grafik, Fotografie u. a.) (Kress/van Leeuwen 2001; Holly 2004b, 38 ff.; 2005, 279; Luginbühl 2011, 257). Allerdings hat man sich in der Beschreibung meist auf die Kombination von Sprechsprache (als ‚Text‘) und Filmbildern (als ‚Bild‘) beschränkt und dann – analog zur Kombination von Schrift und statischen Bildern in Printmedien – als ‚Text-Bild-Relationen‘ erfasst. Häufig (z. B. Rauh 1987, Nöth 2000) findet sich (in Varianten) eine Einteilung in vier Kategorien, z. B.: Redundanz, Dominanz, Komplementarität und Diskrepanz. Mit Recht wurde kritisiert, dass „mit diesen Einteilungen kaum etwas darüber gesagt werden kann, welchen Einfluss die einzelnen Text-Bild-Relationen auf die Bedeutungskonstitution haben“ (Luginbühl 2011, 258). Weitaus differenzierter sind die Ansätze von Burger (2005, 400–424), der formale, semantische und pragmatisch-funktionale Aspekte heranzieht, oder van Leeuwen (2005, 219–235), der unter Rückgriff auf Barthes (1964/1990) und Hallidaysche Begriffe elaboration und extension unterscheidet, mit weiteren Unterkategorien. Auch Bildfunktionskataloge, wie sie seit Huth (1985) vorliegen, in Varianten bei Brosius (1998) oder Meyer/Ontrup/ Schicha (2000), differenzieren genauer, wenn auch nur in eine Richtung, indem sie fragen, wie das Bild den Text begleitet, nicht umgekehrt. Alle solchen Kategorienraster liefern nützliche und vielleicht unverzichtbare Anhaltspunkte, bleiben aber letztlich immer zu schematisch; in der Macherperspektive stützen sie z. T. auch noch den Grundgedanken der schon früh kritisierten ‚Text-Bild-Schere‘ (Wember 1976; dazu z. B. Muckenhaupt 1980; Berry 1988), dass es eigentlich um die Vermittlung bestimmter Informationen und deshalb primär um Verständlichkeit gehe, die eine gewisse Parallelität oder Komplementarität von Text und Bild erfordere, ungeachtet der weitaus subtileren und individuell sehr unterschiedlichen Rezeptionsweisen auch von Fernsehnachrichten, wie entsprechende Untersuchungen gezeigt haben (z. B. Holly/Püschel/Bergmann 2001; Klemm 2000). Um die Dynamik der Bedeutungsgenerierung besser zu erfassen, kann man sich zunächst noch einmal auf strukturelle semiotische Differenzen und Gemeinsamkeiten der in Frage stehenden Zeichenarten besinnen, aus denen sich dann auch Folgerungen für die jeweiligen spezifischen Potenziale und Defizite ableiten lassen, ebenso



Nachrichtenfilme als multimodale audiovisuelle Texte 

 395

wie ein besseres Verständnis für die Herausbildung typischer Muster und Sequenzen, die damit einhergehen. Differenzen werden aus untenstehendem Schema ersichtlich (Abb. 1), das sich an Sachs-Hombach (2003, 96) anlehnt:

Zeichenarten

‹wahrnehmungsnah›

‹arbiträr›

‹körpernah›, ‹temporär›

Gestik, Mimik

Lautsprache

‹körperunabhängig›, ‹fixiert›

Bild, Film

Schriftsprache, abstrakte Symbole

Abb. 1: Zeichenarten (nach Sachs-Hombach 2003, 96)

Die beiden für den vorliegenden Kontext wesentlichen Zeichenarten, Lautsprache und Filmbilder, sind nach den oben verwendeten Kriterien jeweils komplementär, indem sie einerseits arbiträre bzw. wahrnehmungsnahe, andererseits körpernahe bzw. körperunabhängige Merkmale aufweisen, so dass ihre Kombination alle Merkmale enthält. In einer anderen Hinsicht sind die beiden Zeichenarten aber ähnlich, denn zwar sind auch Filmbilder in gewisser Weise fixiert, aber sie erscheinen (wie Lautsprache, aber anders als statische Bilder) linear in einem Bewegungs- und Zeitablauf und sind damit in einer narrativen Dynamik mit der Lautsprache koppelbar oder mit dieser ineinander verschränkbar, was noch genauer zu zeigen ist. In den Bildern können natürlich auch wieder andere körpernahe und wahrnehmungsnahe Zeichen erscheinen, wenn etwa Gestik und Mimik auftauchen, besonders wirkungsvoll als komplette primäre Audiovisualität, die im Falle von ‚Sprechern im On‘ in die sekundäre Audiovisualität des Tonfilmes gewissermaßen eingebettet wird. Dennoch unterscheidet sich diese eingebettete primäre Audiovisualität von einer unvermittelten immer dadurch, dass sie an die Reichweite und Perspektive von Mikrofonen und Kameras gebunden bleibt, während ein face-to-face-Rezipient nicht nur selbst seine Rezipientenposition verändern kann, sondern auch als potenzieller Interaktant über die Rezipientenrolle nolens volens hinaus gelangt. Zugleich ist zu berücksichtigen, dass die weitreichende Kontrolle des TonfilmKommunikats in einer nachträglichen Montage auch die Einbeziehung von Tönen und Geräuschen, von Musik, von Schrift und Grafiken erlaubt, vor allem das Zeigen nahezu beliebiger Bilder, und schon deshalb sehr viel mehr ist als der Transport eines audiovisuell Kommunizierenden über die Raum-Zeit-Grenze hinweg, der in Bildtelefonen oder Videokonferenzen möglich ist. Man muss also mit hochkomplexen multimodalen und multikodalen Bedeutungspotenzialen rechnen, die nicht einfach durch die additive Betrachtung einzelner Komponenten zu erfassen sind, weil sie in der zeitlich dynamischen Verwobenheit aller Komponenten einen reichhaltigen Bedeutungsüberschuss hervorbringen.



396 

 Werner Holly

Die Frage, wie man sich der Beschreibung dieser Vielfalt nähern kann, soll im nächsten Abschnitt zunächst allgemein angegangen werden, auf der Grundlage der Theorie der Bedeutungsgenese durch Bezugnahme von Zeichen auf Zeichen, die Ludwig Jäger unter dem Begriff Transkriptivität vorgelegt hat.

3 Transkriptivität: Bezugnahmepraktiken Jägers Theorie der Transkriptivität (Jäger 2002; 2004; 2010) geht davon aus, dass die Genese von Bedeutungen nicht in erster Linie durch den Bezug von Zeichen auf Gegenstände in der realen Welt (Referenz) vonstatten geht, sondern eher durch Bezugnahme von Zeichen auf Zeichen (Inferenz). Wir erwerben und praktizieren den Umgang mit Zeichen also vor allem, indem wir bestimmte Zeichenverwendungen aufgreifen und dabei natürlich auch modifizieren, etwa in Form von Imitaten, Wiederholungen, Zitaten, Kommentaren, Erwähnungen, Paraphrasen, Erläuterungen, Explikationen, Reformulierungen, Übersetzungen usw. Dies geschieht nun nicht nur im gleichen Zeichensystem (intramedial), sondern auch zwischen Zeichensystemen (intermedial), z. B. wenn man Sprache mit Bildern veranschaulicht oder illustriert, Bilder mit Sprache betextet oder untertitelt oder beschreibt, wenn man Bilder mit Musik untermalt, Sprache singt bzw. vertont, mit Musik begleitet, wenn man Musik mit Sprache betextet oder erklärt u. v. m. Beiderlei Bezugnahmen nennt Jäger in skripturaler Metaphorik Transkriptionen und führt aus, dass am Transkriptionsprozess jeweils Paare von Skripturen beteiligt sind, wobei Präskripte bzw. Skripte durch Transkripte transkribiert werden. Durch die Selektion eines Präskripts wird dieses nachträglich zum Skript, wobei zwischen Skript und Transkript kein simples Abbildungsverhältnis besteht. Dabei geht es häufig darum, nicht (ausreichend) lesbare Präskripte lesbar (oder gerade unlesbar) zu machen. Man kann nun die Beziehungen zwischen sprachlichen und bildlichen Zeichen, wie sie für die Audiovisualität von Nachrichtenfilmen konstitutiv sind, als Fälle solcher intermedialer Transkriptivität auffassen (s. auch Holly 2008; 2009; 2010; 2011b); sie erzeugt einen ständig oszillierenden Prozess wechselseitiger Verweise, die sich im Detail genauer rekonstruieren lassen. Man kommt der spezifischen Dynamik und Komplexität der audiovisuellen Bezüge am ehesten näher, wenn man sich auf die jeweiligen semantischen Spezifika der beiden Zeichenarten besinnt und das audiovisuelle Potenzial gerade in der Verzahnung beider Semantiken sieht, die – wie wir oben gesehen haben – bestimmte Defizite wechselseitig zu kompensieren in der Lage sind und sich dabei gleichzeitig parallel führen lassen. Dies soll nun an einem Beispiel veranschaulicht und präzisiert werden.



Nachrichtenfilme als multimodale audiovisuelle Texte 

 397

4 Beispielanalyse: die performative Dynamik des Sprach-Bild-Reißverschlusses Der kurze Nachrichtenfilm, den ich hier behandle, stammt aus dem Zweiten Deutschen Fernsehen (ZDF) und datiert aus dem Jahre 2005. Er geht zurück auf Material der in London residierenden Agentur APTN (Associated Press Television News) (Stirnberg 1998; Paterson 2011), das von Sendern in verschiedenen Ländern weiterverarbeitet wurde (zu einem Vergleich der Versionen s. Holly 2014); dabei werden Teile aus den angebotenen Bildern und dazugehörigen Informationen ausgewählt und es wird eine mehr oder weniger eigenständige Bild-Sprach-Kombination neu arrangiert; hier soll es nur um die ZDF-Fassung gehen. Das Thema ist eine antiamerikanische Protestaktion in der afghanischen Provinzstadt Gasni, nachdem Berichte von Koranschändungen durch US-Soldaten im Gefangenenlager Guantanamo bekannt geworden waren. Interessant ist, dass das Bildmaterial von Anfang an sprachlich transkribiert wird, indem man es zusammen mit einem organisatorischen ,Kopf‘, einer Shotlist und einer Storyline anbietet, die bereits entscheidende Bilddeutungen enthalten. Denn natürlich ,sagen‘ Bilder nichts, sondern zeigen nur, was man eben zeigen kann; vor allem ist es schwer, nur bildlich Referenzen auf Zeiten, Orte und Personen zu vermitteln, die für jede Art von narrativen Strukturen, besonders aber für ‚Berichte‘ ausschlaggebend sind. Sie alle sind also im Wesentlichen in den begleitenden Sprachtexten zu finden, die zugleich aber weit mehr als nur Referenzen liefern, sondern unweigerlich auch immer schon prädizierender Natur sind. Deshalb sollen diese Texte hier zunächst wiedergegeben und geprüft werden: KOPF Story Number: Slug: Title: Name: Date: Tape Number: In Time: Duration: Sources: Dateline: Language:

450278 Afghanistan Demo More protests over Quran allegations AFG DEMO 140505N 2005–05–14 EF05/0432 10:29:15:07 00:01:40:02 APTN Ghazi [sic!] – 13May2005 Natsound

SHOTLIST **QUALITY AS INCOMING** 1. Wide shot protesters being approached by police, audio of gun fire 2. Protesters throwing stones at police, police retreating and firing back 3. Protesters running, chanting “Death to America” 4. Mid shot policemen firing 5. Various of police firing



398 

 Werner Holly

STORYLINE The United States has called for calm in Afghanistan while it investigates allegations that US interrogators desecrated Islam’s holy book, triggering deadly protests across the country. Shooting broke out in the southeastern city of Ghazni after Friday prayers, as protesters swarmed toward a police station and the governor’s residence, chanting “Death to America” and pelting the buildings with rocks. Hospital authorities said two civilians and a police officer were killed and 21 people were wounded, including the provincial police chief. The protests began after Newsweek magazine reported in its May 9 edition that interrogators at the US Navy base at Guantanamo Bay, Cuba, placed Qurans in washrooms to unsettle suspects and in one incident allegedly flushed a holy book down the toilet. Many of the 520 inmates at Guantanamo are Muslims arrested during the US-led war against the Taliban and its al-Qaida allies in Afghanistan. The Newsweek allegations triggered deadly protests across Afghanistan, which claimed the lives of at least 15 people so far. The violence – the biggest outpouring of anti-American sentiment since the US-led military campaign drove the Taliban regime from power at the end of 2001 – is threatening a security crisis for the government of President Hamid Karzai. Afghan officials suggested opponents of the country’s painstaking democratic rebirth were stirring up the trouble, while the US government appealed for calm and stressed that the desecration charge was being investigated by the Pentagon. Saudi Arabia has joined fellow US ally Pakistan in registering dismay over the allegations, as has the 57-nation Organisation of the Islamic Conference and Egypt’s Muslim Brotherhood, a banned militant religious movement.

Die genauere Betrachtung zeigt, dass die sprachlichen ,Paratexte‘ nicht nur zusätzliches Wissen, sondern auch Interpretationen einbringen, obwohl der Stil insgesamt knapp und sachlich zu sein scheint. In der Shotlist ist von protesters und police als Kontrahenten die Rede, das Prädikat firing back präsupponiert Schüsse von der anderen Seite, auch wenn die Bildbeschreibung davor nur Steinwürfe erwähnt. Bildund tonreflexive Termini wie wide shot und mid shot bzw. audio of gun fire tragen schon sprachlich zu einer gewissen Dramatisierung bei, die ein nachrichtenwertiges Ereignis mitkonstruiert und damit natürlich auch verkaufsfördernd wirkt. Noch mehr an kommentierender Transkription enthält dann die Storyline, die eigentlich schon einen fertigen Zeitungsbericht formuliert und die (in Auszügen und Übersetzungen) übernommen werden kann, um das Bildmaterial zu unterlegen. Es versteht sich von selbst, dass mit diesem Text eine ganze Reihe von Perspektivierungen und Wertungen verbunden ist. Nicht zufällig wird gleich am Anfang die amerikanische Seite mit relativierenden Ausdrücken wie calm, investigate, allegations in Verbindung gebracht und damit die Ausgangsperspektive dominiert, während die Gegenseite deadly agiert, was mit dem Sachverhalt belegt wird, dass es Todesopfer gibt (killed); dabei bleibt unklar, wer von wem getötet wurde; persönlich genannt werden als Opfer ein Polizeioffizier und als Verwundeter der Polizeichef der Provinz, andere Tote werden nur als two civilians und Verwundete als people erwähnt (21 an der Zahl, den Polizeichef eingeschlossen); es bleibt also auch unklar, ob und in



Nachrichtenfilme als multimodale audiovisuelle Texte 

 399

welchem Ausmaß die Protestierer selbst Opfer sind. Weitere Tendenzen setzen Ausdrücke wie unsettle (‚beunruhigen, verwirren‘) als relativ harmlose Bezeichnung für die Absicht der den Konflikt auslösenden Koranschändung, die sich zudem gegen suspects gerichtet habe; außerdem handelt es sich ohnehin nur um eine Anschuldigung (charge). Merkwürdig auch, dass das shooting scheinbar agenslos irgendwie ausbrach (broke out), während man in den Bildern nur Polizeikräfte schießen sieht; dass „die andern“ mit violence, sentiment in Verbindung stehen, wohingegen die US-Regierung sprachlich mit Ruhe und Aufklärung assoziiert wird; am Ende erwähnt man unter den Regierungen und Organisationen, die wohl zurecht Bestürzung (dismay) über die „unbewiesenen Anschuldigungen“ (allegations) äußern – gemeint ist wohl eher über die mutmaßliche Tat der US-Amerikaner –, noch einen weiteren Vorurteilsträger, die ägyptische Muslim-Bruderschaft, die als banned militant religious movement bezeichnet wird. Sprachlich einseitiger kann eine polarisierende Darstellung eines politischen Konflikts kaum ausfallen. Von den ca. 100 Sekunden, die APTN anbietet, werden in dem ZDF-Beitrag nur 23 Sekunden verwendet. Es gibt 5 Einstellungen, jeweils zwischen 3 und 7,5 Sekunden lang. Die Einstellungen folgen aber nicht der ursprünglichen Reihung, sondern sind neu arrangiert, indem die erste Einstellung, der „establishing shot“ der Agentur, an den Schluss verschoben wird, so dass man mit der zweiten beginnt, und indem zwischen zwei Teile der dritten Einstellung ein paar Sekunden der vierten montiert werden. Was die Shotlist als 5. Einstellung verzeichnet (various of police firing), ist offensichtlich weggelassen. So ergibt sich eine neue Struktur, die im Folgenden noch einmal schematisch dargestellt ist: AP1

ZDF1

AP2

ZDF2

AP3

ZDF3

AP4

ZDF4

AP5

ZDF5

Fragt man nach Gründen für diese Umstellungen, muss man den Sprechertext hinzuziehen. Er enthält ebenfalls 5 Einheiten (mit römischen Ziffern nummeriert), die aber nicht völlig mit den Einstellungen synchronisiert sind, sondern z. T. überlappend montiert, so dass nur die erste und die vierte Einstellung mit den Sprecheinheiten beendet werden; bei der zweiten und dritten Sprecheinheit setzt die neue Einstellung schon vorher ein. Die folgende Übersicht zeigt die Verteilung der Sprecheinheiten auf die Einstellungen:



400 

 Werner Holly

I/1 tote bei demonstrationen II/2 in Afghanistan sind bei neuen antiamerikanischen protesten drei menschen ums /3 leben gekommen III soldaten feuerten in die menge die einen gouverneuerspalast stürmen /4 wollte IV auslöser der unruhen sind berichte über koranschändungen durch U /5 S-soldaten im gefangenenlager Guantanamo V seit beginn der proteste kamen in Afghanistan fünfzehn menschen ums leben

Betrachtet man den Sprechtext für sich, findet man den klassischen Aufbau einer (Zeitungs-)Meldung. Nach einer überschriftartigen Ankündigung (I), die Aufmerksamkeit schaffen soll, und einem Leadsatz (II), der das Wesentliche der Nachricht enthält, folgen Ereignisverlauf (III), Vorgeschichte (IV) und eine Gesamtbilanz als Hintergrund (V). Dabei sind (II) im Perfekt, (III) und (V) im Präteritum formuliert, wie in Berichten üblich. Dieser schriftsprachlich inspirierte Nachrichtenstil dominiert nicht alle Fassungen, andere verfahren eher szenisch oder sind sogar gesprochensprachliche Anmoderationen von Korrespondentenberichten, wobei kaum erklärte Bilder im Hintergrund untermalend fungieren (Holly 2014). Nimmt man nun in unserer Fassung die Bilder hinzu, sieht es so aus, als ob die Bildmontage den Erfordernissen dieses Meldungsaufbaus angepasst wurde. Die folgenden Stills geben einen Eindruck von den jeweiligen Einstellungen mit den zugehörigen Sprechtextanteilen. Die zum Sprechtext parallel gesetzten Bilder illustrieren und belegen die Schlüsselwörter und Prädikationen der Meldungsteile und schaffen so eine dramaturgisch effektvollere Komposition:

(1) (I) tote bei demonstrationen



(2) (II) in Afghanistan sind bei neuen anti amerikanischen protesten drei menschen ums

Nachrichtenfilme als multimodale audiovisuelle Texte 

(3) leben gekommen (III) soldaten feuerten in die menge die einen gouverneurspalast stürmen

 401

(4) wollte (IV) auslöser der unruhen sind berichte über koranschändungen durch U

(5) S-soldaten im gefangenenlager Guanta namo (V) seit beginn der proteste kamen in Afghanistan fünfzehn menschen ums leben Fragt man nun danach, wie die transkriptiven Bezüge im Einzelnen laufen, so stellt man fest: (I) Der Nachrichtenfilm beginnt wie üblich mit einer Bildeinstellung, die aber sofort von einem voice over-Sprechtext transkribiert wird. Obwohl die visuelle Ebene am Anfang die Nachricht schon durch eine Schrifteinblendung, die auch das Senderlogo enthält, lokal verankert, hier mit der Ortsangabe Gasni/Afghanistan, wird im Sprechtext, den eine weibliche Stimme performiert, der Ländername noch einmal erwähnt (in Afghanistan), allerdings erst nach einer Art gesprochener Schlagzeile, die eine thematische Orientierung gibt: (I) tote bei demonstrationen. So wird visuell und auditiv sichergestellt, dass ein Rezipient zumindest eine lokale Zuordnung vornehmen kann und damit zu einem gewissen Grad auch entscheiden kann, ob ihn 

402 

 Werner Holly

das Folgende überhaupt interessiert. Dies geschieht allerdings rein sprachlich, die Bilder sind für den Zuschauer wohl kaum lokal identifizierbar. Sie geben allerdings einen optischen Gesamteindruck, der die sprachliche Doppel-Information plausibilisiert und damit bestätigt; für die thematische Seite gilt mehr als das, denn erkennbar sind zu einem Zug formierte Männer in Bewegung, in einer staubigen und sonnenbeschienenen Szenerie, die einem Afghanistan-Klischee entspricht. Auch die gezeigten Personen stimmen mit entsprechenden Stereotypen überein. Dazu sieht man Gegenstände durch die Luft fliegen, außerdem Spruchbänder, die geschwenkt werden und mit denen drohend in die Luft gestoßen wird. Dazu hört man von Anfang an einen Hintergrundton, der als aufgebrachte Rufe und Parolengeschrei gedeutet werden kann, wie bei einer Demonstration erwartbar. Wir erhalten also mit der ersten und dem Anfang der zweiten Sprechtextäußerung in Stimme und Schrift zwei elementare Informationen (Ort und Handlungsrahmen), die quasi zeitgleich von den Bildern (und dem O-Ton) transkribiert werden, und zwar im Sinne der Aktivierung kultureller Stereotype. Damit wird zu Beginn präzise Information (demonstrationen, Gasni, Afghanistan) mit unscharfen, aber emotional höchst wirksamen szenischen Eindrücken in Bild und O-Ton zu einem durchaus komplexen und dichten audiovisuellen Ganzen verknüpft. Zugleich wird mit dem zentralen rhematischen Begriff der Schlagzeile (tote) eine Spannung aufgebaut, die man durch Details, Hintergründe, Erklärungen, Ablaufinformationen usw. aufgelöst haben möchte, wie in Nachrichten üblich. Zwar bleibt dieses Rhema bildlich unbelegt, aber man kann sich vorstellen, dass Tote in einem solchen szenischen Zusammenhang möglich sind. Die oszillierende wechselseitige Transkription geht von der Sprache zum Bild, indem nominierende/referierende Bezüge erklären, was wir sehen und wo dies stattfindet, nach dem Muster ‚Mit Worten sehen’. Nachdem wir sprachlich eingeweiht sind, können wir die Bilder entsprechend deuten. Umgekehrt fügen die Bilder transkribierend diesen Sprachinformationen Authentisierung und einen emotionalen Überschuss hinzu, wodurch die Nachricht glaubwürdiger und aufregender wird: Alles sieht (nach gängigen Vorstellungen) echt aus und es geht um Gewalt, um Leben und Tod. Die Muster sind: ‚Mit Bildern authentisieren’ und ‚Mit Bildern emotionalisieren’. Dass es Tote gegeben haben soll, bleibt bildlich allerdings offen und sorgt für Spannung. (II) Die zweite Sprechäußerung formuliert (nach der schon erläuterten Ortsangabe) in einer Art Leadsatz die ,Schlagzeile‘ aus; dabei wird das Substantiv tote in eine vollständige Pädikation mit quantifiziertem Referenzobjekt (drei menschen) und eine temporal (im Perfekt) spezifizierte Aussage (sind ums leben gekommen) aufgelöst. Während in der Storyline die Getöteten nach Rollen differenziert waren (ein Polizeioffizier, zwei Zivilisten), ist jetzt nur noch von menschen die Rede, was die Täter-OpferFrage ganz außer Acht lässt, dabei aber eine allgemein humane Haltung vermittelt; auch das verwendete Substantiv-Verb-Prädikat (ums leben gekommen) nimmt eine Vorgangsperspektive ein, die implizit jede Agentivität ausblendet. Während damit lediglich durch Quantifizierung ein neuer Wissensstand erreicht wird, präzisiert eine 

Nachrichtenfilme als multimodale audiovisuelle Texte 

 403

zusätzliche vorausgehende kompakte Prädikation den Handlungsrahmen: bei neuen antiamerikanischen protesten. Im üblichen journalistischen Variationsstil wird hier mit protesten (statt demonstrationen) eine leichte semantische Verschiebung vorgenommen, die zusammen mit dem Attribut antiamerikanisch eine stärker antagonistische Darstellung ergibt; zusammen mit dem anderen Attribut (neuen), das Vorgängeraktionen präsupponiert, führt dies zu einer Art Kurzerklärung: Was geschehen ist, hat einen vermutlich politisch-ideologischen oder politisch-religiösen Hintergrund, den Konflikt zwischen einer westlich-amerikanischen Seite, die in Afghanistan „kriegführend“ eine Regierung eingesetzt hat, und politisch-religiösen Gegnern dieser Konstellation. Das Standbild aus der zweiten Einstellung, die zu diesem Textstück zu sehen ist, verbildlicht diese sprachlich implizit bleibenden Akteure; man sieht als Eröffnungsbild eines Rückwärtszooms einen Mann mit einer Hinterkopfbedeckung und Vollbart, den Prototyp des religiösen Fanatikers, der  – wie man dann wahrnimmt – inmitten einer wild gestikulierenden Horde von wütenden Männern durch die Frontreihe von Sicherheitskräften in Helmen gefilmt ist; diese Bilder ikonisieren die Konfliktkonstellation aus der Perspektive der staatlichen (amerikafreundlichen) Autorität, die von Fanatikern angegriffen wird und  – wie die nächste Einstellung zeigt – in der Defensive sogar zurückweicht. Es ist schwer, angesichts dieser Darstellung Verständnis für diesen Protest aufzubringen, ganz zu schweigen von Mitleid mit den Opfern. Die Nahaufnahme wirkt hier als abschreckendes, gewissermaßen deontisch negatives Bild-Detail, sodass das sprachlich eingesetzte Schlüsselwort antiamerikanisch nicht mehr ohne Weiteres wertfrei wahrgenommen wird, nach dem Muster ‚Mit Bildern bewerten’. (III) Dies ändert sich allerdings im weiteren Verlauf schrittweise. In der dritten Sprechäußerung nennt der ZDF-Text nun zum ersten Mal explizit Akteure, und zwar – anders als Shotlist und Storyline, die nur polizei erwähnen, – soldaten. Noch überraschender ist, dass man nun in der zugehörigen Einstellung zurückweichende, aber mit (auch im O-Ton hörbaren) Schnellfeuer-Gewehren rücksichtslos schießende Uniformierte sieht – der dramatische Höhepunkt des Berichts; hier übernimmt das Bild die Dramatisierung und Emotionalisierung der Sachverhaltsdarstellung, während der Sprechtext zunächst Beschreibung zu liefern scheint, mit nominierender und dann aber auch wertend prädizierender Leistung, indem er die Akteure identifiziert und damit für die Toten verantwortlich macht und indem er die Handlungsweise mit dem Verb feuern gerade nicht als defensiv qualifiziert. Diejenigen, die eben noch in Wort und Bild als fanatische „Antiamerikaner“ erschienen, sind nun als Opfer von Waffengewalt zu sehen, eine menge, von der es heißt, dass sie einen gouverneurspalast stürmen wollte, ein Ausdruck, der auch nicht neutral wirkt und Verständnis für die Demonstranten weckt, denn so würde hierzulande kaum ein Ort legitimer Staatsgewalt genannt. Man kann sich in der Umgebung dessen, was man sieht, zwar keinen „Palast“ vorstellen, aber angesichts der im Bild erscheinenden Kargheit und Armut, wird jedes Aufbegehren verständlich. Hier ist die Sprache bildtranskriptiv wertend,



404 

 Werner Holly

indem sie für sichtbare Opfer von Waffeneinsatz nachvollziehbare Motive für Protest formuliert. (IV) Diese Tendenz wird im Folgenden noch verstärkt, wenn in der vierten Sprechäußerung explizit auslöser der unruhen genannt werden, und zwar berichte über koranschändungen durch US-soldaten im gefangenenlager Guantanamo. Damit enthält der Sprechtext gleich eine ganze Reihe von negativ bewertenden Ausdrücken; man erinnert sich im Kontext von koranschändungen an religiöse Übergriffe von amerikanischen Soldaten gegen Moslems und auch hier ist – anders als in der Storyline, die von Ermittlern (investigators) spricht, – von soldaten die Rede. Man wird an die rechtsstaatlich unhaltbare Praxis in Guantanamo erinnert, die außerhalb jeder Legitimierbarkeit steht, und wird damit endgültig von der anfänglich vorherrschenden Tendenz weggeführt. Während auf der Bildebene die schon bekannten Einstellungen fortgesetzt werden, überschreibt der Sprechtext das Sichtbare mit evaluativen Erklärungen, die eindeutig die Bewertung umkehren. (V) Mit dem letzten Satz, der nüchtern bilanzierend wirkt, kommen auf der Seite der religiösen Protestierer nicht fanatische Täter, sondern Opfer in den Blick (kamen in Afghanistan fünfzehn menschen ums leben). So erhält der Bericht einen traurigen, fast tragischen Ausklang, der von der Bemühung um Sachlichkeit und Knappheit wie von der routinehaften Stimmführung der Sprecherin wieder etwas relativiert wird. Man fragt sich vielleicht, ob der Waffeneinsatz nicht eine zu starke Reaktion war, ob die Opfer nicht unnötig waren, man bestärkt aber auch das Klischee eines Landes voller gefährlicher Demonstrationen, Proteste, Unruhen; die unspezifischen Bilder liefern dazu in einer Totalen Anschauungsmaterial für einen trostlosen Gesamteindruck. Die folgende Tabelle gibt noch einmal einen Überblick über transkriptive Bezüge: Sprechtext

Bildtext

(I) #tote# bei +demonstrationen+

(1) Protestierer in einem +Demonstrationszug+ werfen Gegenstände auf Uniformierte

(II) in Afghanistan sind bei neuen +antiamerikanischen+ *protesten* drei menschen #ums

(2) [R-Zoom] +Bärtiger+ auf Protestierer: *gestikulieren und schwenken* Fahnen und Transparente

leben gekommen# (III) +soldaten+ +feuerten in die menge+ die einen gouverneuerspalast stürmen

(3) +Uniformierte+ weichen zurück und #+schießen in die Menge+#

wollte (IV) auslöser der +unruhen+ sind berichte über koranschändungen durch U

(4) Protestierer +stürmen rufend nach vorne+

S-soldaten im gefangenenlager Guantanamo (V) seit beginn der+ proteste+ kamen in Afghanistan fünfzehn menschen #ums leben#

(5) Totale von +Protestzug+ mit Uniformierten auf sie zu

Abb. 2: Sprechtext-Bildtext-Relationen/Transkriptionen



Nachrichtenfilme als multimodale audiovisuelle Texte 

 405

Die grau unterlegten Einheiten der Sprechtext- bzw. Bildelemente (Entsprechungen jeweils durch + oder * markiert) stehen in einer wechselseitigen Relation. Sprechtexteinheiten nominieren Referenzobjekte und/oder prädizieren Sachverhalte, die man im Bild erkennen kann. Bildelemente authentisieren, dramatisieren und emotionalisieren die sprachlichen Referenzen und Propositionen. Die sequenzierten Bildszenen liefern in fotografischen Realbildern Vorlagen, die Zug um Zug sofort durch sprachliche Elemente transkribiert und damit gedeutet werden; gleichzeitig können beide Zeichenarten unabhängig voneinander wahrgenommen werden. Sprachlich liegt dann eine klassische Meldung vor, bildlich ein wenig verständliches Mini-Narrativ von Protestierern und schießenden Uniformierten in einer staubigen Gegend. Was die Bildseite mit ihrer autochthonen Semantik aber liefert, ist ein starker visueller Anreiz, der Rätsel aufgibt und sofort signalisiert, dass es sich hier um reale Begebenheiten handelt. Man kann folgern, dass die Sprachseite (in solchen meldungsartigen Nachrichtenfilmen) autarker ist; die sprachliche Fassung ist in der Lage, den Sachverhalt mit (mehr oder weniger) genauen Referenzen ‚darzustellen‘. Mehr Mühe macht der sprachlichen Seite nicht nur, Interesse zu wecken, sondern auch (was das Interesse steigert) den geschilderten Sachverhalt zu beglaubigen. Hier kann die Bildseite die sprachlichen Schwächen kompensieren: Die Bilder sind nicht nur – im Wortsinne – anschaulich, was unsere Aufmerksamkeit ungleich stärker attrahiert, sondern sie sind auch als fotografische Bilder mit ihrer indexikalischen Struktur, die nur wiederzugeben scheint, was der fotografische Apparat an realen Gegenständen und Sachverhalten erfasst, weitaus glaubwürdiger. Wir sehen sie ,wie mit eigenen Augen‘ und glauben der Augenzeugenschaft von Bildern (Burke 2003), die angeblich ,nicht lügen‘, wider besseres Wissen, das uns längst über einseitige Perspektiven, Inszenierungen, ja sogar handfeste Fälschungen von fotografischem Bildmaterial aufgeklärt hat. So kann man für Sprache und Bild Potenziale und Defizite hinsichtlich der Darstellbarkeit und Glaubwürdigkeit von Sachverhalten, um die es in Nachrichten zuallererst geht, komplementär verteilt finden (s. Abb. 3): Bilder

Sprache

darstellbar?

Darstellbarkeitsmalus: ich kann nicht alles (genau) zeigen

Darstellbarkeitsbonus: ich kann fast alles (genau) sagen

glaubwürdig?

Glaubwürdigkeitsbonus: Was ich zeige, hat Beweiskraft

Glaubwürdigkeitsmalus: Nicht alles, was ich sage, hat Beweiskraft

Abb. 3: Potenziale/Defizite (Boni/Mali) von Sprache und Bild

Dabei bestehen die Darstellbarkeitsschwächen von Bildern nicht nur in fehlenden referenziellen Leistungen. Manchmal hat man einfach keine Bilder von dem Ereignis, 

406 

 Werner Holly

um das es geht, weil niemand dabei war oder es zu schnell ging. In anderen Fällen gibt es Tabus, die es normalerweise verbieten, Grausamkeiten, insbesondere das Sterben von Menschen, sogar einen friedlichen Tod, in bewegten Bildern festzuhalten (s. Holly 2008). Im vorliegenden Fall ist im Sprechtext zwar mehrfach von Toten die Rede (so in I, II und V), die Bilder zeigen sie aber nicht. Andererseits besteht der bildliche Höhepunkt gerade in der Szene (3), in der man (vom unüberhörbaren O-Ton unterstützt) sieht, wie die Uniformierten auf Menschen schießen. Damit wird das eigentliche Skandalon, welches das Ereignis weltweit berichtenswert macht, das Schießen auf Demonstranten durch Sicherheitskräfte des eigenen Landes, zugleich bildwirksam gezeigt und in den schlimmen Konsequenzen ausgeblendet; welche grausamen Folgen diese Aktion hat, dass es nämlich Tote gibt, wird nur sprachlich vermittelt; das Bild plausibilisiert diese nur berichteten Folgen allerdings durchaus, so dass die zentrale Szene (3) in einer starken kausalen Relation zu den entsprechenden sprachlichen Einheiten in (I), (II) und (V) steht (in Abb. 2 durch Pfeile und # angedeutet): was man sieht, hat das Berichtete verursacht. Dabei wird die Möglichkeit, dass – wie noch in Shotlist und Storyline angedeutet – auch die Demonstranten (durch Steinwürfe) jemanden getötet haben könnten, nicht mehr in Erwägung gezogen. Insgesamt gehen die transkriptiven Bezüge im zeitlichen Ablauf des Nachrichtenfilms zwischen Sprach- und Bildseite also ständig hin und her und treiben dabei Aufmerksamkeit, Information, Sachverhaltsdarstellung, Plausibilisierung einschließlich dramatisierender und evaluativer Interpretation rasch voran, so dass sich beide Seiten in einer nahezu perfekten dynamischen Performanz ineinander fügen wie in einem Reißverschluss.

5 Fazit Das hier herangezogene transkriptionstheoretische Beschreibungsformat der SprachBild-Relationen in einem audiovisuellen Genre wie dem Nachrichtenfilm kann sehr detailliert und auf die jeweilige Semantik bezogen das Zusammenspiel der Zeichenarten in seinem dynamischen Verlauf erfassen. Es liefert damit auch ein Modell für die audiovisuelle Medialität anderer Gattungen, wobei aber immer deren spezifische Funktionalität in Rechnung gestellt werden muss. Hier ging es zunächst darum, den Begriff der Audiovisualität allgemein zu erläutern, dann in seiner besonderen Ausprägung in Nachrichtenfilmen. Das Beispiel erfasst allerdings nur eine stilistische Variante von Nachrichtenfilmen, andere lassen sich beschreiben (s. Holly 2008; 2009; 2010; 2014). Dabei wurden weitere wesentliche Züge des Genres, die nicht unmittelbar die audiovisuelle Struktur betreffen, nur am Rande gestreift; sie werden in den einschlägigen Arbeiten zu Fernsehnachrichten behandelt. Es war allerdings wichtig hervorzuheben, dass bei der Herstellung eines Nachrichtenfilms, der in der Regel auf Agenturmaterial zurückgeht, von Anfang an



Nachrichtenfilme als multimodale audiovisuelle Texte 

 407

transkriptiv verfahren wird, indem man Bilder mit Worten beschreibt (Shotlist) und in den Kontext einer schriftlichen Agenturmeldung (Storyline) einfügt. Umso bedeutsamer ist dann, wie unterschiedliche zeitliche Stadien und kulturspezifische und sendertypische Fassungen das gleiche Bildmaterial selektiv und sequentiell, vor allem aber sprachlich transkribieren. Dies gibt Einblicke in die nicht geringe Interpretativität, die mit jeder Bearbeitung unweigerlich verbunden ist. Umgekehrt ist immer zu berücksichtigen, wie die Bilder ihrerseits die Sprechtexte transkribieren, wobei man von einem beträchtlichen Ausmaß an Authentisierung, Plausibilisierung und nicht zuletzt Dramatisierung und Emotionalisierung ausgehen muss, die das spezifische Potenzial bewegter Bilder ausmachen. Dabei bleiben die Bilder wegen ihrer begrenzten referenziellen und sachverhalts-darstellenden Kraft letztlich doch auf die Kombination mit Sprechtext angewiesen. Dass diese Kombination dann im dynamischen Ablauf quasi-natürlich zusammenkommt wie in einem Reißverschluss gefügt, mag mit der Verankerung der Audiovisualität in direkter Kommunikation zusammenhängen, nicht zuletzt aber mit der medialen und semiotischen Komplementarität der beteiligten Zeichenarten.

6 Literatur Barthes, Roland (1964/1990): Die Rhetorik des Bildes. In: Roland Barthes: Der entgegenkommende und der stumpfe Sinn. Frankfurt a. M., 28–46. Berry, Colin (1988): Rundfunknachrichtenforschung. Ein Beitrag zur Klärung der Wirkung von Präsentation und Motivation. In: Media Perspektiven 3, 166–175. Brosius, Hans-Bernd (1998): Visualisierung von Fernsehnachrichten. Text-Bild-Beziehungen und ihre Bedeutung für die Informationsleistung. In: Kamps/Meckel, 213–224. Burger, Harald (1990): Sprache der Massenmedien. 2. Aufl. Berlin/New York. Burger, Harald (2005): Mediensprache. Eine Einführung in Sprache und Kommunikationsformen der Massenmedien. 3., völlig neu bearb. Aufl. Berlin/New York. Burke, Peter (2003): Augenzeugenschaft. Bilder als historische Quellen. Berlin. Fricke, Ellen (2012): Grammatik multimodal. Berlin/Boston. Holly, Werner (1996): Alte und neue Medien. Zur inneren Logik der Mediengeschichte. In: Bernd Rüschoff/Ulrich Schmitz (Hg.): Kommunikation und Lernen mit alten und neuen Medien. Frankfurt a. M. u. a., 9–16. Holly, Werner (1997): Zur Rolle von Sprache in Medien. Semiotische und kommunikationsstrukturelle Grundlagen. In: Muttersprache 107, 64–75. Holly, Werner (2004a): Sprechsprache und bewegte Bilder. Audiovisualität. In: Werner Holly/ Almut Hoppe/Ulrich Schmitz (Hg.): Sprache und Bild II. Mitteilungen des Deutschen Germanistenverbandes 51 (2), 122–134. Holly, Werner (2004b): Fernsehen. Tübingen (Grundlagen der Medienkommunikation, 15). Holly, Werner (2005): Zum Zusammenspiel von Sprache und Bildern im audiovisuellen Verstehen. In: Dietrich Busse/Thomas Niehr/Martin Wengeler (Hg.): Brisante Semantik. Neuere Konzepte und Forschungsergebnisse einer kulturwissenschaftlichen Semantik. Tübingen, 373–353.



408 

 Werner Holly

Holly, Werner (2008): Audiovisuelle Sigetik. Über verborgene Bedeutungen im Bild-SprachZusammenhang. In: Steffen Pappert/Melani Schröter/Ulla Fix (Hg.): Verschlüsseln, Verbergen, Verdecken in öffentlicher und institutioneller Kommunikation. Berlin, 147–169. Holly, Werner (2009): Der Wort-Bild-Reißverschluss. Über die performative Dynamik der audiovisuellen Transkriptivität. In: Helmuth Feilke/Angelika Linke (Hg.): Oberfläche und Performanz. Tübingen, 389–406. Holly, Werner (2010): Besprochene Bilder – bebildertes Sprechen. Audiovisuelle Transkriptivität in Nachrichtenfilmen und Polit-Talkshows. In: Arnulf Deppermann/Angelika Linke (Hg.): Sprache intermedial. Stimme und Schrift, Bild und Ton. Berlin/New York, 359–382. Holly, Werner (2011a): Medien, Kommunikationsformen, Textsortenfamilien. In: Stephan Habscheid (Hg.): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York, 144–163. Holly, Werner (2011b): Bildüberschreibungen. Wie Sprechtexte Nachrichtenfilme lesbar machen (und umgekehrt). In: Hajo Diekmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 233–253. Holly, Werner (2014): „Globale“ Bilder – lokale audiovisuelle Texte. Internationales in Fernsehnachrichtenfilmen. In: Armin Burkhardt/Kornelia Pollmann (Hg.): Globalisierung. Sprache, Medien, Politik. Bremen (erscheint). Holly, Werner/Ulrich Püschel/Jörg Bergmann (Hg.) (2001): Der sprechende Zuschauer. Wie wir uns Fernsehen kommunikativ aneignen. Wiesbaden. Huth, Lutz (1985): Bilder als Elemente kommunikativen Handelns in Fernsehnachrichten. In: Zeitschrift für Semiotik 7, 203–234. Jäger, Ludwig (2001): Sprache als Medium. Über die Sprache als audio-visuelles Dispositiv des Medialen. In: Horst Wenzel/Wilfried Seipel/Gotthart Wunberg (Hg.): Audiovisualität vor und nach Gutenberg. Wien, 19–42. Jäger, Ludwig (2002): Transkriptivität. Zur medialen Logik der kulturellen Semantik. In: Ludwig Jäger/Georg Stanitzek (Hg.): Transkribieren. Medien/Lektüre. München, 19–41. Jäger, Ludwig (2004): Die Verfahren der Medien. Transkribieren – Adressieren – Lokalisieren. In: Jürgen Fohrmann/Erhard Schüttpelz (Hg.): Die Kommunikation der Medien. Tübingen, 69–79. Jäger, Ludwig (2010): Intermedialität – Intramedialität – Transkriptivität. Überlegungen zu einigen Prinzipien der kulturellen Semantik. In: Arnulf Deppermann/Angelika Linke (Hg.): Sprache intermedial. Stimme und Schrift, Bild und Ton. Berlin/New York, 301–323. Klaus Kamps/Miriam Meckel (Hg.) (1998): Fernsehnachrichten. Prozesse, Strukturen, Funktionen. Opladen/Wiesbaden. Klemm, Michael (2000): Zuschauerkommunikation. Frankfurt a. M. u. a. Kress, Gunther/Theo van Leeuwen (2001): Multimodal Discourse. The Modes and Media of Temporary Communication. London/New York. Leeuwen, Theo van (2005): Introducing Social Semiotics. London/New York. Ludes, Peter/Georg Schütte/Joachim Friedrich Staab (2002): Entwicklung, Funktion, Präsentationsformen und Texttypen der Fernsehnachrichten. In: Joachim Felix Leonhard/ Hans-Werner Ludwig/Dietrich Schwarze/Erich Straßner (Hg.): Medienwissenschaft. Ein Handbuch zur Entwicklung der Medien und Kommunikationsformen. 3. Teilband. Berlin/New York, 2308–2320. Luginbühl, Martin (2011): Vom kommentierten Realfilm zum multimodalen Komplex – Sprache-BildBeziehungen in Fernsehnachrichten im diachronen und internationalen Vergleich. In: Hajo Diekmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 257– 276. Meyer, Thomas/Rüdiger Ontrup/Christian Schicha (2000): Die Inszenierung des Politischen. Zur Theatralität von Mediendiskursen. Wiesbaden.



Nachrichtenfilme als multimodale audiovisuelle Texte 

 409

Muckenhaupt, Manfred (1980): Der Ärger mit Wörtern und Bildern. Probleme der Verständlichkeit und des Zusammenhangs von Text und Bild. In: Kodikas/Code 2, 187–209. Nöth, Winfried (2000): Der Zusammenhang von Text und Bild. In: Klaus Brinker/Gerd Antos/ Wolfgang Heinemann/Sven F. Sager (Hg.): Text- und Gesprächslinguistik. Bd. 1. Berlin/New York, 489–496. Paterson, Chris (2011): The International Television News Agencies. New York u. a. Rauh, Reinhold (1987): Sprache im Film. Die Kombination von Wort und Bild im Film. Münster. Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft. Köln. Schaap, Gabi (2009): Interpreting Television News. Berlin/New York. Stirnberg, Uwe (1998): Globale Giganten. Die Rolle der Agenturen am Beispiel von Reuters TV und APTV. In: Kamps/Meckel, 147–166. Wember, Bernward (1976): Wie informiert das Fernsehen? München. Wittwen, Andreas (1995): Infotainment. Fernsehnachrichten zwischen Information und Unterhaltung. Bern u. a.



Stefan Meier

18. Websites als multimodale digitale Texte Abstract: Im Zentrum dieses Beitrags steht die Frage, inwiefern digitale und onlinemediale Bedingungen die Kommunikation mittels multimodaler Texte sowie deren Text(sorten)konstitution prägen. Der Beitrag stellt dies anhand des elektronischen Textes sowie der Website dar. Er trägt im zweiten Schritt die verschiedenen Perspektiven und Forschungstraditionen einer Hypertext-, Medien- und Multimodalitätsforschung zusammen, die auf besondere Strukturmerkmale des Forschungsgegenstandes ausgerichtet sind. Im dritten Schritt werden verschiedene Typologien von Websites und die dafür relevanten Typologisierungskriterien vorgestellt. Schließlich folgt ein kurzer Ausblick auf Konsequenzen einer weiter voranschreitenden Vernetzung und Mobilisierung digitaler Kommunikation. Diese Konsequenzen erfassen auch Funktion und Konstitution des elektronischen Textes und der Website. 1 Multimodalität und digitale Textualität 2 Ziele einer Multimodalitätsforschung digitaler Texte 3 Methodisch-methodologische Ansätze 4 Forschungsstand und Ausblick 5 Literatur

1 Multimodalität und digitale Textualität Der elektronische Text und die Website sind nicht manifest mit einem konkreten Datenträger verbunden, sondern werden situativ durch aktuelle Produktions- und Darstellungsmedien wahrnehmbar. Damit ist medienbedingt eine besondere Materialität, Zeichenhaftigkeit und kommunikative Funktionalität mit diesen Textphänomenen verbunden, die begriffliche, typologische und methodologische Probleme aufwerfen. Der elektronische Text unterliegt seit jeher einer Entgrenzung (Schmitz 2004, 37 f.), die tiefe Veränderungen in Form und Inhalt des kommunikativen Zeichenhandelns verursacht (Kress 2003, 1). Die Entgrenzung beruht auf (maximaler) Multimodalität, Non-Linearität/Hypertextualität, Reaktivität/Interaktivität und Digitalität (Storrer 2008; Jewitt 2012), die mit der Nutzung digitaler Medien ermöglicht werden. Eine Gleichbehandlung von elektronischem Text und Website ist ferner problematisch, da sich ihre mediale Konstitution und kommunikative Funktion stark voneinander unterscheiden können. So kommt der elektronische Text als linear organisiertes Textphänomen vor (z. B. in Form von Word- und PDF-Dokumenten), wenn er mittels digitaler Medien angefertigt wird und (eventuell) für den Ausdruck vorgese-



Websites als multimodale digitale Texte 

 411

hen ist. Auch in Form hypertextuell aufbereiteter Gebrauchsanweisungen, Tutorials, Lernsoftware-Anwendungen etc. ist der elektronische Text eher auf Langfristigkeit ausgelegt. Die Website wiederum unterliegt häufig einer hohen inhaltlichen und verknüpfungstechnischen Dynamik und ist als Online-Publikation in einem spezifischen Kommunikationsnetzwerk eingebunden. In diesem Handbuchartikel werden jedoch beide Typen behandelt, wobei das Hauptaugenmerk auf der Website als multimodalem und vernetztem Online-Kommunikat liegt. Die Textualität jedes elektronischen Kommunikats unterliegt wie im Print-Bereich der Grundannahme, dass sie „eine begrenzte Folge sprachlicher Zeichen [umfasst], die in sich kohärent ist und die als Ganzes eine erkennbare kommunikative Funktion signalisiert“ (Brinker 2001, 17). Diese Zeichenhaftigkeit wird nach einem multimodalen Textverständnis nicht nur auf das Sprachliche beschränkt, sondern in Abhängigkeit zu aktuellen Handlungskontexten treten alle sinnstiftend gebrauchten Elemente als semiotische Ressourcen in den Blick. (Vgl. Hausendorf/Kesselheim 2008, 31 ff.; Kress 2010, 21 ff.; Habscheid 2011, 6 f.; Stöckl 2011) Elektronische Texte sind weiterhin durch die Textualitätskriterien (Beaugrande/ Dressler 1981) der Kohäsion, Kohärenz, Intentionalität, Akzeptabilität, Informativität, Situationalität und Intertextualität geprägt. In hohem Maße sind sie zusätzlich durch die Kulturalität gekennzeichnet, die sich im Textstil mit Hilfe unterschiedlicher Zeichenmodalitäten äußert (Fix 2007; Androutsopoulos 2013). Elektronische Texte sind darüber hinaus als seiten- bzw. dokumentbasierte (Bateman 2008, 74 ff.) visuell wahrnehmbare Oberflächengestalten (Steinseifer 2011) auf digitalen Sehflächen (Gross 1994, 66; Schmitz 2004, 112 f.) zu begreifen, die modular angeordnet sind und non-linear rezipiert werden (Bucher 2007). Sie sind gekennzeichnet durch eine code- bzw. interfaceabhängige Flexibilität, die durch die mögliche Animation der Zeichen und unterschiedliche Größen-, Farb- und Kontrastdarstellungen hergestellt ist. Dies schließt eine optionale Veränderbarkeit des Zeichenausdrucks bis auf die Pixel-Ebene mit ein. Im Verbund mit anderen Texten als Website und/oder im World Wide Web wird der elektronische Text durch Hypertextualität zu einer dreidimensionalen Bedeutungseinheit. Interaktive Anwendungen machen ihn zu einem Mittel von Netzwerkkommunikation, ermöglichen kooperative bzw. kollaborative Autorenschaften (Meier 2009; Jones 2011; Bucher 2013). Und nicht zuletzt bewirkt die aktuelle Mobilisierung der Online-Kommunikation mittels Smartphones und Tablet-Computern eine Angleichung der sprachlichen und visuellen Website-Gestaltung auf diese neue Generation von Endgeräten (Baron 2008). Es bestehen demzufolge (online)medienbedingte Zeichenkomplexitäten und Zeichenhandlungsmöglichkeiten, die im Einzelnen beschrieben werden müssen.



412 

 Stefan Meier

1.1 Die Website als online-mediale Kommunikationsform Der elektronische Text stellt sich ‚nur‘ situativ gemäß den genutzten Darstellungsmedien bzw. Interfaces her. Er ist nicht als permanent wahrnehmbares Oberflächenphänomen manifest mit einem medialen Zeichenträger verbunden, sondern besteht aus flexibel materialisierten Datenpaketen. Das hat zur Folge, dass Inhalte einer Website aus ganz unterschiedlichen Online-Angeboten situativ zusammengesetzt sein können (vgl. Jones 2011, 116). Nicht selten werden beispielsweise Google-MapsApplikationen in andere Websites eingebunden, wenn es darum geht, Orte auch auf einer (interaktiven) Landkarte visuell nachvollziehbar zu lokalisieren. Voraussetzung ist die verlustfreie und durch Breitbandtechnologie gewährleistete schnelle Übertragbarkeit der entsprechenden Datenpakete. Der elektronische Text ist desweiteren in rein technischer Hinsicht durch Hardware-Dispositionen geprägt wie Bildschirmdiagonale, Auflösung, Helligkeit, abrufbares Farbspektrum, Schärfe- und Kontrast-Einstellung, Reaktions- und Ladezeitzeit, Blickwinkel, Grafikkarte etc. Software-technisch haben die Browser-Einstellungen (z. B. Schriften-Verfügbarkeit), installierte Plug-Ins (z. B. Flash-Player) etc. unmittelbare Auswirkung auf die Oberflächendarstellung (Pentzold/Fraas/Meier 2013, 88). In der Regel ermöglichen diese ‚medialen Affordanzen‘ (in Anlehnung an Kress 2010, 79 ff.), dass der elektronische Text bzw. die Website ein Maximum an multimodaler Zeichenhaftigkeit darstellen lässt. Konsequenz ist, dass auch die Autoren elektronischer Texte bzw. Websites durch die Fülle der zur Verfügung stehenden semiotischen Ressourcen digitaler Kommunikation vor besondere Anforderungen gestellt sind (Kress/van Leeuwen 2001, 2; vgl. van Leeuwen 2005). In der Regel machen sie sich besondere Tools zunutze, die die ‚multimodale Orchestrierung‘ (Kress 2010, 161) der Textproduktion, der Navigationsorganisation, des Bildeinsatzes, des Screendesigns, der Farb- und Typografieauswahl mehr oder weniger vereinfacht. In diesen Fällen steht das textuelle Endprodukt ebenfalls in hoher Abhängigkeit von den Affordanzen der hard- und softwaretechnischen Disposition des Produktionsmediums. Die Gestaltung ist geprägt von den Möglichkeiten und der Handhabung der zur Anwendung kommenden Computertechnologie, der Grafiksoftware, des Textverarbeitungsprogramms oder Content-Managementsystems (CMS), des Screendesign-Tools etc. Die elektronische Textproduktion steht und stand ständig unter dem Einfluss eines hochdynamischen Medienwandels. Dieser ist gekennzeichnet durch die rasante Entwicklung neuer Kommunikationstechnologien, welche schnell in die alltägliche (Online)Kommunikationspraxis aufgenommen werden. Demzufolge vollzieht sich die Etablierung und Konventionalisierung neuer textbasierter Kommunikationsmuster und -funktionalitäten erheblich schneller als in Offline-Kontexten. Wegen dieser engen Verschränkung zwischen Medientechnologieentwicklung und kommunikativer Praxis hat sich in der linguistischen Online-Forschung der Begriff der Kommunikationsform etabliert (vgl. Beißwenger 2002; Diekmannshenke 2002; Schmitz 2004; Dürscheid 2005; Schlobinski 2005; Thaler 2007; Meier 2008; Fraas/ 

Websites als multimodale digitale Texte 

 413

Meier/Pentzold/Sommer 2013a). Er läuft nach Holly (2011, 157) „quer zu“ dem Begriff der Textsorten(familie), wodurch er allerdings für die Website bzw. andere onlinemediale Kommunikationsweisen wie Chat, E-Mail, Weblogs etc. einen hohen heuristischen Wert besitzt. Zum einen fokussiert die Kommunikationsform musterhafte Kommunikationsweisen (z. B. Online-Zeitung, E-Mail, Chat etc.), die unterschiedliche Textsorten (z. B. Nachricht/Kommentar, Geburtstagseinladung/Newsletter, Beratungs-/Plauderchat) beinhalten können. Zum anderen ermöglicht der Begriff der Kommunikationsform eine Integration medientechnologischer Disposivität und medienkommunikativer Praxis. Er richtet die Aufmerksamkeit auf die medienhistorische Tatsache, dass Medientechnologie Ergebnis von sozialen Kommunikationsprozessen ist, die bestimmte Kommunikationsinstrumente erforderlich machen. Desweiteren führt der Begriff der Kommunikationsformen vor Augen, dass die Materialisierung, also die Wahrnehmbarkeit, kommunikativ genutzter Zeichen erst durch Medien ermöglicht wird. Kommunikation mittels Zeichen wird somit durch Medien hergestellt und zugleich begrenzt (vgl. Holly 2011, 150). Neben der Interdependenz zwischen Medialität und Kommunikation werden auch die kommunikativen Konventionalisierungen behandelt, die mit bestimmten (medialen) Settings etabliert sind. Holly verdichtet diese auf drei Aspekte. Erstens Modes und Kodes, d. h. die verfügbaren Sinneskanäle und Zeichenarten, zweitens kommunikationsstrukturelle Gegebenheiten wie Grade an Kopräsenz, Wechselseitigkeit oder Adressierung und drittens die zeitliche Struktur entsprechend der Flüchtigkeit bzw. Verdauerung von Kommunikaten (Holly 2011, 153). Diese Kriterien lassen sich zur Bestimmung der einzelnen (medialen) Kommunikationsformen im Detail anwenden (vgl. Schmitz 2004, 58; Meier 2012, 264). Im Online-Medium haben sich in Abhängigkeit bestimmter Internetdienste (z. B. World Wide Web, Usenet, E-Mail) verschiedene Kommunikationsformen wie die E-Mail- (Ziegler 2002) und Foren-Kommunikation, der Chat (Beißwenger 2007) und die hier im Zentrum stehende Website entwickelt (Storrer 1999; Meier 2008; Jacobs 2009; Fraas/Meier 2012). Die Website kann zudem weitere Sub-Kommunikatonsformen enthalten. So finden sich nicht selten neben den hypertextuell organisierten Informationseinheiten auch Live-Ticker, Fotogalerien und interaktive Angebote wie Foren oder Kommentierungsmöglichkeiten (vgl. spiegel-online). Darüber hinaus verursachen die hochdynamischen Entwicklungen im Online-Medium die Hervorbringung immer neuer oder abgewandelter Kommunikationsformen. Weblogs und Social Media-Anwendungen wie Facebook haben mittlerweile die ‚persönliche Website‘ nahezu verdrängt. Beide bewirken eigene Kommunikationsnetzwerke, die je nach Gebrauch bestimmte Kommunikationsformen wie ‚Bloggen‘, Bildergalerie, E-Mail oder Chat auf flexible Weise in Beziehung setzen (vgl. entsprechenden Beitrag in diesem Band). Diese fortschreitende Dynamik des Medienwandels und die voranschreitende Intermedialität der Kommunikationspraktiken veranlasst Holly nunmehr weniger von festen medialen Settings auszugehen, sondern Kommunikationsformen in ihrer 

414 

 Stefan Meier

Vielfalt zu betrachten und allgemeiner als „kulturelle Praktiken“ und als „medial, historisch und kulturell verankerte Dispositive“ zu konzeptualisieren (Holly 2011, 155 ff.). Eine solche Öffnung des Begriffs der Kommunikationsformen ermöglicht auch, die Website (oder die Lernsoftware etc.) als solche trotz der hohen Dynamik des (Online)Medienwandels zu betrachten. Er macht den Blick frei auf die Interdependenz zwischen medialer Infrastruktur, medienermöglichter semiotischer Potenziale und etablierter Nutzungskonventionalisierungen. Demnach lässt sich die Kommunikationsform Website medienspezifisch wie folgt bestimmen: 1. Medientechnologische Materialiserung: Beamer, Monitor, Notebook-, Netbook-, Tablet-, Smartphone- und Handydisplays. 2. Semiotische Vorrausetzung: Mögliche Nutzung semiotischer Ressourcen wie Schrift/Typografie, statisches Bild, Grafik, Piktogramme, Screendesign etc., weniger häufig mündliche Sprache, Audio, Bewegtbild 3. Mögliche Ansprache von Sinnesmodalitäten: vor allem visuell und weniger auditiv 4. Potenzielle Kommunikationsrichtung: vor allem unidirektional, bei interaktiven Sub-Kommunikatiosformen auch bidirektional 5. Mediale Funktionsweise: Speicherung und Übermittlung von Informationen, hypertextuell navigierbar, zuweilen personalisiert 6. Art der Übermittlung: elektronische Datenpakete über digitale Netzwerke (Interbzw. Intranets) 7. Zeitlichkeit: zeitversetzt 8. Mögliche Kommunikationspartner: zumeist 1:n, interaktiv: n:n 9. Sozialer Status: privat/institutionell, öffentlich im Internet, teilöffentlich im Intranet

1.2 Die Website als multimodale Zeichenhandlung Der elektronische Text und insbesondere die Website können ein Maximum an Multimodalität aufweisen. Dabei dienen die Zeichen nicht nur der inhaltlichen Kommunikation (z. B. mittels Schrift, Bilder, Grafiken etc.), sondern dienen zum einen der Oberflächenstrukturierung (z. B. durch Linien, Textflächen, Freiräume, Farbflächen, Kästen). Zum anderen markieren sie Navigationsinstrumente, um die hypertextuelle Linkstruktur der Website nutzen zu können. Demnach bildet die Gestaltung von elektronischen Texten bzw. Websites eine besondere kommunikative Praxis (vgl. van Leeuwen 2005; Kress/van Leeuwen 2006; Kress 2010). Screen- bzw. Interfacedesigns weisen als Meta-Zeichen den einzelnen kommunikativen Einheiten ihre funktionsmarkierende Position zu. Der Entwurf von Sitemaps bildet die hypertextuelle Inszenierung der Inhalte. Ferner gibt die genutzte Makro-, Meso- und Mikrotypografie (Stöckl 2004b) der Schrift bestimmte Funktionen (z. B. Textmodularisierung, Inhalts

Websites als multimodale digitale Texte 

 415

hierarchisierung, Linkmarkierung) und Hinweise über die stilistische Orientierung sowie Gestaltungskompetenz der Kommunikatoren (Meier 2007; Spitzmüller 2010). Nicht zuletzt bildet das Bilddesign im Zusammenspiel mit den sprachlichen Ko-Texten durch Größe- und Motivwahl, Ausschnitt, Perspektive, Farb- und Lichtführung ein wichtiges Instrument der multimodalen Orchestrierung (Stöckl 2004a; Kress/ Leeuwen 2006; Meier 2010). Eine brauchbare Einteilung der unterschiedlichen Funktionen von Zeichen in online-diskursiven Kontexten bietet Bucher (2013, 65 f.), die sich für den elektronischen Text allgemein und die Website konkret sehr gut anwenden lassen: 1. Repräsentationale Zeichen: semiotische Ressourcen zur Übermittlung von Informationen und Inhalten (z. B. Nachrichtentexte, Teaser, Fotos) 2. Identifikatorische Zeichen: semiotische Ressourcen zur Markierung des (kollektiven) Autors bzw. des Betreibers der Website (z. B. Logos, Profilbilder, CooperateDesign-Elemente) 3. Ordnungszeichen: semiotische Ressourcen zur Oberflächenstrukturierung (z. B. Linien, Flächen, Käste) und Navigationsstruktur (z. B. Sitemaps, Linkpfade) 4. Operationale Zeichen: semiotische Ressourcen zur Markierung von Navigationsinstrumenten (z. B. Linkunterstreichungen, kleine Pfeile, Animationen bei Curserüberfahrten, Buttons, Eingabefenster) 5. Partizipatorische Zeichen: semiotische Ressourcen zur Markierung von interaktiven Angeboten (z. B. Links zu Forenseiten, Kommentierungsmöglichkeiten, Chats) 6. Appellative Zeichen: semiotische Ressourcen zur Einladung, weitere Produkte und Dienstleistungen zu besuchen (z. B. Banner, Anzeigen) Funktion fünf lässt sich jedoch den operationalen Zeichen zuordnen, da sie ebenfalls auf die Nutzungsmöglichkeit (in diesem Fall auf Interaktivität) der Website hinweist. Funktion sechs umfasst besondere Sprachhandlungen wie Werbung. Damit kann sie auch als Teil repräsentationaler Zeichen verstanden werden. Die aufgeführten Inhalte und Informationen sind als kommunikative Handlungen der Information, der Belehrung, der Kommentierung etc. realisiert. Die (online-)kommunikativen Zeichenfunktionen sind somit von der Kommunikationsform geprägt, was sich entsprechend auf die kommunikationsstrukturierenden Handlungsmuster (Textsorten) als Affordanzen auswirkt. Die Kommunikationsform Website hat im Zuge ihrer Verwendung Konventionen der Oberflächenstrukturierung ausgebildet. Position und Gestalt der Zeichen weisen ihnen eine oder mehrere der aufgeführten Funktionen zu. So unterliegt die einzelne Webseite noch immer häufig einer Zwei- oder Drei-Säulen-Struktur. In der linken Säule und/oder über dem mittleren Content-Bereich findet sich gemäß der Leserichtung von links oben nach rechts unten zumeist das Navigationsmenü (operationale Zeichen). In der mittigen (oder rechts anschließenden) Säule lassen sich eine Abfolge von Inhalten (repräsentationale Zeichen) wiederfindet. Weblogs weisen die Naviga

416 

 Stefan Meier

tion eher am rechten Rand auf (Bittner 2007, 234). Grund ist die Aufmerksamkeitsfokussierung auf die umgekehrt chronologische Abfolge der Blogeinträge im Zentrum der Seiten. Identifikatorische Zeichen zeigen sich bei Websites wie bei Blogs häufig am oberen Rand und als einheitsstiftende Elemente zumeist auf allen Unterseiten der Website. Sie bestehen in Form von Logos, Farben des Corporate Designs oder Betreibernamen der Sites. Ordnungszeichen verteilen sich über die Gesamtfläche zur Zuordnung und Abgrenzung von einzelnen Seitenelementen. Hier kommen neben expliziten Markierungen wie Farbhintergrundwechsel, Linien und Kästen auch implizite Hinweise durch bestimmte Abstände hinzu. Ist beispielsweise ein kleiner Pfeil neben ein Wort platziert, so kann man davon ausgehen, dass auch das Wort Bestandteil der Verlinkung ist. Erst durch die Nähe dieser beiden Zeichenelemente werden sie als zusammengehöriges Navigationszeichen erkannt. Die hier vorgestellte Unterscheidung zwischen inhaltlichen (repräsentationalen) Ordnungszeichen und operationalen Zeichen findet ihre Begründung auch in der hintergründig realisierten Sitearchitektur. Seit Einführung des Prinzips des XHTML als technische Weiterentwicklung des statischen HTML sind die Informationen zur Oberflächenstrukturierung, der Textauszeichnung und der Textinhalte durch separate Stylesheets (CSS), Markup-, und Contentverzeichnisse auf den Webservern abgelegt (vgl. Bittner 2007, 230 ff.). Dies führte zur stärkeren Arbeitsteilung zwischen Interfacedesign, medieninformatischer Webentwicklung, Datenbank- und Netzwerkadministration sowie inhaltsproduzierendem und -verwaltendem Contentmanagement. Zu weiteren Spezialisierungen dieser Bereiche hat der Einsatz von Contentmangementsystemen (CMS) geführt. Hierbei nutzen die Inhaltsproduzenten ‚nur‘ Eingabemasken. Ihre elektronischen Textprodukte und ausgewählten Bilder werden softwareund datenbankgestützt in feste Oberflächen- und Hypertextstrukturen eingepasst und automatisch für die unterschiedlichen digitalen und printmedialen Ausgabe-Medien aufgearbeitet. Eine solche Arbeitsteilung verursacht eine Trennung der Oberflächenstrukturierung und Textformatierung vom Textproduktionsprozess. Während klassische Textverarbeitungsprogramme die Bandbreite multimodaler Textproduktion im Vergleich zur Schreibmaschine revolutionär ausgeweitet haben, bewirkt der Einsatz von CMS eine starke Begrenzung der multimodalen Gestaltungsfreiheit des Textproduzenten. Diese ist softwaregemäß durch Layout- und (Corporate)Design-Vorgaben bestimmt und beschränkt sich auf die reine Texterstellung und Auswahl bestimmter audiovisueller-, Bild- bzw. Audio-Dateien. Datenbankgenerierte Websites haben die Modularisierung der Website-Oberflächen weiter vorangetrieben. Die Modulstruktur setzt sich aus mehreren hierarchisch aufgebauten Informationsbausteinen zusammen und bildet durch die hypertextuelle Struktur eine Erweiterung multimodaler Medienkommunikation. Modularisierung ist gekennzeichnet durch Segmentierung von Langtexten. Sie werden bereits seit der Frühphase der Online-Kommunikation als kurze Bedeutungseinheiten gefasst, die aus einer oder unterschiedlichen Zeichenmodalitäten wie Sprachtext, Bild und Grafik zusammengesetzt sein können (Bucher 1998, 85 ff.). Textmodule als komprimierte 

Websites als multimodale digitale Texte 

 417

Informationsbausteine unterstützen auf der „Sehfläche“ (Schmitz 2007, 106) das ,scannende Lesen‘, also das Überfliegen der Seitenoberfläche, um aus dem Angebot ein oder mehrere Themen auszuwählen. Modularisierung kann somit non-lineare Textualität und entsprechendes Rezeptionsverhalten (vgl. Bucher 2007) verursachen. Da Multimodalität und Hypertextualität über die Modularisierung der Texte ihre Verbindung erfahren, hat Lemke (2002, 300) in diesem Zusammenhang den Begriff der Hypermodalität (Hypermodality) vorgeschlagen. Er zielt auf die Tatsache ab, dass neben der zweidimensional angelegten multimodalen Zeichenkorrespondenz in der Fläche eine Erweiterung durch die Dreidimensionalität in der Web-Kommunikation stattfindet. Hypermodalität verlangt die Funktion der Präsentation, der Orientierung und der Organisation von allen zum Einsatz kommenden Zeichenmodalitäten. Letztere Zeichenfunktion ist durch die selbstbestimmte Rezeptionsabfolge der Inhaltseinheiten gegeben. Da das non-lineare Rezeptionsverhalten auch durch die Verweisstruktur in nichtelektronischen Medien wie der Zeitung oder dem Lexikon angelegt ist, erscheint die Exklusivität dieser Hypermodalität in der digitalen Kommunikation jedoch fraglich. Plausibler ist, dass durch die Modularisierung und Hypertextualität weitere kommunikative Mittel in der multimodalen Bedeutungskonstruktion in digitalen Medien zur Anwendung kommen (Meier 2008, 242). Nur in seltenen Fällen wird die Breite multimodaler Kommunikationsmöglichkeiten digitaler Medialität in konkreten Kommunikationsangeboten genutzt. Der Normalfall ist die Präsentation von geschriebener Sprache, Bild, Grafik, Typografie und Screendesign. Ferner ist die Non-Linearität der Web-Kommunikation stärker zu differenzieren. Zwar mag die Linearität in der Rezeption häufig unterbrochen sein, dies scheint jedoch nicht sui generis an der Hypermodalität der Website zu liegen, sondern findet sich auch im Print-Leseverhalten (vgl. Bucher 2011). Websites setzen sich aus Textmodulen und hypertextuellen Verknüpfungen zusammen, jedoch schränkt die Sitestruktur die ‚Lesewege‘ des Nutzers in einem nicht zu unterschätzenden Maß ein (Storrer 2000; Döring 2003, 73). Große Auswahlmöglichkeiten sind durch die überschaubare Anzahl an Unterrubriken und den kommunikativen Gesamtzweck der Website häufig nicht gegeben. Aus diesem Grund lassen sich die kommunikativen Elemente relativ einheitlich typologisieren (vgl. Meier 2008, 244 ff.). Eine geeignete Typologisierung und Hierarchisierung der Textmodule auf der Website schlägt Chiew (2004) vor. Er unterscheidet zwischen Item, Lexia und Cluster. Unter Item versteht er ein multimodales Grundelement auf der Einzelseite. Es stellt ein durch Screendesign hergestelltes Zeichenensemble dar, das sich einer kommunikativen Funktion zuordnen lässt. Ein Navigationsmenü ist zum Beispiel als zusammengehöriges Item markiert. Die einzelnen Menüelemente sind dabei durch ihre einheitliche Form, Abfolge und Nähe zu einer Formation gefügt. Das Navigationsmenü befindet sich auf einer Hintergrundfläche und/oder ist durch Freiraum bzw. Linien von einem anderen Zeichenensemble abgetrennt. Auch einzelne mit Bildern kombinierte Teaser, um zur Lektüre des verlinkten Volltextes einzuladen, gelten als Items. 

418 

 Stefan Meier

Die Lexia stellt die einzelne Seite des elektronischen Textes bzw. der Website dar. Sie ist aus einer oder verschiedenen Dokumenten zu einer simultanen Sehfläche zusammengestellt. Diese kann größer als die zur Verfügung stehende Sichtfläche des Displays sein, so dass erst durch Scrollen situativ verborgene Inhalte der Lexia sichtbar werden. Das Cluster schließlich umfasst eine hypertextuell vernetzte Bedeutungseinheit, wie sie mit der Website besteht. Online-Auftritte können zudem Unter-Cluster enthalten. So bildet das Netzdossier eine online-journalistische Darstellungsform, die ein bestimmtes Thema innerhalb eines Online-Magazins hypertextuell aufbereitet. Das Netzdossier weist eine eigene Startseite auf, die das entsprechende Thema vorstellt. Sie beinhaltet weitere Module und Verlinkungen zu möglichen Hintergrundberichten, Kommentaren, Bildern und Grafiken. Das Website-Cluster besitzt die dreidimensionale Struktur eines Hypertextes. Diese wird durch Verlinkungen zwischen den einzelnen Webseiten vollzogen. Dabei dienen die Links zum einen als Hinweis auf den Inhalt der verknüpften Seite und zum anderen als Zugang zu dieser. Sie lassen als interne Links die Website zu einer 3-dimensionalen Kommunikationseinheit und als externe Links die entsprechende Webseite oder den gesamten Web-Auftritt als Bestandteil eines weiteren Kommunikationsnetzes werden. Inhaltlich und technisch steht er in Verbund mit anderen Seiten oder Sites, die im World Wide Web ebenfalls publiziert sind. Die Links selbst können mit ganz unterschiedlichen Zeichenressourcen realisiert sein. Einzelne Wörter, Satzelemente, ganze Textmodule, Pfeile, Piktogramme, Grafiken und fotografische Bilder dienen als Links, die gemäß ihrer Modularität und Animation als solche erkennbar werden. Auch mögliche interaktive Verwendungsweisen, sind sprachlich und grafisch über die Verlinkung markiert (Pauwels 2012). Zusammenfassend lässt sich festhalten, dass die elektronischen Texte der Webseiten trotz ihrer Multimodalität und Hypertextualität in der Regel Bestandteile eines kohärenten Superzeichens sind, welches auf der Oberfläche durch Kohäsionshinweise und auf der inhaltlichen Ebene durch eine kohärente Gesamtfunktion konstituiert ist.

2 Ziele einer Multimodalitätsforschung digitaler Texte Das breite Spektrum an kommunikativen Funktionen von Websites unter den beschriebenen online-medialen Bedingungen hat zu einer multifunktionalen, flexibilisierten und komplex multimodalen Zeichenhaftigkeit geführt. Dies macht besondere Konzeptualisierungen und Analyseinstrumentarien nötig. Der in diesem Band prominent gebrauchte Begriff der Multimodalität besitzt dafür einen besonderen heuristischen Wert. Er muss jedoch auf die Besonderheiten des Online-Mediums aus

Websites als multimodale digitale Texte 

 419

gerichtet werden. Das heißt, er kann nicht nur auf die bedeutungsstiftende Korrespondenz von einzelnen Sprache-Bildeinheiten begrenzt bleiben, sondern muss alle online-medial genutzten Zeichenmodalitäten behandeln. Dies umschließt neben den inhaltlichen Zeichenensembles zahlreiche auch Bedeutungseinheiten zur Kommunikation von Funktionalität und Navigation. Ein solcher Untersuchungsgegenstand führt zu besonderen Erkenntnisinteressen und Fragestellungen, die im Folgenden vorgestellt werden. Mit Blick auf die Kommunikationsform stellt sich die Frage, welche der medialen Möglichkeiten werden in dem zu analysierenden Online-Angebot genutzt. Welche Zeichenressourcen kommen zum Einsatz, welche Kommunikationsrichtungen sind dominant, welche mediale Infrastruktur ist zur Produktion und Darstellung nötig, und welche medialen Funktionen werden realisiert. Mit Blick auf die semiotischen Ressourcen ist genauer zu fragen, welche Modalitäten für welche kommunikativen Funktionen gebraucht werden. Welchen kommunikativen Beitrag leisten die einzelnen Modi, die Modi innerhalb des Items bzw. des Moduls, der Lexia sowie des Clusters. Dabei interessieren nicht nur die Content konstituierenden Zeichengebilde als repräsentationale Zeichen, sondern auch die besonderen Funktionen der identifikatorischen Zeichen, die strukturierende Funktion der Ordnungszeichen und die instrumentelle Funktion der operationalen Zeichen. Mit besonderem Blick auf die multimodale Designpraxis treten diese unterschiedlichen Zeichenfunktionen als kommunikative Handlungen in den Fokus. Visualisierungs- und Versprachlichungsstrategien, Bildgestaltung wie Motivwahl, Ausschnitt, Perspektive, Farb- und Formgebung, Link-, Mikro- und Mesotypografiegestaltung sowie Screen- und Grafikdesign werden hinsichtlich ihrer konnotativen Bedeutungspotenziale analysiert. Mit Blick auf die kommunikativen Handlungen ist zu fragen, welche Funktionen vollziehen die einzelnen Textmodule und Webseiten als eigenständige Bedeutungseinheiten und welchen Beitrag leisten sie für die kommunikative Gesamtfunktion der Website? Mit speziellerem Blick auf die Hypertextualität treten Sequenzierungsstrategien in den Vordergrund und insbesondere dramaturgische Inszenierungen der dreidimensionalen Textkonstitution. Inwiefern lässt die Website desweiteren nutzergenerierte Inhalte zu? Wie frei oder eingeschränkt ist die Rezeption durch die Linkführung? In welche kommunikativen Netzwerke ist die Website über externe Verlinkungen mit welchen kommunikativen Funktionen eingebunden? Mit Blick auf den Medienwandel stellen sich in diachroner Perspektive Fragen zum Wandel der Kommunikationsform, der einzelnen Genres und der damit verbundenen Gestaltungsmuster. Beispielhaft lässt sich dies an der fortschreitenden Marginalisierung der ursprünglich so dominant vertretenen persönlichen Homepage illustrieren. Diese ist durch die Blog-Kommunikation sowie Social-Media-Anwendungen so gut wie ersetzt. Mit der Zeit sind Ausdifferenzierungen der bestehenden und neuen kommunikativen Praktiken samt entsprechender Designmuster entstanden. Welche 

420 

 Stefan Meier

semiotischen, kommunikationsfunktionalen und kommunikationssoziologischen Auswirkungen sind mit diesem Wandel verbunden?

3 Methodisch-methodologische Ansätze Der Gegenstand elektronischer Text bzw. die Website wird in der Forschung aus unterschiedlichen Perspektiven behandelt, welche unterschiedliche Prioritäten an den Gegenstand herantragen. Während eine Hypertextforschung ein besonderes Augenmerk auf die Modularisierung und Sequenzierung legt, gehen medienlinguistische Ansätze von den medial bedingten Produktions- und Rezeptionspraktiken aus. Hinzu tritt eine framebasierte Forschungspraxis, die neben der medial-materialen Prägung digitaler Kommunikation auch Auswirkungen sozial konstituierter Wissensrahmen in der online-medialen Praxis untersucht. Sozialsemiotisch motivierte Multimodalitätsforschung interessiert sich vor allem für die im elektronischen Text gebrauchten semiotischen Ressourcen und deren bedeutungsgenerierende Funktion. All diese Ansätze sind jedoch nicht voneinander unabhängig entwickelt worden, sondern haben auch Konzepte und Methoden der anderen Perspektiven mit aufgenommen. Folgend werden die einzelnen Ansätze hinsichtlich ihrer unterschiedlichen Prioritätensetzung in der Gegenstandsbestimmung, Fragestellung und Methodik betrachtet.

3.1 Hypertextlinguistik/-forschung 3.1.1 Gegenstände Im Zentrum der Hypertextforschung stehen die technischen und kommunikativen Besonderheiten des Hypertextes bzw. der Hypermedien im Vergleich zum ‚klassischen Print-Text‘ und/oder den ‚klassischen Medien‘ wie Zeitung, Film, Buch etc. Dabei stehen insbesondere die nicht-lineare und computergenerierte Konstitution unter Beachtung (Storrer 2008, 315 ff.). Hypertext wird in dieser Perspektive als elektronischer Text angesehen, dessen Inhalte in Sequenzen und Module aufgeteilt und über Verlinkungen verbunden sind (Jacobs 2009, 356). Produzent und Rezipient orientieren sich nach kommunikativen Gestaltungsmustern von Textsorten, um Verständigung herzustellen. Daran anschließend sind nach Jacobs (2004, 237) Hypertexte prototypisch durch systembezogene Bausteine (z. B. Startseite), aufgabenbezogene Bausteine (z. B. Downloadmöglichkeiten), interaktionsbezogene Bausteine (z. B. Antwortformulare) und thematisch bestimmte Bausteine (z. B. FAQ-Listen) gekennzeichnet. Die Beschäftigung mit dem elektronischen Text allgemein wird in der Hypertextforschung weniger relevant gesetzt, da dieser eher als lineares Textphänomen ange-



Websites als multimodale digitale Texte 

 421

sehen wird. Allerdings kann er durch externe Links mit hypertextuellen Verbünden verknüpft sein. In der Regel stellen sie aus Sicht der Hypertextforschung am Computer erstellte Beiträge dar, die für den (Aus)Druck bestimmt sind (Storrer 2008, 323). Hypertexte lassen sich demgegenüber nicht ausdrucken. Sie können im Ausmaß extrem schwanken. Während das gesamte World Wide Web als Hypertext verstanden werden kann, lässt sich bereits eine kommunikative Einheit von zwei bis drei Sequenzen ebenfalls als Hypertext fassen. Die Website wird als eine kommunikative Einheit behandelt. Jacobs (2004) beschreibt sie als eine funktional-thematische Ganzheit, die als Teilnetz im World Wide Web realisiert ist. Storrer (2000) spricht von einer thematischen Gesamtvorstellung und einem kommunikativen Zweck, der mit der Produktion der Einzeltexte der Website verfolgt wird. Hier ist nicht nur das übergeordnete Thema einheitsstiftend, sondern auch eine übergeordnete kommunikative Hypertextfunktion. Hypertexte stellen Textnetzwerke dar, die dem Nutzer nicht eine lineare Abfolge von Informationen präsentieren, sondern diesem die Wahlmöglichkeit lassen, eigenen Informationsbedürfnissen nachzugehen und entsprechenden Linkpfaden zu folgen. Begrenzt ist diese Selbstbestimmtheit durch die Begrenztheit des Textnetzes selbst. Nutzungs- und Darstellungsmedium können nur Computer- und Softwaretechnologie und/oder digitale Infrastrukturen sein, die das eigenständige Navigieren bzw. Browsen ermöglichen. Durch die Digitalität verfügen Hypertexte auch über flexible Oberflächen, die sich je nach Produktionsprozess, Darstellungsmedium und Navigation ändern. Sie lassen sich inhaltlich individuell oder interaktiv erweitern und dienen dadurch der computervermittelten Kommunikation und der kollaborativen Wissensproduktion. Hypertexte unterliegen einer wechselnden Dynamik. Sie können als relativ festes Autorenprodukt der Wissensvermittlung vorliegen. Als Beispiel hierfür lässt sich die hypertextuell realisierte Enzyklopädie Encarta anführen, die von 1993–2009 von Microsoft auf CD und DVD jährlich aktualisiert herausgegeben wurde. Demgegenüber ist die dynamische Alternative, die Online-Enzyklopädie Wikipedia, zu nennen. Sie wird von einer großen Zahl von Autoren ständig interaktiv und kollaborativ überarbeitet und erweitert.

3.1.2 Fragestellung und Methoden Fragestellungen und Methoden der Hypertextforschung sind auf die Module, Strukturen, Kohäsionen/Kohärenzen, Dynamiken und Textsorten non-linearer digitaler Kommunikate ausgerichtet. Dabei bildet die Website nicht den alleinigen Gegenstand, sondern es tritt jede Form digital vernetzter Wissensproduktion und -kommunikation in den Blick. Eine solche Untersuchung muss insbesondere der Flexibilität und der Veränderbarkeit der Inhalte mit besonderer Datenaufbereitung und Archivierung der Analysekorpora begegnen. Ein besonderes Augenmerk liegt ferner auf der Untersuchung von Verknüpfungsdarstellungen sowie der Markierung der Einzelseite 

422 

 Stefan Meier

als Element des hypertextuellen Verbundes. Die Fragestellungen lassen sich wie folgt zusammenfassen. 1. Mit Blick auf die einzelnen Module und Hypertextsorten: a) Welche kommunikativen und technischen Funktionen haben die Einzelkommunikate? b) Welche Thema-Rhema-Struktur liegt in den inhaltlichen Modulen vor? c) Wie fügt sich der Einzeltext bzw. das Modul in das Gesamtkommunikat ein, welche Funktion übernimmt es hierfür? 2. Mit Blick auf die Hypertextstruktur: a) In welcher Netzstruktur sind die einzelnen Items, Lexia zu Cluster verbunden? Neben der qualitativen Rekonstruktion der Sitemap lassen sich hier auch computerlinguistisch automatisierte Verfahren (Mehler 2004) und/oder quantitativ-kommunikationssoziologische Netzwerkanalysen (Bucher 2009) durchführen. b) Welcher dramaturgischen und kommunikativen Ausrichtung unterliegt die Sequenzierung der Websiteinhalte? c) Welcher kommunikativen Funktion unterliegt die Website als Gesamtkommunikat, und/oder inwiefern ist sie Teil eines übergeordneten Kommunikationsnetzwerks? 3. Mit Blick auf die Kohäsion und Kohärenz zur Vermittlung von Identifikation, Navigation, Inhalt, Linkführung etc.: a) Welche sprachlichen und gestalterischen Mittel weisen die Website kohäsiv auf der Oberfläche als Gesamtkommunikat aus? b) Welche sprachlichen und gestalterischen Mittel weisen die Website auf der inhaltlichen Ebene als kohärentes Gesamtkommunikat aus?

3.2 Medienlinguistik/-forschung 3.2.1 Gegenstände Im Zentrum einer sozial-, kultur- und/oder linguistischen Medienforschung steht der Einfluss der Medien auf interpersonale, kulturelle und gesellschaftliche Kommunikationspraktiken und -prozesse. Medien werden dabei als technologische Infrastrukturen und soziale Institutionen begriffen (Hickethier 2010, 25 ff.). Ihre Erforschung untersucht, inwiefern Medien die durch sie vermittelten Zeichenprozesse und längerfristig wie sie kommunikative Muster, kulturelle Praktiken und soziale Ordnungen prägen (Habscheid 2000; 2005, 48). Dabei dient das Medium als Kanal, der bestimmte Sinne des Menschen anspricht. Es bietet die Technologie, die Zeichen zu produzieren, zu übertragen, zu verbreiten, zu rezipieren und zu speichern. Es ermöglicht und begrenzt die Nutzung der unterschiedlichen Zeichenmodalitäten und nicht zuletzt



Websites als multimodale digitale Texte 

 423

lässt es als soziale Institution den Zeichengebrauch strukturieren, konventionalisieren und als Textsorten organisieren (Posner 1986; Habscheid 2005, 49 f.). Je nach Perspektive wird das Medium in der Medienforschung in seiner materiell bedingten (vgl. Krämer 2004) oder sozial-institutionellen (Luhmann 2009) Prägekraft betrachtet. Eine Verbindung dieser beiden Bereiche stellt der Begriff des Mediendispositivs (vgl. Hickethier 2010, 186 ff.) und in der Medienlinguistik der Begriff der Kommunikationsform (vgl. Domke 2007; Holly 2011) dar. Medienlinguistische Ansätze thematisieren zudem die Textsortenkonstitution in Abhängigkeit zu den medientechnologischen und -institutionellen Bedingungen. So haben sich bestimmte kommunikative Muster zur Lösung bestimmter kommunikativer Aufgaben entwickelt. Journalisten orientieren sich bei der Textproduktion inhaltlich und formal an medienbedingten Kriterien, wenn sie eine Meldung, eine Nachricht, einen Kommentar, eine Glosse verfassen. Rezipienten von (professionellen) Online- und Print-Zeitungen sind ebenfalls von ihren alltagstheoretischen Vorstellungen dieser Textmuster geleitet, wenn sie sich im Medienangebot orientieren. Ein weiterer Gegenstandsbereich in der medienlinguistischen (Fraas/Meier 2011) und kommunikationswissenschaftlichen (Matthes 2007) Forschung ist die Strukturierung und Prozessierung medialer Wissensproduktion und -rezeption durch Frames. Ausgehend von der kognitiven Semantik Fillmores (vgl. Fillmore 1982) und der KIForschung von Minsky (1975) werden diese als individuell kognitive sowie sozial konstituierte Strukturen gekennzeichnet (Fraas 2013). Sie bilden Wissensordnungen, die der Komplexitätsreduktion, der Kategorisierung, Perspektivierung, der Selektion und Salienzstiftung von Erfahrungswissen dienen (Sommer u. a. 2013b, 108 f.). Sie setzen sich nach kognitionswissenschaftlichem Verständnis aus Slots und Fillers zusammen (Ziem 2008). Slots bilden dabei konzeptuelle Leerstellen, die in konkreten Kommunikationssituationen kontextbezogen durch Fillers gefüllt werden. Dabei richten sich die Kommunikatoren zumeist nach sozial konventionalisierten Standards (DefaultWerten), welche durch sprachliche bzw. (Medien)Sozialisierung erlernt wurden. Für die Produktion und Rezeption von Medienkommunikaten hat sich insbesondere die Perpektivierungs- und Salienzfunktion von Frames als heuristisch wertvoll herausgestellt. Um die sich dabei vollziehende Prozessualität zu unterstreichen, spricht man somit verstärkt von Framing (Matthes 2007) bzw. bei visueller und multimodaler Kommunikation von Visual Framing (Müller 2011). Letzteres liefert eine Verbindung zur Multimodalitätsforschung (vgl. Kress 2010, 93 ff.; Meier 2014), indem Visual Framing monomodal durch bildliche Gestaltung, d. h. Salienzen bestimmter Bildelemente verursacht und multimodal, indem durch das Zusammenspiel zwischen Sprache und Bild bestimmte Bild- und Textgehalte durch die jeweilige ‚Ko-Textualisierung‘ hervorgehoben werden.



424 

 Stefan Meier

3.2.2 Fragestellung und Methoden Durch die Breite der Medienforschung kann an dieser Stelle nicht das gesamte Spektrum an Fragestellungen und Methoden dargestellt werden. Somit wird sich auf bestimmte Ansätze der Medienlinguistik beschränkt. Mit Blick auf die verschiedenen Zeichensysteme ergeben sich Ansätze, die die Besonderheiten der unterschiedlichen Kodierungen von Zeichen in der Medienkommunikation betrachten. Im Zentrum steht bei der Medienlinguistik weiterhin die Sprache, die in ihrer Struktur und Diachronie sowie in ihrer Anwendung untersucht wird (Burger/Luginbühl 2005; Perrin 2011). Als weiteres Zeichensystem wird zunehmend das Bild in seiner statischen und bewegten Kodierung und in seinem multimodalen Zusammenhang behandelt (vgl. die Beiträge in Diekmannshenke/Klemm/ Stöckl 2011). Auch die Mediennutzung steht im Untersuchungsfokus, die mit quantitativen sowie qualitativ gesprächsanalytischen und ethnografischen Ansätzen bearbeitet wird (Holly/Püschel/Bergmann 2001). Bezogen auf die Internetkommunikation hat sich in diesem Bereich ebenfalls eine breite Forschungslandschaft etabliert (Fraas/Klemm 2005; Androutsopoulos/Runkehl/Schlobinski/Siever 2007; Bucher/ Gloning/Lehnen 2010; Fraas/Meier/Pentzold 2013). Hierin kommen textlinguistische, sprach-, diskurs-, gesprächs- und korpusanalytische Verfahren zur Anwendung. Folgende Forschungsfragen ergeben sich: 1. Welche sprachlichen Strukturen, Handlungen und Wandelprozesse sind unter der technischen und institutionellen Prägung einer medienvermittelten Kommunikation realisiert? 2. Welche Kommunikationsformen und Textsorten lassen sich in der (online-) medialen Kommunikation bestimmen und welche sprachlichen Besonderheiten zeigen sie? 3. Welche kommunikativen Funktionen sind durch die Korrespondenz von Sprache und Bild sowie das Textdesign in (online-)medialen Kontexten realisiert? 4. Welche Wissensordnungen/Muster/Frames lassen sich durch die Perspektivierungen, Hervorhebungen, Kontextualisierungen bestimmter sprachlich und/ oder multimodal realisierter Konzepte rekonstruieren?

3.3 Multimodalitätsforschung 3.3.1 Gegenstände Im Zentrum der Multimodalitätsforschung steht die kommunikative Praxis als Zeichenhandlungen. Dabei wird sich nicht auf die sprachliche Kommunikation beschränkt, sondern es treten alle Ressourcen in den Blick, denen in kommunikativen Zusammenhängen Bedeutung zugeschrieben wird. Das umfasst neben verbalen auch gestisch-mimische, textile, material-gegenständliche, mediale und (innen-)architek

Websites als multimodale digitale Texte 

 425

tonische Ausdruckweisen. Die Multimodalitätsforschung ist somit als semiotisches Projekt zu verstehen, dass transdisziplinär auf die bedeutungsstiftende Produktion, Rezeption und Interaktion mittels semiotischer Ressourcen zur Formung und Repräsentation von Wissen fokussiert ist (vgl. Kress/Leeuwen 2001, 1 ff.; Leeuwen 2005, 95; Kress 2010, 1 ff.; 96ff; Stöckl 2011). Dabei geht es insbesondere um die Bestimmung von kommunikativen Funktionen bestimmter Zeichenmodalitäten (modes) und deren bedeutungsstiftenden Zusammenspiels in kontextbezogenen kommunikativen Settings. Modes bilden sozial geteilte und kulturell gegebene Verwendungsweisen bestimmter semiotischer Ressourcen (Kress 2009, 54). So wird im sozialen Gebrauch und in der kommunikativen Behandlung aus der Ressource Textil die Modalität Kleidung, aus Geräusch Musik, aus Stimme gesprochene Sprache (vgl. Stöckl 2007) aus Strichen auf Fläche Schrift, aus Schriftform Typografie (van Leeuwen 2006a) etc. Dementsprechend untersucht die Multimodalitätsforschung den elektronischen Text sowie die Website als ein Zeichenensemble, das in kommunikativer Absicht aus verschiedenen digitalen Zeichenressourcen zu multimodalen Kommunikaten gestaltet ist. Sie reihen sich ein in den Gegenstandsbereich medien- bzw. technikvermittelter Kommunikation und Interaktion mittels Sprache, Bilder und anderer Zeichenmodalitäten (vgl. Lemke 2002; Kress 2010, Meier 2014). Diese werden in ihrem bedeutungsgenerierenden multimodalen Zusammenspiel als kommunikative Akte behandelt, die anhand von Texten, anhand von Texttypen als Genres (Bateman 2008) und anhand von Wissensformationen als Diskurse untersucht werden (vgl. Leeuwen 2005; Kress 2010; Stöckl 2011). Letztere unterliegen in Anlehnung an die Critical Discourse Analysis (Chouliaraki/Fairclough 1999) häufig einer kritisch-reflexiven Betrachtung, die die Machtabhängigkeit von Diskurskonstituierung und -genese herausarbeitet (Hodge/ Kress 1999; Leeuwen 2006b). Kommunikations- und medientheoretisch relevant ist die Bestimmung von Modes in ihrer materiellen und sozialen Konstituierung. Durch die Materialität der semiotischen Ressourcen und durch die Konventionalität der semiotischen Modalitäten stellen diese Offerten zur Verfügung, die sich zur kommunikativen Bedeutungskonstruktion in bestimmten kommunikativen Settings anbieten. Diese Affordanzen (Kress 2010, 104) prägen die kommunikativen Praktiken und stehen in konstitutiver Verbindung mit den zur Zeichenherstellung jeweils genutzten Medien (Kress/ Leeuwen 2001, 2). Damit bilden sie neben der intersemiotischen Bedeutungsstiftung einen weiteren herausgehobenen Gegenstand multimodaler Medienforschung. Eine Website wie tagesschau.de beinhaltet demzufolge eine Fülle von verschiedenen Modalitäten. Bilder und Grafiken dienen der Identifikation, Aufmerksamkeitsstiftung, der Dokumentation, der Veranschaulichung, der Symbolisierung etc. Diagramme zeigen Relationsähnlichkeiten mit dem bezeichneten Sachverhalt. Typografische Auszeichnungen der Texte markieren Überschriften, Teaser, Links und Volltext. Die Website setzt sich also aus inhaltlichen und funktionalen Zeichenensembles zusammen, die in ihren medial-kontextbezogenen Funktionen beschreibbar sind.



426 

 Stefan Meier

Nicht zuletzt kommen die unterschiedlichen Gegenstände der Multimodalitätsforschung im Begriff des Design zusammen (Kress 2010, 135). Dieser lässt sich als kommunikative Praxis begreifen, die in Abhängigkeit der jeweiligen kulturellen und situativen Kontexte semiotische Ressourcen zu Diskurselemente moduliert und arrangiert. Design organisiert die soziale Beziehung zwischen Kommunikationspartnern. Es dient der Identitätskonstruktion des Kommunikators und der Identitätszuschreibung des Rezipienten. Damit ist Design eng verbunden mit der Stilisierung von Kommunikation als Ausdruck von Ideologie, Lebensstil, Habitus und kultureller Orientierung.

3.3.2 Fragestellung und Methoden Fragestellungen und Methoden einer multimodalen Untersuchung von elektronischen Texten und Websites fokussieren die in digitalen Kommunikationsmitteln gebrauchten Zeichenmodalitäten. Sie untersuchen die Funktionen und Bedeutungspotenziale der einzelnen Modalitäten sowie ihr kontextabhängiges multimodales Zusammenspiel. Diese allgemeine Sichtweise der Multimodalitätsforschung wird mit der besonderen Berücksichtigung der zum Einsatz kommenden Medien gekoppelt. In dem Zusammenhang tritt insbesondere die visuelle Dominanz, Hypertextualität und Interaktivität der Online-Medien als Hypermodalität (Lemke 2002, 300) oder Hyperdiskurs (Maiorani 2010) in den Fokus. Zur Konzeptualisierung und Analyse multimodaler Zeichenensembles haben sich im deutschsprachigen Raum drei unterschiedlich gewichtete Ausrichtungen entwickelt (Steinseifer 2011, 169 ff.). Die sozialsemiotisch motivierte Multimodalitätsforschung untersucht das multimodale Zusammenspiel in konkreten Kommunikaten anhand der positionierten und strukturierten Zeichen-Arrangements (vgl. Bateman 2008; Kress 2010). Eine rezeptionsorientierte Multimodalitätsforschung untersucht die Zeichenkorrespondenzen anhand des non-linearen Rezeptionsprozesses, der mit den multimodalen Kommunikaten nahegelegt ist und/oder empirisch ermittelt wird. Hierbei tritt die Selektivität, kommunikationssituative Funktionalität und Dynamik multimodaler Bedeutungskonstruktion in den Blick (vgl. Bucher 2011). In einer transkriptionsorientierten Multimodalitätsforschung stehen demgegenüber die Bedeutungskonstruktionen im Fokus, die durch die wechselseitige Bezugnahme unterschiedlicher Zeichenmodalitäten angeregt ist. Dieses Wechselspiel regt Überschreibungen der einzelnen Modi in Skripte an, die auf einer abstrakteren Ebene als Transskripte zusammengefügt werden. Folgende Forschungsfragen ergeben sich aus diesen unterschiedlichen Ansätzen. 1. Mit Blick auf die einzelnen Zeichenmodalitäten: a) Welche semiotischen Ressourcen (Farbe, Form, Linie, Geräusch etc.) werden für welche Modi (Bewegt-)Bild, Sound, Typografie/Interfacedesign, Schrift-/ gesprochene Sprache genutzt? 

Websites als multimodale digitale Texte 

 427

b) Welche kontextbezogenen Bedeutungen sind mit den genutzten Modi nahegelegt? 2. Mit Blick auf die Multimodalität: a) Welche Zugehörigkeiten und Abgrenzungen ergeben sich durch die Positionierung und das Arrangement der semiotischen Ressourcen auf der Fläche und/oder im audiovisuellen Text? b) Welche Bedeutungspotenziale ergeben sich durch Korrespondenzen zwischen Interfacedesign, Audiovisualität und (animierter) Verlinkung? c) Inwiefern werden die verschiedenen Modi im Rezeptions- bzw. Kommunikationsprozess zusammenhängend wahrgenommen und rezeptionssituativ in bedeutungsstiftende Beziehung gesetzt? d) Wie machen sich die einzelnen Modi gegenseitig les- bzw. verstehbar? e) Welche kommunikative Gesamtfunktion hat das multimodale Kommunikat? 3. Mit Blick auf die Hypertextualität und Interaktivität: a) Welche hypertextuelle Linkstruktur ist mit dem Kommunikat realisiert, bzw. wie sieht die Site-Map der Website aus? b) Welche interaktiven Anwendungen beinhaltet die Website, und welchen kommunikativen Funktionen dienen sie? c) Welche möglichen kollaborativen Beteiligungen zur Modifikation des Siteinhalts und ihrer Linkstruktur sind vorhanden, und welchen kommunikativen Funktionen dienen sie?

4 Forschungsstand und Ausblick Die durch Verlinkung technisch vernetzten, modularisierten und multimodalen Webseiten (Lexias) haben eine kommunikative Gesamtfunktion (z. B. als Nachrichtenportal, Unternehmens-Auftritt). Die einzelnen Texte lassen sich dabei nach bestimmten kommunikativen Handlungsmustern einordnen (z. B. als Nachrichtentext, ImageText). Somit bestehen Funktionstypologien auf zwei Ebenen. Zum einen richtet sich die Produktion und Rezeption der einzelnen Texte nach den kommunikativen Mustern von Web-Auftritten allgemein (z. B. der Nachrichtenkommunikation). Zum anderen ist die Nutzung der Einzeltexte durch bestimmte Konventionen geprägt, die sich in die Gesamtfunktion der Site einordnen lassen (z. B. Informieren, Kommentieren, Zeigen, Belegen). Zur Typologisierung digitaler Kommunikation eignet sich der Genre-Begriff. Grund dafür ist seine Offenheit, die ihn auf den unterschiedlichen Ebenen anwendbar macht. Seine sozialsemiotische Spielart nimmt zudem die durch die Kommunikationsform medial ermöglichte Multimodalität auf der interaktionalen Handlungsebene auf (Bateman 2008, 10; Kress 2010, 172 f.). Genres sind demnach sozial konstituierte Muster, nach denen sich Produktion und Rezeption von kommunikativen Handlun-



428 

 Stefan Meier

gen richtet, um kommunikative Probleme zu lösen und Verständigung herzustellen. Sie stellen den musterhaften Umgang mit semiotischen Ressourcen dar, die durch kommunikative Erfahrungen in bestimmten (medialen) Handlungs- und Diskurskontexten geprägt sind. Die Fülle möglicher Kommunikationsanlässe und die medienwandelbedingte Dynamik machen eine stabile Genre-Typologisierung des elektronischen Textes bzw. der Website weiterhin schwierig. Typen von Websites werden nach Beck (2006, 59 ff.) entweder kommunikatorzentriert, kommunikationsfunktional oder nutzerzentriert gebildet. Eine kommunikatorzentrierte Betrachtung fokussiert online-kommunikative Identitätskonstruktionen, die zur Genre-Einteilung persönliche und nicht-persönliche Auftritte geführt haben. Hier stehen die sozialpsychologischen Motivationen im Vordergrund (Döring 2003 u. 2010). Kommunikationsfunktionale Betrachtungsweisen schauen eher auf die musterhafte Nutzung und Funktionen semiotischer Ressourcen. Nutzerzentrierte Klassifikationen beruhen auf der Einschätzung von Produzenten und Rezipienten, deren Einteilung auf dem alltäglichen Umgang mit Websites bzw. Online-Kommunikation aufbaut. Aus dieser Perspektive ist die Kategorisierung von Brandl (2002, 154) relevant. Die Einteilung basiert auf Expertenbefragungen, also Web-Produzenten. Diese sehen folgende Genres im Netz verwirklicht: – Portale (als Verweis-Dienste zur Orientierung, Information und Zugang zu anderen Kommunikationsfunktionen- und diensten) – Firmenpräsentationen (mit dem Fokus auf die Selbstdarstellung der Unternehmen) – Medien-Angebote (mit der primären Informationsfunktion vergleichbar mit den Offline-Nachrichten-Angeboten) – E-Commerce-Angebote (für Verkauf und Verkaufsvermittlung) – Organisationspräsentationen (mit organisationsspezifischen Themen) Ebenfalls aus Produzentensicht schlagen Farkas/Farkas (2002) eine Kategorisierung vor, die durch die Handlungstypen Bildung, Unterhaltung, Persuasion, CommunityBildung und persönliche Darstellung ergänzt ist. Jacobs (2009, 366) bestimmt Website-Genres allgemeiner. Demnach bilden sie bestimmte kommunikative Problemlösungsmuster. Sie beschreibt diese erstens als thematische Muster. Hierbei wird auf die zumeist ‚mehr-thematische‘ Konstitution der Websites hingewiesen, die hierarchisch als Textmodule geordnet sind. Zweitens liegen Strukturmuster vor, die als Ordnungszeichen die Oberfläche strukturieren und die Trennung zwischen interne und öffentliche Kommunikationsbereiche der Website markieren. Drittens lassen sich Handlungsmuster feststellen. Diese sind zum einen auf der Website- sowie auf der Einzeltext-Ebene verwirklicht. Die Website Wikipedia lässt sich beispielsweise im Gesamt als Enzyklopädie betrachten. Die Einzeltexte selbst bilden Lemmata zu bestimmten Stichwörtern. Schließlich bieten Formulierungsmuster und Visualisierungsmuster Anhaltspunkte für bestimmte kommuni-



Websites als multimodale digitale Texte 

 429

kative Funktionalitäten wie ‚klick hier‘ oder ‚mehr…‘. Bilder sind in Verbindung mit Sprachtext zu decodieren. Beispielhaft wären Infografiken, beschriftete Bilder etc. Meier (2208, 302ff) schlägt eine Einteilung von Websites vor, die auf verschiedene Handlungstypen abzielen. Die Einteilung richtet sich nach der jeweils dominanten. Folgende Typen lassen sich so bestimmen: 1. Nachrichtenorientierte Websites 2. Imageorientierte Websites 3. Kampagnenorientierte Websites 4. Plattform- bzw. portalorientierte Websites Kriterien für die Einordnung in die jeweiligen Kategorien bilden die kommunikative Handlung, die Rubriken-, die Oberflächengestaltung und Bildverwendung. Nachrichtenorientierte Websites sind prototypische journalistische Angebote, die durch ständig aktualisierten Contentwechsel über das politische, kulturelle, wirtschaftliche, soziale und sportliche Geschehen berichten und es kommentieren etc. Sie sind in ihren Rubriken an den Ressorts von Print-Zeitungen orientiert (z. B. Politik, Wirtschaft etc.). Das Screendesign wandelt sich zunehmend von der Drei-SäulenStruktur zur Ein- bis Zwei-Säulen-Struktur. Auch ein Trend zur ‚Kachel-Struktur‘ (s. netzeitung.de) lässt sich feststellen. Am Kopfende ist die publizistische Marke aufgeführt. Darunter folgt das Hauptmenü. Der mittige Content-Teil wird mit Schlagzeile, einem größeren Bild und darunter platziertem Teaser bzw. Bildunterschrift zu einer Titelgeschichte eröffnet. Es folgen untereinander kleinere Sprache-Bild-Einheiten. Sogenannte Thumbnails sind mit Teasertext kombiniert und mit einem entsprechenden Volltext verlinkt. Bilder dienen als (symbolische bzw. konzeptuelle) Schlüssel zu den Themen, als Dokumentationen, als Veranschaulichung und Eye-Catcher. Prototypen: New York Times, spiegel-online, tageschau.de, netzeitung.de. Imageorientierte Websites dienen der Vorstellung und (Selbst)Darstellung einer Einzelperson, einer Institution, eines Unternehmens etc. Hier ist die persönliche Homepage bzw. der Blog ebenso angesiedelt wie berufliche Auftritte von Selbstständigen, Klein- und mittleren Unternehmen sowie Image-Präsentationen von Konzernen. Die Startseite enthält häufig eine Begrüßung. Die weiteren Texte stellen Interessen, Ziele, Leitbilder, Tätigkeiten und möglicherweise das Produktportfolio der SiteBetreiber vor. Sie wenden sich an Bekannte, Branchenmitglieder, Kunden, Medien und Öffentlichkeit und sind dabei um ein positives Fremdbild bemüht. Die Rubriken können je nach Betreiber wechseln. Häufig findet man biografische und porträthafte Informationen unter ‚Wir‘ oder der Abkürzung des Betreibernamens sowie Adressen und/oder E-Mail-Kontaktangaben. Größere Firmen bedienen die Presse mit speziellem PR-Material unter einer entsprechenden Rubrik. Auch ‚Aktuelles‘ kann konkrete Firmen- und Institutionsaktivitäten und Veranstaltungen enthalten. Bilder zeigen zumeist über Konzept- und Symbolbilder Elemente des Grundverständnisses bzw. der Aktivität des Betreibers. Auch Gebäude von Institutionen und die Person selbst



430 

 Stefan Meier

können als Identifikationsbilder dienen. Hinzu kann Produktfotografie treten. Prototypen: schmidtmitdete.de, spd.de, uni-tuebingen.de, siemens.com. Kampagnenorientierte Websites fokussieren ein Thema, ein Ereignis, ein Produkt. Sie sind als medienstrategische Handlungen zur Beeinflussung, Mobilisierung bzw. Initiierung bestimmter Handlungen wie Kauf, Stimmabgabe, Demonstrationsteilnahme, Unterschrift, Weiterleitung bzw. Bekanntmachung eingesetzt. Politische Akteure nutzen entsprechende Websites als Elemente zumeist crossmedialer Kommunikation, um ein bestimmtes Thema auf die Agenda zu bringen. Kampagnen sind zeitlich begrenzt, sie bilden eine situations- bzw. diskursmotivierte Kommunikationsinitiative zur zielorientierten Beeinflussung der öffentlichen Meinung. Entsprechend suggestiv sind die Texte verfasst. Sie dienen der Überzeugungsarbeit, versuchen die dargestellte Position und Perspektive zu erklären, zu legitimieren und deren Berechtigung zu belegen. Rubriken stellen das Thema dar, rufen auf zu Aktionen und Veranstaltungen und dokumentieren sie, weisen auf Unterstützer und Initiatoren hin, geben Beteiligungs- und Kontaktmöglichkeiten und bieten eventuell Downloads für weitere Werbemittel. Bildlich zeigen sie Gegenstände der Kampagne, Bildmetaphern und nicht selten narrative Bildkompositionen, Flyer und Plakatgrafiken. Aktionen können bildlich in Einzelbildern und Bildgalerien dokumentiert sein. Prototypen: wind-ist-kraft.de, gib-aids-keine-chance.de, apple.com/de/ipad/. Portal- bzw. plattformorientierte Websites bilden den heterogensten Typus. Hierunter vereinen sich technische und kommunikative Infrastrukturen zur themen- und interessenorientierten Vernetzung, Dienstleitung und Interaktion. E-Commerce-Portale wie Amazon und eBay ermöglichen Produktinformationen, Kauf- und Verkaufsaktivitäten. Kommunikationsportale wie Google, GMX, web.de und Yahoo bieten Such-, Nachrichten-, E-Mail-, Social Media und Host-Angebote. Hinzu kommen Special Interest-Auftritte (zur Fotografie z. B. Flickr, fotocommunity.de) zur Information und Austausch über bestimmte Gegenstands- und Themenbereiche. Letztere fungieren nicht selten der Community-Bildung für bestimmte Fachdiskurse. VideoPortale wie Youtube, Vimeo und Dailymotion bieten technische Infrastrukturen zur Ermöglichung eines audiovisuellen Personal Publishing. Sie stellen kommunikative Zentren zur Veröffentlichung individueller One-to-many-Kommunikation dar, dienen als mediale Archive zur Zweitverwertung und allgemein zugänglicher Speicherung von gesendeten Fernsehformaten und Filmen. Auch die illegal nutzbaren DownloadPortale für Musik, Serien und Film fallen unter diesen Website-Typus. Durch seine Heterogenität weist er keine einheitliche Oberflächenstruktur auf. Der Typus setzt sich unter einem grafischen Identifikationsbereich am oberen Rand aus kleineren Sprache-Bild-Modulen zusammen, die über den jeweils verlinkten Inhalt bzw. die mögliche Funktion informieren. Auch die Bildverwendung spannt sich von individuellen Profilbildern über Produkt- und Symbolbildern bis zu pars-pro-toto-Ausschnitten verlinkter Inhalte sowie Infografiken. Die dargestellte Entgrenzung digitaler Textlichkeit beruht auf (maximaler) Multimodalität, Non-Linearität/Hypertextualität, Reaktivität/Interaktivität und Digitali

Websites als multimodale digitale Texte 

 431

tät. Sie ruft eine besondere Konzeptualisierung und Analysepraxis hervor, um dieser Komplexität des kommunikativen Zeichenhandelns gerecht zu werden. In letzter Zeit unterliegt die Online-Kommunikation zudem einer verstärkten Mobilisierung und Personalisierung. Klassische Desktop-Anwendungen werden durch eine gesteigerte Nutzung von unterschiedlichen Endgeräten wie Smartphones und Tabletcomputern flankiert. Dies bewirkt eine weitere Flexibilisierung der kommunikativen Gestaltung und Nutzung der Website. Durch die Bandbreite an unterschiedlichen Darstellungsmedien differenzieren sich auch die Oberflächenstrukturen als Folge situativer Nutzung weiter aus. So zeigen News-Auftritte wie spiegel.de oder tagesschau.de in ihrer mobilen Ausgabevariation eine dem Smartphone angeglichene vertikale Ausrichtung, während ihre Desktop-Formatierung weiterhin horizontale Säulen- bzw. Itemanordnungen anbietet. Mit der App-Technologie haben sich zudem weiter personalisierte Oberflächenund Inhaltsstrukturen etabliert. Nutzer stellen sich ihre persönlichen Netzkommunikate zusammen. Gleichzeitig nutzen sie die und andere Apps zur eigenen interpersonalen und one-to-many-Kommunikation. So bildet das WWW samt der dort publizierten Website immer weniger eine mediale Infrastruktur, in der feste WebsiteFormate abgelegt sind, sondern eine Netzstruktur zur Verbindung individueller Produktions- und Darstellungsmedien. Ferner wird durch die zunehmende Textproduktion mit Hilfe von Contentmanagementsystemen die Multimodalität elektronischer Texter immer stärker datenbank- und softwareseitig vorstrukturiert. Die inhaltliche Pflege von inter- und intranetveröffentlichten Websites, Weblogs, Wiki-Angeboten und Social Networks ist damit von der Praxis des Screendesigns, der Bildinszenierung und typgrafischen Gestaltung zunehmend getrennt. Solche Entwicklungen machen eine stärker medientechnologisch informierte und transmedial ausgerichtete Multimodalitätsforschung nötig. Analysen können sich nicht mehr auf die einmalige Darstellung von Websites beschränken, sondern müssen diese in unterschiedlichen Ausgabemedien und im transmedialen Verbund mit korrespondierenden Print- und weiteren elektronischen Medien wie Fernsehen oder öffentlichen Infoscreens betrachten. Dabei wird sich der Blick auch auf die Produktions- und Rezeptionsprozesse richten müssen. Prototypische Bedeutungszuschreibungen von elektronischen Texten lassen sich immer schwieriger bestimmen, je flexibler ihre Erstellung, Modifikation und Nutzung in der Praxis ist. Dieser Flexibilisierung kann mit einer verstärkten Perspektivierung der zugrundeliegenden Produktions- und Rezeptionspraktiken begegnet werden, indem ethnografische Methoden der teilnehmenden Beobachtung und Interviews mit prototypischen Nutzern die ‚klassische Textanalyse‘ ergänzen.



432 

 Stefan Meier

5 Literatur Androutsopoulos, Jannis (2013): Code-switching in computer-mediated communication. In: Susan Herring/Dieter Stein/Tuija Virtanen (eds.): Pragmatics of Computer-mediated Communication. Berlin/Boston, 667–694. Androutsopoulos u. a. (Hg.) (2007): Neuere Entwicklungen in der linguistischen Internetforschung. Zweites internationales Symposium zur gegenwärtigen linguistischen Forschung über computervermittelte Kommunikation. Hildesheim/Zürich/New York. Baron, Naomi S. (2008): Always on. Language in an online and mobile world. Oxford. Bateman, John A. (2008): Multimodality and Genre. A Foundation for the Systematic Analysis of Multimodal Documents.New York. Beaugrande, De Robert-Alain/Wolfgang Dressler (1981): Einführung in die Textlinguistik. Tübingen. Beck, Klaus (2006): Computervermittelte Kommunikation im Internet. Aufl., München. Beißwenger, Michael (2002): Getippte “Gespräche” und ihre trägermediale Bedingtheit. Zum Einfluß technischer und prozeduraler Faktoren auf die kommunikative Grundhaltung beim Chatten. In: Ingo W. Schröder/Stéphane Voell (Hg.): Moderne Oralität. Marburg, 265–299. Beißwenger, Michael (2007): Sprachhandlungskoordination in der Chat-Kommunikation. Berin/New York. Bittner, Johannes (2007): Textdesign in digitalen Medien. Das Beispiel World Wide Web. In: Kersten Sven Roth/Jürgen Spitzmüler (Hg.): Textdesign und Textwirkung in der massenmedialen Kommunikation. Kosntanz, 225–246. Brandl, Annette (2002): Webangebote und ihre Klassifikation. Typische Merkmale aus Experten- und Rezipientenperspektive. München. Brinker, Klaus (2001): Linguistische Textanalyse, Eine Einführung in Grundbegriffe und Methoden. 5., durch-gesehene und ergänzte Aufl., Berlin. Bucher, Hans-Jürgen (1998): Vom Textdesign zum Hypertext. Gedruckte und elektronische Zeitungen als nicht-lineare Medien. In: Werner Holly/Bernd Ulrich Biere (Hg.): Medien im Wandel. Opladen, 63–102. Bucher, Hans-Jürgen (2007): Textdesign und Multimodalität. Zur Semantik und Pragmatik medialer Gestaltungsformen. In: Kersten Sven Roth/Jürgen Spitzmüller (Hg.): Textdesign und Textwirkung in der massenmedialen Kommunikation. Konstanz, 49–76. Bucher, Hans-Jürgen (2009): Das Internet als Netzwerk des Wissens. Zur Dynamik und Qualität von spontanen Wissensordnungen im Web 2.0. In: Heiner Fangerau/Thorsten Halling (Hg.): Netzwerke. Allgemeine Theorie oder Universalmetapher in den Wissenschaften? Ein transdisziplinärer Überblick. Bielefeld, 133–171. Bucher, Hans-Jürgen (2011): Multimodales Verstehen oder Rezeption als Interaktion. Theoretische und empirische Grundlagen einer systematischen Analyse der Multimodalität. In: Hajo Dieckmannshenke/Michael Klemm/Hartmut Stöckl (Hg.): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin, 123–156. Bucher, Hans-Jürgen (2013): Online-Diskurse als multimodale Netzwerk-Kommunikation. Plädoyer für eine Paradigmenerweiterung. In: Claudia Fraas/Stefan Meier/Christian Pentzold (Hg.): Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln, 57–101. Bucher, Hans-Jürgen/Thomas Gloning/Katrin Lehnen (Hg.) (2010): Neue Medien – neue Formate. Ausdifferenzierung und Konvergenz in der Medienkommunikation. Frankfurt a. M./New York. Burger, Harald/Martin Luginbühl (2005): Mediensprache. Eine Einführung in Sprache und Kommunikationsformen der Massenmedien. Berlin/New York. Chiew, Athur Kok Kum (2004): Multisemiotic mediation in hypertext. In: Kay L. O’Halloran (ed.): Mutimodal Discourse Analysis. London/New York, 131–162.



Websites als multimodale digitale Texte 

 433

Chouliaraki, Lillie/Norman Fairclough (1999): Discourse in Late Modernity. Rethinking Critical Discourse Analysis. Neuauflage., Edinburgh. Diekmannshenke, Hajo (2002): Die Spur des Internetflaneurs – Elektronische Gästebücher als neue Kommunikationsform. In: Caja Thimm (Hg.): Soziales im Netz. Sprache, Beziehungen und Kommu-nikationskulturen im Internet. Opladen, 131–155. Diekmannshenke, Hajo/Michael Klemm /Hartmut Stöckl (Hg.) (2011): Bildlinguistik. Theorien – Methoden – Fallbeispiele. Berlin. Domke, Christine (2007): Werbung, Wahlkampf, Weblogs – Zur Etablierung einer neuen Kommunikationsform. In: Stefan Habscheid/Michael Klemm (Hg.): Sprachhandeln und Medienstrukturenin der politischen Kommunikation. Tübingen, 335–353. Döring, Nicola (2003): Sozialpsychologie des Internet. Die Bedeutung des Internet für Kommunikationsprozesse, Identitäten, soziale Beziehungen und Gruppen. 2., vollst. überarb. und erw. Aufl. Göttingen u. a. Döring, Nicola (2010): Sozialkontakte online. Identitäten, Beziehungen, Gemeinschaften. In: Wolfgang Schweiger/Klaus Beck (Hg.): Handbuch-Onlinekommunikation. Wiesbaden, 159–183. Dürscheid, Christa (2005): Medien, Kommunikationsformen, kommunikative Gattungen. In: Linguistik online 22 (1/05). Farkas, David. K./Jean. B. Farkas (2002): Principles of Web design. New York. Fillmore, Charles J. (1982): Frame Semantics. In: Korea, Linguistic Society of (Hg.): Linguistics in the Morning Calm. Seoul, 111–137. Fix, Ulla (2007): Stil – ein sprachliches und soziales Phänomen. Beträge zur Stilistik. Berlin. Fraas, Claudia (2013): Frames – ein qualitativer Zugang zur Analyse von Sinnstrukturen in der Online-Kommunikation. In: Barbara Job/Alexander Mehler/Tilman Sutter (Hg.): Die Dynamik sozialer und sprachlicher Netzwerke. Wiesbaden, 259–283. Fraas, Claudia/Stefan Meier (2011): Multimodalität und Frame. Skizze einer Online-Diskursanalyse. In: Mitteilungen des Deutschen Germanistenverbandes 3 (58), 238–248. Fraas, Claudia/Stefan Meier (2012): Multimodale Stil- und Frameanalyse – Methodentriangulation zur medienadäquaten Untersuchung von Online-Diskursen. In: Kersten Roth/Carmen Spiegel (Hg.): Angewandte Diskurslinguistik. Felder, Probleme, Perspektiven. Berlin, 135–162. Köln. 258–284. Fraas, Claudia u. a. (2013b): Diskursmuster Diskurspraktiken. Ein Methodeninstrumentarium qualitativer Sozialforschung. In: Claudia Fraas/Stefan Meier/Christian Pentzold (Hg.): OnlineDiskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln, 102–135. Fraas, Claudia/Michael Klemm (Hg.) (2005): Mediendiskurse. Bestandsaufnahme und Perspektiven. Berlin. Fraas, Claudia/Stefan Meier/Christian Pentzold (Hg.) (2013): Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln. Gross, Sabine (1994): LeseZeichen. Kognition, Medium und Materialität im Leseprozeß. Darmstadt. Habscheid, Stephan (2000): ‚Medium’ in der Pragmatik. Eine kritische Bestandsaufnahme. In: Deutsche Sprache 2, 126–143. Habscheid, Stephan (2005): Das Internet – ein Massenmedium? In: Torsten Siever/Peter Schlobinski/Jens Runkehl(Hg.): Websprache.net. Sprache und Kommunikation im Internet. Berlin/New York, 46–66. Habscheid, Stephan (2011): Das halbe Leben. Ordnungsprinzipien einer Linguistik der Kommunikation. In: Stephan Habscheid (Hg.): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York, 3–29. Hausendorf, Heiko/Wolfgang Kesselheim (2008): Textlinguistik fürs Examen. Göttingen. Hickethier, Knut (2010): Einführung in die Medienwissenschaft. 2. Aufl., Stuttgart/Weimar. Hodge, Robert/Gunther Kress, (1999): Social Semiotics. 4. Aufl., Cambridge.



434 

 Stefan Meier

Holly, Werner (2011): Medien, Kommunikationsformen, Textsortenfamilien. In: Stephan Habscheid (Hg.): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York, 144–163. Holly, Werner/Ulrich Püschel/Jörg R. Bergmann (Hg.) (2001): Der sprechende Zuschauer. Wie wir uns Fernsehen kommunikativ aneignen. Wiesbaden. Jacobs, Eva-Maria (2004): Hypertextsorten. In: Zeitschrift für germanistische Linguistik (ZGL) 31 (2), 232–252. Jacobs, Eva-Maria (2009): Hypertext and the evolution of website genres. In: Charley Rowe/Eva L.Wyss (eds.): Language and New Media. Linguistic, Cultural, and Technological Evolutions. New York, 355–373. Jewitt, Carey (2012): Technology, Literacy, Learning. A Multimodal Approach. 2. Aufl., London/New York. Krämer, Sybille (2004): Was haben ‚Performativität‘ und ‚Medialität‘ miteinander zu tun? Plädoyer für eine in der ‚Aisthetisierung‘ gründende Konzeption des Performativen. In: Sybille Krämer (Hg.): Performativität und Medialität. München, 13–32. Kress, Gunther (2009): What is a Mode?. In: Carey Jewitt (ed.): Handbook of Multimodal Analysis. London/New York, 54–67. Kress, Gunther (2010): Multimodality. A Social Semiotic Approach to Contemporary Communication. London/New York. Kress, Gunther/Theo van Leeuwen, (2001): Multimodal Discouse. The Modes and Media of Contemporary Communication. 1. Aufl., London. Kress, Gunther/Theo van Leeuwen (2006): Reading Images. The Grammar Of Visual Design. 2. illustrierte Neuauflage, London. Leeuwen, Theo van (2005): Introducing Social Semiotics. 1. Aufl., New York. Leeuwen, Theo van (2006a): Towards a semiotics of typography. In: Information Design Journal + Document Design, 14 (2), 39–55. Leeuwen, Theo van (2006b): Critical discourse analysis. In: Kieth Brown (Hg.): Encyclopedia of Language and Linguistics. Oxford, 220–294. Lemke, J. Lay (2002): Travels in hypermodality. In: Visual Communication 1 (3), 299–325. Luhmann, Niklas (2009): Die Realität der Massenmedien. 4. Aufl., Wiesbaden. Maiorani, Arianna (2010): Hyper-discourse and commercial strategies. The Matrix website example. In: Elizabeth Swain (Hg.): Thresholds and Potentialities of Systemic Functional Linguistics. Applications to Other Disciplines, Specialised Discourses and Languages Other than English. Triest, 206–226. Matthes, Jörg (2007): Framing-Effekte. Zum Einfluss der Politikberichterstattung auf die Einstellungen der Rezipienten. , München. Meier, Stefan (2007): ‘STYLELIFE’. Grafitti als typografisches Ausdrucksmittel sozialen Stils. In: Eva Kimminich u. a. (Hg.): Expressyourself! Europas kulturelle Kreativität zwischen Markt und Underground. Bielefeld, 193–208. Meier, Stefan (2008): (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. 1. Aufl., Köln. Meier, Stefan (2009): Graffiti meets web 2.0 – Politik und Synergie zweier kollaborativer Netzwerke. In: Eva Kimminich (Hg.): Utopien, Jugendkulturen und Lebenswirklichkeiten. Berlin/New York, 221–240. Meier, Stefan (2010): ‚Share your Fotos. Watch the world‘- Zur Nutzung und Konventionalisierung von Fotografie als Mittel visueller Imagekonstruktion im Social Web. In: Ernest W. B. Hess-Lüttich u. a. (Hg.): Zeichenmaterialität, Körpersinn und (sub)kulturelle Identität. Tübingen, 187–198.



Websites als multimodale digitale Texte 

 435

Meier, Stefan (2012): Visuelle Stilanalyse. Methodisch-methodologische Vorschläge zur Untersuchung identitätsstiftender Bildinszenierungen. In: Stephanie Geise/Katharina Lobinger (Hg.): Bilder, Kulturen, Identitäten. Köln, 256–284. Meier, Stefan (2014): Visuelle Stile. Zur Sozialsemiotik visueller Medienkultur und konvergenter Designpraxis. Bielefeld. Minsky, Marvin (1975): A framework for representing knowledge. In: Patrick H. Winston (ed.): The Psychology of Computer Vision. New York, 211–278. Müller, Marion G. (2011): Ikonografie und Ikonologie, visuelle Kontextanalyse, visuelles Framing. In: Thomas Petersen/Clemens Schwender (Hg.): Die Entschlüsselung der Bilder. Methoden zur Erforschung visueller Kommunikation. Köln, 28–55. Pauwels, Luc (2012): A Multimodal Framework for Analyzing Websites as Cultural Expressions. In: Journal of Computer-Mediated Communication 17 (3), 247–265. Pentzold, Christian/Claudia Fraas/Stefan Meier (2013): Online-mediale Texte: Kommunikationsformen, Affordanzen. In: Zeitschrift für germanistische Linguistik (ZGL) 41 (1), 81–101. Perrin, Daniel (2011): Medienlinguistik. 2. Aufl.: Konstanz. Posner, Roland (1986): Zur Systematik der Beschreibung verbaler und nonverbaler Kommunikation. Semiotik als Propädeutik der Medienanalyse. In: Hans-Georg Bosshard (Hg.): Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann. Berlin/New York, 267–313. Schlobinski, Peter (2005): Editorial. In: Torsten Siever/Peter Schlobinski/Jens Runkehl (Hg.): Websprache.net. Sprache und Kommunikation im Internet. Berlin/New York, 1–14. Schmitz, Ulrich (2004): Sprache in modernen Medien. Einführung in Tatsachen und Theorien, Themen und Thesen. Berlin. Schmitz, Ulrich (2007): Sehlesen. Text-Bild-Gestalten in massenmedialer Kommunikation. In: Kersten .S. Roth/Jürgen Spitzmüller (Hg.): Textdesign und Textwirkung in der massenmedialen Kommunikation. Konstanz, 93–108. Sommer, Vivien/Fraas, Claudia/Meier, Stefan/Pentzold, Christian (2013a): Qualitative OnlineDiskursanalyse. Werkstattbericht eines Mixed-Method-Ansatzes zur Analyse multimodaler Deutungsmuster. In: Claudia Fraas/Stefan Meier/Christian Pentzold (Hg.): Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Spitzmüller, Jürgen (2010): Typografische Variation und (Inter-)Medialität. Zur kommunikativen Relevanz skripturaler Sichtbarkeit. In: Arnulf Deppermann/Angelika Linke (Hg.): Sprache intermedial. Stimme und Schrift, Bild und Ton. Berlin/New York, 97–126. Steinseifer, Martin (2011): Die Typologisierung multimodaler Kommunikation. In: Stephan Habscheid (Hg.): Textsorten, Handlungsmuster, Oberflächen. Linguistische Typologien der Kommunikation. Berlin/New York, 164–189. Stöckl, Hartmut (2004a): Die Sprache im Bild – Das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Konzepte, Theorien, Analysemethoden. Berlin/New York. Stöckl, Hartmut (2004b): Typographie. Körper und Gewand des Textes. Linguistische Überlegungen zu typographischer Gestaltung. In: Zeitschrift für Angewandte Linguistik (ZfAL) 41, 5–48. Stöckl, Hartmut (2007): Hörfunkwerbung – >>Kino im Ohr