wird zwar je nach Schultyp und Studienrichtung Visualisierungskompetenz erwartet und gefordert – so werden etwa Grafiken und Tabellen für die Visualisierung von Forschungsergebnissen, Mindmaps für die Ideenfindung verlangt (vgl. Schmohl in diesem Band) –, aber meist nicht explizit vermittelt (vgl. Kellerhals & Rast in diesem Band).
Für die Vermittlung von adäquater Schreibkompetenz braucht es also einen angepassten Textbegriff, den multimodalen Text, und ein angepasstes Kompetenzmodell für das Verfassen und Rezipieren von Texten, eine multimodal literacy bzw. eine multimodale Textkompetenz, wie sie von Weidacher (2007) in die deutsche Diskussion eingeführt worden ist (vgl. auch Stöckl 2011, S. 45). In die Modellierung einer solchen multimodalen Textkompetenz müsste schließlich auch die heute geforderte digitale Textkompetenz (Frederking & Krommer 2019) eingehen. Darüber hinaus wird für die Vermittlung in der Schule und Hochschule eine Metasprache notwendig, die es Lehrenden sowie Schülerinnen/Schülern und Studierenden erlaubt, Multimodalität überhaupt erst zu thematisieren (Papadopoulou et al. 2018, S. 318; vgl. auch Archer in diesem Band).
Begriffsklärung und Forschungsüberblick
Die oben geschilderten Phänomene werden seit über 20 Jahren unter dem Begriff Multimodalität gefasst und in verschiedenen Disziplinen erforscht. Bevor das Forschungsfeld Multimodalität umrissen wird, sollen zunächst die Begriffe Multimodalität und Modalität näher geklärt werden.
Eine basale Definition von Multimodalität fasst multimodale Kommunikation als ein Interagieren mittels Texten, die Zeichen mindestens zweier Modalitäten strukturell und funktional, d.h. mit kommunikativer Absicht integrieren (vgl. Stöckl 2016, S. 88, S. 93; Bucher 2007, S. 53). Mit Modalität sind dabei vereinfacht gesagt Zeichentypen wie Schrift, Bild, Ton, aber auch zum Beispiel Elemente des Textdesigns wie Schriftfarben oder Schriftarten gemeint (vgl. z.B. Bucher 2011a, S. 123). In der angelsächsischen Social Semiotics werden diese Zeichentypen auch oft Zeichenressourcen genannt, um zu betonen, dass die Bedeutung eines Zeichens nicht vorgegeben ist, sondern erst im Gebrauch konstruiert wird (van Leeuwen 2005, S. 3).
Die nähere Betrachtung des Begriffs Modalität offenbart freilich dessen Komplexität und eine eindeutige Begriffsdefinition bzw. eine möglichst trennscharfe Beschreibung einzelner Modalitäten stellt für die Multimodalitätsforschung eine kontinuierliche Herausforderung dar. Stöckl (2016, S. 95) etwa stellt eine Definition von Zeichenmodalität vor, die sich aus drei Dimensionen speist: aus der sinnlichen Wahrnehmung der Zeichenrezeption (z.B. visueller oder auditiver Kanal), der Medialität des Zeichens (materielle und technische Realisierung) und der Zugehörigkeit zu einem semiotischen Code, d.h. zu einem Zeichensystem mit den Dimensionen Syntax, Semantik und Pragmatik.
Auf der Basis dieses Modalitätsbegriffs geht Stöckl von vier Grundtypen multimodaler Texte aus: Printtext, Audiotext, audiovisueller Text und elektronischer Text (Stöckl 2016, S. 96). Diese sind nach multimodaler Komplexität gestuft und unterscheiden sich grundlegend in der zeitlichen und räumlichen Dimension. Des Weiteren können Modalitäten laut Stöckl (2016; S. 97) autonom sein (Sprache, Bild, Musik) oder von anderen Modalitäten abhängen wie die Schriftgestaltung oder das Textdesign.
Ein so gefasster Modalitätsbegriff ist insbesondere dann fruchtbar, wenn es darum geht, die multimodale Komplexität eines Textes zu fassen, nach dem Beitrag der einzelnen Modi zur Gesamtbedeutung des Textes zu fragen oder das Bedeutungspotenzial zu verstehen, das eine Modalität innerhalb einer kommunikativen Praxis anbietet. Er stößt aber dann an seine Grenzen, wenn es darum geht, verschiedene Modalitäten systematisch voneinander abzugrenzen, wenn diese verschmelzen, z.B. in der Schrift die Modalitäten Sprache und Bild (Stöckl 2016; S. 96), im Gesang die Modalitäten Sprache und Ton.
Den wichtigsten Impuls erhielt die Multimodalitätsforschung in den 80er-Jahren aus den angelsächsischen Social Semiotics, die auf Michael Hallidays Funktionaler Linguistik aufbauen (vgl. zu Social Semiotics z.B. Kress 2010 oder die konzise Übersicht in Jewitt & Henriksen 2016). Im Zentrum der Social Semiotics steht das pädagogische Konzept der Multiliteracies, das von einer angelsächsischen Gruppe von Forschenden aus verschiedenen Disziplinen, der sogenannten New London Group, geprägt wurde (The New London Group 1996), aber im deutschsprachigen pädagogischen Diskurs lange wenig Beachtung fand (vgl. die Übersicht in Küster 2014). Unter dem Begriff Multiliteracies setzte die New London Group einem als veraltet empfundenen, eindimensionalen (monomodalen, monokulturellen) Verständnis von Literalität als Schreib- und Lesekompetenz ein neues Konzept entgegen, das zwei Entwicklungen gerecht werden sollte: den durch neue Kommunikationstechnologien bereits Mitte der 90er-Jahre veränderten Anforderungen an Schreiben und Lesen sowie der im Zuge der Globalisierung und Migration zunehmenden kulturellen und sprachlichen Heterogenität (vgl. zum Konzept Multiliteracies Cope & Kalantzis 2000, Cope & Kalantzis 2009, The New London Group 1996).
In den Social Semiotics wird Multimodalität auf verschiedene Ebenen untersucht (Ledin & Machin (2019, S. 503):
Mikroebene: der konkrete Text in seiner semiotischen Verfasstheit (z.B. eine Werbeanzeige oder ein Meme);
Mesoebene: anerkannte und typische Gebrauchsweisen einer semiotischen Ressource in einem bestimmten Kontext (z.B. wird eine Fotografie in einer Kriegsreportage anders eingesetzt als ein Schnappschuss, der in einem Familien-Chat ausgetauscht wird), sodass die Auswahl und Kombination der semiotischen Ressourcen in einem bestimmten Text vor diesem Hintergrund interpretiert werden müssen (ebd.);
Makroebene: die soziale und kulturelle Tradition, in der ein Text eingebettet ist, die Ressourcen (z.B. Technologien), die für die Textproduktion, -distribution, und -rezeption zur Verfügung stehen, sowie die Praktiken und Werte, die in der Kommunikationsgemeinschaft geteilt werden (ebd.).
Im deutschsprachigen Raum sind es besonders die Text- und Medienlinguistik, die das Thema der Multimodalität aufgegriffen und als konstitutiven Bestandteil der Textkommunikation begriffen haben. Im Fokus der älteren Forschung stand vor allem das Text-Bild-Verhältnis (vgl. etwa Muckenhaupt 1986, Stöckl 1992). Hintergrund dieser Hinwendung zum Bild dürfte der in der Kunstgeschichte und Literaturwissenschaft in den 90er-Jahren vorgenommene iconic bzw. pictorial turn gewesen sein (vgl. Böhm 1995, Mitchell 1994), aus dem heraus eine Bildwissenschaft entstanden ist, die eine wissenschaftliche Auseinandersetzung mit Bildern und deren Bedeutungspotenzial befördert hat (vgl. dazu etwa die Einführung in die Bildlinguistik von Große 2011 oder den Sammelband von Sachs-Hombach 2005). Allerdings haben sich die Linguistik und die Semiotik selbst schon seit längerem mit verschiedenen Zeichentypen – bspw. mit der Unterteilung in verbale, non- und paraverbale Zeichen – und deren Beitrag zur Bedeutungskonstruktion in der Interaktion beschäftigt (vgl. Meier 2011, S. 500). Welche Rolle aber die non- und paraverbalen Zeichen in der Kommunikation konkret spielen und wie sie zur Konstruktion der Botschaft beitragen, wurde lange Zeit zu wenig in der (text-)linguistischen Analyse bedacht (vgl. Stöckl 2016, S. 93).
Die Auseinandersetzung mit der Multimodalität aus text- und medienlinguistischer Perspektive hat in der deutschsprachigen Linguistik neben anderen Hartmut Stöckl vorangetrieben (vgl. etwa Stöckl 2004a, 2004b, 2008, 2011, 2015, 2016). Stöckl hat sich mit Formen und Funktionen multimodaler Texte sowie mit neuen Anforderungen an die Rezeption – und in etwas geringerem Umfang an die Produktion – multimodaler Texte auseinandergesetzt sowie Analysemodelle zur Beschreibung multimodaler Texte sowie «multimodaler Kompetenz» (Stöckl 2011, S. 45) zur Diskussion gestellt. Etliche Einzeluntersuchungen zu verschiedenen multimodalen Gattungen haben mittlerweile diese und verwandte Konzepte angewendet und ausdifferenziert und dabei auch andere Modi in den Blick genommen: so etwa Typografie (Stöckl 2004a, Spitzmüller & Antos 2007, Spitzmüller 2010) bzw. Textdesign (Hackl-Rössler 2006, Bucher 2007, vgl. auch die Beiträge im Sammelband Roth & Spitzmüller 2007) oder Musik und Ton für die Analyse von Musikvideos (Jost, Neumann-Braun & Schmidt 2010).
Die deutschsprachige Forschung konzentrierte sich aber bislang auf einige wenige Kontexte. So gibt es viele Untersuchungen zu multimodalen Texten in den Massenmedien (bspw. Blum & Bucher 1998 zu Zeitungstexten; Luginbühl 2011 und Holly 2011 zu Fernsehnachrichten oder der Sammelband von Roth & Spitzmüller 2007). Zu multimodalen Texten in anderen Kontexten wie etwa den