haben wir schon im Zusammenhang mit dem Konzept der ReliabilitätReliabilität kurz thematisiert (vgl. die Kapitel 4.2.2.1 und 4.2.2.6). Ein konkreter mit der Facette „Beurteilende“ zusammenhängender Fall konstruktirrelevanter Varianz ist z.B. dann gegeben, wenn eine schöne Handschrift systematisch zu einer besseren Bewertung und damit höheren Einschätzung der Schreibkompetenz führt, obwohl Aspekte der Handschrift nicht zum TestkonstruktTestkonstrukt gehören. Man spricht dann auch von einem sogenannten Bias, d.h. von einer systematischen Verzerrung der Prüfungsergebnisse. Konstruktirrelevante Varianz und damit zugleich systematische Verzerrungen lassen sich beim Testen und Prüfen nie gänzlich vermeiden. Es muss allerdings danach getrachtet werden, den Einfluss konstruktirrelevanter Faktoren möglichst gering zu halten.
Im Kapitel 2 „Rahmenbedingungen für das Evaluieren von Schreibkompetenzen“ haben wir bereits Handlungs-, KompetenzKompetenz- und Aufgabenorientierung als grundlegende Prinzipien eines modernen Fremdsprachenunterrichts genannt (vgl. hierzu auch Kapitel 5 „TestkonstruktTestkonstrukt und TestspezifikationenTestspezifikation“). Im Hinblick auf die ValiditätValidität von Prüfungen bedeuten diese Prinzipien u.a., dass die in der Prüfung gezeigte Leistung Rückschlüsse darauf erlauben soll, in welchem Ausmaß Lernende in der Lage sind, ähnliche Situationen auch außerhalb der Prüfungssituation zu bewältigen. Dies heißt, dass auch in einer Prüfung in der Regel konkrete lebensweltliche AufgabenAufgaben zu lösen sind, wie z.B. höfliches Bitten um Informationen in einer Mail.
Weitere wichtige Aspekte der ValiditätValidität von Sprachtests werden im sozio-kognitiven Modell von Cyril J. Weir unterschieden (vgl. Weir, 2005). Dieses häufig zitierte Rahmenmodell, in dem die Sprachverwendenden nicht nur als kognitiv, sondern auch als sozial Handelnde gesehen werden, bildet die Grundlage für die Entwicklung und Validierung der Cambridge English Examinations (vgl. zur Schreibkomponente dieser Prüfungen Shaw & Weir, 2007). In der aktuellen Fassung unterscheidet das sozio-kognitiveValiditätkognitiv Rahmenmodell folgende fünf eng miteinander verbundene Komponenten der Validität: KontextvaliditätValiditätKontextvalidität (context validity), kognitive Validität (cognitive validity), Scoring-ValiditätValiditätScoring-Validität (scoring validity; Validität der Ergebnisermittlung), konsequentielleValiditätkonsequentiell Validität (consequential validity; Testwirkungsvalidität) und kriterienbezogeneValiditätkriterienbezogen Validität (criterion-related validity).
4.2.3.4 KontextvaliditätValiditätKontextvalidität
Die KontextvaliditätValiditätKontextvalidität betrifft die AngemessenheitAngemessenheit der sprachlichen und inhaltlichenInhalt Anforderungen und der Testdurchführung und damit u.a. folgende spezifische Aspekte: Art der Administration einer Schreibaufgabe in der Prüfungssituation, Form der ArbeitsanweisungAufgabenArbeitsanweisung (Testinstruktion) und Situierung, Zeit- und Umfangsvorgaben, Art des Inputs (Bildmaterial, Lesetext, ThemaThemen), Information über BewertungskriterienBeurteilungskriterien. Damit umfasst der Begriff der Kontextvalidität auch das bereits genannte Konzept der InhaltsvaliditätValiditätInhaltsvalidität.
4.2.3.5 Kognitive ValiditätValiditätkognitiv
Die kognitive ValiditätValiditätkognitiv bezieht sich insbesondere auf die Frage, inwieweit die bei der Bearbeitung einer Prüfungsaufgabe zum Schreiben involvierten kognitiven Prozesse mit den kognitiven Prozessen übereinstimmen, die beim Schreiben in den angezielten Verwendungssituationen ablaufen. Dazu gehört z.B. eine situations-, adressaten- und textsortenangemesseneTextsorte Planung des Schreibprozesses (vgl. für eine tiefergehende Diskussion des grundlegenden Konzepts der kognitiven Validität ValiditätkognitivField, 2013).
4.2.3.6 Scoring-ValiditätValiditätScoring-Validität
Das im Hinblick auf die Messung von Schreibkompetenzen wichtige Kriterium der Scoring-ValiditätValiditätScoring-Validität definieren Shaw & Weir (2007, S. 6) unter Bezug auf Weir (2005) dabei folgendermaßen:
Scoring validity is linked directly to both context and cognitive validity and is employed as a superordinate term for all aspects of reliability … Scoring validity accounts for the extent to which test scores are based on appropriate criteria, exhibit consensual agreement in their marking, are as free as possible from measurement error, stable over time, consistent in terms of their content sampling and engender confidence as reliable decision-making indicators.
Scoring-ValiditätValiditätScoring-Validität umfasst damit sowohl Aspekte der ReliabilitätReliabilität als auch der ValiditätValidität (wie z.B. die AngemessenheitAngemessenheit der BewertungskriterienBeurteilungskriterien im Hinblick auf das zu messende Konstrukt).1Reliabilität KontextvaliditätValiditätKontextvalidität, kognitiveValiditätkognitiv Validität und Scoring-ValiditätValiditätScoring-Validität stellen nach Shaw & Weir (2007, S. 7) zentrale Komponenten der KonstruktvaliditätValiditätKonstruktvalidität dar.
Während im argumentbasierten Validierungsmodell von Kane (2012, 2013) die Scoring-Inferenz als einfach und unproblematisch charakterisiert wird, weist Chapelle (2012, S. 23) zu Recht darauf hin, dass im Fall der Messung produktiver sprachlicher KompetenzenKompetenzproduktiv mit Hilfe von PerformanztestsPerformanztest die Art der Punktvergabe von erheblicher Bedeutung im Hinblick auf die Interpretation der Testwerte ist und deshalb die Entwicklung, Implementierung und Rechtfertigung valider Regeln für die Punktvergabe ein anspruchsvoller Prozess sind.
4.2.3.7 Konsequentielle ValiditätValidität
Die konsequentielle ValiditätValiditätkonsequentiell im Sinne von Shaw & Weir (2007) und anderen Autoren bezieht sich u.a. auf die Art der RückwirkungenRückwirkung und Konsequenzen, die der Einsatz von TestaufgabenAufgabenTestaufgaben und die Verwendung der Testergebnisse für die Betroffenen und den Unterricht haben (vgl. hierzu bereits Messick, 1989, 1996, 1998 sowie auch Cheng, Sun & Ma, 2015). Es ist ein erklärtes Ziel z.B. von Cambridge English, mit den angebotenen Prüfungen eine positive RückwirkungRückwirkung (impact; washback/backwash) zu erzielen. Entsprechend werden Konsequenzen und RückwirkungenRückwirkung bereits bei der TestentwicklungTestentwicklung berücksichtigt (im Sinne eines Impact by design) und die tatsächlichen Konsequenzen und RückwirkungenRückwirkung anschließend empirisch untersucht (vgl. Cambridge English Language Assessment, 2013; Jones & Saville, 2016; Saville & Khalifa, 2016). Auf das Kriterium der RückwirkungRückwirkung gehen wir noch genauer in Kapitel 4.2.4.1 ein.
4.2.3.8 Kriterienbezogene ValiditätValidität
Die von Shaw & Weir (2007) und vielen weiteren Autoren genannte kriterienbezogene ValiditätValiditätkriterienbezogen wird anhand eines Vergleichs der Ergebnisse der Lernenden in dem zu validierenden Test mit den Ergebnissen in einem unabhängigen validen Außenkriterium ermittelt (vgl. auch American Eucational Research Association et al., 2014, S. 17f.). Im Fall eines Schreibtests oder auch einer einzelnen Schreibaufgabe kann das externe Kriterium z.B. die Leistung in einem bereits validierten Schreibkompetenztest oder die Ermittlung von Schreibkompetenzen anhand eines als valide erachteten Schreibportfolios sein. Stimmen die Ergebnisse in dem zu validierenden Instrument mit den Ergebnissen im externen Kriterium weitgehend überein, ist dies ein Beleg für die kriterienbezogene ValiditätValiditätkriterienbezogen des zu validierenden Instruments und gegebenenfalls auch für die Gültigkeit der Extrapolationsinferenz. Auch im unterrichtlichen Kontext ist die kriterienbezogene ValiditätValiditätkriterienbezogen durchaus von Bedeutung: Wenn z.B. Schülerinnen und Schüler in einem externen Test wie den Cambridge English Prüfungen oder dem französischen Zertifikatstest DELF deutlich anders in ihren Schreibkompetenzen bewertet werden als bei der Leistungsüberprüfung im Unterricht, dann kann eine Lehrkraft die Ergebnisse im externen Test als Außenkriterium nutzen und sich fragen, ob die im Unterricht eingesetzte Prüfung hinreichend valide (und reliabel) war. Insgesamt gilt, dass es zur Validierung von Sprachtests und SprachtestaufgabenAufgabenTestaufgaben in der Regel einer komplexen, sowohl theoretisch als auch empirisch möglichst breit gestützten Argumentation bedarf. Wir werden auf die