Sie sich mit FachkollegInnen über Tests und Bewertungsmethoden aus.
Wall & Alderson (1993), Cheng, Watanabe & Curtis (2004) sowie Cheng (2008) merken jedoch in ihren Studien und Analysen an, dass ein Washback-Effekt nicht zwangsläufig entstehen muss. Vielmehr obliegt es LehrerInnen und TestexpertInnen systematisch zu untersuchen, ob ein solcher Effekt vorhanden ist und wie dieser zu interpretieren ist.
4.2.3 PraktikabilitätPraktikabilität
Jede Entwicklung, Durchführung und Auswertung von Sprachtests erfordert menschliche, räumliche und/oder finanzielle Ressourcen. Sprachtests müssen daher praktikabel und rentabel sein. Das Gütekriterium der PraktikabilitätPraktikabilität: Kosten-Nutzen-Rechnung: Ein Test ist praktikabel, wenn er nicht mehr Ressourcen in Anspruch nimmt als nötig. ist kaum zu unterschätzen. Bachman & Palmer (2010, 232) definieren Praktikabilität als einfache Gleichung, die ein positives Ergebnis aufweisen sollte: Praktikabilität = verfügbare Ressourcen – benötigte Ressourcen.
Praktikable Tests sind demnach Tests, deren Entwicklung und Verwendung nicht mehr Ressourcen benötigen als vorhanden sind. Ressourcen können dabei sowohl finanzieller, materieller, zeitlicher, personen- oder kompetenzbezogener Natur sein (Bachman & Palmer 2010). Ein Test muss einfach und kostengünstig zu erstellen, zu administrieren, auszuwerten und zu interpretieren sein (Hughes 2003). Das Kriterium der Praktikabilität betrifft beinahe alle Entscheidungen, die im Rahmen der Testerstellung und -durchführung getroffen werden. Dies gilt sowohl im Rahmen von Klassen-/Schularbeiten oder Mitarbeitsüberprüfungen als auch für QualifikationsprüfungenQualifikationsprüfung wie das deutsche Abitur oder die österreichische teilzentrale SRDP. Selbstverständlich ist zu beachten, dass Tests, bei denen mehr für alle Beteiligten auf dem Spiel steht, auch ein größeres Volumen an Ressourcen erfordern dürfen und müssen, als dies bei Klassen-/Schularbeiten der Fall ist, um sicherzustellen, dass die Testgütekriterien der Validität und Reliabilität erfüllt sind (Bachman & Palmer 1996).
Sind Tests nicht praktikabel, werden sie entweder nicht eingesetzt oder sie sind auf Dauer nicht verwend- oder recyclebar (Bachman & Palmer 2010). Die Praktikabilität eines Tests ist schon vor Beginn der Testentwicklung zu bedenken. Sie soll jedoch keine leichtfertige Ausrede für eventuelle Schwächen eines Tests, wie z. B. den Verzicht auf PilotierungPilotierung oder Ähnliches sein. Im schulischen Kontext kann besonders die Arbeit mit FachkollegInnen anderer Klassen helfen, Tests trotz limitierter Ressourcen nach einem Best Practice-Modell zu erstellen und durchzuführen.
4.3 Neuere Konzeptionen
Bei dieser Vielzahl an Kriterien, die zu berücksichtigen sind, wäre es unrealistisch, eine hundertprozentige Umsetzung in allen Bereichen zu erwarten (Bachman & Palmer 1996). Die Überprüfung einer Sprache besteht immer aus Kompromissen, bei denen die einzelnen Kriterien abhängig vom Zweck des Tests/der Prüfung gegeneinander abgewogen werden müssen. Ein Test mit denkbar höchster ValiditätValidität und ReliabilitätReliabilität wird nicht verwendet werden, wenn er beispielsweise nicht praktikabel ist.
Die Konzeptualisierungen all der oben genannten Prinzipien sowie deren Beziehungen zueinander unterlagen über die Jahrzehnte einem ständigen Wandel. Alle Prinzipien eint allerdings die zentrale Rolle der Validität, wie auch immer diese definiert sein mag. So sieht beispielsweise Weir (2005a) eine Rückwirkung aller oben genannten Prinzipien auf die Gesamtvalidität eines Tests und verankert diese terminologisch, indem er sie als „scoring validity“ (= u.a. Reliabilität), „context validity“ (= u.a. AuthentizitätAuthentizität) oder „consequential validity“ (= u.a. WashbackWashback) bezeichnet. Da Validität jedoch ein komplexes und abstraktes Konzept ist, wird der Fokus in neueren Modellen oft weg vom theoretischen Konzept hin zur praktischen Validierung, d.h. der Erbringung empirischer Daten zum Nachweis von Validitätsannahmen, gelegt. In Anlehnung an Toulmins Argumentationsanalyse sprechen diese modernen Modelle von Validitätsargumenten, die schlüssig erbracht werden müssen, um die Qualität von Tests zu belegen. Die Modelle von Kane (2004, 2006, 2012) und Bachman & Palmer (2010) stellen daher die Ziele, die mit der Verwendung eines Tests verfolgt werden, in den Vordergrund. Beide Modelle definieren Validierung als erforderliche Beweislegung für Aussagen und Schlussfolgerungen, die auf der Basis von Testresultaten getätigt werden, um deren Plausibilität transparent zu machen. Obwohl dies im ersten Moment das schwer fassbare Konzept der Validität zu umgehen scheint, fällt bei genauerer Betrachtung auf, dass auch diese Modelle, trotz innovativer Terminologie, die oben diskutierten Kernprinzipien kaum außer Acht lassen können. Für Bachman & Palmers (2010) Kriterien „nutzbringend“, „fair“, „generalisierbar“, „sinnvoll“, „neutral“, „relevant“, „ausreichend“ und „konsistent“ können daher relativ leicht Äquivalente aus den oben erläuterten „traditionellen“ Gütekriterien gefunden werden. Während diese neuen Modelle also zweifelsfrei den Vorteil haben, dass sie methodische und praktische Anliegen in der Validierung ebenso in den Vordergrund rücken wie die Frage nach der beabsichtigten Zielsetzung eines Sprachtests, so kommen sie dennoch nicht ohne die klassischen Kriterien aus.
Arbeitsaufträge und Diskussionsfragen
1 Wie können Sie eine Klassen-/Schularbeit für Ihren Unterricht möglichst durchführungsobjektiv gestalten?
2 Wie würden Sie KollegInnen/SchülerInnen das Testprinzip „Reliabilität“ mithilfe eines praktischen Beispiels aus dem Alltag erklären?
3 Wie verstehen Sie folgendes Zitat aus Kranert (2013, 10)? „Für das nicht formale Prüfen im Rahmen von Schule und Universität, d.h. für nicht standardisierte Prüfungen, ist wichtig, dass ein Test mit geringer Validität und hoher Reliabilität gut für die Differenzierung zwischen den Leistungen von Prüflingen geeignet ist.“ Würden Sie Kranert nach der Lektüre dieses Kapitels zustimmen oder sein Argument widerlegen wollen?
4 Denken Sie an einen Test, den Sie kürzlich erstellt oder durchgeführt haben. Wie schätzen Sie den Washback dieses Tests ein? Bedenken Sie mögliche positive und negative Wirkungen.
5 Überlegen Sie, welche Faktoren bei der Erstellung einer Klassen-/Schularbeit bzw. eines Tests berücksichtigt werden sollen, um dem Prinzip der Authentizität gerecht zu werden. Welche Rolle spielen dabei Alter der Lernenden, ihr Geschlecht, das Vorwissen oder affektive Faktoren?
Weiterführende Literatur
Alderson, J. Ch., Clapham, C. & Wall, D. (1995): „Validation“. In: Language Test Construction and Evaluation. Cambridge: Cambridge University Press, 170–196. Dieses Kapitel in einem der klassischen Einführungswerke zum Sprachtesten gibt einen anschaulichen Überblick über die wichtigsten Arten von Validität inklusive Beispielen aus der Testpraxis und einer Checkliste, mit welchen Forschungsdesigns und -instrumenten diese Validitätsarten untersucht und evaluiert werden können. Sehr gut geeignet für eine erste terminologische Orientierung, auch wenn sich die Ansätze in der Validierungsforschung seit dieser Publikation natürlich weiterentwickelt und zum Teil geändert haben.
Carr, N.T. (2011): „Validation“. In: Carr, N.T.: Designing and Analyzing Language. Oxford Handbooks for Language Teachers. Oxford: Oxford University Press, 151–163. Dieses Kapitel beschreibt kurz die historische Entwicklung des Validitätsbegriffs und stellt gängige Validierungskonzepte dar. Der Fokus liegt dabei auf den derzeit vor allem im amerikanischen Raum prominenten Validitätsargumenten, wie dem Assessment Use-Argument von Bachman und Palmer (2010), und der Wichtigkeit von Entscheidungen und Konsequenzen, die aus Testergebnissen resultieren und daher nach Ansicht vieler TestforscherInnen Teil der Testvalidierung sein sollen.
Fulcher, G. (2010): „Introducing Reliability“. In: Fulcher, G.: Practical Language Testing. London: Hodder Education, 46–59. Dieser Beitrag in einem weiteren aktuellen und praktisch orientierten Standardwerk zur Einführung in das Sprachtesten bietet eine kurze Einführung in das Konzept der Reliabilität und die wichtigsten Faktoren, die diese beeinflussen können. Das Kapitel beinhaltet außerdem eine einfache Anleitung zur händischen Errechnung von Reliabilitätskoeffizienten. Weitere Kapitel im Buch orientieren sich an einzelnen Stadien der Testerstellung