ability). für Fremdsprachen in Österreich, gesehen werden und bereiten damit auf QualifikationsprüfungenQualifikationsprüfung vor. Meist wird die individuelle Sprachkompetenz der Lernenden dann nicht in Relation zu den anderen SchülerInnen in der Gruppe, sondern in Bezug auf bestimmte Kriterien, wie bspw. in den GeR-Niveaustufen beschrieben, bewertet (vgl. Europarat 2001, 3.2). Sind Lehrende und Bewertende ein und dieselbe Person, so ist zu bedenken, dass die Beurteilung schulischer Leistungen oft auch eine Bewertung der eigenen Arbeit bzw. des Inputs des/der LehrerIn miteinschließen kann, was verständlicherweise Kritik nach sich ziehen müsste. Als eine mögliche Konsequenz sollten daher bei der Auswahl von Lehr- und Prüfinhalten, anstelle subjektiver Überlegungen oder Präferenzen einzelner Lehrpersonen, curriculare Vorgaben und objektive Beurteilungskriterien berücksichtigt werden.
Seitdem der GeR, die Bildungsstandards und die teilzentrale SRDPGütekriterien für Sprachtests sind Objektivität, Reliabilität und Validität. für Allgemeinbildende Höhere Schulen (AHS) und Berufsbildende Höhere Schulen (BHS) in Österreich als Instrumente für Leistungskontrolle und Qualitätssicherung zur Verfügung stehen, die LehrerInnen eine kriterienorientierte Bewertungkriterienorientierte Bewertung nahelegen, sind objektive Klassen-/Schularbeiten zur validen (gültigen) Interpretation von zuverlässig erhobenen, fachbezogenen Lernleistungen erforderlich.
Noten für Lernleistungen zu vergeben, auf dieser Basis Lernprozesse zu steuern und Feedback an die SchülerInnen zu geben ist eine verantwortungsvolle Aufgabe. Auch verbringen LehrerInnen außerhalb der Schule neben der Planung von Unterricht nicht unerheblich viel Zeit mit dem Lesen und der Verbesserung von Hausaufgaben oder dem Erstellen bzw. der Korrektur von Klassen-/Schularbeiten. Die Kenntnis von Fachliteratur zu Testen und Bewerten (als geeigneter Einstieg sind Standardwerke von McNamara (2000), Hughes (2003) oder Grotjahn (2006) zu empfehlen) und die Berücksichtigung der TestgütekriterienTestgütekriterien können Lehrkräfte dabei unterstützen, diese Aufgabe kompetent(er) zu bewältigen. Im Folgenden sollen die einzelnen Testprinzipien vorgestellt und erklärt werden.
4.1.1 ObjektivitätObjektivität
Ein Sprachtest oder eine Klassen-/Schularbeit sind objektiv, wenn ihre Durchführung und ihre Auswertung von der jeweiligen Lehrperson, die dafür verantwortlich ist, unabhängig sind (vgl. Grotjahn 2006, 222), d.h. wenn subjective judgement ausgeschlossen werden kann (vgl. Hughes 2003, 22). Stellen wir uns vor, dass zwei LehrerInnen in zwei Parallelgruppen einer Klasse Französisch unterrichten. Bei einer für beide Gruppen unterschiedlich erstellten Klassen-/Schularbeit führt jeweils der/die LehrerIn der anderen Gruppe die Klassenarbeit durch und wertet diese auch aus. Im Anschluss wird die Klassenarbeit an den/die KollegIn der Parallelgruppe zur Kontrolle übergeben. Die Ergebnisse und die daraus gezogenen Schlussfolgerungen müssten ident sein. Durch die zweimalige Bewertung würden die Resultate zuverlässiger, d.h. reliabler, und die SchülerInnen könnten sich eher darauf verlassen, dass das von ihnen erzielte Ergebnis ihrer tatsächlichen Leistung entspricht, als wenn nur ein/eine LehrerIn die Klassen-/Schularbeit (der eigenen Gruppe) korrigiert und bewertet hätte1. Quetz (2008, 7) verweist hier auf die sog. kollegiale Korrektur.
Der DurchführungsDurchführungsobjektivität- und AuswertungsobjektivitätAuswertungsobjektivität (nach Grotjahn 2006) wird gelegentlich eine „Interpretationsobjektivität“ (vgl. Schelten 1997) zur Seite gestellt. Gemeint ist, dass zwei verschiedene BeurteilerInnen „unabhängig voneinander aus dem gleichen Auswertungsergebnis den gleichen Schluss ziehen“ (Schelten 1997, 126). ObjektivitätObjektivität bedeutet bei der Durchführung, Auswertung und Interpretation von Tests Subjektivität zu reduzieren. bei der Durchführung, Ausführung und Interpretation von Klassen-/Schularbeiten bedeutet also, dass subjektive Theorien – wenn nicht ganz ausgeschlossen – so doch so weit wie möglich in den Hintergrund gedrängt werden.
Dlaska & Krekeler (2009) sprechen in Zusammenhang mit informeller Leistungsbeurteilung (classroom assessment) von „Gerechtigkeit“ (ebd., 44f.) anstelle von ObjektivitätObjektivität. Damit führen sie an, dass Lernende nicht benachteiligt werden bzw. diese sich nicht benachteiligt fühlen sollen (ebd., 43). Damit dieser Umstand gegeben ist, muss Gerechtigkeit ihrer Meinung nach vier Bereiche umfassen: (ausreichende) Transparenz, (schlüssige) Bewertung, (konsistente und übertragbare) Leistungsmessungen und eine (gültige) Interpretation der Testergebnisse. Somit ist „Gerechtigkeit“ oder „Fairness“ der allumfassende Begriff, dem Dlaska & Krekeler die anderen Testgütekriterien wie Reliabilität und Validität unterordnen. Sie führen einerseits Gründe an, warum in der Schule reliable Tests schwer zu erstellen sind, obwohl dies „wünschenswert“ wäre (ebd., 49), fordern aber andererseits eine gültige Interpretation der Testergebnisse in Bezug auf die Messintention ein (vgl. u.a. Hinger 2016b).
4.1.2 ReliabilitätReliabilität
Unter Reliabilität eines Tests versteht man die Zuverlässigkeit oder Konsistenz der Resultate, die er hervorbringt: „A reliable test is consistent in that it produces the same or similar result on repeated use“ (vgl. Jones 2012, 352). So ist eine konsistente bzw. genaue Bewertung dann gegeben, wenn z. B. bei einer Klassen-/Schularbeit oder einem Test ein und dieselbe Lehrperson bei wiederholt vorgenommener Bewertung immer wieder zu demselben (oder einem sehr ähnlichen) Ergebnis kommt (Intrarater-ReliabilitätIntrarater-Reliabilität) bzw. wenn verschiedene Lehrpersonen zu ein und demselben (oder einem sehr ähnlichen) Ergebnis kommen (Interrater-ReliabilitätInterrater-Reliabilität). Somit kann scorer objectivityscorer objectivity als wesentlicher Teilaspekt der Reliabilität betrachtet werden; Weir & Shaw (2005) sprechen in diesem Zusammenhang sogar von scoring validity (s. Abschnitt 4.1.3 zu Validität). LehrerInnen sollten bedenken, dass manche Aufgabenformate konsistente (stabile) Ergebnisse unterstützen. So ist ein geschlossenesgeschlossenes Aufgabenformat AufgabenformatGeschlossene und offene Aufgabenformate unterstützen Reliabilität in unterschiedlichem Ausmaß. wie etwa multiple choice-multiple choice-Aufgabe oder EinfachwahlaufgabenEinfachwahlaufgabe zur Überprüfung des Leseverständnisses durch die Festlegung eines eindeutigen Lösungsschlüssels gut dazu geeignet, dass ein und dieselbe Person mehrmals oder verschiedene BewerterInnen gleichzeitig zu demselben (oder einem sehr ähnlichen) Ergebnis kommen. AuswertungsAuswertungsobjektivität- und Interpretationsobjektivität können bei geschlossenen, standardisierten Aufgabenformaten wie multiple choice- oder ZuordnungsaufgabenZuordnungsaufgabe als gegeben angesehen werden. Wird hingegen die Fertigkeit Schreiben anhand eines Aufsatzes, der in der Fremdsprache zu einem bestimmten Thema verfasst werden soll, überprüft, lässt dieses offene Testformat bei der Bewertung und Interpretation einen höheren subjektiven Spielraum zu, vor allem, wenn nur ungenau spezifizierte Kriterien wie Inhalt, Fehler oder Stil zur Verfügung stehen oder wenn „jeder Lehrer seinen eigenen Maßstab zur Beurteilung des Auswertungsergebnisses“ anlegt (Schelten 1997, 127). Die reliable Verwendung von Bewertungsrastern zur Überprüfung der produktiven Fertigkeiten (s. Abschnitt 7.3) setzt gezielte rater trainings für LehrerInnen und SprachkompetenzprüferInnen voraus, in denen die Beurteilenden lernen, sich abzustimmen und sich großteils auf ein gemeinsames Verständnis der Deskriptoren, die die einzelnen Bewertungskriterien näher erläutern, zu einigen.
Bei Dlaska & Krekeler (2009, 35) findet sich ObjektivitätObjektivität als Teil der Reliabilität dem Qualitätskriterium Gerechtigkeit zugeordnet (s. oben). Dies ist vor allem dem Umstand geschuldet, dass eine möglichst objektive Durchführung und Auswertung eines Tests für eine konsistente, also reliable, Bewertung unabdingbar ist. Reliabilität wiederum ist Voraussetzung für die Validität (s. Abschnitt 4.1.3) – allein, ein reliabler Test bedeutet noch nicht, dass er auch valide ist (vgl. Jones 2012, 352). Nach Dlaska & Krekeler (2009, 47) ist die Qualität einer Bewertung abhängig von den PrüferInnen, ihren Fähigkeiten, Einstellungen und Werthaltungen. Für die Leistungsbeurteilung im Unterricht erachten sie Reliabilität aber nicht als zentral und fordern sie nur als Bedingung für standardisierte und formelle high stakes testshigh stakes test ein – Tests, bei denen die Ergebnisse für jede/n einzelne/n KandidatIn gewichtige Folgen haben. Das Pilotieren von Klassen-/Schularbeiten zur Messung ihrer Qualität – sei es in Form von Paralleltests oder Testwiederholungen, um sich z. B. über den Schwierigkeitsgrad oder die Unmissverständlichkeit der Aufgabenstellung klar zu werden – ist