Группа авторов

Schreibkompetenzen in der Fremdsprache


Скачать книгу

und der Gesamtpunktwert zu einer vergleichbaren Klassifikation der Schülerinnen und Schüler in kompetente und weniger kompetente Schreibende führen. Eine Maßzahl für die TrennschärfeTrennschärfe ist damit die statistische Korrelation zwischen dem Punktwert der Lernenden bei der Einzelaufgabe und ihrem Gesamtpunktwert.

      Ist die TrennschärfeTrennschärfe unzureichend, kann dies u.a. folgende Ursachen haben: a) Die Aufgabe misst unzuverlässig (z.B. weil sie zu schwer oder zu leicht für die Lernenden ist). b) Die Aufgabe misst einen anderen Aspekt des Konstrukts „Schreibkompetenz“ als die übrigen Aufgaben.Aufgaben c) Die Aufgabe misst in erster Linie einen konstruktfremden Aspekt (z.B. die kognitiveValiditätkognitiv Leistungsfähigkeit oder thematisches Wissen). d) Die Bewertenden beurteilen die Leistung nicht hinreichend zuverlässig (z.B. mit intra- oder interindividuell variierender Strenge). e) Es liegen Kodierfehler vor. f) Die TestreliabilitätReliabilitätTestreliabilität ist insgesamt gering (z.B. weil der Test insgesamt zu leicht oder zu schwer ist).

      Ein spezifischer Fall liegt vor, wenn Schülerinnen und Schüler mit einem hohen Gesamtpunktwert bei einer gestellten Aufgabe tendenziell schlechter abschneiden als Schülerinnen und Schüler mit einem eher geringen Gesamtpunktwert. In einem solchen Fall ist die TrennschärfeTrennschärfe negativ. Als mögliche Erklärungen kommen dann die Punkte b), c) und d) in Frage.

      4.3 GütekriterienGütekriterien dynamischer EvaluationEvaluationinteraktionistisch dynamisch

      Abschließend möchten wir noch kurz die Frage der GütekriterienGütekriterien aus der Perspektive der dynamischen EvaluationEvaluationinteraktionistisch dynamisch ansprechen. Für viele Vertreterinnen und Vertreter der dynamischenEvaluationinteraktionistisch dynamisch Evaluation ist von zentraler Bedeutung, inwieweit die im Zusammenhang mit der Evaluation entweder unmittelbar oder später ergriffenen Maßnahmen (in Form von Feedback oder speziellem Training) erfolgreich sind. Damit wird die sogenannte Treatment-ValiditätValiditätTreatment-Validität (Behandlungs- oder Interventionsvalidität) zu einem entscheidenden GütekriteriumGütekriterien (vgl. z.B. Lidz & Haywood, 2014 sowie auch Grigorenko, 2009 und Grotjahn, 2015). Für Vertreterinnen und Vertreter der interaktionistischen dynamischen EvaluationEvaluationinteraktionistisch dynamisch im Sinne von Lantolf & Poehner (2013, 2014), auf die wir in Kapitel 9.5 näher eingehen, bilden DiagnoseDiagnose und Intervention (in Form von Unterricht) sogar eine untrennbare Einheit. Entsprechend favorisieren Lantolf & Poehner kooperative Dialoge zwischen Lerner und Mediator (Lehrkraft, Peer) als Mittel einer interventions- und individuenzentrierten DiagnostikDiagnose. Im Hinblick auf das GütekriteriumGütekriterien der ObjektivitätObjektivität argumentieren sie, dass letztendlich nur ein nichtstandardisiertes Vorgehen eine faire unterrichtsbezogene DiagnoseDiagnose individueller Kompetenzen ermögliche.

      Hinweise zum Weiterlesen

      Einen kurzen Überblick über GütekriterienGütekriterien psychologischer Tests geben z.B. Moosbrugger & Kelava (2012). Weitere Hinweise zu GütekriterienGütekriterien für die Entwicklung und den Einsatz von Verfahren zur Evaluation sprachlicher Kompetenzen finden sich u.a. in Bachman & Palmer (2010), Grotjahn (2008) und Kunnan (2014).

      Unterschiedliche Konzepte von FairnessFairness werden von American Educational Research Association et al. (2014, Kap. 3), Karami & Mok (2013) und Stoynoff (2013) vorgestellt.

      Auf Aspekte der ValiditätValidität, AuthentizitätAuthentizität und RückwirkungRückwirkung (Impact; Washback) im Rahmen performanz- und aufgabenbasierter Evaluationsformen gehen z.B. ein: Bachman (2007); Brindley (2013); Fischer, Chouissa, Dugovičová & Virkkunen-Fullenwider (2011a, 2011b); Norris (2016); Van Gorp & Deygers (2014); Yu (2014).

      Aktuelle Überblicke über Konzepte von ValiditätValidität und Validierung unter Einschluss komplexer argumentbasierter Verfahren geben Chapelle, Enright & Jamieson (2008), Eckes (2015b), Hartig, Frey & Jude (2012), Kane (2013, 2016), Newton & Shaw (2014, 2016), Xi & Davis (2016).

      Hinweise zu ethischen Aspekten der Evaluation finden sich u.a. in Abel (2010), Brown (2012) und Taylor (2013).

      Bachman & Palmer (2010) beschäftigen sich vor dem Hintergrund des Konzepts der NützlichkeitNützlichkeit speziell mit der argumentbasierten Rechtfertigung der Entwicklung und Verwendung von Evaluationsinstrumenten im Hinblick auf reale Kontexte und Zielsetzungen (z.B. Entscheidungen über Individuen oder Bildungsprogramme und intendierte und nicht intendierte Konsequenzen). Dabei verzichten die Autoren explizit auf die Verwendung der Termini ValiditätValidität und Validierung und greifen auf Konzepte wie Aussagekraft (meaningfulness), Relevanz (relevance) und Vollständigkeit (sufficiency) der Interpretation der Evaluationsergebnisse im Hinblick auf die zu treffenden Entscheidungen zurück.

      Auf den Aspekt der RückwirkungRückwirkung (washback) von Sprachtests (auf den Unterricht) gehen ausführlich Cheng, Sun & Ma (2015) im Rahmen des argumentbasierten Ansatzes der Validierung ein. Weitere Aspekte der RückwirkungRückwirkung werden in Saville & Khalifa (2016) sowie Turner & Purpura (2016) thematisiert.

      Das Problem der BeurteilerreliabilitätReliabilitätBeurteilerreliabilität und Beurteilerübereinstimmung behandeln ausführlich Gwet (2014) und Wirtz & Kaspar (2002). Ein kurzer aktueller Überblick findet sich bei Eckes (2011). Eckes (2015a) beschreibt die Verwendungsmöglichkeiten des Multifacetten-Rasch-Modells zur Analyse und Sicherung der FairnessFairness beurteilergestützter Kompetenzmessungen. Speziell mit der ReliabilitätReliabilität und ValiditätValidität bei der Beurteilung von Schreibaufgaben beschäftigen sich z.B. Böhme, Bremerich-Vos & Robitzsch (2009), Eckes (2012) sowie Harsch & Martin (2013).

      Zur komplexen Wechselwirkung von AufgabenAufgaben, BeurteilungskriterienBeurteilungskriterien, Beurteilenden und Schreibkompetenz sowie zur Generalisierbarkeit von Messwerten aus Schreibtests vgl. z.B. Arras (2007), Barkaoui (2010a, 2010b), Böhme, Bremerich-Vos & Robitzsch (2009), Bouwer, Béguin, Sanders & van den Bergh (2015), Eckes (2012), Gebril (2010), Harsch & Rupp (2011), Huhta, Alanen, Tarnanen, Martin & Hirvelä (2014), Lee & Kantor (2005) sowie Schoonen (2005, 2012).

      Auf Unterschiede zwischen Test- und LernaufgabenAufgabenTestaufgabenAufgabenLernaufgaben vor dem Hintergrund von TestgütekriterienGütekriterien gehen Caspari, Grotjahn & Kleppin (2010) ein.

      Literatur

      Abel, Andrea. (2010). Sprachtests und soziale Implikationen. Deutsch als Fremdsprache, 47(4), 202–209.

      American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

      Arras, Ulrike. (2007). Wie beurteilen wir Leistung in der Fremdsprache? Strategien und Prozesse bei der Beurteilung schriftlicher Leistungen in der Fremdsprache am Beispiel der Prüfung Test Deutsch als Fremdsprache (TestDaF). Tübingen: Narr.

      Bachman, Lyle F. (2007). What is the construct? The dialectic of abilities and contexts in defining constructs in language assessment. In Janna Fox, Marjorie B. Wesche, Doreen Bayliss, Liying Cheng, Carolyn Turner & Christine Doe (Hrsg.), Language testing reconsidered (S. 41–71). Ottawa: Ottawa University Press.

      Bachman, Lyle F. & Palmer, Adrian S. (1996). Language testing in practice: Designing and developing useful language tests. Oxford: Oxford University Press.

      Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press.

      Barkaoui, Khaled. (2010a). Explaining ESL essay holistic scores: A multilevel modeling approach. Language Testing, 27(4), 515–535. doi: 0.1177/0265532210368717

      Barkaoui, Khaled. (2010b). Variability in ESL essay rating processes: The role of the rating scale and rater experience. Language Assessment Quarterly, 7(1), 54–74. doi: 10.1080/15434300903464418

      Böhme, Katrin, Bremerich-Vos, Albert & Robitzsch, Alexander. (2009). Aspekte der Kodierung