sammen som mål for samme latente variabel. Eksempelvis kan de 14 spørgsmål om økonomi siges at udgøre en test af respondentens “økonomiske kundskaber og færdigheder”, hvorfor den enkelte respondents resultat kan opgøres som én talværdi for dennes svar på disse 14 spørgsmål under ét. Den enkelte respondent får altså udregnet en “skala-score”, der forenklet udtrykt er dennes “gennemsnitlige” resultat. De enkelte landes resultater kan derefter udregnes som gennemsnittet af de respektive landes respondenters skalascores. Derefter kan de præsenteres i en form, hvor de enkelte landes resultater kan sammenlignes. Den største umiddelbare fordel ved denne metode er, at man får reduceret den meget omfattende datamængde fra enkeltspørgsmål til nogle ret få skalaer. Der kan argumenteres for, at man også får mere pålidelige resultater, når man samler forskellige variable, der måler “det samme”, frem for at forlade sig på svarfordelinger for enkeltspørgsmål, der typisk vil have en mindre grad af præcision sammenlignet med samlevariablens. Det kan i øvrigt bemærkes, at der i beregningen af den enkelte respondents skalascore også indgår en vurdering af de rigtigt besvarede spørgsmåls sværhedsgrad.
Som sådan vil vi ikke her tage den mere tekniske diskussion af de statistiske beregninger af dette. For en nærmere diskussion heraf henvises til IEAs rapporter + tekniske rapporter. Se også kapitel 4 senere i denne bog samt Bruun 2001.
Det kan også bemærkes, at der overalt benyttes vægtede tal. Vægtningen benyttes i hovedsagen til at korrigere for stratificerede stikprøver. Den danske stikprøve er imidlertid kun implicit stratificeret, af hvilken grund vægtningen kun har helt perifer betydning for de danske resultater. Se også indledningen til kapitel 2. Alle procenttal i tabellerne er vægtede valide procenter.
Pointen er under alle omstændigheder, at de nævnte inddelinger af testens 40 spørgsmål præsenteres i form af fire skalaer: En for kundskaber, en for færdigheder, en for de samlede kundskaber og færdigheder og en for økonomi.
Da der er en høj statistisk korrelation mellem skalaerne for henholdsvis kundskaber og færdigheder, kan disse to underskalaer også opfattes som én samlet skala, mens skalaen for økonomi både indholdsmæssigt og statistisk kan siges at være mere selvstændig. Den korrelerer eksempelvis ikke helt så tydeligt med kundskaber som med færdigheder. IEA påpeger i øvrigt også, at dette emne i nogle lande ikke anses for så centralt (for “civic education”). Af samme grund har IEA valgt at holde økonomi-skalaen adskilt fra de øvrige i den internationale rapport. Dertil kommer, at det kan være en fordel kun at inkludere de 14 kundskabsspørgsmål og de 12 færdighedsspørgsmål i “totalskalaen”, fordi dette giver en lidt mere direkte sammenlignelighed med totalskalaen fra 14-årsundersøgelsen, hvor totalskalaen netop kun bestod af kundskaber og færdigheder. IEA har dog også udregnet en totalskala for samtlige tre dimensioner af spørgsmål i testen, der altså er det mest omfattende udtryk for respondentens samlede faglige niveau, men IEA offentliggør den ikke i den internationale rapport.
I det følgende skal vi først se på Danmarks placeringer og resultater på disse skalaer, idet der først ses på skalaen for det kombinerede resultat for kundskaber og færdigheder, dernæst på kundskaber og færdigheder hver for sig og afslutningsvis på økonomi. Efterfølgende gives eksempler på de spørgsmål, der indgår i testen. IEA har “frigivet” 19 spørgsmål, der må offentliggøres, mens resten af testen betragtes som fortrolig. For hvert af disse 19 spørgsmål præsenteres foruden ordlyden også svarfordelingen for samtlige 14 lande, således at det kan ses helt konkret, hvor Danmark placerer sig på disse 19 forskellige spørgsmål. Desuden præsenteres kønsfordelingen for Danmark. Som sagt er det kun tilladt at offentliggøre ordlyden af netop disse 19 spørgsmål. IEA forestiller sig nemlig muligheden af at gentage testen på et senere tidspunkt og vil derfor undgå, at testen kommer til at cirkulere som undervisningsmateriale eller evalueringsmateriale.
Der er flere principielle vanskeligheder forbundet med at betragte de enkelte landes resultater på denne test som “retfærdige” sammenligninger. Derfor er landenes resultater i IEAs officielle tabeller ikke rangordnet efter resultat. Landene står i stedet i alfabetisk orden. Når der i det følgende undertiden optræder rangordnede tabeller, er det ikke, fordi vi er grundlæggende uenige i disse forbehold (jf. efterfølgende afsnit om sammenlignelighedsproblemer), men fordi rangordnede tabeller giver et mere letlæseligt overblik.
Som udgangspunkt skal man være opmærksom på, at testen er udviklet for at kunne udtale sig om elevernes kundskaber og færdigheder på disse givne områder, som alle lande i det internationale samarbejde har været enige om er relevante. Intentionen har således ikke været, som i mange andre kvantitative undersøgelser, at udvikle et instrument til at skelne mellem elever på forskelligt niveau, men derimod at undersøge, hvad eleverne kan på nogle konkret udvalgte områder. Dermed er ikke sagt, at testen ikke i praksis til en vis grad skelner dygtige elever fra mindre dygtige elever. Man kan for den sags skyld også have en stærk formodning om, at elever med godt resultat på denne test også er fagligt stærke på andre områder (eksempelvis kræver testen både en vis “læsekompetence” og en vis “matematikkompetence”). Som sådan er der imidlertid ikke udviklet særlige egenskaber ved testen, som definerer, hvad et “godt resultat” er, hvad et ønskeligt “minimumsresultat” er, eller lignende. Man kan konstatere, at nogle elever har flere rigtige svar end andre og dermed betragte resultaterne som relative grader af dygtighed, som naturligvis i form af landsgennemsnit også kan benyttes til sammenligninger med andre lande. De stillede spørgsmål er ikke nødvendigvis direkte knyttede til nationale undervisningsplaner, men derimod til en definition af, hvad det er ønskeligt, at unge mennesker ved eller kan analysere sig frem til, når det gælder demokratiets institutioner og virkemåde. Omvendt er denne definition af relevante områder dog ikke foretaget uafhængigt af undervisningsplaner, da definitionen af relevans i høj grad er baseret på fællestræk ved flere landes undervisningsplaner, men som sådan er der ikke tale om evalueringer af disse.
I den internationale rapport sammenlignes konsekvent resultater fra grundskoleundersøgelsen med resultater fra ungdomsuddannelserne. Det er naturligvis også et interessant perspektiv, men igen skal man være opmærksom på, at undersøgelserne ikke har haft til hensigt at undersøge, hvor meget dygtigere eleverne er blevet.
IEAs skalaer for kundskaber og færdigheder
Det overordnede testresultat kan siges at blive udtrykt ved skalaen for kombinationen af kundskabs- og færdighedsspørgsmål. I den internationale rapport præsenteres denne skala således som den første. Vi indleder derfor også med denne.
Begreber som kundskaber og færdigheder (knowledge and skills) er velkendte i dansk sammenhæng. Ser man nærmere på undersøgelsens spørgsmål, kan det dog diskuteres, hvor præcis distinktionen egentlig er. Oftest kan der ikke svares rigtigt på et såkaldt “kundskabsspørgsmål” alene ud fra paratviden, og oftest kan et såkaldt færdighedsspørgsmål ikke besvares uden inddragelse af relevante kundskaber om spørgsmålets tema. Som sådan kunne det være fristende i stedet at tale om henholdsvis “spørgsmål” og “opgaver”. Færdighedsspørgsmålene er nemlig typisk udformet på en sådan måde, at respondenten skal kunne uddrage en bestemt information fra enten et stykke tekst eller en tegning. For en lidt uddybende diskussion henvises til Bruun (2001, s. 83-85). Netop fordi det kan være diskutabelt, hvor god distinktionen mellem kundskaber og færdigheder er, da de så at sige gensidigt forudsætter hinanden, er den samlede skala meget relevant. Som nævnt er der da også en høj grad af korrelation mellem resultaterne på de to områder, hvilket i sig selv antyder, at kundskaber og færdigheder er to sider af samme sag.
Som det fremgår, ligger Danmark med den klart højeste score af alle lande. Desuden kan man bemærke, at Danmark har en meget lille standardfejl (standard error), hvilket vil sige, at der er meget stor sikkerhed for resultatet, hvilket er et klart signal om en undersøgelse af høj kvalitet i statistisk forstand. Det danske resultat ligner meget det svenske, bortset fra at Sverige har “en tung ende”, men det må ses i lyset af, at den svenske sampling omfatter en noget større procentdel af kohorten (se det senere afsnit om sammenlignelighedsproblemer).
Ovenstående