Hoppa till huvudinnehåll
bedoma
Alla inlägg
5 min läsning

Mellan-bedömare-reliabilitet, varför två lärare ofta sätter olika betyg

Forskning visar att även erfarna lärare som bedömer samma elevtext kan sätta olika betyg. Vad är acceptabel variation, och hur tolkar man begreppet kappa-koefficient i praktiken?

När två lärare bedömer samma elevtext oberoende av varandra händer det ofta att de inte sätter samma betyg. Det är inget tecken på att någon har fel. Det är en konsekvens av att bedömning är en tolkningsprocess där olika professionella perspektiv kan komma fram till olika slutsatser inom rimlig variation.

Frågan är hur stor variationen får vara innan systemet inte längre är likvärdigt. Det är en fråga som forskningen om mellan-bedömare-reliabilitet har behandlat under flera decennier.

Begreppet i kort

Mellan-bedömare-reliabilitet är ett mått på hur väl två oberoende bedömare kommer fram till samma resultat när de utvärderar samma material. För skriftliga prestationer mäts det oftast med kvadratiskt viktat kappa, som tar hänsyn till hur stor avvikelsen är, inte bara om bedömarna håller med eller inte.

En kappa-koefficient på 1 betyder perfekt överensstämmelse. 0 betyder slumpmässig nivå. För bedömningssystem inom utbildning betraktar bedömningsforskare ofta värden mellan 0,7 och 0,9 som god mellan-bedömare-reliabilitet. Värden över 0,9 är ovanliga eftersom mänsklig bedömning helt enkelt har en grundläggande variation.

Detta intervall är inte godtyckligt. Det är empiriskt grundat i decennier av studier av hur erfarna bedömare presterar när de oberoende bedömer samma textmaterial.

Varför perfekt överensstämmelse är osannolik

Olika lärare väger olika aspekter olika. En lärare prioriterar struktur och röd tråd. En annan väger argumentation tyngre. En tredje fäster större vikt vid språklig variation. Båda kan vara inom Skolverkets kursplan, men den exakta avvägningen mellan aspekterna är professionell tolkning.

Olika lärare har olika referensramar. En svensklärare med mångårig erfarenhet av nationella prov har en kalibrering byggd på hundratals texter. En nyutbildad lärare har en annan kalibrering baserad på de exempel som lärarutbildningen och praktikperioden tillhandahållit. Båda kan vara kompetenta. Men deras inre referenser skiljer sig.

Olika texter testar bedömningskriterierna olika. En text som tydligt ligger på C-nivå genererar hög överensstämmelse mellan bedömare. En text som balanserar mellan C och A på olika aspekter kan rimligen tolkas både som C och A.

Vad sambedömning faktiskt löser

Sambedömning, som Skolverket främjar i sina allmänna råd, är inte en mekanism för att forcera fram identiska bedömningar. Det är en metod för att synliggöra var bedömarna landar olika, varför, och om olikheten kan harmoniseras genom diskussion.

Forskningen om sambedömning som professionell utveckling pekar typiskt på tre vinster.

Den första är att lärare under sambedömning ofta upptäcker och korrigerar systematiska tolkningsskillnader. Två svensklärare som dittills tolkat "välutvecklat" olika kan synkronisera sin tolkning genom att gemensamt diskutera konkreta texter.

Den andra är att den enskilda bedömningen blir mer pålitlig över tid. Lärare som regelbundet sambedömer rapporterar generellt högre förtroende för sina egna bedömningar.

Den tredje är att likvärdigheten mellan klasser och skolor ökar. Det är detta som motiverar Skolverkets satsning på central rättning av nationella prov från hösten 2026, där en pool av certifierade rättare ska bedöma anonymiserade elevsvar enligt gemensamma anvisningar.

AI och mellan-bedömare-reliabilitet

Modern forskning om automatisk textbedömning rapporterar typiskt mellan-bedömare-reliabilitet mellan AI-system och mänskliga lärare som ligger i samma intervall som mellan två oberoende lärare. Studier från flera europeiska och amerikanska forskargrupper har replikerat detta resultat på olika texttyper och kursnivåer.

Det innebär inte att AI är likvärdigt med en mänsklig bedömare. Det innebär att skillnaden mellan AI och en lärare ofta är jämförbar med skillnaden mellan två lärare. Vilket är ett anständigt resultat för ett verktyg som ska komplettera, inte ersätta, professionell bedömning.

För Bedoma specifikt har kalibreringen mot 52 nationella provtexter visat 87 procents överensstämmelse i snitt med lärarbedömningarna som var facit. På engelska 5 och SO-ämnen ligger överensstämmelsen på 100 procent. På engelska 6, som är svårare i sin natur, ligger det lägre på 75 procent. Variationen mellan ämnen återspeglar att mellan-bedömare-reliabilitet är högre för vissa typer av uppgifter än andra.

Vad detta betyder för dig som lärare

När du sambedömer en text med en kollega och ni landar olika är det inte automatiskt ett tecken på att någon av er har fel. Det är ett tecken på att texten ligger i ett område där tolkning spelar in. Diskussionen som följer är där bedömningens kvalitet uppstår.

När du jämför en AI-bedömning med din egen och de skiljer sig är logiken densamma. Skillnaden är information. Den pekar på var texten är tolkningsbar, var kriterierna är öppna för olika viktning, och var du som professionell behöver göra det avgörande valet.


Bedoma kalibrerades mot 52 riktiga nationella provtexter och uppnådde 87 procents överensstämmelse med lärarbedömningarna i snitt. Läs mer om kalibreringsprocessen eller prova gratis.

Vill du prova AI-stödd bedömning? Kom igång gratis med Bedoma . Fem analyser per månad, alla ämnen och kurser.