Name: Bedoma
Author: Bedoma

Den 5 juli 2026 körde vi hela vår testsamling, 466 verkliga elevtexter med lärares egna bedömningar som facit, mot exakt den bedömningsmotor som körs i produktion. Det här är resultatet, och lika viktigt: metoden bakom det.

Varför en ny mätning?

Ett AI-verktyg som uppdateras löpande har ett ärlighetsproblem inbyggt: siffrorna på en transparenssida kan gälla en äldre version än den som faktiskt svarar lärarna. Vi upptäckte i vår egen interna granskning att våra publicerade siffror släpade efter. Sedan juni är vår bedömningsmotor låst i en stabil version, och den här mätningen gjordes mot exakt den versionen. Det som står på vår transparenssida gäller alltså det verktyg du använder i dag, inte ett minne.

Metoden

Korpusen: 466 verkliga elevtexter, dels från nationella prov med facitbedömningar, dels texter som lärare frivilligt delat med sina egna betyg. Inga AI-genererade texter, någonsin.
Måttet: vi mäter inom ett betygssteg, alltså att AI:ns indikation avviker högst ett steg från lärarens betyg. Skälet är att forskning på bedömarsamstämmighet visar att inte heller två erfarna lärare når exakt samma betyg på gränsfallstexter.
Publiceringsprincip: ett ämne redovisas i tabellen när träffsäkerheten är validerad. Precis som allt annat i verktyget utvecklas övriga ämnen löpande, och tabellen fylls på efter varje ny mätning.
Determinism: mätningen körs med samma inställningar och samma korpus varje gång, så att förändringar mellan mätningar beror på motorn och inte på slumpen.

Resultatet per ämne

Svenska: 90 procent inom ett betygssteg (144 texter)
Samhällskunskap: 87 procent (23 texter)
Historia: 86 procent (29 texter)
Engelska: 84 procent (164 texter)

Totalt över hela korpusen: 84,5 procent inom ett betygssteg. Tre ämnen till, religionskunskap, matematik och naturkunskap, ligger på 91 till 100 procent i våra mätningar och är på väg in i tabellen. Vill du snabba på det kan du bidra med bedömda texter via bedoma.se/bidra.

Vad siffrorna inte säger

Ärlighet kräver också det omvända. AI:n är svagast på att identifiera F-texter på egen hand, där ska du aldrig luta dig mot indikationen utan läsa själv. Och en indikation på en enskild text är aldrig ett slutbetyg: enligt Skolverkets allmänna råd sätter läraren betyg på elevens samlade kunskaper, och det beslutet är alltid ditt.

Hela tabellen, definitionerna och metodbeskrivningen finns på bedoma.se/transparens. Sidan uppdateras vid varje ny fullständig mätning.