Transparens om AI-bedömning

Name: Bedoma
Author: Bedoma

Bedoma berättar exakt hur bra AI:n är, ämne för ämne. De flesta verktyg gör det inte.

Sammantaget

Bedoma träffar lärarens betyg inom ett steg i 8 av 10 fall. Mätt mot 454 verkliga elevtexter med lärares egna bedömningar (mars till maj 2026). I 51 procent av fallen ger Bedoma exakt samma betyg som läraren. I 83 procent ligger Bedoma inom ett betyg. Resultatet varierar kraftigt mellan ämnen, se tabellen nedan.

Per ämne

Vi visar både strikt match (exakt samma betyg som läraren) och inom ett betyg (E räknas matcha D, D räknas matcha C och så vidare).

Ämne	Antal texter	Strikt match	Inom ett betyg
Naturkunskap	10	100 procent	100 procent
Matematik	10	90 procent	100 procent
Religionskunskap	11	82 procent	100 procent
Historia	18	78 procent	94 procent
Samhällskunskap	35	71 procent	94 procent
Svenska som andraspråk	6	67 procent	100 procent
Svenska	138	48 procent	86 procent
Engelska	166	47 procent	80 procent
Moderna språk	7	43 procent	100 procent
Hem och konsumentkunskap	49	27 procent	67 procent

Alla siffror är råa och oredigerade, hämtade från vår samling av testtexter (454 texter, mätt 2026-05-14 mot den AI-prompt som körs i produktion).

Vad du ska veta

Naturkunskap, Samhällskunskap, Religionskunskap, Matematik och Historia är vår starka sida.
Svenska och Engelska har stor variation. Vi träffar inom ett betyg i 80 till 92 procent. Skolverkets egna bedömarpaneler har 70 till 85 procent inter-rater agreement på borderline-texter.
Hem och konsumentkunskap har vi sämst på. 29 procent strikt match. Använd Bedoma som diskussionsunderlag, inte facit.
Moderna språk har för lite kalibrerings-data. BETA-flagga visas.

Vad betyder "strikt match" och "inom ett betyg"?

Strikt match: AI:n säger C, läraren säger C. Exakt samma betyg.
Inom ett betyg: AI:n säger C, läraren säger B. Skillnad ett steg. Vi räknar detta som rimlig nivå.

Vi använder "inom ett betyg" som primärt mått eftersom Skolverkets egna bedömarpaneler inte heller når 100 procent strikt match på borderline-texter. Två erfarna lärare kan ge olika betyg på samma text och båda har rätt enligt betygskriterierna.

Stabilitet

På elevtexter som faktiskt är A-nivå ger Bedoma samma A-betyg i 93 procent av fallen (vid om-bedömning av samma text). På B-nivå: 87 procent. På C-nivå: 73 procent. På D, E och F är konsekvensen lägre. Vi arbetar på det.

Var vi är öppet svaga

F-betyg detekteras i bara 10 procent. Kompenseras med kort-text-flagga (under 500 tecken).
B-detektion svag. AI:n drar sällan slutsatsen B. Vi visar pil-vy där B blir "C med pil upp mot A".
D-detektion svag. Post-processing flyttar C till D när matrisen visar minst 25 procent E-aspekter.

Detta är AI-modellens grundläggande begränsning (vi använder Claude Haiku 4.5 från Anthropic). Sonnet, GPT-4.1 och Gemini löser inte dessa problem utan att kosta fem gånger mer.

Hur vi mäter

Vi har en samling av 454 verkliga elevtexter som vi använder för testning. 189 är från Skolverkets nationella prov (offentliga). 265 är från lärare som har bidragit via /bidra eller har gett oss tillstånd att använda sina sparade bedömningar.

Vi kör hela cachen igenom AI:n vid varje större prompt-ändring och publicerar resultatet i vår status-fil som uppdateras vid varje förändring.

Vad konkurrenter gör

Vi har granskat flera ledande AI-bedömningsverktyg på den svenska marknaden.

Inget av dessa verktyg publicerar accuracy-siffror per ämne. Inget publicerar kalibrerings-data offentligt.

Vi tycker det är fel. Lärare har rätt att veta hur bra ett bedömnings-AI faktiskt är, ämne för ämne, innan de litar på det.

Hur du kan hjälpa

Bidra med bedömda elevtexter via /bidra. Du får 1 till 5 bonusanalyser per text.
Bidra extra om ditt ämne är BETA (Geografi, NO grundskola, Filosofi). Vi behöver dig.
Klicka på "Justera betyg" efter varje analys så vi kan mäta var Bedoma har fel.

Prova Bedoma gratis Bidra med text

Senast uppdaterad: 2026-05-15. Vi uppdaterar denna sida varje månad eller vid större kalibreringsförändringar.