Transparens om AI-bedömning
Bedoma berättar exakt hur bra AI:n är, ämne för ämne. De flesta verktyg gör det inte.
Sammantaget
Bedoma träffar lärarens betyg inom ett steg i 8 av 10 fall. Mätt mot 454 verkliga elevtexter med lärares egna bedömningar (mars till maj 2026). I 51 procent av fallen ger Bedoma exakt samma betyg som läraren. I 83 procent ligger Bedoma inom ett betyg. Resultatet varierar kraftigt mellan ämnen, se tabellen nedan.
Per ämne
Vi visar både strikt match (exakt samma betyg som läraren) och inom ett betyg (E räknas matcha D, D räknas matcha C och så vidare).
| Ämne | Antal texter | Strikt match | Inom ett betyg |
|---|---|---|---|
| Naturkunskap | 10 | 100 procent | 100 procent |
| Matematik | 10 | 90 procent | 100 procent |
| Religionskunskap | 11 | 82 procent | 100 procent |
| Historia | 18 | 78 procent | 94 procent |
| Samhällskunskap | 35 | 71 procent | 94 procent |
| Svenska som andraspråk | 6 | 67 procent | 100 procent |
| Svenska | 138 | 48 procent | 86 procent |
| Engelska | 166 | 47 procent | 80 procent |
| Moderna språk | 7 | 43 procent | 100 procent |
| Hem och konsumentkunskap | 49 | 27 procent | 67 procent |
Alla siffror är råa och oredigerade, hämtade från vår samling av testtexter (454 texter, mätt 2026-05-14 mot den AI-prompt som körs i produktion).
Vad du ska veta
- Naturkunskap, Samhällskunskap, Religionskunskap, Matematik och Historia är vår starka sida.
- Svenska och Engelska har stor variation. Vi träffar inom ett betyg i 80 till 92 procent. Skolverkets egna bedömarpaneler har 70 till 85 procent inter-rater agreement på borderline-texter.
- Hem och konsumentkunskap har vi sämst på. 29 procent strikt match. Använd Bedoma som diskussionsunderlag, inte facit.
- Moderna språk har för lite kalibrerings-data. BETA-flagga visas.
Vad betyder "strikt match" och "inom ett betyg"?
- Strikt match: AI:n säger C, läraren säger C. Exakt samma betyg.
- Inom ett betyg: AI:n säger C, läraren säger B. Skillnad ett steg. Vi räknar detta som rimlig nivå.
Vi använder "inom ett betyg" som primärt mått eftersom Skolverkets egna bedömarpaneler inte heller når 100 procent strikt match på borderline-texter. Två erfarna lärare kan ge olika betyg på samma text och båda har rätt enligt betygskriterierna.
Stabilitet
På elevtexter som faktiskt är A-nivå ger Bedoma samma A-betyg i 93 procent av fallen (vid om-bedömning av samma text). På B-nivå: 87 procent. På C-nivå: 73 procent. På D, E och F är konsekvensen lägre. Vi arbetar på det.
Var vi är öppet svaga
- F-betyg detekteras i bara 10 procent. Kompenseras med kort-text-flagga (under 500 tecken).
- B-detektion svag. AI:n drar sällan slutsatsen B. Vi visar pil-vy där B blir "C med pil upp mot A".
- D-detektion svag. Post-processing flyttar C till D när matrisen visar minst 25 procent E-aspekter.
Detta är AI-modellens grundläggande begränsning (vi använder Claude Haiku 4.5 från Anthropic). Sonnet, GPT-4.1 och Gemini löser inte dessa problem utan att kosta fem gånger mer.
Hur vi mäter
Vi har en samling av 454 verkliga elevtexter som vi använder för testning. 189 är från Skolverkets nationella prov (offentliga). 265 är från lärare som har bidragit via /bidra eller har gett oss tillstånd att använda sina sparade bedömningar.
Vi kör hela cachen igenom AI:n vid varje större prompt-ändring och publicerar resultatet i vår status-fil som uppdateras vid varje förändring.
Vad konkurrenter gör
Vi har granskat flera ledande AI-bedömningsverktyg på den svenska marknaden.
Inget av dessa verktyg publicerar accuracy-siffror per ämne. Inget publicerar kalibrerings-data offentligt.
Vi tycker det är fel. Lärare har rätt att veta hur bra ett bedömnings-AI faktiskt är, ämne för ämne, innan de litar på det.
Hur du kan hjälpa
- Bidra med bedömda elevtexter via /bidra. Du får 1 till 5 bonusanalyser per text.
- Bidra extra om ditt ämne är BETA (Geografi, NO grundskola, Filosofi). Vi behöver dig.
- Klicka på "Justera betyg" efter varje analys så vi kan mäta var Bedoma har fel.
Senast uppdaterad: 2026-05-15. Vi uppdaterar denna sida varje månad eller vid större kalibreringsförändringar.