Hoppa till huvudinnehåll
bedoma

Transparens om AI-bedömning

Bedoma berättar exakt hur bra AI:n är, ämne för ämne. De flesta verktyg gör det inte.

Sammantaget

Bedoma träffar lärarens betyg inom ett steg i 8 av 10 fall. Mätt mot 454 verkliga elevtexter med lärares egna bedömningar (mars till maj 2026). I 51 procent av fallen ger Bedoma exakt samma betyg som läraren. I 83 procent ligger Bedoma inom ett betyg. Resultatet varierar kraftigt mellan ämnen, se tabellen nedan.

Per ämne

Vi visar både strikt match (exakt samma betyg som läraren) och inom ett betyg (E räknas matcha D, D räknas matcha C och så vidare).

ÄmneAntal texterStrikt matchInom ett betyg
Naturkunskap10100 procent100 procent
Matematik1090 procent100 procent
Religionskunskap1182 procent100 procent
Historia1878 procent94 procent
Samhällskunskap3571 procent94 procent
Svenska som andraspråk667 procent100 procent
Svenska13848 procent86 procent
Engelska16647 procent80 procent
Moderna språk743 procent100 procent
Hem och konsumentkunskap4927 procent67 procent

Alla siffror är råa och oredigerade, hämtade från vår samling av testtexter (454 texter, mätt 2026-05-14 mot den AI-prompt som körs i produktion).

Vad du ska veta

  • Naturkunskap, Samhällskunskap, Religionskunskap, Matematik och Historia är vår starka sida.
  • Svenska och Engelska har stor variation. Vi träffar inom ett betyg i 80 till 92 procent. Skolverkets egna bedömarpaneler har 70 till 85 procent inter-rater agreement på borderline-texter.
  • Hem och konsumentkunskap har vi sämst på. 29 procent strikt match. Använd Bedoma som diskussionsunderlag, inte facit.
  • Moderna språk har för lite kalibrerings-data. BETA-flagga visas.

Vad betyder "strikt match" och "inom ett betyg"?

  • Strikt match: AI:n säger C, läraren säger C. Exakt samma betyg.
  • Inom ett betyg: AI:n säger C, läraren säger B. Skillnad ett steg. Vi räknar detta som rimlig nivå.

Vi använder "inom ett betyg" som primärt mått eftersom Skolverkets egna bedömarpaneler inte heller når 100 procent strikt match på borderline-texter. Två erfarna lärare kan ge olika betyg på samma text och båda har rätt enligt betygskriterierna.

Stabilitet

På elevtexter som faktiskt är A-nivå ger Bedoma samma A-betyg i 93 procent av fallen (vid om-bedömning av samma text). På B-nivå: 87 procent. På C-nivå: 73 procent. På D, E och F är konsekvensen lägre. Vi arbetar på det.

Var vi är öppet svaga

  1. F-betyg detekteras i bara 10 procent. Kompenseras med kort-text-flagga (under 500 tecken).
  2. B-detektion svag. AI:n drar sällan slutsatsen B. Vi visar pil-vy där B blir "C med pil upp mot A".
  3. D-detektion svag. Post-processing flyttar C till D när matrisen visar minst 25 procent E-aspekter.

Detta är AI-modellens grundläggande begränsning (vi använder Claude Haiku 4.5 från Anthropic). Sonnet, GPT-4.1 och Gemini löser inte dessa problem utan att kosta fem gånger mer.

Hur vi mäter

Vi har en samling av 454 verkliga elevtexter som vi använder för testning. 189 är från Skolverkets nationella prov (offentliga). 265 är från lärare som har bidragit via /bidra eller har gett oss tillstånd att använda sina sparade bedömningar.

Vi kör hela cachen igenom AI:n vid varje större prompt-ändring och publicerar resultatet i vår status-fil som uppdateras vid varje förändring.

Vad konkurrenter gör

Vi har granskat flera ledande AI-bedömningsverktyg på den svenska marknaden.

Inget av dessa verktyg publicerar accuracy-siffror per ämne. Inget publicerar kalibrerings-data offentligt.

Vi tycker det är fel. Lärare har rätt att veta hur bra ett bedömnings-AI faktiskt är, ämne för ämne, innan de litar på det.

Hur du kan hjälpa

  1. Bidra med bedömda elevtexter via /bidra. Du får 1 till 5 bonusanalyser per text.
  2. Bidra extra om ditt ämne är BETA (Geografi, NO grundskola, Filosofi). Vi behöver dig.
  3. Klicka på "Justera betyg" efter varje analys så vi kan mäta var Bedoma har fel.

Senast uppdaterad: 2026-05-15. Vi uppdaterar denna sida varje månad eller vid större kalibreringsförändringar.