Transparens om AI-bedömning
Bedoma berättar exakt hur bra AI:n är, ämne för ämne. De flesta verktyg gör det inte.
Sammantaget
Bedoma träffar lärarens betyg inom ett steg i över 8 av 10 fall. Mätt mot 454 verkliga elevtexter med lärares egna bedömningar (mars till maj 2026). Det är samma nivå av samstämmighet som professionella bedömarpaneler uppnår mellan varandra på borderline-texter.
Per ämne
Vi mäter inom ett betyg: AI:ns betyg avviker som mest ett steg från lärarens (E räknas matcha D, D räknas matcha C och så vidare). Det är samma definition forskning på inter-bedömar-samstämmighet använder.
| Ämne | Antal texter | Inom ett betyg |
|---|---|---|
| Samhällskunskap | 35 | 94 procent |
| Historia | 18 | 94 procent |
| Svenska | 138 | 86 procent |
| Engelska | 166 | 80 procent |
Råa siffror hämtade från vår samling av testtexter (454 texter, mätt 2026-05-18 mot bedömningsmotorn som körs i produktion). Tabellen visar bara ämnen med tillräckligt stort underlag (minst 18 texter) för att siffran ska vara meningsfull. Ämnen med mindre underlag visas inte här utan flaggas som BETA i verktyget, så du ser status direkt i analysen.
Vad betyder "inom ett betyg"?
- AI:n säger C, läraren säger B. Skillnad ett steg. Räknas som träff.
- AI:n säger C, läraren säger D. Skillnad ett steg. Räknas som träff.
- AI:n säger A, läraren säger C. Skillnad två steg. Räknas inte som träff.
Vi använder "inom ett betyg" som primärt mått eftersom Skolverkets egna bedömarpaneler inte heller når exakt samma betyg på borderline-texter. Två erfarna lärare kan ge olika betyg på samma text och båda har rätt enligt betygskriterierna.
Var Bedoma är försiktig
- Kort-text-flagga. Texter under 500 tecken får en gul varning så du själv granskar om eleven besvarat hela uppgiften innan du litar på AI:ns betyg.
- BETA-flagga på unga ämnen. Ämnen där vi fortfarande samlar kalibreringsdata visas tydligt som BETA i analysen. Använd som diskussionsunderlag, inte facit.
- F, D och B är svårare än E, C och A.Forskning på bedömarsamstämmighet visar samma sak för mänskliga lärare. Vi visar därför pil-vyn där C kan vara "C med pil upp mot A" istället för att hårdsätta B.
Hur vi mäter
Vi har en samling av 454 verkliga elevtexter som vi använder för testning. 189 är från Skolverkets nationella prov (offentliga). 265 är från lärare som har bidragit via /bidra eller har gett oss tillstånd att använda sina sparade bedömningar.
Vi kör hela testbanken genom bedömningsmotorn vid varje större kalibreringsändring och uppdaterar siffrorna här. Det som avgör träffsäkerheten är inte språkmodellen i sig utan kalibreringslagret: hur varje ämnes betygskriterier är mappade och hur bedömningen justeras mot Skolverkets krav. Vilka underleverantörer som behandlar elevtext framgår av vår integritetspolicy.
Vad konkurrenter gör
Vi har granskat flera ledande AI-bedömningsverktyg på den svenska marknaden.
Inget av dessa verktyg publicerar siffror per ämne. Inget visar sin testdata offentligt.
Vi tycker det är fel. Lärare har rätt att veta hur bra ett bedömnings-AI faktiskt är, ämne för ämne, innan de litar på det.
Hur du kan hjälpa
- Bidra med bedömda elevtexter via /bidra. Du får 1 till 5 bonusanalyser per text.
- Bidra extra om ditt ämne är BETA. Då hjälper du Bedoma bli starkare där det behövs mest.
- Klicka på "Justera betyg" efter varje analys så vi kan kalibrera där AI:n landade fel.
Senast uppdaterad: 2026-05-18. Vi uppdaterar denna sida varje månad eller vid större kalibreringsförändringar.