Name: Bedoma
Author: Bedoma

AI utvecklas snabbt. Varje månad kommer en ny modell med nya siffror, och diskussionen i skolvärlden följer efter: ska vi släppa in det, hur används det av eleverna, hur förändras lärarrollen. Det här är en försöker-förklara-text för dig som vill förstå vart det faktiskt är på väg, utan hype och utan onödig jargong.

Så fungerar en språkmodell, väldigt kort

En stor språkmodell som ChatGPT, Claude eller Gemini har tränats på enorma textmängder. När du skriver in något räknar modellen ut vilket ord som mest sannolikt kommer härnäst, sedan nästa, sedan nästa. Den är alltså en väldigt sofistikerad sannolikhetsmaskin som lärt sig mönster i språk.

Det lät tråkigt men visade sig räcka långt. När modellen blir tillräckligt stor och tränad på tillräckligt mycket text uppstår förmågor den inte uttryckligen programmerats för: resonemang, översättning, att bedöma texter mot kriterier.

Det intressanta de senaste två åren är att hur man tränar har blivit viktigare än hur stor modellen är.

Datans återkomst

Under 2020 till 2023 var grundregeln: större modell ger bättre resultat. OpenAI:s GPT 3, GPT 4, och tidiga Claude växte i parametrar. Fler parametrar, mer text, mer beräkningskraft. Prestandan ökade ungefär i takt med det.

Sedan hände något. Runt 2024 började mindre modeller matcha eller slå större. Det berodde på att företagen insåg att träningen var lika viktig som storleken. Om du tränar en mindre modell på noga utvalda exempel, ofta med facit skrivet av experter, blir den bättre än en större modell tränad på allmänt internetinnehåll.

Detta kallas i branschen för post training eller RLHF, reinforcement learning from human feedback. Människor rättar modellen, och modellen justerar sig efter det.

Det här är varför Bedoma investerar så mycket tid i att samla lärarbedömda texter. När en svensklärare fyller i sitt betyg på en analys får vi ett facit. Det facit kan i förlängningen användas för att kalibrera modellen så den förstår hur riktiga lärare bedömer. Inte bara vad kriterierna säger, utan hur de tillämpas i praktiken.

Tre trender att hålla ögonen på fram till 2028

1. Kostnaden per analys rasar

Beräkningskostnaden för en AI-analys har fallit med över en faktor tio sedan 2024, och trenden pekar på en liknande minskning var 12 till 18 månader framåt. Det som för två år sedan var dyrt och klumpigt kan idag köras för en bråkdel av kostnaden och med högre kvalitet.

Vad det betyder: verktyg som idag uppfattas som lyxiga kommer inom två till tre år vara billiga nog att varje skola kan använda dem utan att tveka. Det förändrar spelplanen. Antingen konkurrerar alla verktyg med varandra om pris, eller så konkurrerar de om kvalitet, och kvalitet kräver data (se trend 2).

2. Domänspecifik data blir den nya valutan

En generisk modell vet ganska mycket om allt, men inget ämne riktigt bra. Framtidens verktyg kommer vinna på att ha data som ingen annan har. I Sverige betyder det:

Bedömda elevtexter från riktiga lärare, med riktiga betyg, i riktiga ämnen.
Skolverkets kursplaner kopplade till progressionsord som finns i praktiken.
Exempel på gränsfall (till exempel skillnaden mellan E och D) som bara erfarna lärare kan artikulera.

Det här är inte data som ligger tillgänglig på internet. Den måste samlas in, struktureras och valideras av människor. Varje lärare som lägger 30 sekunder på att bekräfta eller korrigera en bedömning bidrar till ett dataset som ingen generisk modell har tillgång till.

3. Kontextfönster bara växer

När ChatGPT lanserades 2022 kunde den hålla ungefär 3000 ord i huvudet samtidigt. Claude har idag 1 miljon ord. Google testar 10 miljoner. Om några år kan en modell läsa en hel bok samtidigt som den läser elevens text.

Vad det betyder praktiskt: framtidens bedömningsstöd kan läsa en hel uppgiftsinstruktion, lärarens egna anteckningar om klassen, och 30 elevtexter samtidigt, och bedöma dem i ett sammanhang. Det är ungefär så en människa bedömer, genom att jämföra mot helheten. Modeller närmar sig det.

Vad händer med kvaliteten på bedömningen?

Här är det viktigt att vara ärlig. Språkmodeller har historiskt haft tre återkommande problem vid bedömning:

Mittenbias. Modeller tenderar att ge medelbetyg (C eller D) när de är osäkra, även om texten egentligen är starkare eller svagare. Det här är ett utbrett fenomen och något Bedoma aktivt arbetar mot. När en lärare klagade på att allt hamnar på C var det både rätt observation och en verklig designutmaning.

Falsk säkerhet. Modellen kan formulera sin bedömning med tvärsäker auktoritet även när den gissar. En erfaren lärare märker det. En ny lärare kanske inte gör det. Därför måste AI alltid vara ett stöd som läraren granskar, aldrig en auktoritet som läraren följer.

Tolkning av tunga ämnen. Moderna språk, hem och konsumentkunskap, slöjd, idrott. Här finns lite träningsdata publicerad offentligt, och det syns i kvaliteten. En bedömning i svenska är idag betydligt mer pålitlig än en bedömning i spanska.

Dessa problem löses inte av större modeller. De löses av mer, och bättre, data.

Vad det betyder för dig som lärare

Tre konkreta konsekvenser:

Du bör förvänta dig snabbare iterationer. Om ett verktyg känns dåligt idag, testa det igen om tre månader. Skillnaden kan vara påtaglig.

Din feedback har reellt värde. Inte bara till den specifika produkten, utan till hela branschens utveckling. Om du märker att ett verktyg har systematiska fel, säg det. Seriösa utvecklare kommer anpassa sig.

Spara din expertis. Det som AI inte kommer ersätta på länge är relationen till eleven, kontextkunskapen om klassen, och den pedagogiska intuitionen i samtalen. De bitarna blir mer värdefulla, inte mindre, när mekaniskt rättande effektiviseras bort.

Vad Bedoma gör

Bedoma är ett bedömningsstöd som analyserar elevtexter mot Skolverkets officiella betygskriterier. Vi använder Anthropics Claude Haiku 4.5, men den riktiga produkten är inte modellen. Det är kalibreringen: hur vi instruerar modellen att tänka som en svensk lärare, med specifika kunskapskrav för specifika kurser.

Den kalibreringen bygger vi tillsammans med lärare, en bedömning i taget. Varje korrigerad bedömning gör nästa bedömning lite bättre.

Vi har nått 86 till 91 procent träffsäkerhet mot nationella prov i svenska och engelska. Vi har ännu inte nått dit i praktisk estetiska ämnen och moderna språk, för där saknar vi data. Men vi jobbar på det, och varje lärare som bidrar med en bedömning flyttar nålen.

Vill du hjälpa till? Skapa ett gratis konto och testa verktyget med dina egna elevtexter. Dina betygspar, när du fyller i dem, bidrar direkt till att göra nästa version bättre.