Hvordan jeg tester AI på norsk

Hva skjer egentlig når du snakker norsk til en AI som er trent på engelsk? Mer enn du tror — og mindre enn du håper.

Jeg har brukt det siste halvåret på å teste AI-modeller systematisk på norsk. Ikke fordi noen ba meg om det, men fordi jeg trengte å vite: kan vi stole på at disse verktøyene faktisk fungerer på språket vårt?

Svaret er nyansert. Og det er akkurat derfor det er verdt å skrive om.

Utgangspunktet

Jeg jobber som seksjonsleder ved NITO kompetansesenter. Vi lager kurs og læringsinnhold for teknologer i Norge. Når AI-verktøy lover å effektivisere alt fra tekstproduksjon til kursutvikling, er det fristende å kaste seg på. Men som pedagog vet jeg at språk og kontekst betyr enormt mye for læring. En AI som skriver flytende engelsk men stiv norsk er ikke nødvendigvis nyttig for oss.

Så jeg begynte å teste. Systematisk.

Hva jeg testet

Jeg kjørte de samme oppgavene gjennom tre forskjellige modeller: Claude (Anthropic), GPT-4 (OpenAI) og Llama 3 via Ollama lokalt. Oppgavene var:

Skriv en kursbeskrivelse for et dagskurs om Python for nybegynnere — typisk oppgave i jobben min. Forklar hva maskinlæring er til noen uten teknisk bakgrunn — pedagogisk formidling. Lag et sammendrag av en norsk fagartikkel — lesing og forståelse av norsk kontekst. Oversett teknisk dokumentasjon fra engelsk til norsk — der nyansene virkelig teller.

Det som fungerer overraskende bra

Claude og GPT-4 skriver god norsk. Ikke perfekt, men godt nok til at en kollega kunne lese det uten å reagere. Setningsstrukturen er naturlig, ordforrådet er variert, og de forstår konteksten. Begge håndterer bokmål solid, og Claude er spesielt god på å holde en konsistent tone gjennom lengre tekster.

      Prompt: Skriv en kort kursbeskrivelse for et dagskurs i Python.

      # Claude sitt svar (forkortet):

      Dagskurs: Kom i gang med Python

      Lær grunnleggende Python-programmering på én dag. Kurset passer deg

      som vil automatisere hverdagsoppgaver, jobbe med data, eller bare

      forstå hva koden gjør. Ingen forkunnskaper kreves.

Legg merke til tonen. Den er direkte, norsk og fri for den stive «bedriftsspråk»-følelsen du ofte får fra AI. Det er ikke tilfeldig — det handler om hvordan du prompter.

Det som ikke fungerer

Lokale modeller sliter med norsk. Llama 3 via Ollama blander gjerne inn svenske ord, lager unaturlige sammensetninger, og mister tråden i lengre tekster. For enkle oppgaver som kodehjelp er det greit, men for tekstproduksjon på norsk er det fortsatt et stykke igjen.

Fagterminologi er en utfordring. Alle modellene har en tendens til å bruke engelske fagtermer der norske alternativer finnes. «Machine learning» i stedet for «maskinlæring». «Deploy» i stedet for «publisere». For pedagogisk innhold er det avgjørende å bruke riktig norsk terminologi.

Nynorsk er et sorgens kapittel. Selv de beste modellene produserer nynorsk som føles som en dårlig Google Translate fra bokmål. Det er ikke ubrukelig, men det krever grundig redigering.

Hva jeg lærte

Hovedinnsikt: AI på norsk er et godt utgangspunkt, ikke et ferdig produkt. Du sparer tid ved å la AI lage et utkast, men du trenger alltid et menneske som kjenner konteksten til å kvalitetssikre.

Tre konkrete ting som gjør stor forskjell:

Prompt på norsk, svar på norsk. Skriv alltid prompten din på norsk hvis du vil ha norsk output. Det høres opplagt ut, men mange skriver engelske prompts og ber om norsk svar — det gir dårligere kvalitet.

Gi kontekst om målgruppen. «Skriv for norske ingeniører i industrien» gir vesentlig bedre resultat enn bare «skriv en kursbeskrivelse». Jo mer kontekst, jo mer treffsikkert.

Bruk AI til struktur, ikke til stemme. La modellen lage disposisjonen og første utkast. Skriv om med din egen stemme etterpå. Det er raskere enn å skrive fra scratch, og resultatet føles autentisk.

Hva nå?

Jeg fortsetter å eksperimentere. Akkurat nå tester jeg hvordan AI kan hjelpe med å tilpasse kursinnhold til ulike nivåer automatisk — en og samme fagartikkel tilpasset nybegynner, middels og avansert. Hvis det fungerer, er det potensielt enormt for oss som jobber med kompetanseutvikling.

Og jeg følger nøye med på utviklingen av norske språkmodeller. NorwAI og andre initiativer jobber med dette, og det er bare et spørsmål om tid før vi har modeller som virkelig forstår norsk kontekst.

Inntil da: test selv. Ikke ta andres benchmarks for god fisk. Norsk er et lite språk i AI-verdenen, og den eneste måten å vite om det fungerer for din bruk er å prøve.