De tar fram en tillförlitlig ChatGPT för europeiska språk

01 november 2023

Sara Läthén

Tillförlitlig, öppen och hållbar – så ska en ChatGPT för europeiska språk inklusive svenska bli. Det finns dock stora problem som behöver lösas för att komma åt nyttan i samhället.

Abstrakt AI-genererad bild med textrutor över elektronik och ansiktet av en robot — Bilden är skapad av Sara Läthén, Linköpings universitet, delvis med AI.

Marco Kuhlmann är professor vid Linköpings universitet och utvecklar metoder för att förstå och producera mänskligt språk med datorer. Han är del av ett projekt som koordineras av Linköping universitet och som precis beviljats cirka 70 miljoner kronor.

Foto Magnus Johansson – Alla blev lite slagna med häpnad när ChatGPT och senare GPT-4 släpptes. Det var väldigt fascinerande att de blev så bra när de tränades på så stora datavolymer. Helt plötsligt kunde de lösa uppgifter som de inte särskilt tränats för, säger han.

Men för att komma åt samhällsnyttan finns det stora problem som behöver lösas. Man ska kunna lita på modellerna, de ska lämna fakta och får inte hitta på saker. ChatGPT är väldigt bra på att producera grammatiskt korrekt och övertygande text, men modellen är inte tränad för att skapa text som är faktamässigt korrekt. Korrekthet och tillförlitlighet är därför bland det viktigaste som forskarna ska lösa i det treåriga forskningsprojektet som därför fått namnet TrustLLM. LLM står för Large Language Model och är benämningen på stora språkmodeller som ChatGPT.

Det går att jämföra med sökmotorer för att förtydliga problemet. Använder du en sökmotor behöver du fortfarande vara kritisk mot de resultat du får tillbaka. Med en sökmotor får du ändå flera alternativ och kan gå igenom listan med sökresultat och se vad som ser skumt ut, kanske någon opålitlig källa och så vidare. Du kan själv göra ett urval, men när du använder ChatGPT och de andra modellerna, får du inte alls någon möjlighet att på ett lika differentierat sätt fatta ett eget beslut om vilken källa du litar på.

Projektet ska komma till nytta både för invånare och industri och utförs i samarbete med organisationer från Tyskland, Island, Danmark, Norge och Nederländerna. Finansieringen kommer från EU:s nyckelfinansieringsprogram för forskning och innovation; Horizon Europe.

Språkmodellerna ska vara öppna

Ett stort problem med språkmodellerna som ChatGPT och andra är att de ägs av stora företag, ofta amerikanska, vilket skapar ett problem både ur ett samhällsperspektiv och ett vetenskapligt perspektiv.

– I takt med att språkmodellerna blir mer och mer kommersialiserade, har vi sett att företagen publicerar färre och färre detaljer kring hur de tränar modellerna, vilken data de använder för att träna dem och vilka metoder de använder. Det är där vi kan komma in med det här projektet nu, säger Marco Kuhlmann.

Han ser att forskarna nu kanske kan återskapa metoder som företagen eventuellt redan använder och framför allt att metoderna projektet utvecklar ska publiceras för att sedan bli kritiskt granskade av vetenskapssamhället.

Foto: Thor Balkhed Marco Kuhlmann tror att en av anledningarna till att EU vill satsa på TrustLLM-projektet är för att inte halka efter för mycket i utvecklingen. Projektet kan mynna ut i en nyckelteknologi som Europa kanske inte har lika mycket kompetens inom i dagsläget jämfört med exempelvis USA, framför allt inte i offentlig sektor. Kompetensen finns främst hos stora internationella företag som inte alltid är så transparenta. Hans förhoppning är att TrustLLM bidrar till att EU når upp till samma nivå, eller till och med får ett försteg.

Tekniken i projektet ska bli öppen och tillgänglig så att tekniken ska komma till nytta i många länder, på många företag och på en mängd olika sätt. Något som också är bättre ur ett ekonomiskt perspektiv, påpekar han. För att utveckla stora språkmodeller efter verkliga behov tittar projektet på ett antal konkreta tillämpningar inom medicin, media, fordon och mobilitet samt myndigheter.

– Vi har partners från både akademin och industrin och de kan dra åt samma håll här. Den här öppenheten är verkligen någonting som angår alla. Att vi deltar med industrin i projektet tror jag också är en anledning till att EU vill satsa på det här, säger Marco Kuhlmann.

Snabbt och hållbart verktyg som drar minimal mängd energi

Superdatorn Berzelius fotograferad med vidvinkel. Superdator. Foto: Thor Balkhed Att träna språkmodeller kräver mycket energi. Det är också dyrt att sköta driften av språkmodeller. Projektet kommer utveckla modellen så den blir så effektiv som möjligt för att det ska bli ett snabbt och hållbart verktyg som drar minimal mängd energi.

– Att effektivisera och få ner energibehovet under träning och fortsatt utveckling efter att en modell har tränats, tror jag är väldigt viktigt med tanke på både miljöpåverkan samt ur ett ekonomiskt perspektiv. Europeiska företag har inte samma resurser som de amerikanska stora företagen inom området, säger Marco Kuhlmann.

Etiskt förhållningssätt till träningsdata

Forskarna kommer träna språkmodellen på den största mängden text hittills inom europeisk artificiell intelligens, AI. Ett viktigt fokus för projektet är att ha ett etiskt förhållningssätt genom att ha koll på hur personuppgifter och upphovsrätt skyddas i textmängderna som används.

– Vi jobbar på att lösa problem som hela forskarsamhället jobbar på och är intresserade av att komma vidare inom, vilket gör projektet spännande för mig. Jag kommer främst med forskningsperspektivet. Det är väldigt mycket grundforskning som behöver göras samtidigt som det finns starka ekonomiska incitament så det är verkligen en win-win, säger Marco Kuhlmann.

Avancerat ekosystem för nästa generations europeiska språkmodell

Teknikerna som projektet kommer utveckla ska egentligen vara språkoberoende men i slutet av projektet kommer forskarna ha tagit fram en modell för de germanska språken svenska, danska, isländska, tyska och holländska. Projektet skapas i ett sorts avancerat öppet ekosystem så att andra forskare sedan ska kunna ta vid, återanvända och utveckla vidare språkmodeller för andra europeiska språk. Ett mål är också att TrustLLM-projektet och det omgivande ekosystemet ska bidra till att göra interaktion mellan människa och maskin mer kontextmedveten, vilket kommer kunna användas i en stor mängd tillämpningar.

Målet är att de utvecklade modellerna ska bli de mest kraftfulla och pålitliga språkmodellerna i Europa och att projektet ska bli ett stort genombrott inom AI. Forskarna vill på så sätt bidra till att säkra Europas självständighet inom viktiga AI-tekniker och skapa ett nytt ramverk för europeiskt samarbete om stora språkmodeller. De vill skapa grunden för ett europeiskt centrum för stora språkmodeller och storskalig AI för att maximera den vetenskapliga, sociala och ekonomiska effekten.

Fredrik Heintz, professor i datavetenskap vid LiU menar att det är avgörande för Europa att utveckla egna stora språkmodeller:

– Vi måste leda genom innovation, inte bara genom reglering. TrustLLM är ett viktigt steg mot storskaliga investeringar i Europa för att säkerställa att vi tar en aktiv del och driver våra värderingar i form av nya språkmodeller.

De två professorerna Marco Kuhlmann och Fredrik Heintz, på avdelningen Artificiell intelligens och integrerade datorsystem vid Linköpings universitet, är med och driver TrustLLM-projektet. Foto Lena Tasse.

Mer om artificiell intelligens på LiU

Artificiell intelligens (AI) vid Linköpings universitet

LiU har över 100 kurser inom AI, och kompetens inom AI på alla institutioner. Det handlar om såväl rena AI-tekniker som tillämpningar av teknikerna. Men också om synen på AI, hur det kommer samhället till del, etiska riktlinjer mm.

En barnhand håller pekfingret mot ett robotpekfinger

Prenumerera på nyhetsbrev om AI vid LiU

Få nyhetsbrev om forskning, evenemang och andra nyheter om artificiell intelligens vid Linköping universitet. Skickas vanligen ut månadsvis.

Senaste nytt från LiU

En grupp människor som sitter vid ett bord framför en folkmassa.

Deltagare i FN:s klimatmöten vill se större fokus på genomförande

FN:s klimatförhandlingar kritiseras ofta för att gå för långsamt. En ny studie undersöker vilka förändringar delegater och deltagare vid klimatmötet COP29 vill se. Resultaten visar ett starkt stöd för bättre uppföljning av ländernas klimatåtaganden.

Studenter sitter vid bord med datorer i biblioteket.

Rekordstort intresse för Linköpings universitet när antagningen är klar

Linköpings universitet fortsätter att vara ett av Sveriges populäraste lärosäten. Över 52 600 personer sökte till höstens program och fristående kurser. Av dem har 19 250 personer nu fått positiva besked.

Neil Lagali vid utrustning för att undersöka ögonen.

Ögonproblem efter covid-19 kan nu förklaras

Mild covid-19 kan ge svåra och långvariga ögonproblem, visar en studie från Linköpings universitet. Studien förklarar också varför det har varit svårt för drabbade att få hjälp. Avvikelserna upptäcks nämligen inte med standardmetoder.

De tar fram en tillförlitlig ChatGPT för europeiska språk

Språkmodellerna ska vara öppna

Snabbt och hållbart verktyg som drar minimal mängd energi

Etiskt förhållningssätt till träningsdata

Avancerat ekosystem för nästa generations europeiska språkmodell

Mer om artificiell intelligens på LiU

Artificiell intelligens (AI) vid Linköpings universitet

Prenumerera på nyhetsbrev om AI vid LiU

Senaste nytt från LiU

Deltagare i FN:s klimatmöten vill se större fokus på genomförande

Rekordstort intresse för Linköpings universitet när antagningen är klar

Ögonproblem efter covid-19 kan nu förklaras

När jorden blir data – hur digitalisering påverkar kunskapen om jordhälsa

LiU-forskare flyttar gränsen för organiska solceller

Brist på tid och pengar bromsar hållbarhetsarbetet i svensk fotboll

Lyckad satsning på läxhjälp i Skäggetorp

Här kan naturvård göra störst skillnad för hotade arter

LiU i världstoppen inom forskning om fotbollsskador

Roboten som ska ge räddningstjänsten övertaget

David Engblom prisas för forskning om hjärnan och sjukdomskänsla

Ekonomiskt våld mot äldre personer – ett dolt problem som behöver synliggöras

Biogen koldioxid kan bli en resurs när biogasen ökar

Nytt centrum ska stärka Sverige i kvantkapplöpningen

Med moralekonomiska glasögon genom historien

LiU-professor blir Vetenskapsrådets nya huvudsekreterare

EU-miljoner till kunskapsnavet för jordbrukets digitalisering

Forskare efterliknar hjärtmuskelceller med ledande plast

Lubunca – ett hemligt språk med kraft

Astronautlopp ska väcka intresse för STEM

Skräddarsydd AI-utbildning rustar Kriminalvården för framtiden

Sex miljoner till LiU-forskning om luftföroreningar

Alla kan landa på månen med ny omslutande film

Hon öppnar dörrar till idrotten

Språkmodellerna ska vara öppna

Snabbt och hållbart verktyg som drar minimal mängd energi

Etiskt förhållningssätt till träningsdata

Avancerat ekosystem för nästa generations europeiska språkmodell

Mer om artificiell intelligens på LiU

Artificiell intelligens (AI) vid Linköpings universitet

Prenumerera på nyhetsbrev om AI vid LiU

Senaste nytt från LiU

Deltagare i FN:s klimatmöten vill se större fokus på genomförande

Rekordstort intresse för Linköpings universitet när antagningen är klar

Ögonproblem efter covid-19 kan nu förklaras

När jorden blir data – hur digitalisering påverkar kunskapen om jordhälsa

LiU-forskare flyttar gränsen för organiska solceller

Brist på tid och pengar bromsar hållbarhetsarbetet i svensk fotboll

Lyckad satsning på läxhjälp i Skäggetorp

Här kan naturvård göra störst skillnad för hotade arter

LiU i världstoppen inom forskning om fotbollsskador

Roboten som ska ge räddningstjänsten övertaget

David Engblom prisas för forskning om hjärnan och sjukdomskänsla

Ekonomiskt våld mot äldre personer – ett dolt problem som behöver synliggöras

Biogen koldioxid kan bli en resurs när biogasen ökar

Nytt centrum ska stärka Sverige i kvantkapplöpningen

Med moralekonomiska glasögon genom historien

LiU-professor blir Vetenskapsrådets nya huvudsekreterare

EU-miljoner till kunskapsnavet för jordbrukets digitalisering

Forskare efterliknar hjärtmuskelceller med ledande plast

Lubunca – ett hemligt språk med kraft

Astronautlopp ska väcka intresse för STEM

Skräddarsydd AI-utbildning rustar Kriminalvården för framtiden

Sex miljoner till LiU-forskning om luftföroreningar

Alla kan landa på månen med ny omslutande film

Hon öppnar dörrar till idrotten

Dela på