Mänsklig syn – en utmaning för AI - Linköpings universitet

09 juni 2022

Anders Törneholm

Att uppnå mångsidigheten det mänskliga synsinnet är en av de stora utmaningarna inom AI-forskningen. I de allra flesta fall är vi överlägsna maskinerna på att uppfatta världen runt omkring oss. Men sakta och säkert kommer de i kapp.

Porträtt av Michael Felsberg med stängda ögon och formler projicerade över ansiktet. — "Vi vet fortfarande inte vad som faktiskt händer och hur en tanke formas i hjärnan. Lite på samma sätt fungerar djupinlärning. Vi ser att det fungerar, men inte hur det fungerar, säger Michael Felsberg, professor vid Linköpings universitet. Fotograf: Thor Balkhed

– Under en dag kan vi gå från att köra bil, till fridykning, vidare till att läsa tidningen och navigera i en dunkel skog – allt utan större ansträngning. För en robot hade samma sak i dagsläget varit omöjlig, säger Michael Felsberg, professor vid Linköpings universitet och en av Sveriges främsta forskare inom datorseende och artificiell intelligens – AI.

Att vi människor kan gör allt det, och mycket mer, har vi till stor del synen att tacka för. Uppskattningsvis kommer cirka 80 procent av våra intryck via synen. Det är vårt enskilt viktigaste sinne för att ta in det som händer runt omkring oss. Liten självkörande bil kopplad till dator. I laboratoriet Visionen på Campus Valla går det att med hjälp av projektorer skapa en virtuell stad där den självkörande bilen ska navigera. Foto Thor Balkhed Michael Felsbergs forskning fokuserar främst på så kallade artificiella visuella system där målet är att få datorer att uppnå mänskliga synens nivå.

– Biologiska system fungerar helt enkelt. Människan har en otrolig förmåga till generell uppfattning och analys som vi vill försöka efterlikna hos datorerna. Idag kan vi bygga tekniska system som är bra på att göra en specifik uppgift, till exempel självkörande fordon. Men vill vi i framtiden kunna samarbeta med robotar, behöver de kunna se och förstå exakt det vi ser, säger Michael Felsberg.

Vid första anblick kan det verka vara en enkel uppgift att härma det mänskliga synsinnet. I AI-forskningens begynnelse var uppfattningen att datorseende skulle lösas med en enkel kamera under ett kort sommarprojekt. Nu, nästan 60 år senare, har generellt datorseende utvecklats till en av de stora knäckfrågorna för AI-forskningen.

Koden är hjärnan

I laboratoriet Visionen på Campus Valla i Linköping testas många av de lösningar som Michael Felsberg och hans kollegor utvecklar. Mellan de stora glasväggarna testkörs bland annat autonoma drönare och små självkörande bilar utrustade med avancerade sensorer och kameror. Men själva hjärnan i datorseende sitter bakom linsen.

– Kameran är ju bara en ljussensor, den kan ingenting mer. Det är koden och mjukvaran bakom som gör själva jobbet. Det är samma sak med människan, ögat registrerar ljuset och hjärnan gör jobbet, säger Michael Felsberg.

Många försök har gjorts att efterlikna den mänskliga hjärnan, med varierande resultat. Idag används oftast en metod av maskininlärning som kallas djupinlärning. Lite förenklat skulle vi kunna säga att datorn lär sig själv med hjälp av algoritmer organiserade i ett neuralt nätverk. Michael Felsberg med liten självkörande bil. Kameror och sensorer tar in omvärlden men det är koden som gör själva jobbet enligt Michael Felsberg.
Foto Thor Balkhed Algoritmerna matas med stora mängder data som analyseras på flera nivåer. Det kan låta krångligt, och det är det också. Sanningen är att ingen kan säga exakt vad som händer i alla aktiveringar i djupa nät.

Michael Felsberg drar paralleller till den mänskliga hjärnan:

– På en hjärnskanning går det att se vilka delar av hjärnan som är aktiva vid olika stimuli. Men vi vet fortfarande inte vad som faktiskt händer och hur en tanke formas i hjärnan. Lite på samma sätt fungerar djupinlärning. Vi ser att det fungerar, men inte hur det fungerar i detalj, säger han.

Vägen framåt

Men varför är det då så svårt för en dator att se det vi ser? Svaret ligger i vår förmåga att snabbt anpassa oss till olika situationer och den tvåvägskoppling vi har mellan omvärldsuppfattning och kognitionsförmåga som hela tiden är aktiv.

Ett exempel där en dator får det svårt medan vi briljerar, är en sådan enkel sak som att kolla ut genom ett smutsigt fönster. Vi människor kommer direkt kunna se vad som händer utanför rutan trots lite skymd sikt. Men en dator kommer först autofokusera på smutsen på rutan. Och när den väl hittar rätt fokus kommer den ändå inte helt förstå vad som händer då delar av det som sker utanför är skymt av smuts.

Det finns också områden där datorseendet idag redan är bättre än människan. Framför allt handlar det om exakta beräkningar och bedömningar som till exempel avstånd, temperatur och mönsterigenkänning. Porträtt av Michael Felsberg. Michael Felsberg är professor vid Linköpings universitet och en av Sveriges främsta AI-forskare. Foto Thor Balkhed I de fallen kan datorseende snarare komplettera vår egen syn än dra egna slutsatser och agera på dem.

– Ett tekniskt system fungerar bra så länge allt är som förväntat. Men ställs det inför nya oväntade syner kommer det få problem. Vi måste jobba för att få systemen mer robusta, säger Michael Felsberg.

Men att utveckla en mjukvara som kan överträffa flexibiliteten av människans synsinne tar tid. Och enligt Michael Felsberg måste forskningen få ta tid för att bli robust. Vetenskapen är en process och varje ny forskningsartikel lägger ytterligare en liten bit till ett stort pussel. Ytterst sällan sker ett genombrott som skickar forskningen snabbt framåt.

– Generell omvärldsuppfattning hos en dator kan möjligen hända inom vår livstid. Men att skapa kopplingen mellan kognition och omvärldsuppfattning hos en dator ligger antagligen väldigt långt in i framtiden, säger Michael Felsberg.

AI för klimatet

När väl generellt datorseende finns tror han att det kommer finnas en mängd olika tillämpningar. Bland annat sociala robotar, säkrare autonoma fordon och effektivare produktion. Men AI är inte okontroversiellt. Många användningsområden riskerar att inkräkta på privatpersoners integritet då stora mängder personliga data måste hanteras.

Michael Felsberg och hans forskarlag fokuserar därför på hur AI kan ge djupare insikt hur vi kan förhindra ytterligare klimatförändringar:

– Klimatförändringen är ett av mänsklighetens största hot. Med hjälp av utvecklat datorseende kommer vi till exempel snabbt kunna analysera stora landarealer och deras betydelse för klimatet. Det som skulle ta oss människor flera år att kartlägga manuellt skulle potentiellt sätt kunna göras på några veckor med hjälp av AI.

Porträtt av Michael Felsberg. Forskning inom artificiell intelligens och djupinlärning vilar tungt på matematik enligt Michael Felsberg.
Foto Thor Balkhed

Kontakt

Styrkeområde

Plattform AI - om artificiell intelligens vid LiU

LiU har över 100 kurser inom AI, och kompetens inom AI på alla institutioner. Det handlar om såväl rena AI-tekniker som tillämpningar av teknikerna. Men också om synen på AI, hur det kommer samhället till del, etiska riktlinjer mm.

Forskning

Datorseende (CVL)

Forskningen vid avdelningen Datorseende täcker ett brett spektrum av ämnen inom artificiella seende system (AVS).

Institutionen för systemteknik (ISY)

Vid ISY bedriver vi forskning och utbildning inom ämnet Elektro- och systemteknik. Ett stort fokus ligger på samverkan och stora industrisamarbeten.

WASP - Wallenberg AI, Autonomous Systems and Software Program

Den fjärde industriella revolutionen är här när automation övergår i autonomi. LiU har framstående forskning inom flera av de områden som är centrala inom Wallenberg AI Autonomous Systems and Software Program, WASP.

En artikel från LiU magasin nr. 2 2022

Tre personer sitter i soffa och håller upp tidningar framför ansiktet.

LiU magasin

LiU magasin är Linköpings universitets tidning för tidigare studenter (alumner) och andra som är intresserade av universitetets verksamhet. Läs senaste numret här.

Senaste nytt från LiU

De vill minska CO2-utsläpp från byggnader

Finns det ett sätt som både kan minska byggnaders koldioxidutsläpp och samtidigt vara inkomstbringande? LiU-forskarna Vlatko Milic och Bahram Moshfegh undersöker just detta.

"Hud på spruta" ett steg mot nytt sätt att läka brännskador

Forskare har skapat vad som skulle kunna kallas ”hud på spruta”. Gelen med levande celler kan 3D-printas till ett transplantat, visar en studie gjord på möss. Tekniken kan på sikt bidra till nya sätt att behandla brännskador och svåra sår.

Uppmärksammad utbildning om våld mot unga får fortsättning

Digital utsatthet. Gängkriminalitet. Det är några teman som ingår i en utbildning om våld och utsatthet bland skolelever som kunskapscentret Barnafrid nu tar fram. Målgruppen är lärare i grundskolan.