– Under en dag kan vi gå från att köra bil, till fridykning, vidare till att läsa tidningen och navigera i en dunkel skog – allt utan större ansträngning. För en robot hade samma sak i dagsläget varit omöjlig, säger Michael Felsberg, professor vid Linköpings universitet och en av Sveriges främsta forskare inom datorseende och artificiell intelligens – AI.
Att vi människor kan gör allt det, och mycket mer, har vi till stor del synen att tacka för. Uppskattningsvis kommer cirka 80 procent av våra intryck via synen. Det är vårt enskilt viktigaste sinne för att ta in det som händer runt omkring oss. I laboratoriet Visionen på Campus Valla går det att med hjälp av projektorer skapa en virtuell stad där den självkörande bilen ska navigera. Foto Thor Balkhed Michael Felsbergs forskning fokuserar främst på så kallade artificiella visuella system där målet är att få datorer att uppnå mänskliga synens nivå.
– Biologiska system fungerar helt enkelt. Människan har en otrolig förmåga till generell uppfattning och analys som vi vill försöka efterlikna hos datorerna. Idag kan vi bygga tekniska system som är bra på att göra en specifik uppgift, till exempel självkörande fordon. Men vill vi i framtiden kunna samarbeta med robotar, behöver de kunna se och förstå exakt det vi ser, säger Michael Felsberg.
Vid första anblick kan det verka vara en enkel uppgift att härma det mänskliga synsinnet. I AI-forskningens begynnelse var uppfattningen att datorseende skulle lösas med en enkel kamera under ett kort sommarprojekt. Nu, nästan 60 år senare, har generellt datorseende utvecklats till en av de stora knäckfrågorna för AI-forskningen.
Koden är hjärnan
I laboratoriet Visionen på Campus Valla i Linköping testas många av de lösningar som Michael Felsberg och hans kollegor utvecklar. Mellan de stora glasväggarna testkörs bland annat autonoma drönare och små självkörande bilar utrustade med avancerade sensorer och kameror. Men själva hjärnan i datorseende sitter bakom linsen.
– Kameran är ju bara en ljussensor, den kan ingenting mer. Det är koden och mjukvaran bakom som gör själva jobbet. Det är samma sak med människan, ögat registrerar ljuset och hjärnan gör jobbet, säger Michael Felsberg.
Många försök har gjorts att efterlikna den mänskliga hjärnan, med varierande resultat. Idag används oftast en metod av maskininlärning som kallas djupinlärning. Lite förenklat skulle vi kunna säga att datorn lär sig själv med hjälp av algoritmer organiserade i ett neuralt nätverk. Kameror och sensorer tar in omvärlden men det är koden som gör själva jobbet enligt Michael Felsberg.
Foto Thor Balkhed Algoritmerna matas med stora mängder data som analyseras på flera nivåer. Det kan låta krångligt, och det är det också. Sanningen är att ingen kan säga exakt vad som händer i alla aktiveringar i djupa nät.
Michael Felsberg drar paralleller till den mänskliga hjärnan:
– På en hjärnskanning går det att se vilka delar av hjärnan som är aktiva vid olika stimuli. Men vi vet fortfarande inte vad som faktiskt händer och hur en tanke formas i hjärnan. Lite på samma sätt fungerar djupinlärning. Vi ser att det fungerar, men inte hur det fungerar i detalj, säger han.
Vägen framåt
Men varför är det då så svårt för en dator att se det vi ser? Svaret ligger i vår förmåga att snabbt anpassa oss till olika situationer och den tvåvägskoppling vi har mellan omvärldsuppfattning och kognitionsförmåga som hela tiden är aktiv.
Ett exempel där en dator får det svårt medan vi briljerar, är en sådan enkel sak som att kolla ut genom ett smutsigt fönster. Vi människor kommer direkt kunna se vad som händer utanför rutan trots lite skymd sikt. Men en dator kommer först autofokusera på smutsen på rutan. Och när den väl hittar rätt fokus kommer den ändå inte helt förstå vad som händer då delar av det som sker utanför är skymt av smuts.
Det finns också områden där datorseendet idag redan är bättre än människan. Framför allt handlar det om exakta beräkningar och bedömningar som till exempel avstånd, temperatur och mönsterigenkänning. Michael Felsberg är professor vid Linköpings universitet och en av Sveriges främsta AI-forskare. Foto Thor Balkhed I de fallen kan datorseende snarare komplettera vår egen syn än dra egna slutsatser och agera på dem.
– Ett tekniskt system fungerar bra så länge allt är som förväntat. Men ställs det inför nya oväntade syner kommer det få problem. Vi måste jobba för att få systemen mer robusta, säger Michael Felsberg.
Men att utveckla en mjukvara som kan överträffa flexibiliteten av människans synsinne tar tid. Och enligt Michael Felsberg måste forskningen få ta tid för att bli robust. Vetenskapen är en process och varje ny forskningsartikel lägger ytterligare en liten bit till ett stort pussel. Ytterst sällan sker ett genombrott som skickar forskningen snabbt framåt.
– Generell omvärldsuppfattning hos en dator kan möjligen hända inom vår livstid. Men att skapa kopplingen mellan kognition och omvärldsuppfattning hos en dator ligger antagligen väldigt långt in i framtiden, säger Michael Felsberg.
AI för klimatet
När väl generellt datorseende finns tror han att det kommer finnas en mängd olika tillämpningar. Bland annat sociala robotar, säkrare autonoma fordon och effektivare produktion. Men AI är inte okontroversiellt. Många användningsområden riskerar att inkräkta på privatpersoners integritet då stora mängder personliga data måste hanteras.
Michael Felsberg och hans forskarlag fokuserar därför på hur AI kan ge djupare insikt hur vi kan förhindra ytterligare klimatförändringar:
– Klimatförändringen är ett av mänsklighetens största hot. Med hjälp av utvecklat datorseende kommer vi till exempel snabbt kunna analysera stora landarealer och deras betydelse för klimatet. Det som skulle ta oss människor flera år att kartlägga manuellt skulle potentiellt sätt kunna göras på några veckor med hjälp av AI.
Forskning inom artificiell intelligens och djupinlärning vilar tungt på matematik enligt Michael Felsberg.
Foto Thor Balkhed