Hans algoritm får datorn att känna igen oss

22 oktober 2019

Monica Westman Svenselius

Goutam Bhat är årets Christer Gilén-stipendiat inom området statistik och maskininlärning. Han får stipendiet för sitt arbete inom området datorseende. ”En av de bästa studenter jag haft inom grundutbildningen”, intygar professor Michael Felsberg.

Området är datorseende, men det Goutam Bhat arbetat med är objektföljning, det vill säga att datorn ska kunna följa ett objekt i bilden, ett föremål eller ett ansikte, även när det rör sig. Det gäller vare sig det rör sig mot eller bort från kameran och i vilken vinkel objektet än befinner sig.

Människor har exempelvis en oslagbar förmåga att känna igen och följa bekanta med blicken, både bakifrån och i profil, och hur de än beter sig. Det är lite av den förmågan som framtidens samarbetande robotar behöver ha för att fungera tillsammans med oss. Tillämpningarna finns inom många områden, självkörande bilar som ska hålla koll på hur bilar, fotgängare, cyklister och djur rör sig, samarbetande drönare som ska hålla reda på varandra och andra och inte minst i för framtidens sociala robotar.

Goutam Bhat, numera doktorand vid ETH i Zürich.Goutam Bhat kom till LiU hösten 2016 som praktikant hos Michael Felsberg, professor i datorseende.
– Vi brukar ta emot en eller två praktikanter per år från ett bra universitet. Goutam var på forskningsnivå redan när han kom hit, intygar Michael Felsberg.

Efter ett års praktik valde Goutam Bhat att läsa en master i Computer Science med inriktning datorseende och han utförde sitt nu prisbelönta examensarbete vid avdelningen Datorseende (Computer Vision Laboratory).
– Det året jag arbetade på avdelningen fick jag några idéer som jag ville testa och som blev mitt examensarbete, säger han.

Visuell objektföljning

Förenklat går visuell objektföljning till så att ett fyrkantigt område i en bild markeras, exempelvis ett ansikte, markeringen kallas en bounding box. Färgen på pixlarna liksom former och andra kännetecken inom boxen blir till en modell som datorn får lära sig att känna igen. När ansiktet rör sig förändras storleken och kanske även färgen, ljuset förändras, vilket betyder att modellen hela tiden måste uppdateras. Det är här maskininlärning och djupinlärning kommer in.
Datorn analyserar alla de bilder den får in och lär sig hur objektet och därmed modellen kan skifta både färg och form. I en människomassa kan det ansikte datorn vill följa dessutom bli skymt av en förbipasserande, även här ska datorn lära sig och snabbt hitta åter till den definierade boxen.

Det här är ett svårt problem inom maskininlärningen och en av de idéer Goutam Bhat hade var att träna en klassifikator, det vill säga att datorn först får klassificera pixlarna, dela in dem i grupper, något som förenklar och snabbar upp de annars mycket omfattande beräkningarna.

– Från teknisk synpunkt insåg jag också hur viktigt det var att separera uppgiften att beräkna hur bounding boxen kunde förväntas röra sig, från uppgiften att grovt lokalisera objektet genom att klassificera regioner i bilden som objekt eller bakgrund, säger Goutam Bhat.

Publicerad på högt rankad konferens

Resultatet blev en blandning mellan inlärning online och offline och en algoritm som är det bästa som finns inom datorseende just nu.
Avdelningen för datorseende, ISY, professor Michael Felsberg

Avdelningen för datorseende, ISY, professor Michael Felsberg

Michael Felsberg Göran Billeson– Algoritmen kan köras i hög hastighet, nära realtid. Han har levererat ett signifikant metodbidrag, har visat att det fungerar och har även dokumenterat allt på en hög vetenskaplig nivå, säger Michael Felsberg.

Arbetet har också publicerats på en av världens högst rankade konferenser inom datavetenskap, CVPR2019, och Goutam Bhat har medverkat i flera vetenskapliga publikationer.

Han fortsätter nu sin forskarbana som doktorand vid Computer Vision Lab vid ETH i Zürich. Det är också det arbetet som hindrar honom att komma till Linköping och ta emot sitt stipendium.
– Jag är på resa till en konferens Seoul och hoppas kunna vara med via videolänk. Och jag fortsätter att forska inom objektföljning, intygar han, glad och tacksam över stipendiet.

Kontakt

Läs mer

Priset, utbildningen och forskningen

LiU-alumnen Christer Gilén riktar en donation till teknikstudenter

Målet är att årligen dela ut stipendier för att uppmuntra studentarbeten som kan leda till tillämpningar inom näringsliv och offentlig sektorn.

tre unga personer sitter framför en datorskärm och diskuterar

Computer Science, masterprogram, 120 hp

Programmet lär dig de teoretiska grunderna i datavetenskap och hur dessa kan användas i praktiska tillämpningar. Efter examen kan du jobba med utveckling av operativsystem, med internetsäkerhet eller visualisering.

Datorseende (CVL)

Forskningen vid avdelningen Datorseende täcker ett brett spektrum av ämnen inom artificiella seende system (AVS).

Senaste nytt från LiU

Pang i bygget - den osynliga undertextaren träder fram

Svenskar läser mycket - särskilt om man räknar in undertexter till film och TV. Men spelar undertextaren själv någon roll? Forskaren Lars Jämterud har kollat på översättningen av den klassiska brittiska komediserien Pang i bygget.

De vill minska CO2-utsläpp från byggnader

Finns det ett sätt som både kan minska byggnaders koldioxidutsläpp och samtidigt vara inkomstbringande? LiU-forskarna Vlatko Milic och Bahram Moshfegh undersöker just detta.

"Hud på spruta" ett steg mot nytt sätt att läka brännskador

Forskare har skapat vad som skulle kunna kallas ”hud på spruta”. Gelen med levande celler kan 3D-printas till ett transplantat, visar en studie gjord på möss. Tekniken kan på sikt bidra till nya sätt att behandla brännskador och svåra sår.