Människor har exempelvis en oslagbar förmåga att känna igen och följa bekanta med blicken, både bakifrån och i profil, och hur de än beter sig. Det är lite av den förmågan som framtidens samarbetande robotar behöver ha för att fungera tillsammans med oss. Tillämpningarna finns inom många områden, självkörande bilar som ska hålla koll på hur bilar, fotgängare, cyklister och djur rör sig, samarbetande drönare som ska hålla reda på varandra och andra och inte minst i för framtidens sociala robotar.
Goutam Bhat, numera doktorand vid ETH i Zürich.Goutam Bhat kom till LiU hösten 2016 som praktikant hos Michael Felsberg, professor i datorseende.
– Vi brukar ta emot en eller två praktikanter per år från ett bra universitet. Goutam var på forskningsnivå redan när han kom hit, intygar Michael Felsberg.
Efter ett års praktik valde Goutam Bhat att läsa en master i Computer Science med inriktning datorseende och han utförde sitt nu prisbelönta examensarbete vid avdelningen Datorseende (Computer Vision Laboratory).
– Det året jag arbetade på avdelningen fick jag några idéer som jag ville testa och som blev mitt examensarbete, säger han.
Visuell objektföljning
Förenklat går visuell objektföljning till så att ett fyrkantigt område i en bild markeras, exempelvis ett ansikte, markeringen kallas en bounding box. Färgen på pixlarna liksom former och andra kännetecken inom boxen blir till en modell som datorn får lära sig att känna igen. När ansiktet rör sig förändras storleken och kanske även färgen, ljuset förändras, vilket betyder att modellen hela tiden måste uppdateras. Det är här maskininlärning och djupinlärning kommer in.Datorn analyserar alla de bilder den får in och lär sig hur objektet och därmed modellen kan skifta både färg och form. I en människomassa kan det ansikte datorn vill följa dessutom bli skymt av en förbipasserande, även här ska datorn lära sig och snabbt hitta åter till den definierade boxen.
Det här är ett svårt problem inom maskininlärningen och en av de idéer Goutam Bhat hade var att träna en klassifikator, det vill säga att datorn först får klassificera pixlarna, dela in dem i grupper, något som förenklar och snabbar upp de annars mycket omfattande beräkningarna.
– Från teknisk synpunkt insåg jag också hur viktigt det var att separera uppgiften att beräkna hur bounding boxen kunde förväntas röra sig, från uppgiften att grovt lokalisera objektet genom att klassificera regioner i bilden som objekt eller bakgrund, säger Goutam Bhat.
Publicerad på högt rankad konferens
Resultatet blev en blandning mellan inlärning online och offline och en algoritm som är det bästa som finns inom datorseende just nu.Michael Felsberg Foto Göran Billeson– Algoritmen kan köras i hög hastighet, nära realtid. Han har levererat ett signifikant metodbidrag, har visat att det fungerar och har även dokumenterat allt på en hög vetenskaplig nivå, säger Michael Felsberg.
Arbetet har också publicerats på en av världens högst rankade konferenser inom datavetenskap, CVPR2019, och Goutam Bhat har medverkat i flera vetenskapliga publikationer.
Han fortsätter nu sin forskarbana som doktorand vid Computer Vision Lab vid ETH i Zürich. Det är också det arbetet som hindrar honom att komma till Linköping och ta emot sitt stipendium.
– Jag är på resa till en konferens Seoul och hoppas kunna vara med via videolänk. Och jag fortsätter att forska inom objektföljning, intygar han, glad och tacksam över stipendiet.