Forskningen inom datorseende har stor betydelse för utvecklingen inom artificiell intelligens, att robotar och andra system kan orientera sig och upptäcka föremål och människor är avgörande för utvecklingen av autonoma system.
Hannes Ovréns bidrag till utvecklingen handlar om att utifrån videofilmer, tagna av billiga kroppskameror, skapa en 3D modell av omgivningen, en modell som är helt skalenlig och mätbar.
– Idag rör sig robotar ganska försiktigt för att ta reda på var de är, de kan till och med behöva stanna upp för att lokalisera sig. Med den här tekniken kan roboten röra sig mera fritt och bygga en modell av sin omgivning medan den rör sig, säger Per-Erik Forssén, docent vid Avdelningen för datorseende och huvudhandledare till Hannes Ovrén.
Andra användningsområden är exempelvis inom polisen eller räddningstjänsten där de med en kamera på kroppen kan återskapa brotts- eller skadeplatsen i 3D i efterhand, med människor och föremål på exakt den plats de befann sig i fotoögonblicket.
Rullande slutare
Problemet med att skapa 3D modeller från enkla videokameror har hittills varit att kameran behöver stå stilla, helst på ett stativ. När kameran rör sig ser det på bilderna ut som raka föremål är böjda och står på olika höjd, de vobblar omkring och bilden blir distorderad. Orsaken till detta är att enkla kameror har en så kallad rullande slutare där bilden byggs upp pixelrad för pixelrad - som kamerorna i de smarta mobilerna.
– Det finns en rörelse i varje bildruta, men man kan göra bilden betydligt bättre genom att modellera hur kameran har rört sig och kompensera för det, berättar Hannes Ovrén.
För att beräkningarna inte ska bli alltför omfattande skapar han en kurva för hur kameran har rört sig, en så kallad spline. Kurvan byggs upp av knutpunkter där varje knutpunkt styr kurvans utseende vid en viss tidpunkt i filmen. Ju tätare knutpunkterna placeras desto mer komplicerade rörelser kan kurvan hantera - men beräkningarna blir också allt mer omfattande.
Optimerar beräkningarna
I avhandlingen visar Hannes Ovrén att det går att använda betydligt färre knutpunkter om man samtidigt modellerar det fel som uppstår på grund av att kurvan då rätas ut och blir mjukare. För att felet inte ska bli så stort använder han också en tröghetssensor som sätts fast på kameran, en liten och billig sensor som håller reda på accelerationen, vinkelhastigheten och riktningen mot jordplanet.
– Mätningarna från sensorn läggs också in beräkningarna och på så vis kan vi öka avståndet mellan kontrollpunkterna och minska storleken på beräkningarna, säger Hannes Ovrén.
Förenklingen innebär att kameran inte har rört sig exakt utmed kurvan men genom att även ta reda på hur skillnaden i rörelse påverkar storleken på mätfelet kan han vara ännu mera säker på att 3D-modellen och avstånden i den är rättvisande.
Hannes Ovrén försvarar sin avhandling den 7 september 2018 och fortsätter sedan sin verksamhet vid FOI som nybakad teknologie doktor.
Doktorandarbetet har han utfört inom projektet "Inlärningsbara rörelsemodeller för kameror", finansierat av Vetenskapsrådet.
Continuous Models for Cameras and Inertial Sensors, Hannes Ovrén, Avdelningen Datorseende/Laboratory of Computer Vision, Institutionen för systemteknik, Linköpings universitet 2018. Huvudhandledare docent Per-Erik Forssén.
Video som illustrerar 3D modellbygget från en sportkamera (GoPro)