Människor har en enastående förmåga när det kommer till att upptäcka olika särdrag på en människa, som (1) ålder, kön, frisyr, klädstil (2) aktiviteter som ridning, klättring, löpning eller promenad liksom (3) ansiktsuttryck som ilska, skratt eller leende.
Vi utvecklar en helt ny lösning för djupinlärning för det utmanande problemet att semantiskt tolka en människa på bilder och videor.
Tonvikten läggs på att undersöka ett antal delproblem som exempelvis effektiv bild- och videobeskrivning, automatiskt inlärning från visuella modeller, lärande från text och visuella data liksom att få fram robusta metoder som fungerar med minimal övervakning.