Hierarkisk uppdragsplanering för autonoma agenter i osäkra miljöer

En man på toppen av ett militärplan. Fotograf: Linus Haegermark @Saab, Copyright Saab AB

I samarbete med Saab Aeronautics utvecklar vi metoder för dynamiskt och intelligent beslutsfattande för autonoma agenter genom att kombinera optimeringsmetoder med inlärningsbaserade angreppssätt.

"Planer är värdelösa, men planering är oumbärlig." I mycket osäkra miljöer är förmågan att iterera och omarbeta den ursprungliga planen avgörande för utfallet, eftersom oväntade händelser med säkerhet kommer att inträffa.

Autonoma agenter, såsom obemannade (strids)flygplan – Unmanned (Combat) Aerial Vehicles, eller U(C)AV:er – är luftfarkoster som kan genomföra uppdrag utan direkt mänsklig styrning. Dessa mångsidiga plattformar är ovärderliga inom både militära och civila tillämpningar, särskilt i krävande miljöer. Den centrala utmaningen ligger dock i att möjliggöra snabba och intelligenta beslut under pågående uppdrag.

Förena inlärningsbaserade metoder och matematisk optimering

Artificiell intelligens, i synnerhet förstärkningsinlärning (eng. reinforcement learning (RL)), erbjuder stor potential vad gäller anpassningsförmåga, optimering och autonomt agerande. RL-metoder lär sig genom interaktion med omgivningen, men står inför utmaningar i asymmetriska situationer med heterogena agenter. Mångfalden av agenter ökar komplexiteten avsevärt, vilket försvårar inlärningen av effektiva strategier och leder till skalbarhetsproblem. Dessutom är RL:s prestanda starkt beroende av träningsdata, som i verkliga tillämpningar kan vara svår, dyr och riskfylld att samla in. Träning sker därför oftast i simulering, men skillnader mellan simulerade och verkliga miljöer kan leda till försämrad prestanda efter driftsättning. För att hantera detta krävs att agenter snabbt kan anpassa sig till nya förutsättningar, vilket är särskilt utmanande i komplexa och oförutsägbara situationer.

Operationsanalytiska metoder, såsom matematisk optimering och heuristiker, kräver ingen träning av agenter och är mindre beroende av stora datamängder. Dessa modeller kan konstrueras för att vara robusta mot osäkerhet och variationer i miljön, och de är väl lämpade för att hantera ett varierande antal heterogena agenter. Däremot är optimeringsbaserade metoder normalt sett mindre anpassade för mycket dynamiska och osäkra miljöer. Samtidigt som optimering erbjuder god tolkbarhet är datadrivna ”black-box”-metoder ofta enklare att implementera, eftersom de inte kräver förståelse för de interna mekanismerna.

Genom att kombinera RL och optimeringsmetoder kan man dra nytta av RL:s anpassningsförmåga i dynamiska miljöer och samtidigt utnyttja robustheten och tolkbarheten hos optimeringsbaserade metoder. Detta möjliggör mer effektiva och skalbara lösningar för komplexa uppdrag.

Ett hierarkiskt ramverk för uppdragsplanering

Flygplan. Fotograf: Saab
Genom att kombinera inlärningsbaserade metoder med optimeringsbaserade angreppssätt till så kallade anytime-hybridmetoder kan de resulterande algoritmerna möjliggöra snabbare beslutsfattande och exekvering, vilket är avgörande för säkerheten i tidskritiska operationer.

I osäkra miljöer är dynamisk omplanering i realtid avgörande. För uppdrag med flera agenter blir denna uppgift snabbt mycket komplex. Ett hierarkiskt modellangreppssätt kan då användas, där planeringen delas upp i två nivåer: en övergripande (hög) nivå och en detaljerad (låg) nivå. Metoden på hög nivå planerar över en längre tidshorisont genom resursallokering och schemaläggning samt anpassar den initiala planen vid behov. Metoden på låg nivå fattar beslut om hur uppgifter ska genomföras, med en kortare tidshorisont än den övergripande planeringen. RL-baserade metoder är väl lämpade för planering på låg nivå, medan optimeringsbaserade metoder ger ett bättre långsiktigt perspektiv för planering på hög nivå, särskilt när tillgången till träningsdata är begränsad.

Kontakt

Organisation

Mer om forskning vid LiU