Matematik för maskininlärning

Grafik som visar en stiliserad hjärna med en röd upplyst punkt

Matematik för maskininlärning (MML) är ett tvärvetenskapligt team bestående av forskare inom matematik, maskininlärning och datorseende. Genom gemensamma ansträngningar har de utvecklat nya formuleringar och toppmoderna metoder för residuala neurala nätverk genom att använda inlärning via neurala ordinära differentialekvationer med varierande djup (NODEs), se [1,2,3].

Den övergripande visionen för MML-gruppen är: Forska och utveckla den matematiska grundvalen för och implementeringarna av en ny ram för effektiv inkludering av vetenskapsbaserad kunskap i träningen av NODEs med ett verktygssats för känslighetsanalys för en bred mängd problem inom matematiska vetenskaper som modelleras av ordinära differentialekvationer (ODEs), partiella differentialekvationer (PDEs) och variationsproblem (VPs), för att förbättra AI-forskningen inom datorgrafik, datorseende och matematisk onkologi.

Forskningsbeskrivning

Residuala nätverk [4] (ResNets) möjliggör framgångsrik optimering av mycket djupa neurala nätverksarkitekturer med hundratals lager. Dess representationskraft har lett till förbättringar inom olika högpresterande datorseendeanvändningar, såsom klassificering, objektdetektion, segmentering, osv. I den banbrytande artikeln [5] observerades att strukturen hos ett residualt nätverk liknar Euler-diskretiseringen av en ordinär differentialekvation (ODE). Genom att parametrisera derivatan av den dolda tillståndet av ett neuralt nätverk gör NODEs det möjligt att definiera residualnätverk med kontinuerlig djup, där noggrannhet under inferens kan utbytas mot hastighet. Det har vidare demonstrerats hur många av de nätverk som vanligtvis används inom djupinlärning kan tolkas som olika diskretiseringsmetoder av differentialekvationer, men i det här fallet parametriseras varje lager oberoende. NODEs kan också stabiliseras ytterligare genom att injicera brus under träning för att öka robustheten mot brusstörningar och fientliga exempel.

I vårt arbete [1,2,3] har det visats hur fristående NODEs kan användas isolerat från konventionella nätverkslager, så att det hela nätverket formuleras som en NODE. Fördelen med denna formulering är att de matematiska egenskaperna hos modellen gäller, från inmatningsdatapunkter till förutsägelser. Detta gör det möjligt att exempelvis analysera beteendet hos förutsägelser under olika störningar av datapunkter eller vikter, och möjliggör generell känslighetsanalys av avbildningen. Men eftersom NODE endast beskrivs av fullt anslutna lager finns det begränsningar när det gäller tillämplighet. Gruppen arbetar med flera naturliga förlängningar av den påbörjade forskningen, där vi listar två av dem:

Vetenskapsaktiverade fristående NODEs för inversa och illa ställda ODEs, PDEs och variationsproblem

Vi utvecklar en ram för effektiv inkludering av vetenskapsbaserad kunskap i träningen av fristående NODEs som föreslås i [1,2] för att lösa välställda problem för ODEs och PDEs. Till skillnad från PINNs [6] integrerar vi "fysiken" inte i förlustfunktionen utan i kärnan av de fristående NODEs. Detta beror på det unika designen av fristående NODEs eftersom aktiveringsfunktionen är allmän och täcker en bred klass av funktioner. Dessutom kommer vår metod att tillåta oss att använda (a) en mer allmän förlustfunktion som inte nödvändigtvis överensstämmer med PDE eller ODE som vi vill lösa och (b) problemet med känslighetsanalys för att göra en robusthetsanalys. Denna uppställning kommer att omfatta en bred mängd problem inom matematisk fysik och matematisk biologi, inklusive Navier-Stokes ekvationer, bevarandelagar, diffusionprocesser, advektion-diffusion-reaktionssystem och kinetiska ekvationer. Inom detta projekt behandlas följande forskningsutmaningar:

  • Inkorporera "vetenskapen" i kärnan av fristående NODEs för att lösa
    (i) Välställda problem (direkta problem) för icke-linjära partiella differentialekvationer (PDEs) och ordinära differentialekvationer (ODEs).
    (ii) Illa ställda och inversa problem för icke-linjära PDEs och ODEs (till exempel parametriseringsproblem) samt för variationsproblem.
  • Studera konvergens, stabilitet och noggrannhet hos "vetenskapsaktiverade" fristående NODEs-lösningar.
  • Implementera "vetenskapsaktiverade" fristående NODEs både isolerat och i kombination med traditionella djupinlärningsarkitekturer.

Konvolutionsneurala NODEs (CNODEs)

Konvolutionsneurala nätverk (CNN) är grundstenen inom djupinlärning för bildanalys. För data med rumslig eller tidsmässig struktur (bilder, ljud, osv.) är konvolutionsneurala nätverk (CNNs) [7] den faktiska standarden. Konvolutionslager lär sig och konvolutionskärnor fungerar som en allmän egenskapsutvinnare, vilket gör CNNs både mer effektiva och lättare att optimera, samtidigt som de använder ett lägre antal träningsbara vikter. I kombination med maxpooling extraherar CNNs kompakta funktioner som representerar informationen som behövs för att lösa uppgiften. Dessa kan sedan utnyttjas av helt anslutna lager för att producera det önskade utdata från ett nätverk. Att inkludera konvolutions- och poolingsoperationer i NODE-ramverket är en betydande forskningsutmaning, men representerar också ett viktigt steg mot bredare tillämpliga NODEs. Detta öppnar även upp för intressanta forskningsriktningar, såsom konvolutionslager som är kontinuerliga både i djup och rumslig utsträckning. Målen för detta projekt är:

  • Derivera och analysera konvolutionsneurala NODEs (CNODEs) kontinuerliga inom tids- och rumsliga domäner.
  • Generalisera det icke-linjära konjugatgradientmetoden i [1,2] som en optimerare under CNODE-begränsningar.
  • Implementera CNODEs både isolerat och i kombination med traditionella djupinlärningsarkitekturer.
  • Derivera och analysera känslighetsproblemet för CNODEs för att göra kvalitativa uttalanden om beteendet hos felpropagering i inlärningsprocessen under inflytande av brus.

Referenser

  1. George Baravdish, Gabriel Eilertsen, Rym Jaroudi, B Tomas Johansson, Lukás Malý, and Jonas Unger. Learning via nonlinear conjugate gradients and depth- varying neural odes. arXiv preprint arXiv:2202.05766, 2022.
  2. Rym Jaroudi, Lukás Malý, Gabriel Eilertsen, Tomas B Johansson, Jonas Unger, and George Baravdish. Standalone neural odes with sensitivity analysis. arXiv preprint arXiv:2205.13933, 2022.
  3. Rym Jaroudi. Inverse Problems for Tumour Growth Models and Neural ODEs, Dissertation thesis, Linköping University 2023.
  4. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770?778, 2016.
  5. Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. In S. Bengio, H. M. Wallach, H. Larochelle, K. Grauman, and N. Cesa-Bianchi, editors, Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 6572?6583. Curran Associates Inc, Red Hook, NY, USA, 2018.
  6. Raissi M, Perdikaris P and Karniadakis G 2019 Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations J. Comput. Phys. 378 686?707
  7. Yann LeCun, Yoshua Bengio, et al. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10):1995, 1995.

Forskare