Mika Gustafsson och David Martínez hoppas att AI-stödda modeller på sikt ska kunna användas inom precisionsmedicin för att utveckla behandlingar och förebyggande strategier som är skräddarsydda för individen. Foto Thor Balkhed Vilka av alla våra gener som används vid en viss tidpunkt kan påverkas av många faktorer. Rökning, matvanor och miljöföroreningar är några exempel. Denna reglering av genaktivitet kan liknas vid en strömbrytare som styr vilka gener som är av och på – utan att ändra själva generna – och kallas epigenetik.
Forskare vid Linköpings universitet har använt data med epigenetisk information från över 75 000 mänskliga prover för att träna upp ett stort antal AI-modeller av typen neuronnät. Deras förhoppning är att sådana AI-underbyggda modeller på sikt ska kunna användas inom precisionsmedicin för att utveckla behandlingar och förebyggande strategier som är skräddarsydda för individen. Forskarnas modeller är av typen autokodare (eng. auto-encoder), som på egen hand organiserar informationen och hittar mönster i hur den stora mängden data förhåller sig till varandra.
Rökning syns som spår på DNA
För att pröva sin modell har LiU-forskarna jämfört den med befintliga modeller. Det finns sedan tidigare modeller av rökvanors effekter på kroppen, som bygger på att specifika epigenetiska förändringar speglar effekter av rökning på lungornas funktion. Dessa spår finns kvar på DNA långt efter att personen slutat röka och den här sortens modell kan identifiera om en person är aktiv rökare, före detta rökare eller aldrig har rökt. Andra befintliga modeller kan baserat på epigenetiska markörer uppskatta personers kronologiska ålder, eller gruppera personer utifrån att de har en sjukdom eller är friska.
LiU-forskarna tränade sin autokodare och använde sedan resultatet för att besvara tre olika frågeställningar: åldersbestämning, rökarstatus och diagnos av sjukdomen systemisk lupus erythematosus, SLE. Trots att de befintliga modellerna har tränats på utvalda epigenetiska markörer som har kända kopplingar till tillståndet som modellen ska klassificera, visade det sig att LiU-forskarnas autokodare fungerade bättre eller lika bra.David Martínez, doktorand. Foto Thor Balkhed
– Våra modeller ger oss inte bara möjlighet att klassificera individer baserat på deras epigenetiska data. Vi fann också att våra modeller både hittar epigenetiska markörer som är kända sedan tidigare och används i andra modeller, men också nya markörer som är kopplade till tillståndet vi undersöker. Ett exempel är att vår modell för rökning identifierar markörer som har att göra med lungcancer, luftvägssjukdomar och DNA-skada, säger David Martínez, doktorand vid Linköpings universitet.
Målet med de autokodade modellerna är att kunna komprimera oerhört komplexa biologiska data till en representation av de mest relevanta egenskaperna och mönstren i data.Mika Gustafsson, professor. Foto Thor Balkhed
– Vi styrde inte modellen och hade inga hypoteser baserade på befintlig biologisk kunskap, utan vi lät data tala för sig själv. När vi sedan tittade på vad som hände i autokodaren såg vi att data självorganiserade sig på ett sätt som påminner om hur det fungerar i kroppen, säger Mika Gustafsson, professor i translationell bioinformatik vid Linköpings universitet, som har lett den aktuella studien som publiceras i tidskriften Briefings in Bioinformatics.
I nästa steg kan forskarna använda de viktigaste egenskaperna som autokodaren hittat för att skapa modeller som kan klassificera för en stor mängd miljörelaterade, individspecifika faktorer där det saknas tillräckligt stora träningsdata att träna mer komplexa AI-modeller på.
Tolkningsbara AI-modeller
En del sorts AI liknas ibland vid en svart låda som lämnar ifrån sig svar, men människan kan inte se hur AI:n har kommit fram till det svaret. Mika Gustafsson och hans kollegor strävar däremot efter att skapa tolkningsbara AI-modeller, som så att säga låter forskarna glänta på locket till den ”svarta lådan” för att förstå vad som pågår där inne.
– Vi vill kunna förstå vad modellen visar oss om biologin bakom sjukdom och andra tillstånd. Då kan vi inte bara se om en person är sjuk eller inte, utan genom att tolka data har vi också chansen att lära oss varför, säger Mika Gustafsson.
Forskningen har finansierats med stöd av bland andra Vetenskapsrådet, Wallenberg AI, Autonomous Systems and Software Program (WASP) och SciLifeLab & Wallenberg nationellt program för datadriven livsvetenskap (DDLS).
Artikeln: NCAE: data-driven representations using a deep network-coherent DNA methylation autoencoder identify robust disease and risk factor signatures, David Martínez-Enguita, Sanjiv K. Dwivedi, Rebecka Jörnsten och MikaGustafsson, (2023), Briefings in Bioinformatics, publicerad online den 16 augusti 2023, doi: https://doi.org/10.1093/bib/bbad293