Modern multivariat statistik

Abstrakt 3D-mönster. — Visualisering av komplex hög-dimensionell data.

Normalfördelad data kan modelleras enbart genom dess väntevärde och varians/kovarians. Det är därför ett problem av stort intresse att skatta väntevärdet och kovariansmatris korrekt samtidigt som det är av betydelse att anta en korrekt statistisk modell.

Inom många statistiska beräkningar som diskuteras i den multivariata statistiska litteraturen antas att de observerade vektorerna eller matriserna är oberoende och normalfördelade. De främsta skälen till detta är att observationerna oftast är åtminstone approximativt normalfördelade. Vår forskning handlar mycket om problemet med att skatta parametrar, väntevärde och kovariansmatris, för en multivariat normalfördelning med kovariansmatriser som har olika mönster eller struktur, det vill säga olika statistiska modeller. I många av dessa exempel kan maximum-likelihoodskattningar inte erhållas explicit och därför måste de beräknas med någon optimeringsalgoritm. Vi vill då istället utveckla explicita skattningar som ett alternativ till maximum-likelihoodskattningarna, men som har liknande trevliga egenskaper.

Multivariat normalfördelning med en modell för väntevärdet och en kovariansmatris med något speciellt mönster uppstår i många olika tillämpningar, så som biologi, medicin, sociologi, ekonomi, teknik och andra områden. Väntevärdet kan vara linjärt eller bilinjärt, till exempel allmänna linjära modeller, blandade linjära modeller eller i tillväxtkurvemodeller (Growth Curve model), som används vid korta tidsserier för upprepade mätningar på samma individ.

Mönstrade kovariansmatriser

Multivariat data kan ofta uttryckas som en vektor, matris eller mer allmänt som en tensor av högre ordning, till exempel spatiotemporala modeller. För dessa observationer kan kovariansmatrisen återges som en Kroneckerprodukt av matriser som uttrycker beroende strukturer i varje mode (riktning). Alltså, Kroneckerstruktur kan till exempel användas för att modellera beroende flernivås-observationer. Kovariansmatriserna i de olika riktningarna kan också antas följa en viss linjär strukturer, till exempel bandad, Toeplitz, cirkulär Toeplitz, speciell struktur med nollor eller någon blandning, beroende på tillämpningen. Denna strukturer ställer alltså ofta till problem vid skattningsberäkningarna. Dessutom är skattningen av kovariansmatrisen viktigt eftersom slutsatser om väntevärdet beror av den skattade kovariansmatrisen.

Hög-dimensionell statistisk analys

Numera när data lätt samlas in och lagras, är hög-dimensionell analys av stort intresse vid ovanstående modeller. I hög-dimensionell analys är dimensionen på observationsrummet mindre än dimensionen på parameterrummet. I dessa fall kommer klassiska metoder att misslyckas och nya moderna teorier måste utvecklas. En del av det höga dimensionella forskningsområdet är teorin om slumpmatriser (Random Matrix Theory) som är ett användbart verktyg inom till exempel finansiell matematik, teoretisk fysik och trådlös kommunikation, liksom inom andra discipliner. I slumpmatristeorin analyserar man fördelningen för egenvärdena för en slumpmässig matris.