Väitös: Uudella matemaattisella viitekehyksellä saadaan stabiileja kuvailuja datan rakenteesta

Diplomi-insinööri Henri Riihimäki tutki matematiikan alaan kuuluvassa väitöskirjassaan uutta teoreettista näkökulmaa topologiseen data-analyysiin sekä sen hyödyntämistä todellisten aineistojen avulla. Tutkimus laajensi topologisen data-analyysin teorian lisäksi myös nykyajan analyytikon työkalupakkia ja on hyödyksi, kun raakadatasta halutaan tuottaa tietoa..

Dataa kerätään nykypäivänä valtavia määriä. Kerätty data täyttäisi päivittäin muutaman miljoonan tavallisen kannettavan tietokoneen muistikapasiteetin. Nykyhetken kysymykset muun muassa siitä, kuka omistaa tietyn datan ja uutisoinnit verkkopalveluiden asiakkaiden tietovuodoista osoittavat, miten merkittävään rooliin data on asettunut modernissa informaatioyhteiskunnassamme.

– Data on resurssi, josta ei ole pulaa. Siitä on tullut jo yritysten kilpailuetu. Uudet palvelut tarjoavat vaikkapa tiedonlouhintaa pörssitiedotteista ja tulosjulkistuksista osakekaupassa menestymistä varten. Tämän hetken ongelma on tiedon tuottaminen raakadatasta. Siksi tarvitaan uusia työkaluja käsittelemään enenevässä määrin monimutkaisemmaksi muuttuvaa dataa, Henri Riihimäki kertoo.

– Topologinen data-analyysi on melko nuori mutta voimakkaasti laajentunut sovelletun matematiikan lähestymistapa data-analyysiin, Riihimäki sanoo.

Topologinen data-analyysi lähestyy dataa kysymällä, millainen geometrinen muoto sillä on.

– Usein data ei ole vain joukko pisteitä, vaan niiden välillä on jonkinlaisia korrelaatioita. Yksinkertaisimmillaan meillä on jokin ajatus siitä, mikä on kahden datapisteen välinen etäisyys. Kun lähdemme yhdistelemään datapisteitä kasvavan etäisyyden mukaan, dataan alkaa muodostua geometrista rakennetta. Matematiikan alue nimeltä algebrallinen topologia tarjoaa työkaluja, joiden avulla tätä rakennetta on mahdollista konkreettisesti mitata, Riihimäki kertoo.

Riihimäen tutkima matemaattinen koneisto liittää dataan erilaisia invariantteja, jotka kuvaavat datan rakennetta. Invariantti on suure, joka on sama samankaltaisilla objekteilla.

– Tutkimukseni invariantti on yksinkertainen funktio. Siten sille on mahdollista jatkotutkimuksessa alkaa rakentamaan tilastollista teoriaa ja liittää se tehtyä tutkimusta laajemminkin koneoppimisen menetelmiin. Topologisessa data-analyysissä on myös hyvin merkittävää erilaiset stabiilisuustulokset. Myös tutkimani invariantti on stabiili eli lähellä toisiaan olevien datojen invariantit ovat myös lähellä toisiaan.

– Topologisen data-analyysin hieno piirre on sen vahva matemaattinen pohja, mikä mahdollistaa menetelmän ominaisuuksien tutkimisen ja niihin liittyvien tulosten todistamisen. Uskon, että tulevaisuudessa on kasvava tarve data-analyysin menetelmille, joiden toiminnan tunnemme matemaattisen tarkasti, Henri Riihimäki sanoo.

Seinäjokinen ja tamperelaistunut Riihimäki valmistui alkuvuodesta 2013 TTY:ltä (nykyinen Tampereen yliopisto). Geneven CERNissä ja Suomen Ilmatieteen laitoksella työskentelyn jälkeen hän palasi TTY:lle jatko-opiskelijaksi loppukesästä 2014. Riihimäen väitöstutkimuksen ohjaajana toimi professori Wojciech Chachólski KTH:lta Tukholmasta. Tampereen yliopistolta valvojana toimi professori Mikko Kaasalainen.

Henri Riihimäen väitöskirja Metric Stabilization of Invariants for Topological Persistence tarkastetaan julkisesti Tampereen yliopistossa perjantaina 2.8.2019 kello 12 Hervannan kampuksen Sähkötalon salissa S2 (Korkeakoulunkatu 3, Tampere). Vastaväittäjänä toimii apulaisprofessori Magnus Botnan Amsterdamin yliopistosta ja kustoksena professori Eero Hyry Tampereen yliopistosta.

Väitöskirjaan voi tutustua verkossa osoitteessa http://urn.fi/URN:ISBN:978-952-03-1153-7