Hyppää pääsisältöön

Markus Vattulainen: Muunneltava esikäsittelyagentti tukee sovellustilannekohtaista tiedonlouhinnan esikäsittelyn automatisoimista

Tampereen yliopisto
PaikkakuntaEtäyhteys
21.1.2022 12.00–16.00
PääsymaksuMaksuton tapahtuma
Markus Vattulainen.
Datan esikäsittely on aikaa vievä tiedonlouhinnan vaihe, jonka tulokset jäävät usein puutteellisiksi. YTM Markus Vattulainen tutki informaation ja järjestelmien alan väitöskirjassaan esikäsittelyn automatisoimista esikäsittelyagentin avulla. Hän suunnitteli ja toteutti esikäsittelyagenttiohjelmiston, joka tukee datan esikäsittelyn sovellus-tilannekohtaista muunneltavuutta luokittelutehtävässä. Ohjelmiston suorituskykyä arvioitiin kuuden yritysdatajoukon avulla.

Datan käyttökelpoisuutta tiedonlouhinnan toteutuksissa rajoittavat puuttuvat tai poikkeavat arvot, duplikaatit, epärelevantit muuttujat, mittaus- ja yhdistelyvirheet, muuttuja- tai havaintoyksikkökohtaisen vaihtelun puuttuminen ja muut sovellustilannekohtaiset datan laatuongelmat. Niiden esikäsittely vie usein paljon aikaa, ja esikäsittelyn vaikuttavuus voi silti jäädä puutteelliseksi.

Markus Vattulainen esittää väitöskirjassaan suunnitelman ja toteutuksen esikäsittelyagenttiohjelmistosta, joka automatisoi datan esikäsittelyn ja tukee sovellustilannekohtaisten esikäsittelymenetelmien lisäämistä osaksi esikäsittelyagenttia. Ohjelman R-ohjelmointikielellä tehdyt toteutukset ovat julkisesti saatavilla.

Agentin tekemä heuristinen haku esikäsittelykombinaatioista saavutti lähes saman luokittelutarkkuuden luokittelutehtävässä kuin kattava haku ja oli lisäksi kymmenen kertaa nopeampi, Vattulainen kertoo.

Agentin tuottama luokittelutarkkuus mitattiin kuudella yritysdatajoukolla, joissa luokiteltavana muuttujana oli taloudellinen muuttuja kuten asiakaskohtainen kannattavuus.  Lisäksi tulosten yleistettävyyttä arvioitiin 180:llä osittain synteettisellä datajoukolla, jotka muodostettiin lisäämällä kontrolloidusti datan laatuongelmia alkuperäisiin datajoukkoihin.

Tutkimuksessa esitellään esikäsittelyagentin järjestelmäkomponenttien kuvaus ja se, miten komponentteihin liittyvät sovellustilannekohtaiset muutostarpeet voidaan eristään ja toteuttaa erillisen muutostenhallinnan komponentin avulla.

Tuloksia voidaan hyödyntää uusien tiedonlouhinnan esikäsittelymenetelmien suorituskyvyn arvioinnissa osana datan esikäsittelykombinaatioita. Tehty järjestelmäkuvaus ja toteutus tukevat mahdollisten teollisten sovellusten suunnittelua, Markus Vattulainen sanoo.

Vattulainen asuu Lempäälässä ja työskentelee datamanagerina Tampereen yliopiston datapalveluissa.

YTM Markus Vattulaisen informaation ja järjestelmien alaan kuuluva väitös Design of a Data Preprocessing Agent Program for Data Mining: Variability Viewpoint tarkastetaan julkisesti Tampereen yliopiston informaatioteknologian ja viestinnän tiedekunnassa perjantaina 21.1.2022 klo 12 alkaen Keskustakampuksella Pinni B-rakennuksen auditoriossa 1096, Kanslerinrinne 1, Tampere. Vastaväittäjänä toimii professori Timo Mantere Vaasan yliopistosta. Kustoksena toimii professori Martti Juhola Tampereen yliopistosta.

Yleisö voi seurata väitöstilaisuutta Panopto-etäyhteydellä.

Väitöskirjaan voi tutustua osoitteessa http://urn.fi/URN:ISBN:978-952-03-2226-7

Kuva: Photo-Stella Oy