Fahad Sohrab: Tekoäly auttaa luokittelemaan poikkeavaa dataa

Bust shot of the researcher at office environment

Koneoppimisen perinteiset luokitusalgoritmit pyrkivät oppimaan luokittelumallin useille ennalta määritetyille luokille. Tietyissä tilanteissa tietojen kerääminen joistakin luokista voi kuitenkin olla haastavaa. Väitöskirjassaan DI Fahad Sohrab kehitti lähestymistavan, jossa aliavaruuden optimointi ja yhden luokan luokittelumallin oppiminen täydentävät toisiaan mallin luokittelukyvyn parantamiseksi.

Lääketieteellisessä diagnoosissa tietoja ei-terveiltä henkilöiltä on joko vaikea tai yksinkertaisesti mahdotonta saada. Esimerkiksi mammografiassa syövän havaitsemiseksi, kognitiivisten aivojen toimintojen spesifisen kohdeluokan tunnistamisessa, interstitiaalisten keuhkosairauksien luokittelussa tai sairaalainfektioiden havaitsemisessa kliinisen tiedon avulla on haastavaa kerätä edustava koulutusaineisto, joka sisältää myös riittävästi ei-terveitä tapauksia. Tällaisissa tapauksissa mallin luomiseen käytetään yhden luokan luokittelumenetelmiä.

Sohrabin kehittämässä aliavaruuden optimoinnissa yhden luokan luokitteluun tavoitteena on muuttaa tietyn avaruuden piirteet alempiulotteiseen avaruuteen, joka on optimoitu paremman luokittelutarkkuuden saavuttamiseksi. Sohrab kehitti myös menetelmän aliavaruuden optimoimiseksi multimodaalisen datan tapauksessa, jossa samaa kohdetta kuvaa useampi erilainen piirrevektori (esim. kuva ja ääninäyte).

Väitöskirjassaan hän osoittaa myös kokeellisesti yhden luokan luokitusmenetelmien kyvyn parantaa syväkonvoluutioneuroverkon suorituskykyä harvinaisten pohjaeläinten tunnistamisessa.

– Yhden tai useamman luokan datan puuttuminen johti sellaisten koneoppimismenetelmien syntymiseen, jotka vaativat tietoja vain yhdestä luokasta koulutusprosessin aikana. Yhden luokan luokittelumenetelmiä käytetään mallin luomiseen sen ennustamiseksi, tuleeko uusi näyte tästä kiinnostuksen kohteena olevasta luokasta. Esimerkiksi poikkeamien havaitsemisen mallin kouluttamiseen on yleensä haastavaa kerätä poikkeavaa dataa koulutusta varten, mutta normaalia dataa on saatavilla runsaasti, Sohrab toteaa.

Fahad Sohrabin väitöskirja tarjoaakin uuden tavan luoda yhden luokan luokitusmalleja, joita voidaan käyttää tilanteissa, joissa on tärkeää tunnistaa jokin poikkeava kategoria, mutta esimerkkejä kyseisestä kategoriasta on vähän.

Fahad Sohrabin koneoppimisen alan väitöskirja Subspace Support Vector Data Description and Extensions tarkistetaan julkisesti Tampereen yliopiston Informaatioteknologian ja viestinnän tiedekunnassa 27.5.2022 klo 14.00 auditoriossa TB109 Tietotalossa (Korkeakoulunkatu 1, Tampere). Vastaväittäjänä toimii tohtori Hichem Sahbi Sorbonnen yliopistosta Ranskasta. Kustoksena toimii professori Moncef Gabbouj Tampereen yliopistosta. Opinnäytetyötä toisena ohjaajana toimi tohtori Jenni Raitoharju Tampereen yliopistosta ja Suomen ympäristökeskuksesta.

Väitöskirja on luettavissa verkossa osoitteessa https://urn.fi/URN:ISBN:978-952-03-2409-4

Kuva: Zeeshan Waheed