Hyppää pääsisältöön

Toni Heittola: Arjen ympäristöjä voidaan jäsentää laskennallisella äänisisällön analyysillä

Tampereen yliopisto
SijaintiKorkeakoulunkatu 1, Tampere
Hervannan kampus, Tietotalon auditorio TB109 ja etäyhteys
Ajankohta18.6.2021 9.00–13.00
PääsymaksuMaksuton tapahtuma
Toni Heittola.
Arkinen ympäristömme on täynnä ääniä. Toni Heittola esittelee väitöskirjassaan laskennallisia menetelmiä äänisisällön analyysiin jokapäiväisissä ympäristöissä, erityisesti äänitapahtumien havaitsemiseen keskittyen. Menetelmiä voidaan soveltaa esimerkiksi vanhusten hoidossa, kodin turvasovelluksissa, kuulovammaisten apusovelluksissa, biologisen monimuotoisuuden ja lajien määrän laskennassa sekä älykaupunkisovelluksissa.

Meillä ihmisillä on luontainen kyky tunnistaa erilaisia ääni ja reagoida näiden äänien välittämään tietoon, oli kyseessä sitten lähestyvästä autosta varoittava äänitorvi, ovikello tai linnunlaulu. Toni Heittola tutki, miten erilaisia ääniä voisi analysoida laskennallisin keinoin. Hän perehtyi erityisesti siihen, miten ääniä voisi havaita automaattisesti.

– Automaattinen äänitapahtumien havaitseminen tarkoittaa, että voidaan tunnistaa esineiden tai olentojen tuottamien äänten perusteella mitä tapahtuu ja milloin se tapahtuu. Ihmiset ymmärtävät ympäröivää maailmaa kuulemiensa ja tunnistamiensa äänten perusteella, mutta laskennallisille järjestelmille kyky ymmärtää akustista ympäristöään on edelleen hyvin rajallinen, Heittola kertoo.

Viimeisen vuosikymmenen aikana on laskennallisen äänimaiseman ja äänitapahtumien analyysi kehittynyt nopeasti. Toni Heittolan tutkimus antaa laajan näkökulman tutkimusalueen kehitykselle, sisältäen tutkimusta joka on johdattanut nuorta tutkimusaluetta kohti nykyistä syväoppimisen aikakautta. Hänen tutkimuksessaan käytettiin suurta joukkoa ääniluokkia tosielämän ympäristöissä, joissa useita ääniä esiintyy samanaikaisesti. Aiemmin tämä ei ollut vielä mahdollista.

– Tutkimukseni on ensimmäinen, jolla laajennettiin tuolloin käytettävissä olevia tunnistusmenetelmiä havainnoimaan useita äänitapahtumia samanaikaisesti. Kyky tunnistaa suuri määrä erilaisia ääniä monenlaisissa ympäristöissä, hiljaisesta toimistosta meluiseen katuun, on erittäin tärkeää hyvin toimiville sovelluksille, Heittola sanoo.

Avoimuudella tehokkaampaa tutkimusta ja yhteistyötä

Toni Heittola halusi myös tutkimuksessaan tukea avointa tutkimusta. Menetelmien kehittämisen ohella tärkeä osa väitöstutkimusta on vertailu muihin tutkimusyhteisön tuottamiin menetelmiin. Jotta tasapuolinen vertailu on mahdollista, on menetelmiä testattava samalla datalla ja mitattava samoilla suorituskykyindikaattoreilla. Työssä tuotettiin avointa dataa ja avoimen lähdekoodin työkaluja, standardoitiin menetelmien suorituskyvyn arviointiprosessia ja luotiin avoimia vertailu-järjestelmiä, joihin kehitettäviä menetelmiä voi verrata. Työssä julkaistut avoimet aineistot ovat olleet perustana yli 150 kansainväliselle julkaisulle viimeisen viiden vuoden aikana, ja suurin osa näistä julkaisuista on käyttänyt myös väitöskirjassa ehdotettua yhtenäistä suorituskyvyn mittaustapaa.

– Kun aloitin äänitapahtumien havaitsemiseen liittyvän tutkimuksen laajentamisen tosielämän ympäristöihin, minulla oli käsissäni hyvin monimutkainen ongelma. Siinä vaiheessa ei vielä ollut kansainvälistä tutkimusyhteisöä, joka yhdessä voisi työskennellä aiheen parissa. Oli vain yksittäisiä tutkimuksia, eivätkä tutkimusaineistot ja menetelmien lähdekoodit olleet vapaasti saatavilla. Tällaisessa tilanteessa yksi tutkija ei voi saada paljoa tuloksia aikaan. Mielestäni väitöskirjani suurin saavutus olikin lopulta vuosittaisten DCASE-kampanjoiden järjestäminen, koska niiden myötä koko tutkimusympäristö on muuttunut. Tällä hetkellä meillä on kukoistava, avoimen tieteen periaatteisiin tukeutuva tutkimusyhteisö, joka vie tutkimusta eteenpäin valtavin harppauksin, sanoo Toni Heittola.

Diplomi-insinööri Toni Heittolan äänisignaalinkäsittelyyn alaan kuuluva väitöskirja Computational Audio Content Analysis in Everyday Environments tarkastetaan julkisesti Tampereen yliopiston informaatioteknologian ja viestinnän tiedekunnassa perjantaina 18.6.2021 kello 12 alkaen Hervannan kampuksella Tietotalon auditoriossa TB109 (Korkeakoulunkatu 1, Tampere). Vastaväittäjänä toimii apulaisprofessori Romain Serizer Université de Lorrainen yliopistosta sekä apulaisprofessori Dan Stowell Tilburgin yliopistosta. Kustoksena toimii professori Tuomas Virtanen Tampereen yliopiston informaatioteknologian ja viestinnän tiedekunnasta.

Yleisö voi seurata tilaisuutta Zoom-etäyhteydellä.

Väitöskirjaan voi tutustua osoitteessa http://urn.fi/URN:ISBN:978-952-03-2006-5