Tutkimus

Tietokone voi tunnistaa rakennukseen tunkeutuvan murtovarkaan äänien perusteella

Tuomas Virtanen
Professori Tuomas Virtasen tutkimus pyrkii kehittämään tietokoneiden äänentunnistusta.
Everysound-tutkimushankkeessa tekoäly käy läpi valtavan määrän ääninauhoituksia, joiden avulla se oppii tunnistamaan erilaiset arkiset äänet toisistaan.

Professori Tuomas Virtasen johtaman Everysound-tutkimuksen tavoite on pääpiirteissään yksinkertainen: tietokone halutaan opettaa ymmärtämään ääniä. Vaikka pyrkimys kuulostaa helpolta, toteutus vaatii paljon työtä ja osaamista eri tekniikan osa-alueilta.

– Tämänkaltaista ympäristön äänten tutkimusta on vielä toistaiseksi tehty vähän. Alkuperäinen tavoitteemme oli saada tietokone tunnistamaan kaikki jokapäiväiset äänet. Tämä on erittäin kunnianhimoinen tavoite, Virtanen toteaa.

Virtanen on saanut tutkimukselleen 1,5 miljoonan euron ERC Starting Grant –rahoituksen Euroopan tutkimusneuvostolta. Rahoitus on viisivuotinen.

Tekoäly käy läpi hurjan määrän dataa

Tutkimuksessa hyödynnetään koneoppimisen menetelmiä. Tietokoneelle soitetaan paljon ääninauhoituksia, ja tästä datamassasta algoritmit oppivat tunnistamaan eri ääniä. Kone ei kuitenkaan opi erottamaan ääniä toisistaan ilman ihmisen apua.

– Tutkijoidemme täytyy annotoida kaikki materiaali, eli kirjata koneelle ylös, mikä ääni milloinkin on kyseessä. Tämä vaatii monta käsiparia, eli työ on hidasta, Virtanen toteaa.

Ihminen on tietokoneeseen verrattuna luontaisen taitava erottelemaan eri äänet toisistaan. Pystymme esimerkiksi tunnistamaan läheisten ihmisten äänen suuresta ihmisjoukosta suhteellisen helposti. Voimme myös suunnata tarkkaavaisuutemme ketterästi eri ääniin.

– Me ihmiset olemme taitavia keskittymään yhteen ääneen, kun ympärillä on monia äänilähteitä. Tietokoneelle tämä taito täytyy opettaa, Virtanen kertoo.

Entistä laajemmat äänitietokannat mahdollistavat nopeamman kehitystyön

Äänentunnistuksen haaste piilee siinä, että luonnollisessa ympäristössä kaikki äänet ovat olemassa yhtä aikaa: ihmiset puhuvat ja kävelevät, koirat haukkuvat, ilmastointilaite hurisee, autot kiihdyttävät ja jarruttavat ja tuuli suhisee oksistossa.

Jotta algoritmit voivat oppia tunnistamaan eri äänet toisistaan, tarjolla täytyy olla paljon ääninauhoituksia. Kun Virtasen tutkimusprojekti alkoi, kunnollista dataa ei juurikaan ollut saatavilla.

– Kun aloitimme, kunnollisia tietokantoja ei juuri ollut. Tilanne on kuitenkin parantunut jatkuvasti. Esimerkiksi Google julkaisi jokin aika sitten ison tietokannan aiheesta. Myös kansainvälistä tutkimusyhteistyötä on jatkuvasti enemmän, Virtanen kertoo.

Ääniä täytyy nauhoittaa monissa eri paikoissa laadun varmistamiseksi

Tietokone kykenee oppimaan vain niitä ääniä, joita sille soitetaan. Luotettavan tunnistamisen varmistamiseksi datan täytyy olla riittävän monipuolista.

– Olemme käyneet ympäri Eurooppaa nauhoittamassa erilaisia äänimaailmoja, jotka pilkomme eri kategorioihin, Virtanen toteaa.

Kategorioita ovat esimerkiksi juna-asemat, liikenteen äänet ja eläinten äänet. Äänityksiä tehdessä yksityisyyden suoja täytyy pitää mielessä.

– Käymme kaiken materiaalin läpi tarkasti, jotta mukana ei ole yksityisyydensuojaa loukkaavaa tietoa. Meillä on onneksi monikielinen työyhteisö, joka voi auttaa kieliasiassa, mutta välillä tähän on haettu apua myös talon ulkopuolelta, Virtanen sanoo.

Äänentunnistus voi napata murtovarkaan

Laadukas teknologinen äänentunnistus mahdollistaa monenlaisia sovelluksia. Yksi esimerkki on akustinen valvonta.

– Jos murtovaras pyrkii sisällä rakennukseen, tämä aiheuttaa vääjäämättä melua, joka voidaan tietokoneen avulla erottaa normaaleista äänistä. Kameraan verrattuna äänentunnistuksen etu on siinä, että ääni kantaa. Voimme kuulla ikkunan rikkoutuvan kulman takana, mutta kamera ei kulman taakse näe, Virtanen toteaa.

Toinen mielenkiintoinen sovelluskohde voi löytyä kontekstisidonnaisista laitteista, jotka kykenevät muuttamaan toimintaansa, kun ympäristössä tapahtuu muutoksia. Itseohjautuva auto voisi esimerkiksi kuunnella ympäristön ääniä ja hiljentää ajonopeutta, kun lähettyviltä kuuluu pienten lasten puhetta.

Muita mahdollisia sovelluskohteita löytyy multimediahauista, melunvalvonnasta ja melusaasteen vähentämisestä ja entistä paremmista kuulolaitteista.

Entistä paremmat algoritmit osaavat kysyä ihmiseltä neuvoja

Tällä hetkellä Tampereen yliopistolla luodut tietokoneet kykenevät tunnistamaan selkeitä ääniä niin sisällä kuin ulkonakin. Tavoitteena on kuitenkin entistä yksityiskohtaisempi äänentunnistus.

– Tällä hetkellä kykenemme tunnistamaan esimerkiksi auton äänen. Jatkossa haluamme pystyä tunnistamaan erilaiset autot toisistaan. Pystymme myös tunnistamaan käytävältä kuuluvat askeleet. Mutta haluamme pystyä tunnistamaan yksittäisen ihmisen heidän askeltensa äänen perusteella, Virtanen sanoo.

Algoritmien kehittyminen mahdollistaa ihmiskäsin tehtävän työn vähentämisen. Uudemmat algoritmit osaavat jo kysyä ihmiseltä apua, kun ne huomaavat valtavassa datamassassa jotain mielenkiintoista.

– Uudemmat ohjelmat osaavat nykyisin kysyä ihmiseltä apua, kun ne löytävät jotain niille itselleen tuntematonta. Kone kysyy, mikä ääni tämä on, kun se ei ymmärrä jotain. Tämä vähentää huomattavasti ihmiskäsin tehtävää työtä, Virtanen toteaa.

 

Teksti: Jaakko Kinnunen
Kuva: Jonne Renvall

Julkaistu:12.3.2019