Olli Kuparisen akatemiahankkeessa teknologia muuttaa vahvankin murteen tekstiksi

Teknologiset puheentunnistustyökalut ovat kehittyneet nopeasti. Siitä huolimatta puheen muuttaminen kirjalliseen muotoon vaatii edelleen paljon aikaa, jos tekstin halutaan olevan tarkasti puhuttua kieltä mukailevaa.
33-vuotias Olli Kuparinen tutkii hankkeessaan Puhe puheena – akustinen mallinnus kielen vaihtelun tutkimuksessa, miten puheen voisi muuttaa tekstiksi murteita häivyttämättä. Hän sai hankkeelleen viisivuotisen Suomen akatemian rahoituksen.
Puhutun kielen tutkimuksissa puhe on tapana litteroida, eli kirjoittaa tekstiksi äännetasoa tarkasti mukaillen. Se vie kuitenkin runsaasti tutkijan työaikaa.
– On helppoa mennä nauhurin kanssa ihmisen luo ja nauhoittaa suuret määrät aineistoa. Aineiston muuttaminen tekstiksi on se vaikea vaihe, sillä sitä joutuu tekemään käsin. Tunninkin pituisen nauhan litterointiin voi kulua helposti koko päivä, Kuparinen kertoo.
Tutkimuksessaan hän kehittää puheentunnistusta tuottamaan äännetason tekstiä. Siinä jokaisella äänteellä on oma merkkinsä.
Tämän lisäksi Kuparisen tutkimukseen liittyy kaksi muuta osaa. Toisessa osassa hän tutkii, mitä puheentunnistuksen mallit oppivat kielenvaihtelusta ja -muutoksesta. Kolmas osuus käsittelee suomalais-ugrilaista foneettista kirjoitusta ja sen kääntämistä kansainväliselle IPA-merkistölle.
Kuva: Eelis BerglundKuparinen on kotoisin Lempäälästä, ja hänen akateeminen polkunsa alkoi suomen kielen opinnoilla Tampereen yliopistossa.
Välissä hän teki suomen kielen ja kirjallisuuden opettajan töitä, ja aloitti sitten väitöskirjaopinnot Tampereen yliopistolla Koneen säätiön rahoittamassa hankkeessa. Kuparisen väitöskirja käsitteli Helsingin puhekielen muutoksia 1970-luvulta 2010-luvulle.
Pitkän ajan läpi kulkeva kolme aikapistettä käsittävä aineisto oli julkaisuhetkellään kansainvälisestikin poikkeuksellinen. Tämä aineisto on mukana myös Kuparisen akatemiahankkeessa.
Väiteltyään tohtoriksi Kuparinen vietti pari vuotta Helsingin yliopiston kieliteknologian alalla tutkien konekäännösmalleja. Tämä on jälleen yksi Kuparisen mielenkiinnonkohteista, joka tulee osaksi akatemiahanketta.
Usein henkilön puhe muuttuu esimerkiksi työelämän myötä yleiskielisemmäksi. Kuparisen luomat puheentunnistusmallit voivat tuottaa tämän lisäksi uusia havaintoja, sillä ne mahdollistavat yksilön kielenmuutoksen tutkimisen puhesignaalien kautta.
Kuparisen innostus puhuttua kieltä kohtaan heräsi jo tutkintovaiheessa. Murrekursseilla hän huomasi, että kielen kehitys näkyy puhutussa kielessä paljon kirjoitettua selkeämmin.
– Kirjoitettu kieli on jossain vaiheessa standardisoitu. Sen sijaan puhekielessä näkyy historian kaari. Joissain murteissa on kiinnostavia jäänteitä kantakielivaiheista. Lisäksi kielen tulevaisuus näkyy puheessa paljon aikaisemmin kuin kirjoitetussa kielessä.
Kielenvaihtelun ja kielen muutoksen tutkiminen onkin Kuparisen tutkimuksen perimmäinen tarkoitus. Vaikka teknologia kehittyy jatkuvasti ja luodut mallit vanhenevat nopeasti, puheentunnistusmallien kehittäminen voi edistää alan tulevaa tutkimusta.
Viime vuosina Chat GPT:n kaltaiset uutta sisältöä tuottavat generatiiviset tekoälymallit ovat nousseet laajaan julkiseen käyttöön. Ne tulevatkin ehkä ensimmäisenä mieleen, kun puhutaan kielen ja teknologian yhdistämisestä.
Vaikka generatiivinen tekoäly toimii kirjoitetun kielen avulla, kielentutkijat eivät tyypillisesti ole laajasti mukana sen kehityksessä.
– Generatiivisten tekoälymallien kielipuoli on lähinnä sitä, että haalitaan mahdollisimman paljon aineistoa eri kieliltä ja tuupataan ne tekniikan sisään, Kuparinen selittää.
Lisäksi on olemassa automaattisen puheentunnistuksen malleja, jotka ovat kehittyneet nopeasti. Kuparinen toivoisi, että kielimallien kehityksessä olisi mukana myös kielitieteen asiantuntemusta.
Suurten kielten kohdalla päästään pitkälle jo sillä, kun kaikki aineisto otetaan mallin käyttöön. Pienten kielten ja murteiden kohdalla aineistoa ei ole massoittain, jolloin sen hankkimiseen ja analysoimiseen tarvitaan kielitutkijoita. Tieteen rooliksi jääkin erityisesti pienten ja aliedustettujen kielten ja murteiden tutkiminen.
Kuparisen malli edistää yhdenvertaisuutta, sillä nykyiset puheentunnistusmallit keskittyvät yleiskieleen tai yleiseen puhekieleen. Tekoäly ymmärtää esimerkiksi eteläsuomalaista puhekieltä, mutta ei leveää savolaismurretta.
– Tämä koskee tietysti muitakin kieliä, joissa puhuttu kieli eroaa paljon kirjoitetusta, Kuparinen toteaa.
Kuparisen aineistoon kuuluukin suomalaismurteiden lisäksi norjan murteita. Tämäkin aineisto on peruja Kuparisen aiemmasta tutkimuksesta. Lisäksi norjan kielen roolia perustelee maan murteellinen moninaisuus.
– Norjassa on paljon vuoria ja maantieteellisiä esteitä. Joka notkossa puhutaan eri tavalla kuin toisessa.
Suomenkielisen aineistonsa Kuparinen on valinnut niin, että vanhat murrealueet ovat edustettuina. Aineistot ovat 1960-luvulta, sillä tämän ikäiset murreaineistot ovat vapaasti käytettävissä ja jaettavissa. Lisäksi murteet tulevat nykypäivää vahvemmin esiin.
Kuparinen ei kuitenkaan ole huolissaan murteiden asemasta nykypäivän Suomessa.
– Erot eivät ehkä enää ole niin selkeitä, mutta kyllä murteet ovat edelleen ihan olemassa. Uusia jakautumia syntyy, ja niin edespäin.






