Tekoäly ja tutkimus

Tekoälyn käyttö tutkimuksessa

Ohjeen tarkoitus

Tämän ohjeen tarkoitus on auttaa tutkijoita ja tutkimuksen vastuullisia johtajia tulkitsemaan ohjeita ja lainsäädäntöä. Tämä ohje koskee kaikkia tekoälysovelluksia, mutta osa sisällöstä liittyy erityisesti generatiivisiin tekoälysovelluksiin, kuten laajoihin kielimallihin (engl. large language model, LLM) perustuviin sovelluksiin.

Tekoälyn käyttö tutkimuksessa tuo mukanaan sekä etuja että vastuita. Tutkijan tai tutkimusryhmän on noudatettava monia ohjeita, määräyksiä ja lainsäädäntöä, jotka vaikuttavat tekoälyn käyttöön. Tutkimuksen vastuullinen johtaja vastaa hankkeissaan siitä, että hankkeessa noudatetaan tutkimusetiikan periaatteita, hyvää tieteellistä käytäntöä, voimassa olevaa tekoälylainsäädäntöä, korkeakouluyhteisön tekoälypolitiikkaa ja korkeakoulun muita tekoälyyn liittyviä määräyksiä ja ohjeita. Lisäksi hän vastaa siitä, että tekoälyn käyttö ja mahdollinen kehittäminen on suunniteltu, toteutettu ja dokumentoitu asianmukaisesti.

Tampereen yliopistossa kehitettävien ja käytettävien tekoälyjärjestelmien tulee lähtökohtaisesti täyttää luotettavan tekoälyn eettiset vaatimukset. Tekoälyn eettinen käyttö ja eettisesti suoritettu tekoälytutkimus huomioivat laajasti tietoturvan, tietosuojan ja eettiset kysymykset, jotka liittyvät vastuunkantoon ja tiedon vastuulliseen jakamiseen ja avoimuuteen. Myös kestävyyteen ja vastuullisuuteen liittyvät sosiaaliset ja muut vaikutukset, kuten ympäristövaikutukset, tulee huomioida. Tutkijoiden on arvioitava tutkimuksensa eettisyys kokonaisuutena tutkimusta suunnitellessaan.Tekoälyyn liittyvät näkökulmat sisällytetään osaksi tätä eettistä itsearviointia.

Tekoälyn vastuullinen käyttö tutkimuksessa

Tekoälyn käyttämisen tutkimuksessa on oltava vastuullista. Tutkija on itse vastuussa tekoälyn käytöstä ja tuottamansa sisällön integriteetistä.

Tekoälyn käyttämisen tutkimuksessa on oltava vastuullista. Tutkija on itse vastuussa tekoälyn käytöstä ja tuottamansa sisällön integriteetistä. tutkimuksen kannalta laskennassaan satunnaisuutta tai stokastisuutta sisältävät tekoälyjärjestelmät (kuten laajat kielimallit) voivat olla ongelmallisia tutkimuksen toistettavuuden kannalta.

Tutkijan tulee olla kriittinen ja tietoinen mahdollisista tekoälyn tuotoksiin liittyvistä vääristymistä eli vinoumista (engl. bias). Tekoälymallin koulutuksessa käytetty aineisto ja sen kuratointi eivät välttämättä ole olleet läpinäkyviä ja puolueettomia. Esimerkiksi laajat kielimallit on suurilta osin koulutettu verkossa saatavilla olevilla teksteillä, jotka edustavat länsimaista ja englanninkielistä näkökulmaa. Myös erilaisten koneoppimismallien suorituskyvyn testaamiseen käytettävät standardidatasetit saattavat edustaa vain rajallista otosta tai niiden annotoinnissa voi olla vääristymiä. Tutkimuksen arvioinnissa (esim. rahoitushakemukset ja vertaisarviointi) vääristymät voivat aiheuttaa epäreilua kohtelua, vaikka arvioinnin ohjeet erikseen sallisivatkin käytön.

Vain ihminen voi olla tekijänä tutkimustuotoksissa. Tekoäly ei voi kantaa vastuuta tuotoksista eikä siten olla tekijänä. Tutkijan tulee myös arvioida riskit virheellisiin, epätarkkoihin tai epäolennaisiin tuotoksiin. Tutkijan tulee tarkastaa tekoälyn tuotosten (erityisesti generatiivisen tekoälyn osalta) asianmukaisuus ja paikkansapitävyys. Tutkija vastaa aina itse julkaisemistaan tuloksista ja tutkimuksensa vaikutuksista.

Tekoälyn käytöstä tulee lähtökohtaisesti kertoa avoimesti, erityisesti jos tekoälyä käytetään merkittävissä määrin. Tekoälyn vaikutus tutkimusprosessiin pitää arvioida ja käytetyt työkalut tulee mainita: esim. työkalun nimi, versio ja työkalun käyttötarkoitus voi olla syytä eritellä. Myös syötteet ja tekoälysovellusten tuotokset voi olla tarpeen eritellä. Yleisesti tutkijan tulee noudattaa avoimen tieteen periaatteita.

Tutkijan on arvioitava kriittisesti, mitä materiaalia tekoälytyökaluihin voi syöttää. Julkaisematonta ja arkaluonteista tietoa ei tule syöttää tekoälyjärjestelmään, jos ei ole varmuutta, että materiaalia ei käytetä esim. kielimallien opettamiseen. Järjestelmän tulee myös täyttää tietoturvavaatimukset, joita syötettävän tiedon suojaamiselle on.Huomaathan, että tekoälyn tuottama materiaali, kuten teksti tai kuvat, voi olla suoraa tai uudelleensanoitettua toisintoa tekoälyjärjestelmän opettamiseen käytetystä materiaalista. Tutkijan tulee kunnioittaa muiden tekijyyttä, viitata muiden tuotoksiin asianmukaisesti ja kunnioittaa immateriaalioikeuksia.

Lisäksi tekoälyn tuotokset eivät nykyisen laintulkinnan mukaan voi olla tekijänoikeuksien suojaamia.

Yleisesti tutkijoiden tulee ymmärtää käyttämiensä työkalujen tekniset ja eettiset merkitykset yksityisyyden, luottamuksellisuuden, immateriaalioikeuksien ja tekijänoikeuksien osalta: mitä yksityisyysasetuksia työkalussa on, kuka hallinnoi työkalua, missä laskenta suoritetaan ja mitä vaikutuksia näillä voi olla syötettävän informaation ja myös tuotosten kannalta.

Lainsäädännön asettamat vaatimukset

Lainsäädäntöä on noudatettava myös tekoälyä hyödynnettäessä. Tekoälyn käyttöön tutkimuksessa ja tekoälyjärjestelmien tutkimukseen sovelletaan paljon erityyppistä lainsäädäntöä. Yksi keskeisimmistä on EU:n ns. tekoälysäädös, joka määrittelee tekoälyn hyödyntämisen reunaehtoja EU:ssa. Lisäksi on noudatettava immateriaalioikeuksiin, tuotevastuuseen ja tietosuojaan liittyviä säädöksiä. Mahdollinen kaksikäyttö (käyttö sekä siviili- että sotilastarkoituksiin) tulee tunnistaa ja noudattaa sovellettavaa lainsäädäntöä. Lainsäädäntöön liittyvissä kysymyksissä voi olla yhteydessä lakiasiat [at] tuni.fi (lakipalveluihin).

Tekoälysäädös sisältää tiettyjä poikkeuksia vaatimuksiin, jos tekoälyä käytetään vain tieteelliseen tutkimustarkoitukseen tai TKI-toimintaan. Tekoälysäädöstä ei sovelleta tekoälyjärjestelmiin tai tekoälymalleihin, jotka on erityisesti kehitetty ja otettu käyttöön yksinomaan tieteellistä tutkimusta ja kehittämistä varten, eikä myöskään niiden tuotoksiin. Tekoälyasetusta ja sen laajoja vaatimuksia ei siis sovelleta, jos tekoälyjärjestelmä on kehitetty ja sitä käytetään yksinomaan tieteellisen tutkimuksen tarkoitukseen. Esimerkiksi:

vain tieteellisessä tutkimuksessa ja jatkotutkimuksissa hyödynnettävä tekoälymalli sydämen vajaatoiminnan tunnistamiseen;
vain tutkimuskäyttöön laadittu tekoälymalli, jolla voidaan erotella ääniä taustamelusta ja litteroida haastatteluja.

Tekoälyjärjestelmiä tai -malleja koskevan tuotesuuntautuneen tutkimus-, testaus- ja kehittämistoiminnan osalta tekoälysäädöstä ei sovelleta ennen näiden järjestelmien ja mallien käyttöönottoa tai markkinoille saattamista. Esimerkiksi:

tilaustutkimuksena ennen markkinoille saattamista tehtävä testaus tekoälymallille, jolla voidaan ennustaa sydämen vajaatoiminnan kehittymistä;
automaattisesti ajavan auton toimintaa parantavan tekoälymallin kehittäminen osana tuotekehitysprosessia (ennen käyttöönottoa).

Edellä sanottu poikkeus ei rajoita velvoitetta noudattaa tekoälysäädöstä sen jälkeen, kun järjestelmä otetaan käyttöön tai saatetaan markkinoille tutkimus- ja kehittämistoiminnan tuloksena. Tutkimus- ja kehitystoimintaan liittyvät tekoälysäädöksen poikkeukset eivät myöskään vapauta muun lainsäädännön velvollisuuksista, kuten tietosuoja-asetuksen noudattamisesta.

Tekoälysäädöstä ei sovelleta vapaisiin (maksuttomiin) ja avoimeen lähdekoodiin perustuviin tekoälyjärjestelmiin, paitsi jos ne saatetaan markkinoille tai otetaan käyttöön:

suuririskisinä tekoälyjärjestelminä;
kiellettyjen käytäntöjen alaan kuuluvina järjestelminä tai
synteettistä ääni-, kuva-, video- tai tekstisisältöä tuottavana järjestelmänä;
tunteentunnistuksen tai biometrisen tunnistuksen järjestelmänä
syväväärennöksen tuottamiseen tai manipulointiin käytettävänä järjestelmänä tai
yleiseen etuun liittyvistä asioista tiedottamiseen käytetyn tekstin tuottamiseen tai manipulointiin tuotettavana järjestelmänä.

Käytännössä avoimeen lähdekoodiin liittyvä poikkeus on siis melko rajoitettu erityisesti kiellettyjen käytäntöjen ja suuririskisten tekoälyjärjestelmien osalta.

On tärkeä huomata, että tekoälyjärjestelmiin, joita voidaan käyttää muun käytön ohella (myös) tutkimus- ja kehitystoimintaan, sovelletaan tekoälysäädöstä.

On tärkeä huomata, että tekoälyjärjestelmiin, joita voidaan käyttää muun käytön ohella (myös) tutkimus- ja kehitystoimintaan, sovelletaan tekoälysäädöstä. Esimerkiksi ChatGPT, Microsoft Copilot ja muut kielimalleihin perustuvat sovellukset kuuluvat näihin, kun niitä hyödynnetään tutkimus- tai kehitystoiminnan yhteydessä. Kaikissa tutkimus- ja kehitystoimissa on noudatettava tunnustettuja tutkimuseettisiä ja hyvän tieteellisen käytännön periaatteita sekä sovellettavaa lainsäädäntöä.

Tekoälyasetuksessa on listaus kielletyistä käytännöistä: mm. manipuloivien tekniikoiden käyttö, haavoittuvuuksien hyödyntäminen, sosiaalinen pisteytys, ennustava lainvalvonta, tunteiden tunnistaminen työpaikalla ja oppilaitoksissa, ennalta kohdentamaton kasvokuvien haravoiminen (scraping), reaaliaikainen biometrinen tunnistaminen ja biometriset, erityisiä henkilötietoryhmiä hyödyntävät luokittelujärjestelmät. Näiden käytäntöjen alaan kuuluvia tekoälyjärjestelmiä ei saa kehittää, ottaa käyttöön tai saattaa markkinoille EU:ssa. Niiden tutkiminen on kuitenkin sallittua, kunhan noudatetaan tietoturvaan, tietosuojaan ja etiikkaan liittyviä ohjeistuksia. Tutkimuksen toteuttaminen tietoturvallisesti voi edellyttää esimerkiksi erillistä laitetta tai käyttöympäristöä. Ota tarvittaessa yhteyttä tietoturvaan: tietoturva [at] tuni.fi (tietoturva[at]tuni[dot]fi), tietosuojaan: tietosuoja [at] tuni.fi (tietosuoja[at]tuni[dot]fi) tai lakipalveluihin: lakiasiat [at] tuni.fi (lakiasiat[at]tuni[dot]fi) .

Tekoälysäädöksen lisäksi tulee huomioida immateriaalioikeuksiin liittyvät lainsäädännön vaatimukset. Tekijänoikeuden suojaamia julkaisuja ei tulisi käyttää tekoälytyökalujen syötteenä sellaisissa työkaluissa, joissa teosta voidaan käyttää esim. kielimallin kouluttamiseen tai tekoälyjärjestelmän toimittaja saa oikeudet siihen. Julkaisemattomien tutkimustulosten tai yliopiston immateriaalioikeuksia sisältävien aineistojen lataamisessa tekoälytyökaluun tulee olla varovainen, erityisesti jos työkalua ei ole hyväksytty käyttöön korkeakoulutasoisesti.

Henkilötietoja käsiteltäessä on noudatettava EU:n yleistä tietosuoja-asetusta ja korkeakoulun tietosuojaohjeistusta. Jos keräät tai käytät henkilötietoja, tee tietosuojaa koskeva vaikutustenarviointi ennen kuin aloitat tekoälytyökalujen käytön hankkeessasi. Tekoälyjärjestelmien tuottama materiaali voi sisältää henkilötietoja ja niiden käsittelyssä tulee noudattaa tietosuoja-asetusta. Tietosuojalainsäädännön näkökulmasta tekoälytyökalujen käyttäminen voi aiheuttaa erityisiä riskejä (esim. ennakoimaton jatkokäyttö, jos data jää kielimalliin). Lisäksi tekoälyn käyttö esim. rekrytoitavien tutkittavien valintaan voi muodostua profiloinniksi. Tutkittavien informoinnin näkökulmasta on tärkeää kuvata tekoälyn avulla tehtävä henkilötietojen käsittely riittävän avoimesti. Lue lisää tietosuojasta tutkimuksessa.

Ohjeiden käytännön soveltaminen

Alla on kuvattu käytännön esimerkkejä tekoälyn hyödyntämisestä tutkimusvaiheittain.

Ohjeiden käytännön soveltaminen tutkimusvaiheittain

1
Suunnittelu
Esimerkki:
- Lähteiden kokoaminen ja kirjallisuuskatsauksen laatiminen
- Tutkimusidean kehittäminen tai tutkimusvajeen tunnistaminen
- Ideointi
Huomioitavaa:
- Tarkasta aina tekoälyn tuotokset (esim. lähteiden olemassaolo; varmista, että ymmärrät lähdemateriaalin, jotta voit varmistaa, että tuotokset ovat oikein)
- Varmista, etteivät syöttämäsi tiedot vuoda työkalun kautta
- Vahvista, että uudet ideat, joita tuota tekoälyn avulla, ovat todella uusia
- Arvioi tekoälyn käytön ja mahdollisen tekoälyn kehittämisen tutkimusetiikkaan ja lainsäädäntöön liittyvät asiat ja huomioi ne (tee eettinen itsearviointi ja huomioi lainsäädännön reunaehdot)
2
Rahoitushaku
Esimerkki:
- Rahoitushakemuksen valmistelu
Huomioitavaa:
- Noudata rahoittajan tekoälyä koskevia periaatteita
- Kerro tekoälyn käytöstä avoimesti
- Kuvaa suunnitelmassa tekoälyn rooli tutkimuksessa ja sen vaikutukset
3
Tutkimuksen toteutus
Esimerkkejä:
- Kyselyn laatiminen
- Ohjelmointikoodin luominen
- Aineiston kuratointi ja analyysi
Huomioitavaa:
- Huomioi, että kysymysten muotoilut voivat olla peräisin aiemmin tehdyistä kyselystä (varmista, että saat kerättyä haluamasi aineiston ja minimoi henkilötietojen keruu)
- Tarkasta ja testaa luotu ohjelmakoodi
- Arvioi vaikutukset tuotosten laatuun ja luotettavuuteen
- Dokumentoi tekoälyn käyttö, jos sillä on vaikutuksia: tallenna käyttämäsi kehotteet myöhempää tarkastelua varten
4
Julkaisu
Esimerkkejä:
- Oikoluku ja kieliopin korjaaminen
- Tekstin uudelleenmuotoilu tai tiivistäminen
- Lähdeluettelon laatiminen tai muotoilu
- Tekoälyohjelmiston julkaiseminen tai jatkokehittäminen kaupalliseen käyttöön
Huomioitavaa:
- Noudata julkaisukanavan ohjeita tekoälyn käytöstä ja käytön raportoinnista
- Raportoi tekoälyn käytöstä tutkimuksessa avoimesti ja riittävän yksityiskohtaisesti, jotta lukija pystyy arvioimaan työkalun käytön merkityksen julkaistun tutkimuksen luotettavuudelle
- Tarkista lähdeluettelo ja viitteet huolellisesti
- Huomioi, että tekoälyn tuotoksiin ei voi saada tekijänoikeutta
- Kun julkaiset tekoälyohjelmistoa tai kehität sitä kaupalliseen käyttöön, varmistu, että sovellus täyttää käyttötarkoitukselle asetetut vaatimukset
- Huomioi myös mahdollinen kaksikäytön mahdollisuus tekoälyyn liittyviä tutkimustuotoksia julkistaessa: voiko pahantahtoinen toimija käyttää tuotoksia haitallisissa käyttötarkoituksissa; voiko käyttää jopa sotilastarkoituksiin?
5
Säilytys
Esimerkkejä:
- Aineiston säilytys jatkokäyttöä varten
- Tekoälyn käyttö metadatan luomisessa
Huomioitavaa:
- Metatiedoissa tulee asianmukaisesti kuvata, miten aineiston tuottamisessa ja kuratoinnissa on käytetty tekoälyä
- Tarkista, että tekoälyn luoma metadata on oikein
6
Asiantuntija- ja arviointitehtävät
Esimerkki:
- Tutkimuksen tai tutkijoiden arviointi (esim. rahoitushakemukset ja tieteelliset julkaisut)
Huomioitavaa:
- Pidättäydy käyttämästä tekoälyä liiallisesti arkaluonteisissa tehtävissä, joissa käyttö voi vaikuttaa toisiin tutkijoihin tai organisaatioihin
- Älä syötä toisten julkaisemattomia tuotoksia järjestelmiin, joiden tietoturvasta ja tietosuojasta ei ole varmuutta

Tausta

Tämä tekoälyohje täydentää Tutkimuseettisen neuvottelukunnan (TENK) hyvän tieteellisen käytännön ohjetta (HTK-ohje 2023) sekä yleisiä tutkimuseettisiä periaatteita, joita käsitellään mm. TENKin ihmistieteiden eettisen ennakkoarvioinnin ohjeessa. Korkeakouluyhteisömme on sitoutunut näihin ohjeisiin ja jokainen tutkija on vastuussa niiden noudattamisesta myös tekoälyä käytettäessä. Lisäksi ohje täydentää korkeakoulun tekoälypolitiikkaa.

Tämä ohje perustuu osittain Euroopan komission ja ERA Forumin julkaisemaan ohjeeseen Living guidelines on the responsible use of generative AI in research, joka kuvaa, miten hyvää tieteellistä käytäntöä sovelletaan generatiivisen tekoälyn käytössä. Tätä ohjetta on laajennettu sisältämään enemmän esimerkkejä tekoälyn käytöstä tutkimuksessa sekä lainsäädännön vaatimuksia, jotka koskevat myös tekoälytutkimusta. Ohjeelle on osin toiminut inspiraationa Helsingin yliopiston ohje, joka koskee generatiivisen tekoälyn käyttöä tutkimuksessa.