Kuva: Pxhere, CC.

Renne Pesonen

Kirjoittaja on apurahatutkija Tampereen yliopiston filosofian oppiaineessa.

10.10.2023 Renne Pesonen

Mitä suuret kielimallit voivat kertoa ihmismielestä?

Erityisesti sosiaaliseen mediaan ja muualle internetiin ihmisten suoltama materiaali tarjoaa hyvin rikkaan ja helposti saatavilla olevan aineiston ihmisten tekemisistä.

Uudet syväoppimiseen perustuvat tekoälyt, kuten ChatGPT ja muut suuret kielimallit, eivät pyri mallintamaan ihmismielen toimintaa. Silti ne ovat yhä älykkäämpiä ja jopa inhimillisempää vanhempiin malleihin verrattuna. Syy ei ole pelkkä laskentatehon kasvu vaan myös opetusmateriaalin ja ajattelutavan muutos. Syväoppimisjärjestelmien äly perustuu loogisen järkeilyn sijaan monimutkaisten säännönmukaisuuksien oppimiselle. Tämä voi olla avain myös ihmisjärjen ymmärtämiseen.

Tekoäly ja algoritmit

Eräs hyödyllinen jaottelu tekoälyn tarkasteluun kulkee tekoälyn tuotantotaloudellisen ja tieteellisen käytön välillä. Ensiksi mainitulla tarkoitan, että tekoäly on yksi teknologia muiden joukossa. Sitä käytetään parantamaan tuotteita ja palveluita ja luomaan kokonaan uusia. Näitä ovat esimerkiksi itsestään ajavat autot ja muu älykäs robotiikka. Tekoälyä käytetään paljon myös suurten datamassojen käsittelyyn parantamaan esimerkiksi lääketieteellistä diagnostiikkaa, tai auttamaan monimutkaisen ongelmien ratkomisessa investointipäätöksistä liikennesuunnitteluun. Uusimpia tulokkaita ovat suoraan kuluttajille suunnatut digitaaliset palvelut, kuten ChatGPT ja Dall-E.

Esimerkiksi ChatGPT on varsin erilainen kuin sosiaalisen median sisältöjä hallinnoivat algoritmit, mutta molemmat perustuvat koneoppimiseen, joka löytää monimutkaisia tilastollisia säännönmukaisuuksia ihmisten verkkoon jättämästä datasta.

Uusien sovellusten myötä tekoälystä kohistaan nyt hieman samaan tapaan kuin muutama vuosi sitten somealgoritmeista, jotka huomaamattamme vaikuttavat toimintaamme. Uusia tekoälymalleja voidaan käyttää toki myös tähän tarkoitukseen. Miten ne eroavat aiemmista algoritmeista? Mitään selvää eroa ei oikeastaan ole. Esimerkiksi ChatGPT on varsin erilainen kuin sosiaalisen median sisältöjä hallinnoivat algoritmit, mutta molemmat perustuvat koneoppimiseen, joka löytää monimutkaisia tilastollisia säännönmukaisuuksia ihmisten verkkoon jättämästä datasta.

Somealgoritmit luokittelevat käyttäjiä klikkausten ja tykkäysten perusteella, ja ne ennustavat minkälaisia sisältöjä käyttäjälle kannattaa tarjota. ChatGPT luokittelee tekstejä ja niissä esiintyviä ilmauksia, ja se ennustaa, minkälaista tekstiä käyttäjä siltä haluaa. Sovellusten ja välillä on teknisiä eroja, mutta selvää käsitteellistä, filosofisesti mielenkiintoista eroa uusien tekoälyjärjestelmien ja vanhempien oppimisalgoritmien välillä ei juuri ole. Tekoälyllä ei ylipäätään ole selkeää määritelmää. Perinteisiä hakukoneita tai vaikka shakkiohjelmia voi hyvin pitää eräänlaisina tekoälyinä, kuten niitä olisi pidetty tekoälyn varhaisvuosina reilu puoli vuosisataa sitten.

Vaikka tekoäly ja koneoppiminen ovat edistyneet lähivuosina, nykyiset syväoppimisjärjestelmät perustuvat jo 1980-luvulla kehitetyille neuroverkoille. Laskentatehon kasvu on mahdollistanut yhä suurempien verkkojen käyttämisen, ja vuosien varrella on keksitty parempia menetelmiä niiden opettamiseksi. Tämä on mahdollistanut yhä suurempien datamassojen käsittelyn, mutta ennen kaikkea sopivaa dataa on aiempaa paremmin saatavilla. Erityisesti sosiaaliseen mediaan ja muualle internetiin ihmisten suoltama materiaali tarjoaa hyvin rikkaan ja helposti saatavilla olevan aineiston ihmisten tekemisistä. Palaan tähän tärkeään seikkaan myöhemmin.

Tieteellisistä malleista

Vaikka yllä kuvatut tekoälyn kehitysaskeleet vaikuttavat määrällisiltä, ne ovat mahdollistaneet laadullisesti uudenlaisia sovelluksia. Itsenäisesti toimivat koneet, laajoihin tilastomalleihin nojaava automatisoitu päätöksenteko ja luovan työn korvaaminen tekoälyllä sisältävät uudenlaisia uhkia ja mahdollisuuksia, jotka ovat herättäneet myös filosofien mielenkiinnon.

Aiemmin filosofit ovat olleet pääsiassa kiinnostuneita tekoälyyn liittyvistä tieteen- ja mielenfilosofisista kysymyksistä, kutem voiko kone olla oikeasti älykäs ja luova, tai voiko koneella jopa olla mieli kuten ihmisillä. Näiden pohdiskelujen taustalla on kognitiotieteissä laajasti hyväksytty käsitys, että mielen toiminta on aivoissa tapahtuvaa tietojenkäsittelyä.

Vaikka tämän tekstin näkökulma on mielenfilosofinen, sivuutan tämänlaiset kysymykset ja keskityn tekoälyyn välineenä ihmismielen tutkimisessa, tarkemmin sanoen sen käyttöön järkeilyn mallina. Järkeilyn mallintaminen ei tosin tarkoita ihmismielen toiminnan yksityiskohtaista tai välttämättä edes kovin suurpiirteistä mallintamista. Asian selventämiseksi selostan hieman tieteellisten mallien käytöstä yleisesti ja palaan sitten tekoälyyn.

Kun puhutaan erityisesti laskennallisista malleista, mieleen voi tulla menettely, jossa tarkasteltavan kohdejärjestelmän rakenne ja sen toimintaa kuvaavat lainomaisuudet pyritään kuvaamaan mahdollisimman tarkasti, ja järjestelmän simuloinnilla pyritään selvittämään, miten se käyttäytyy monimutkaisten vuorovaikutusten seurauksena. Joskus näin on, mutta jopa fysiikan malleissa yksityiskohtia joudutaan usein huomattavasti karkeistamaan, ettei simulaatio olisi liian raskas laskettavaksi. Usein malleissa ei ole edes tarvetta kuvata täsmällisiä mekanismeja ja riittää mallintaa jotain karkeita yleistyksiä, joita kohdesysteemin on havaittu noudattavan. Näin toimivat esimerkiksi sääennusteita tuottavat säämallit, jotka eivät voi simuloida ilmakehää esimerkiksi hiukkasten tarkkuudella eikä niiden tarvitse. Mallinnukseen riittää paljon karkeampi tieto iltavirtausten ja säärintamien käyttäytymisestä.

Usein tieteellisen mallien tarkoitus on poimia kohdejärjestelmästä jotain karkeita piirteitä eikä kuvata sitä mahdollisimman tarkasti. Tällöin tieteelliset mallit toimivat kuten kartat: Liian tarkat yksityiskohdat ovat tarpeettomia ja ne tekevät malleista lähinnä mahdottomia käyttää.

Monimutkaisia järjestelmiä kuvaavissa malleissa jotkut mekanismit voivat olla tuntemattomia ja jäädä malleista pois. Toisaalta mallit voivat joskus ennustaa väärin siksi, että ne ovat liian tarkkoja. Tämä johtuu siitä, että usein malleihin joudutaan lisäämään tuntemattomia muuttujia, jotta ne paremmin vastaisivat tunnettua dataa. Kuitenkin datassa on aina satunnaista kohinaa, ja jotkut muuttujista saattavat poimia tätä satunnaisvaihtelua, joka voi johtua esimerkiksi mittausvirheistä eikä mistään kohdejärjestelmän tuntemattomasta ominaisuudesta.

Mitä monimutkaisempia systeemeitä tutkitaan, sitä karkeampia työkaluja mallit väistämättä ovat. Mikäli on epäselvää, tekevätkö mallit vääränlaisia oletuksia tai yleistyksiä, voidaan käyttää useita malleja. Esimerkiksi IPCC:n ilmastoraportti nojaa yli kahteenkymmeneen eri malliin. Kun ne kaikki antavat samankaltaiset pitkän kantaman ennusteet, on uskottavaa, että ne yhdessä kuvaavat ainakin laadullisesti oikein ilmaston kehitystä lähivuosikymmeninä.

Tieteellisten mallien tarkoitus ei myöskään ole aina ennustaminen tai kohdejärjestelmän kuvaaminen. Tutkijat voivat olla kiinnostuneita selventämää erilaisten teoreettisten oletusten seurauksia. Tämä on yleistä esimerkiksi talous- ja yhteiskuntatieteiden malleissa. Annan näistä yhden esimerkin. 1960-luvulla sosiologi Thomas Schelling oli kiinnostunut Yhdysvaltojen kaupunkien segregaatiokehityksestä, eli miksi esimerkiksi etniset ryhmät eriytyivät omille asuinalueilleen. Tyypillinen selitys oli, että muuttajat halusivat eroon tietyistä vähemmistöistä. Schelling halusi osoittaa, ettei tätä voi päätellä segregaatiosta suoraan. Hän asetteli ruutupaperille kahdenlaisia merkkejä ja jätti osan ruuduista tyhjiksi. Nämä merkit edustivat eri ryhmiin kuuluvia perheitä. Hän kävi merkkejä yksi kerrallaan läpi, ja mikäli merkin ympäristössä oli vain vähän samaan ryhmään kuuluvia perheitä, merkki muutti lähimpään tyhjään sijaintiin, jossa saman ryhmän edustajia oli tarpeeksi. Kun tätä jatkoi tarpeeksi kauan, merkit joko sekoittuivat satunnaisesti tai ne aina päätyivät kahdeksi erilliseksi ryhmäksi. Schelling huomasi, että täydellinen segregaatio syntyy jo silloin, kun muuttajat suosivat alueita, joissa on vähintään kolmasosa heidän kaltaisiaan, eli vaikka he olisivat valmiita muutamaan alueille, joissa he itse ovat vähemmistöä.

Tämän mallinnuksen pointti ei ollut osoittaa, etteikö vähemmistövastaisuus voisi olla oikea selitys segregaatiolle. Schelling ei myöskään väittänyt simuloivansa oikeaa kaupunkien muuttoliikettä tai sen taustalla olevia mekanismeja. Hänen pointtinsa oli vain, että vähemmistövastaisia tai mitään muitakaan motiiveja ei voi päätellä segregaatiosta sinänsä. Hänen simulaationsa osoitti, että segregaatiokehitys on ainakin periaatteessa mahdollinen myös tilanteessa, jossa ihmiset suosivat alueita, joissa asuu edes jonkin verran myös heidän kaltaisiaan.

Schellingin malli oli simulaationa äärimmäisen yksinkertainen, mutta siksi myös havainnollinen. Joskus tieteelliset mallit ovat lähinnä havainnollistamisvälineitä, joiden tarkoitus on tutkia, minkälaiset selitykset eri ilmiöille ovat uskottavia ja minkälaisia seurauksia erilaisilla teoreettisilla oletuksilla voi olla. Tällainen käsitteellinen tutkiminen on yksi tapa ymmärtää myös tekoälymalleja.

Tekoälymallit tieteellisinä malleina

Tekoälyllä on kaksi eri kehityslinjaa, joista toista kutsutaan perinteiseksi tekoälyksi ja toista neurolaskennaksi tai konnektionismiksi. Ensimmäisen nimitys on sikäli harhaanjohtava, että molempien juuret ovat 1950-luvulla. Kuitenkin perinteinen tekoäly, jota voitaisiin kutsua myös logiikkapohjaiseksi tekoälyksi, oli vallitseva lähestymistapa 1980-luvulle asti. Sen taustalla olevan ajatuksen voi tiivistää vaikka niin, että ihmiset ovat pääpiirteissään rationaalista, logiikka kertoo, mitä rationaalisuus on, joten inhimillinen järjenkäyttö perustuu logiikalle. Toki tiedettiin, että ihmiset eivät aina toimi loogisesti, mutta parempaakaan mallia nimenomaan älykkäästä toiminnasta ei ollut. Lähtökuopissaan ollut tietojenkäsittelytiede oli myös vahvasti sidoksissa matemaattiseen logiikkaan, joten logiikka tarjosi luontevan lähtökohdan psykologeille ja tietojenkäsittelytieteilijöille yhdistää voimansa. Mukana oli myös kielitieteilijöitä ja analyyttisiä filosofeja, joiden mukaan kaikki käsitteellinen ajattelu voidaan periaatteessa kuvata logiikan tai jonkun vastaavan säännönmukaisen symbolikielen avulla.

Perinteisen tekoälyn toinen kantava ajatus oli, että mielen toimintaa koskevat teoriat voitaisiin muotoilla täsmällisesti tietokoneohjelmina. Näitä ohjelmia voidaan suorittaa tietokoneilla, ja niiden tulosteita verrataan ihmisiin, jotka esimerkiksi ratkovat erilaisia päättelytehtäviä. Näiden mallien tarkoitus oli siis olla mahdollisimman tarkkoja tieteellisiä kuvauksia ihmismielen toiminnasta, vaikka ne yleensä olivat rajattu kuvaamaan vain esimerkiksi päättelyä tietynlaisissa tehtävissä.

Alkuinnostuksen jälkeen osoittautui, ettei logiikka olekaan toimiva malli ihmisjärjestä, kun siirrytään rajatuista tehtävistä monimutkaiseen inhimilliseen todellisuuteen. Logiikka toimii, kun tieto on varmaa, muuttumatonta ja täydellistä – mikä ei kuvaa arkista maailmaamme alkuunkaan.

Alkuinnostuksen jälkeen osoittautui, ettei logiikka olekaan toimiva malli ihmisjärjestä, kun siirrytään rajatuista tehtävistä monimutkaiseen inhimilliseen todellisuuteen. Logiikka toimii, kun tieto on varmaa, muuttumatonta ja täydellistä – mikä ei kuvaa arkista maailmaamme alkuunkaan. Pelkkään logiikkaan perustuvat päättelymallit eivät käytännössä toimi aina tällöinkään. Oletetaan esimerkiksi, että ystäväsi sanoo tulevansa illalla baariin, mikäli hän saa työnsä tehtyä. Myöhemmin hän lähettää viestin, että hän sai työnsä tehtyä, mutta jäi auton alle ja on nyt sairaalassa. Tuleeko hän baariin vai ei? Logiikka sanoo kyllä, mutta terve järki sanoo ei. Logiikkapohjaiseen järjestelmään voidaan toki lisätä sääntö, että jos joku on sairaalassa, hän ei ole tulossa baariin, mutta tällaisia poikkeuksia ja ristiriitatilanteita on ihmiselämässä lähes äärettömästi, ja ne pitäisi kaikki kirjata ylös. Lisäksi tällaisten poikkeusten tähdellisyys riippuu usein muista asiaan vaikuttavista tekijöistä, ja vaadittavien päättelyiden määrä räjähtää äkkiä tähtitieteellisen suureksi.

Tällaiset ongelmat ajoivat perinteisen tekoälyn umpikujaan 1980-luvulla. Lähestymistavan hylkäämiseen vaikutti myös noihin aikoihin kehitetty neuroverkkoteoria, jonka juuret ovat myös 1950-luvulla. Neuroverkkojen idea ei ollut mallintaa abstraktia ajattelua, vaan hermosoluryhmien toimintaa. Tiedettiin, että hermosoluverkostojen toiminta perustuu aktiopotentiaaliksi kutsuttujen signaalien välittämiseen soluilta ja soluryhmiltä toisille. Esimerkiksi verkkokalvolle osuva valo aktivoi aistinsoluja, joiden lähettämä signaali kulkee verkkokalvon alla sijaitseville hermosoluille. Kun nämä solut aktivoituvat, signaali etenee edelleen takaraivon näköaivokuorelle ja sieltä muualle aivoihin. Oli ilmeistä, että hermosolut itse eivät suorita monimutkaista tietojenkäsittelyä, joten aivojen tietojenkäsittelyn täytyy tapahtua silloin, kun signaali etenee soluryhmiltä toisille. Tiedettiin myös, että solujen väliset kytkennät muuttuvat solujen aktivaation seurauksena. Yhdessä aktivoitujen solujen väliset yhteydet vahvistuvat. Vastaavasti toisiinsa kytkeytyneiden solujen yhteys heikkenee, mikäli niiden aktiivisuus ei yleensä liity toisiinsa.

Näiden periaatteiden nojalla tutkijat ryhtyivät mallintamaan hermosoluryhmien toimintaa. Mallit eivät varsinaisesti kuvanneet aivobiologiaa, vaan ne pyrkivät karkeasti mallintamaan yllä mainitut periaatteet, joita pidettiin oleellisena hermoston tietojenkäsittelyn kannalta. Ero logiikkapohjaisiin malleihin oli selvä. Nämä järjestelmät poimivat tilastollisia hahmoja hermosoluryhmien aktivaatiosta ja liittivät niitä toisiinsa. Esimerkiksi jos kaksi havaintoa liittyivät säännönmukaisesti yhteen, keinotekoinen hermoverkko onnistui liittämään nämä havainnot toisiinsa ja esimerkiksi ennustamaan, että tietystä ärsykkeestä seuraa toinen, vaikka tätä jälkimmäistä ei olisi vielä havaittu.

Ongelma oli, että yksinkertaiset verkot eivät paljoa tätä kummempaan kyenneet, ja monimutkaisempia verkkoja ei osattu opettaa. Ongelma ei ollut soluryhmien koko vaan signaaliketjujen pituus. Mielivaltaisen suuria soluryhmiä voitiin kyllä kytkeä yhteen, mutta jos kytkentäkerroksia oli useampi kuin yksi, verkkoa ei osattu opettaa. Tilanne korjaantui 1980-luvulla, jolloin keksittiin nykyisten syväoppimisjärjestelmien taustalla olevat algoritmit opettamaan verkkoja, joissa kytkentäkerroksia ja soluryhmiä on mielivaltaisen paljon. Termi ”syväoppiminen” tulee juuri tästä, eli hermoverkon kerroksilla on ”syvyyttä” periaatteessa niin paljon kuin laskentateho sallii.

Viime vuosituhannen puolella laskentateho ei paljoa sallinut. Verkoissa oli yleensä vain muutamia kerroksia ja verrattain pieniä soluryhmiä. Tällöinkin niiden opettaminen oli työlästä. Moni arvosteli neuroverkkoja siitä, että ne olivat liian karkeita malleja ollakseen uskottavia kuvauksia hermoston toiminnasta. Neuroverkkojen suorituskykykään ei vastannut ihmisten psykologisia kykyjä. Oli teoreettisia syitä olettaa, että neuroverkoissa olisi mahdollisuuksia vaikka mihin, mutta vastaavia teoreettisia perusteluja löytyi myös logiikkaan perustuville malleille. Näytöt kuitenkin jäivät vaatimattomiksi. Neuroverkot kohtasivat oleellisesti saman ongelman kuin logiikkapohjaiset mallit: kun ongelmat menivät monimutkaisiksi, suorituskyky yksinkertaisesti sakkasi. Käytännön sovellutuksia näille järjestelmille löytyi, mutta ihmismielen tieteellisinä malleina molemmat jäivät lähinnä teoreettisten tarkastelujen ja havainnollistuksien asteelle.

Luomuälykin on mukautuvaa matkimista

Vuosituhannen taitteessa hermoverkot hieman jäivät muiden koneoppimismenetelmien varjoon. Niiden kehitys ei tosin täysin lakannut kuten ei logiikkamallienkaan. Lopulta hermoverkot kuitenkin löivät läpi varsinaisten syväoppimisverkkojen muodossa, jotka voivat sisältää miljoonia soluja ja satoja kerroksia. Tekstin alussa mainitsin syitä, jotka johtivat näiden järjestelmien läpimurtoon. Näitä ovat muun muassa laskentatehon kasvu, opetusmenetelmien parantuminen, ja entistä suuremman opetusmateriaalin käyttö erityisesti internetistä louhitun materiaalin muodossa. Palaan vielä tähän viimeiseen tekijään muutaman loppuhuomion kanssa.

Ensinnäkin, syväoppimisjärjestelmiä ei ole kehitetty aiempaa paremmiksi ihmismielen malleiksi. Ne ovat syntyneet tietoteknisen perustutkimuksen seurauksena, ja uudet älykkäät sovellukset, kuten ChatGPT, ovat laadittu lähinnä tuotantotaloudelliseksi teknologiaksi. Tästä huolimatta ne ovat ainakin osin lunastaneet niitä odotuksia, joita tekoälylle on aiemmin asetettu. Nämä järjestelmät ovat hämmästyttävän älykkäitä ja jotkut jossain määrin jopa inhimillisiä aiempiin verrattuna.

Toisaalta tieteelliset mallitkaan eivät aina ole kohdejärjestelmänsä tarkkoja kuvauksia, joten mikään ei estä tarkastelemasta näitä uusia tekoälymalleja myös tieteellisinä malleina. Siis vaikka ne eivät edes yritä mallintaa ajattelua tai aivotoimintaa, niiden menestyksestä voi silti yrittää päätellä jotain myös ihmismielestä, tai suurten kielimallien tapauksessa erityisesti kielellisestä ajattelusta. Mutta mikä uusien neuroverkkomallien opetus tässä mielessä voisi olla?

Laskentakapasiteetin ja verkkojen sisäisen prosessoinnin sijaan huomion voi suunnata niiden opetukseen ja oppimateriaaliin. Esimerkiksi ChatGPT:n taustalla oleva kielimalli oppii valtavasta määrästä pääosin internetistä louhittuja tekstejä ja saamastaan palautteesta, kun se koittaa joustavasti uusintaa oppimaansa. Periaatteessa suuret kielimallit vain ennustavat, miten sanat tyypillisesti liittyvät toisiinsa sen kaltaisissa teksteissä, joita käyttäjät antavat niille syötteenä. Kuitenkin kielimallit kykenevät oppimaan monimutkaisia kieliopillisia rakenteita ja kielellisten ilmausten sisällöllisiä yhteyksiä. Ne oppivat kielenkäytön rutiineja ja toisteisuutta, jotka ovat tärkeitä kielellisen vuorovaikutuksen ymmärtämiselle ja sisällölliselle järkevyydelle. Näin ollen sanojen liittäminen toisiinsa on tarkemmin katsottuna monimutkainen prosessi, jonka mahdollistaa sekä opetusmateriaalin että sanojen yhteyksiä koodaavien verkon kytkentöjen valtava määrä.

Allekirjoittanut mukaan lukien, moni kognitiotieteilijä ja mielenfilosofi nykyään painottaa, että inhimillinen rationaalisuus ei pohjaudu sisäsyntyiseen järkeen vaan vuorovaikutukseen materiaalisen ja sosiaalisen ympäristömme kanssa. Opimme muilta ihmisiltä, miten järkeä käytetään, samaan tapaan kuin opimme, miten kieltä käytetään. Opimme ympäristössämme esiintyviä säännönmukaisuuksia, mukaan lukien säännönmukaisuudet ihmisten kielellisessä järkeilyssä. Jos näin on, järjenkäyttö ja käsitteellinen ajattelu perustuu logiikan sijaan ympäristömme ja sosiaalisten rutiinien toisteisuuteen sekä toisilta ihmisiltä saamaamme opastukseen ja palautteeseen.

ChatGPT ja vastaavat tekoälyjärjestelmät eivät tietenkään osoita, että inhimillinen järjenkäyttö perustuu ympäristön tai kielellisen käyttäytymisen säännönmukaisuuksien oppimiseen. Tästä huolimatta näiden järjestelmien kiistaton paremmuus inhimillisen järkeilyn matkimisessa verrattuna aiempiin logiikkapohjaisiin malleihin antaa syyn olettaa, että niissä on edes jotain laadullista samankaltaisuutta ihmisjärjen kanssa.

Tämä ei itse asiassa ole kovin yllättävä ajatus. Näin opimme käytännön taitoja ylipäätään. Uutinen tässä on lähinnä, että kielellisenä ulosantina näkyvä järjenkäyttö ja muu käsitteellinen ajattelu voisi myös olla ympäristön säännönmukaisuuksiin mukautuva taito. Tällaiset ihmisjärjen yleistä luonnetta koskevat väitteet ovat kiistanalaisia, ja niiden selvittäminen on hyvin teoreettista silloinkin, kun teoriat pohjautuvat empiriaan.

Mielestäni on perusteltua ajatella, että suuret kielimallit tukevat yllä mainittuja mukautuvaan oppimiseen perustuvia teorioita inhimillisestä järjenkäytöstä. Teoreettisten tarkastelujen tukena mallit ovat hyödyksi silloinkin, kun ne eivät kuvaa kohdejärjestelmäänsä tarkasti. ChatGPT ja vastaavat tekoälyjärjestelmät eivät tietenkään osoita, että inhimillinen järjenkäyttö perustuu ympäristön tai kielellisen käyttäytymisen säännönmukaisuuksien oppimiseen. Tästä huolimatta näiden järjestelmien kiistaton paremmuus inhimillisen järkeilyn matkimisessa verrattuna aiempiin logiikkapohjaisiin malleihin antaa syyn olettaa, että niissä on edes jotain laadullista samankaltaisuutta ihmisjärjen kanssa. Toisin sanoen, vaikka nämä mallit eivät välttämättä kerro paljoakaan ihmismielen sisäisistä mekanismeista, esimerkiksi ChatGPT:n kyky käydä järkevää keskustelua voi johtua siitä, että sen toiminta on, puutteistaan huolimatta, karkeasti samanlaista arkisen järkeilykykymme kanssa, ja tämä samankaltaisuus löytyy tilastollisten yhteyksien sekä toisteisuuden oppimisesta ja hyödyntämisestä.

Tekoäly

18.07.2024 Johanna Westergård

Synnytysväkivalta ei ole tahallista, mutta se on otettava vakavasti

Synnytysväkivalta on osa laajempaa naisiin kohdistuvaa väkivaltaa, jonka nähdään olevan seurausta rakenteellisesta epätasa-arvosta ja syrjinnästä. YK:n ihmisoikeusneuvosto linjasi synnytysväkivaltaa käsittelevässä kannanotossaan vuonna 2019, että jokaisella synnyttäjällä on oikeus kunnioittavaan lisääntymisterveydenhuoltoon, mukaan lukien synnytyksen aikainen hoito.

Termi ’obstetric violence’, obstetrinen väkivalta tai synnytysväkivalta nousi kansainväliseen tietoisuuteen, kun Venezuela sääti ensimmäisenä maailmassa lain, jolla synnytysväkivalta kiellettiin rangaistuksen uhalla. Tätä edelsi synnytysaktivistien voimakas liikehdintä synnytyksen hoidon inhimillistämisen puolesta. (Pickles, 2024.) Sanan ’väkivalta’ käyttö synnytysten yhteydessä on herättänyt närkästystä […]

LUE LISÄÄ

03.07.2024 Mari Heitto ja Jari Pirhonen

Muistisairauden varjosta valoon – miten vähentää muistisairauksien pelkoja ja stigmaa?

Kaikilla on oikeus osallistua itseään ja elämäänsä koskevan tieteellisen tiedon tuottamiseen. Vaikka muistisairaiden ihmisten etujärjestöt ovat jo pitkään vaatineet sairastuneille parempia mahdollisuuksia osallistua tieteellisten tutkimusten tekemiseen, akateemisessa maailmassa on edelleen asenteellisia ja tutkimuskäytänteisiin liittyviä esteitä.

Ennusteiden mukaan muistisairaiden määrä Suomessa tulee kasvamaan merkittävästi lähivuosikymmenten aikana. Vuoteen 2040 mennessä muistisairauksia sairastavien henkilöiden lukumäärän on arvioitu nousevan jopa 247 000:een, mikäli nykyinen sairastavuuden taso säilyy samana ja ikääntyneiden väestöosuus kasvaa ennustetusti. Vaikka muistisairauksia sairastavien on arvioitu olevan […]

LUE LISÄÄ

20.06.2024 Päivi Honkatukia

Puhe menetetystä sukupolvesta ei tee oikeutta nuorten aikuisten koronakokemuksille

Koronakriisillä oli laajoja vaikutuksia ihmisten elämään, sosiaalisiin suhteisiin ja yhteiskunnallisen luottamuksen rakentumiseen. Nuorten aikuisten kokemuksiin pohjaava Elämää korona-ajassa -kirjamme tuo esiin näitä vaikutuksia. Kirja osoittaa vaikutusten olevan niin moniulotteisia, ettei yksinkertaistava julkinen keskustelu menetystä sukupolvesta tavoita niitä.

Nuori aikuisuus on nuorisotutkimuksen käsite, joka viittaa teini-iän ja aikuisuuden väliin sijoittuvaan erityiseen elämänvaiheeseen. Siihen liitettyjä piirteitä ovat muun muassa muutokset, kokeilut, elämyshakuisuus ja vapaus (Arnett 2000). Vaikka käsitteen osuvuudesta on kiistelty, on selvää, että 2020-luvun alun maailmanlaajuisen koronapandemian olosuhteet […]

LUE LISÄÄ