Hyppää pääsisältöön

Huono data voi johtaa harhaan taistelussa koronaa vastaan

Julkaistu 30.3.2021
Tampereen korkeakouluyhteisö
Koronatilastot
Kuva: Jonne Renvall
Kasvava määrä numerotietoa ei automaattisesti lisää ihmisten ymmärrystä koronapandemian luonteesta. Päivittäin tulkitsemme lukuja, joiden syntyhistoria ja merkitys jäävät epäselviksi. Se ei ole ihme, sillä uuden virustaudin edessä edes käsityksemme kuolemasta ei ole yhtenevä.

Ainoatakaan toista tautia ei ole purettu numeroiksi, kuten Covid-19:ta eli tuttavallisemmin koronavirusta. Suomen suurin sanomalehti Helsingin Sanomat kertoo päivittäin tarkalleen, kuinka moni on saanut tartunnan, kuollut koronavirukseen tai joutunut sairaalaan tai tehohoitoon taudin vuoksi.

Tätä kirjoitettaessa Suomessa koronaviruksen oli Suomessa saanut varmuudella 5962 ihmistä. HS:n tapaan lukuja Suomessa esittävät monet muut mediat, kansainvälisesti samaa tekevät mediat omissa maissaan.

Tampereen yliopiston biostatistiikan professori Jaakko Nevalaiselle luvut ovat luonteva tapa kuvata maailmaa. Hän uskoo, että suurelle yleisölle vähempikin numerotulva riittäisi kokonaistilanteen hahmottamiseen.

– Hyvä olisi, jos alkaisimme käyttää vain niitä lukuja, joista meillä on suuri varmuus, Nevalainen sanoo.

Sellaisia tietoja ovat esimerkiksi se, kuinka moni ihminen on joutunut koronaviruksen vuoksi sairaalahoitoon tai astetta vaativampaan tehohoitoon. Varmasti tiedetään myös se, kuinka moni sairaalahoidossa olleista on kuollut.

Sen sijaan se tartuntamäärää kuvaava luku perustuu siihen, kuinka moni on hakeutunut testattavaksi.

– On huomattava sekin, että infektion saaminen ja Covid-19-tautiin sairastuminen ovat kaksi eri asiaa. Jos testauskriteerit tai testausaktiivisuus muuttuvat matkan varrella, laboratoriovarmistettujen ja ilmoitettujen tautitapausten määrä ei ole verrannollinen aiempaan tietoon, Tampereen yliopiston epidemiologian professori Pekka Nuorti sanoo.

Koronanumeroiden ongelma syntyy siitä, että vaikka tilastojen puutteet tiedostetaan, niitä käytetään silti yleisen ajattelun, koronakuvan ja keskustelun pohjana. Kun parempaakaan ei ole, datanlukutaito ja datakriittisyys nousevat uudeksi kansalaistaidoksi.

Auttaa tutkijoita mutta hämmentää muita

Infektion saaneiden kokonaismäärää väestössä voidaan pandemian alkuvaiheessa vain arvioida. Koska merkittävä osa ihmisistä sairastuu koronaviruksesta lievästi tai jopa oireettomasti, virusinfektion todellinen laajuus on perusteltu arvaus.

Esimerkiksi THL on arvioinut sairastuneiden määrän olevan 20-30-kertainen varmistettuihin tapauksiin nähden. Kuitenkin esimerkiksi pahimmin infektiosta kärsineen Uudenmaan vasta-ainetesteissä arvio sairastuneista vaihtelee tällä hetkellä 2/100 ja 2/1000 välillä.

Kumpikaan luku tuskin on oikea tai lopullinen. Asia saadaan selville vasta paljon myöhemmin, kun vasta-ainetesteistä saadaan lisäkokemusta. Lukujen tulkinta on tällä hetkellä vaikeaa, eikä vasta-ainetestejä vielä pidetä luotettavina kertomaan sairastetusta taudista, immuniteetista tai sen kestosta. Nämä vaativat lisätutkimuksia.

Sairastuneiden varmistetut lukumäärät ovat muodostuneet merkittäviksi taudinkuvaa kuvaaviksi tekijäksi, koska niitä on toistettu ja niiden kehitystä mediassa on seurattu alusta alkaen. Infektioiden kokonaismäärä on kuitenkin hyvin epävarma arvio ja ensimmäisiä tietoja siitä on vasta alettu saada.

Tiedot, jotka lähinnä hämmentävät suurta yleisöä, ovat tutkijoille tärkeitä.

– Aikanaan luotettavat arviot vasta-ainepositiivisten tapausten ilmaantuvuudesta auttavat saamaan tietoa immuniteetin syntymisestä sekä vasta-aineiden syntymisnopeudesta ja säilymisestä, Nevalainen sanoo.

Tätä tietoa voidaan käyttää hyväksi, kun esimerkiksi rokotteen valmistuttua suunnitellaan sitä, missä järjestyksessä ihmisiä aletaan rokottaa.

Sairastuneiden varmistetut lukumäärät ovat muodostuneet merkittäviksi taudinkuvaa kuvaaviksi tekijäksi, koska niitä on toistettu ja niiden kehitystä on mediassa seurattu alusta alkaen. Infektioiden kokonaismäärä on kuitenkin hyvin epävarma arvio ja ensimmäisiä tietoja siitä on vasta alettu saada.

Kun edes kuolema ei ole varmaa

Vahvoista mittareista kuolema on yksiselitteinen, periaatteessa. Elämä oli, ja sitten se loppui. Koronapandemiaa tilastojen kautta katsottaessa kuitenkaan edes kuolema ei ole yksiselitteistä.

– Ihminen voi kuolla koronaan, tai hän voi kuolla koronan kanssa, Nuorti sanoo.

– Keskustelua vaikeuttaa se, että aina ei ole ilmeistä, mistä kuolleisuuden käsitteestä milloinkin oikeastaan puhutaan, Nevalainen sanoo.

Haluamme tietää kuolleisuudesta, jotta tietäisimme, kuinka todennäköisesti itse tautiin kuolemme. Henkilökohtaisella tasolla läheisen kuolemansyy voi tuntua saivartelulta, mutta epidemian etenemisen kokonaisvaikutusten arvioinnin kannalta sillä on suuri merkitys.

On ymmärrettävä, mitä kuolleisuudella tarkoitetaan, jotta tilastoja ja lukuja voidaan hahmottaa, verrata tai käyttää riskinarviointiin.

– Keskustelussa tapauskuolleisuus ja infektiokuolleisuus menevät joskus sekaisin, Nuorti sanoo.

Tällä hetkellä kahdesta epidemiologisesta kuolleisuuskäsitteestä tapauskuolleisuus on se, jonka parhaiten tunnemme. Se merkitsee menehtyneiden osuutta niistä ihmisistä, joilla on varmistettu koronainfektio.

Infektiokuolleisuus puolestaan pyrkii arvioimaan sitä, kuinka suuri määrä kaikista koronavirustartunnan saaneista, mukaan lukien oireettomat ja testaamattomat, lopulta menehtyy.

– Infektiokuolleisuus selviää vasta epidemian loputtua. Sen arviointia auttaa, kun vasta-ainetestien tulokset varmistuvat.  Myös tutkimalla ylikuolleisuuslukuja eli vertaamaan tilannetta edellisvuosiin voidaan asiaa arvioida, mutta vielä näin aikaisessa vaiheessa tästä ei vielä pysty päättelemään, Nuorti sanoo.

Kuva: Jonne Renvall

Hoitokotien kuolemat ovat vaikea asia

Nevalainen huomauttaa, että koronaluvuissa on tärkeä ymmärtää myös mittakaava, ja se olisi mielellään ymmärrettävä oikealla tavalla. Tilastokeskuksen mukaan vuonna 2018 Suomessa kuoli 54 000 ihmistä eli noin 150 ihmistä joka päivä. Tätä kirjoitettaessa koronaepidemia on Suomessa kestänyt kaksi kuukautta, ja sinä aikana tautiin on menehtynyt 267 ihmistä.

Moni onkin alkanut tulkita lukuja sangen optimistisesti vastaavien rinnastusten avulla.

– Kuolinsyiden listalla korona on nyt kaukana kärjestä. Olemme kuitenkin nähneet sen potentiaalin levitä ja nousta listalla nopeastikin. Nykyisen tilanteen taustalla ovat rajoitukset, jotka ovat toimineet, Nevalainen huomauttaa.

Numeroiden valossa oleellinen kysymys on se, keitä tauti hautaan vie. Covid-19:n uhreista Euroopassa jopa noin puolet on ollut hoitokotien asukkaita.

Keskustelu hoitokotien kuolemista on herkkä paikka. Erityisesti vanhainkotien asukkailla elinajan odote ei ole pitkä, mutta jokainen niistä päivistä on yhtä arvokas kuin muidenkin. Samalla tilastoja katsottaessa on myös ymmärrettävä, että vanhainkotiin levitessään virus päättää lyhyessä ajassa monta haurasta elämää. Se näkyy kuolintilastossa piikkinä.

Miten tätä sitten pitäisi ajatella, jotta osuisimme oikeaan eettisesti mutta myös tilastollisesti?

Jokainen vältettävissä ollut kuolema on tragedia, Nevalainen sanoo. Traagisuus korostuu, jos koronaviruksen takia ihmiset joutuvat viettämään elämänsä viimeiset päivät erityksissä ilman mahdollisuutta pitää läheistään kädestä kiinni. Väestötason luvut samasta asiasta taas syntyvät laskemalla, ja se voi tuntua julmalta.

– Kokonaiskuolleisuuden muutosten syitä arvioitaessa usein puhutaan kilpailevista kuolinsyistä. Jos koronavirus aiheuttaa esimerkiksi 300 kuolemaa, se ei välttämättä merkitse sitä, että vuoden 2020 kokonaiskuolleisuus kasvaisi 300:lla, sillä osa hauraista ihmisistä olisi kenties kuollut johonkin muuhun kuolinsyyhyn, Nevalainen sanoo.

Enemmän tietoa ei merkitse parempaa tietoa

Koronapandemian edetessä erilaista numerotietoa ja sen perusteella tehtäviä mallinnuksia julkaistaan päivittäin valtavasti. 

– Kasvava numerotieto ei läheskään aina lisää ymmärrystämme. Etenkään jos emme tiedä, mistä se on peräisin, jolloin on vaikeaa arvioida tietojen laatua, Nevalainen tiivistää.

Luvuissa, tilastoissa ja niihin pohjautuvissa malleissa on tärkeää kyky paitsi tulkita data-analyysien tuloksia, myös arvioida niiden luotettavuutta. Ongelma syntyy, jos analysointityön tuloksena syntyvä riskinarvio tai ennuste julkaistaan ilman että analyysin taustat, perustelut ja oletukset tulevat esille. Usein siitä ei näy jälkeäkään, mistä ja miten analyysin pohjana käytetyt luvut ovat syntyneet. Kiireessä sitä ei myöskään riittävästi muisteta kysyä.

Hyvä esimerkki on maailman terveysjärjestö WHO:n globaali koronatilasto. WHO on YK:n alainen asiantuntijaorganisaatio, joka näyttäytyy neutraalina kattojärjestönä. Sitä se onkin, sillä kansainvälisenä toimijana WHO on ainoa taho, joka voi edes jotenkin koordinoida pandemian vastatoimia.

Samalla kuitenkin pitäisi muistaa, että myös usein uutisten raaka-aineena käytetty WHO:n tuottama avoin koronadata vaatii varovaisuutta tulkinnoissa. Kun eri maat keräävät tietoa eri tavoin ja sairaanhoitojärjestelmien perustasossa on suuret erot, ei eri maita pitäisi juuri verrata keskenään.

– Yhteismitallisten raportointikäytäntöjen luonti olisi periaatteessa mahdollista, mutta tällä hetkellä kansalliset terveysviranomaiset tekevät omia toimiaan ja myös raportoivat taudista omilla tavoillaan. Yhteiset käytännöt pitäisi tehdä rauhallisempana aikana, nyt kädet ovat täynnä muuta, Nevalainen sanoo.

Kuka vain voi luoda uskottavan näköisiä arvioita, jos hän osaa tehdä visuaalisesti vakuuttavan esityksen omalle verkkosivustolleen tai sosiaalisen median kanaviin. Ja kuka vain voi uskoa.

 

Avoin data ei ole avain onneen

Kaikkien käytössä oleva avoin data on useimmiten hyvä asia – kääntäen voi katsoa, miltä näyttävät diktatuurit tai harvainvaltaiset maat, missä data on suojattua tai rajoitettua. Avoin data ja vallitsevan tiedon perusteltu kyseenalaistaminen ovat tieteen ja demokratian rakennuspalikkoja.

Samalla koronapandemia on osoittanut, että avoimeen dataan liittyy myös ongelmia. Eri maissa testaustoimien kriteerit ja laajuus vaihtelevat, ja vaikka sairaalahoidon paikat ovat sinänsä luotettava mittari, sairaanhoidon yleinen saatavuus vaikuttaa hoidossa olevien ja kuolevien määrään.

Myös taudinkulun raportoinnissa on eroja, jopa selkeitä puutteita. Näistä syistä ymmärrystä lisäävä analyysi koronaepidemian etenemisestä ja kestosta ei synny vain laittamalla lukuja Exceliin teknisesti oikein. Kuka vain voi luoda uskottavan näköisiä arvioita, jos hän osaa tehdä visuaalisesti vakuuttavan esityksen omalle verkkosivustolleen tai sosiaalisen median kanaviin. Ja kuka vain voi uskoa.

– Sen verran olen koronaviruksesta julkaistua datajournalismia seurannut, että välillä suupieleni kiristyvät. On osaavien tutkijaryhmien tuottamia huolellisesti rakennettuja, perusteltuja ja kriittisesti tulkittuja analyyseja, mutta myös mattimeikäläisten nopeita laskuharjoituksia. Vaatii datanlukutaitoa huomata, että ne eivät ole samanarvoisia, ja pahimmillaan pelkistetyt laskelmat voivat johtaa harhaan, Nevalainen miettii.

Koronan dataparadoksi on siinä, että mitä useampi pääsee tietoon kiinni, sitä enemmän julkaistaan harrastajaepidemiologien dataesityksiä, tulkintoja ja ennusteita. Perusteltua on kysyä, kuinka moni koronaennusteitaan tekevä korjaa ja julkaisee omia tulkintojaan sitä mukaa, kun tieto taudista täydentyy. Se kuuluu tieteen perusolemukseen.

Kiire luo huonoa dataa

Suuri ongelma numerotiedon- ja tilastojen luomisessa on valtaisa kiire. Se syntyy terveydenhuollon ja talouden tarpeesta saada tauti hallintaan. Samalla kiirettä kirittää media, jonka julkaisutahti ja jano nopealle tiedolle ovat kiihtynyt merkittävästi internetin aikakaudella.

Niin kauan kuin tieteen ja tiedon itsekorjautuvuus ymmärretään ja myös sallitaan, tilanne on hallinnassa.

–Sen sijaan isompi kysymys, josta kamalasti ei ole puhuttu, on julkaistavien tutkimusten laatu, näytön vahvuus sekä vertaisarvioinnin puute. Kuka tahansa voi laittaa draftin eli version vertaisarvioimattomasta tutkimuksesta esille pre-print serverille, ja usein se löytää tiensä julkisuuteen, Nuorti sanoo.

Kun kiireen vuoksi tieteellisen työn kriteerit voivat höltyä, tavallisesti oleelliset kysymykset, kuten löydöksen sattumanvaraisuus, harhat (bias), sekoittavat tekijät, tutkijan virheet tai vertailuryhmän virheellisyys jäävät sivuun. Ongelmista pienempi on tieteellisen tiedon uskottavuus, suurempi se, että heikkolaatuinen pikatutkimus voi ohjata sekä jatkotutkimusta että päätöksentekoa. Toimivaa lääkettä odotetaan kuin kuuta nousevaa.

– Tämä näkyy esimerkiksi tutkimuksessa malarialääke hydroksiklorokiinin käytöstä Covid-19 taudin hoidossa, mikä alkoi yhdestä huonolaatuisesta tutkimuksesta. Tämä sai lumipallon liikkeelle ja lääkkeellä aloitettiin useita hoitokokeiluja, Nuorti sanoo.

Suurista toiveista huolimatta lääkkeen tehoa ei ole kyetty varmistamaan.

– Tällainen voi johtaa siihen, että suuri määrä resursseja laitetaan väärään paikkaan, kun samalla pitäisikin ehkä tutkia jotakin aivan muuta. On aika suuri ongelma, kun vertaisarviointi tapahtuu Twitterissä, Nuorti sanoo.

Kirjoittaja: Juho Paavola