Petri Ylikoski & Karoliina Snell
Data-analytiikan kuten koneoppimisen ja tekoälyn kehitys on luonut ennen näkemättömiä mahdollisuuksia hyödyntää erilaisia tietokantoja ja rekistereitä. Ajatus näyttöön tai tietoon perustuvasta päätöksenteosta nähdään kasvavassa määrin perustuvan tällaisille datavarannoille ja päätöksenteon tukityökalujen käytölle. Erityisesti terveyteen ja hyvinvointiin liittyvän datan hyödyntämisessä ennakoidaan olevan suuria mahdollisuuksia kehittää terveys- ja hyvinvointipalveluita, lisätä kustannustehokkuutta ja kansallista kilpailukykyä sekä edistää ihmisten terveyttä.
Nämä odotukset näkyvät esimerkiksi Suomen nykyisen hallitusohjelman strategisissa tavoitteissa. Hallitus haluaa valmistella eettisesti, taloudellisesti ja sosiaalisesti kestävän tietopoliittisen sääntelykehikon ja samalla avata joustavasti ja laajamittaisesti julkisen sektorin dataa ottaen kuitenkin huomioon korkean tietosuojan. Kunnianhimoiset tavoitteet asettavat kasvavia vaatimuksia datan hallinnalle ja sen käytölle päätöksenteossa. Tarvitaan aikaisempaa parempaa ymmärrystä sekä datan luonteesta että sen käyttöä ja säilyttämistä koskevista teknisistä, yhteiskunnallisista ja oikeudellisista kysymyksistä. Kutsumme DataLit-hankkeessa tätä ymmärrystä datalukutaidoksi. Datalukutaito on edellytys vastuulliselle ja tietoon perustuvalle päätöksenteolle.
Kokonaisvaltainen ja kriittinen datalukutaito
Datalukutaito on enemmän kuin lukujen tai algoritmien matemaattista ymmärtämistä. Datalukutaito muodostuu datan ja siihen liittyvien keskeisten tiedollisten, eettisten, oikeudellisten ja teknisten kysymysten ymmärryksestä. Hyvään datalukutaitoon sisältyy käsitys siitä, kuinka dataa kerätään, prosessoidaan, analysoidaan, tulkitaan ja esitetään. Tiedollinen ymmärrys siitä, kuinka data ja siitä johdetut mallit voivat toimia näyttönä ja kuinka datasta tehtävät päätelmät perustuvat datan eri ominaisuuksiin ja rajoitteisiin, rakentuu tälle perustalle. Kriittinen datalukutaito edellyttää kuitenkin myös selkeää käsitystä datan käyttöä ohjaavista lainsäädännöllisistä ja eettisistä periaatteista.
Datan kestävä käyttö päätöksenteossa edellyttää näiden eri ulottuvuuksien kokonaisvaltaista jäsentämistä. Esimerkiksi tästä käy datan anonymisointi. Tarve ja motivaatio anonymisoida dataa kumpuaa eettisistä ja oikeudellisista lähtökohdista suojella henkilöiden yksityisyyttä ja estää henkilötietojen väärinkäyttöä. Anonymisoinnilla on kuitenkin merkittäviä seurauksia ja rajoitteita datan käytettävyydelle niin tutkimuksessa kuin päätöksenteossa. Viime kädessä sekä yksityisyyden suojaaminen että datan käytettävyys riippuvat anonymisoinnin teknisestä toteutuksesta ja yksityiskohdista. Ainoastaan kokonaisvaltainen ja kriittinen datalukutaito mahdollistaa datan käyttöön liittyvien mahdollisuuksien ja rajoitusten tunnistamisen.
Datalukutaitoa kaikille
Tarve datalukutaidolle ei rajoitu vain rekistereitä ylläpitäviin viranomaisiin, dataa käyttäviin tutkijoihin tai poliittisiin päättäjiin. Sitä tarvitsevat myös yritysjohtajat, terveydenhuollon ammattilaiset ja kunnalliset päättäjät. Lähes kaikilla aloilla hyödynnetään dataa tietojohtamisessa sekä tuotteiden ja palveluiden suunnittelussa.
Viime kädessä datalukutaito on kaikkia kansalaisia koskeva kansalaistaito. Kansalaiset ovat dataan perustuvan päätöksenteon kohteita, mutta myös mahdollisia datan hyödyntäjiä. Datalukutaitoa tarvitaan myös yhteiskunnallisessa keskustelussa. Sen avulla voidaan kyseenalaistaa esimerkiksi big dataan ja tekoälyyn liittyviä epärealistisia odotuksia, mutta toisaalta se auttaa oivaltamaan datan käyttöön liittyviä uusia mahdollisuuksia.
Yhteistyöllä vastuullista päätöksentekoa
DataLit on yhteiskunta-, oikeus- ja tietojenkäsittelytieteitä yhdistävä hanke, jonka tutkimusryhmät ovat Helsingin yliopistosta, Aalto yliopistosta ja Itä-Suomen yliopistosta. Hankkeen tarkoituksena on kehittää ymmärrettäviä ja luotettavia käytäntöjä ja työkaluja hyödyntää suomalaista sosiaali-, terveys- ja hyvinvointidataa sekä edistää datalukutaitoa.
Tavoitteena on löytää yhdessä sidosryhmien kanssa ratkaisuja tietoon perustuvaan päätöksenteon ja hyvän datalukutaidon tueksi. Näitä ovat esimerkiksi menetelmät tuottaa anonymisoitua synteettistä dataa ja hyväksyttäviä koneoppimismalleja rekisteridatan analysointiin sekä interaktiiviset välineet datan kommunikointiin ja visualisointiin. Samalla hankkeessa tunnistetaan datan hyödyntämisen keskeiset haasteet ja edistetään kansalaisten ja päätöksentekijöiden datalukutaitoa osallistumalla julkisiin keskusteluihin datan käytöstä. Tavoitteena on myös luoda uusi monitieteinen ja tieteidenvälinen datalukutaitoon keskittyvä tutkimusalue.