Petri Ylikoski, professori, Helsingin yliopisto
1. Mistä on kyse?
Yhteiskunnallisen kestävyyden käsite on laaja ja pitää sisällään suuren joukon yhteiskunnallisia arvoja ja tavoitteita. Käsitteen merkitys on laajentunut jatkuvasti, ja nykyään sen alle kuuluvat muun muassa perustarpeet, turvallisuus, palvelujen saatavuus, terveys, sosiaalinen yhteenkuuluvuus, yhteiskunnallinen tasa-arvo, kulttuurinen monimuotoisuus ja elämänlaatu. Tekoälyn avulla on mahdollista edistää merkittävästi monia näistä tavoitteista, mutta sen harkitsematon käyttö on uhka näiden tavoitteiden toteutumiselle. Lyhyessä puheenvuorossa ei ole mahdollista tarkastella tällaisen laajan kokonaisuuden osia erikseen. Keskitynkin seuraavassa yhteiskunnallisesti kestävän tekoälyn keskeiseen edellytykseen: datan ja sen käytön laatuun. Tarkastelen erityisesti tekoälyn käyttöä päätöksenteossa.
Viimeaikaiset tekoälyn kehitysaskeleet ovat perustuneet erityisesti laskentatehon ja erilaisten koneoppimistekniikoiden kehittymiseen. Vaikka koneoppimismallit tuottavatkin joitakin erityisiä haasteita, on hyvä pitää mielessä, että monet tekoälyjärjestelmien tuottamat haasteet ovat tuttuja jo vanhemmista tieto- ja tietokonejärjestelmistä. Tällaiset järjestelmät ovat usein vuosien kehitystyön seurauksena hyvin monimutkaisia, ja siksi on monesti vaikeaa arvioida niiden luotettavuutta ja ymmärtää niiden toimintaa. Tämä aiheuttaa ongelmia myös niiden hallittavuudelle. Tekoälyelementtien lisääminen ei hävitä näitä haasteita vaan pikemminkin kärjistää niitä.
Tekoälyn sovellutuksia pohdittaessa on tärkeää tarkastella tekoälyä osana laajempaa kokonaisuutta, johon kuuluvat myös käytettävä data sekä tietojärjestelmää käyttävä organisaatio. Koneoppimiseen perustuva tekoäly ei tuo mukanaan minkäänlaista älyä, ymmärrystä tai viisautta, vaan sen vahvuutena on kyky tunnistaa ja oppia datassa esiintyviä säännönmukaisuuksia. Tästä syystä tekoälyjärjestelmää ei voi tarkastella irrallaan sen käyttämästä datasta. Vastaavasti tekoälyjärjestelmät eivät ole erillisiä niitä käyttävistä ja ylläpitävistä organisaatioista. Viime kädessä tällaisten järjestelmien toiminnan tarkoituksenmukaisuudesta ja hyväksyttävyydestä vastaavat niiden käyttäjät. Jotta tämä vastuu voisi kunnolla toteutua, kysymys tekoälyjärjestelmien ymmärrettävyydestä on ensiarvoisen tärkeä.
Yleistä keskustelua tekoälystä ohjaa odotus, jonka mukaan tekoälyjärjestelmille kehittyy pian ihmisen kaltainen järkeilykyky, tietoisuus ja moraalinen toimijuus. Tällaisen odotuksen ohjaamana esimerkiksi sanomalehdissä kirjoitetaan tekoälystä kuin se olisi jo nyt toiminnan subjekti, joka kykenee tekemään ennusteita ja vaikkapa tieteellisiä löytöjä. Tämä on tekoälyn mystifiointia, ja se tekee lukijoille vaikeaksi ymmärtää, mistä koneoppimisen soveltamisessa on oikeastaan kysymys. Se luo myös vääränlaisen uhkakuvan. Tekoälyn kehittymisen suurin uhka ei ole se, että ihmistä huomattavasti älykkäämmät ja viisaammat koneet tulevat hallitsemaan elämäämme. Tämä on nykytiedon valossa fantasiaa. Huomattavasti välittömämpi uhkakuva on sellainen, jossa yhteiskuntamme on täynnä tekoälyjärjestelmiä, jotka on suunniteltu huolimattomasti, jotka käyttävät epämääräistä dataa ja joiden käyttäjät eivät ymmärrä niiden toimintaa. Tällöin eläisimme järjestelmien armoilla eikä kenelläkään ei olisi kontrollia. Tällaisen tilanteen välttäminen on yhteiskunnallisesti kestävän tekoälyn keskeinen haaste.
2 Kestävän tekoälyn edellytys
2.1 Luotettava data
Koneoppimiselle perustuva tekoäly ei toimi ilman dataa. Puutteellinen, epäedustava, systemaattisia virheitä sisältävä tai epätarkoituksenmukainen data vaarantaa tekoälyn yhteiskunnallisesti kestävän soveltamisen, sillä se johtaa virhediagnooseihin, epäluotettaviin ennusteisiin ja syrjiviin päätöksiin. Käyttökelpoisen datan tuottaminen ja sen turvallinen hallinnointi edellyttävät konkreettista työtä, jonka vaatimia kustannuksia ja infrastruktuureja ei tule unohtaa. Tekoälyn ja datan järkevä käyttö edellyttää myös tervettä järkeä ja datalukutaitoa eli ymmärrystä datan käyttöön liittyvistä eettisistä, oikeudellisista, teknisistä ja tiedollisista kysymyksistä.
Datan laatu
Valmisteilla olevassa EU-lainsäädännössä painotetaan datan saatavuuden ja jakamisen merkitystä. Tämä onkin tärkeää, sillä monet tekoälyn hyödyt edellyttävät erilaisten datojen yhdistämistä. Yhtä lailla tärkeää on kuitenkin myös datan laatu. Kaikesta big data -hehkutuksesta huolimatta vanha totuus pitää paikkansa: suurikaan määrä dataa ei pysty korjaamaan puutteita käytetyn datan laadussa. Puutteellinen, epäedustava, systemaattisia virheitä sisältävä tai epätarkoituksenmukainen data on suurimpia yhteiskunnallisesti kestävän tekoälyn esteitä. Se on keskeinen virhediagnoosien, vinoumien ja epäluotettavien ennusteiden lähde. Tästä syystä metadata eli tieto datan alkuperästä ja käsittelytavoista on ensiarvoisen tärkeä. Metadata ei kuitenkaan itsessään auta korjaamaan datan laadun puutteita. Datan laatu riippuu datan käyttötarkoituksesta, joten sitä ei voi pitää datan sisäisenä piirteenä. Tästä syystä onkin luontevaa, että datan tuottajat ja käyttäjät toimivat vuoropuhelussa. Lisäksi on tarkoituksenmukaista pitää yllä metadataa täydentävää asiantuntijatietoa merkittävien data-aineistojen synty- ja käsittelyhistoriasta.
Datan turvallisuus
Digitalisoituva maailma tekee mahdolliseksi kerätä ja yhdistellä yhä laajempaa yksilöitä koskevaa dataa. Tätä dataa voidaan käyttää monella tapaa yksilöiden ja yhteiskuntien hyödyksi. Kerättyyn dataan sisältyy kuitenkin myös merkittäviä vaaroja, sillä väärin käsiin joutuessaan – tai yksinkertaisesti väärin käytettynä – se uhkaa yksilön yksityisyydensuojaa ja turvallisuutta. Tästä syystä kansalaisten luottamus datan käyttöä koskevaan säätelyyn on tärkeää. On syytä tähdentää, että kysymys ei ole vain uskomuksesta, että data on turvassa. Jotta datan käyttö olisi kestävällä pohjalla, tulisi järjestelyjen toimia siten, että ne antavat kansalaisille hyvät perusteet luottaa datan käyttöön. Heikko luottamus datan turvallisuuteen tai datan käyttäjien tarkoitusperiin on merkittävä este yhteiskunnallisesti kestävälle tekoälyn soveltamiselle. Lisäksi se saattaa johtaa käytettävissä olevan datan laadun heikkenemiseen, kun kansalaiset kieltävät datansa käytön, eivät luovuta sitä lainkaan tai vääristävät dataansa. Käytännön esimerkki tästä on internetin käyttäjien asenne monien sivustojen keräämiin henkilötietoihin.
Vinoutunut data
Automaattisessa päätöksenteossa voidaan erotella sääntöpohjaiset ja koneoppimiseen perustuvat ratkaisut. Sääntöpohjaisissa järjestelmissä keskeisiä riskejä ovat virheellisestä datasta tai ohjelmointivirheistä aiheutuvat virheelliset päätökset. Sen sijaan koneoppimiseen perustuvissa järjestelmissä on kaksi lisäongelmaa. Ensimmäinen näistä on se, että mikäli järjestelmän opettamisessa käytetty data on vinoutunutta esimerkiksi syrjivien käytäntöjen vuoksi, saattaa järjestelmä oppia nämä samat vinoumat ja ryhtyä toistamaan vastaavaa syrjivää käyttäytymistä. Pelkkä datan laatu ja edustavuus eivät auta tällaisessa tilanteessa. Tilanteen diagnosointi on vaikeaa, sillä tässä vaiheessa astuu kuvaan toinen tärkeä koneoppimismallien ominaisuus, niiden läpinäkymättömyys. Tämä tarkoittaa sitä, että täsmälliset periaatteet, jotka malli on itselleen omaksunut, ovat käyttäjälle vaikeita tai mahdottomia ymmärtää. Mallia voidaan arvioida lähinnä tarkkailemalla sen seurauksia eli sitä, kuinka se käsittelee erityyppisiä esimerkkitapauksia. Tällainen testaaminen vaatii aikaa sekä käsityksen siitä, millaisia arvostelmia järjestelmän pitäisi antaa. Toisin sanoen järjestelmän testaamisessa ja sen mahdollisten vinoumien korjaamisessa tarvitaan näkemys siitä, millainen maailma olisi ilman ei-toivuttua syrjintää. Tämä vaatii data-analyytikon perustaitoja laajempaa osaamista. Jotta voimme soveltaa tekoälyä yhteiskunnassa kestävästi, meidän on tunnistettava datan rajoitukset.
Data ja kannustimet
Yhteiskuntatieteissä on jo pitkään tunnettu periaate, jonka mukaan silloin, kun mittarista tulee päämäärä, se lakkaa olemasta hyvä mittari. Tämä tarkoittaa sitä, että kun mittarit, joilla arvioidaan organisaation onnistumista päämääriensä saavuttamisessa, asetetaan palkkioperusteiksi organisaatiossa toimiville yksilöille tai ryhmille, organisaation toiminta alkaa vääristyä eikä alkuperäinen mittari enää kuvaa todellista onnistumista päämäärien tavoittelussa. Mittarin käyttö palkitsemisen perusteena siis tuottaa vääränlaisia kannustimia, joiden seuraaminen saattaa johtaa siihen, että organisaation toiminta vaarantuu. Palkkiojärjestelmien suunnittelijoiden on syytä tuntea, kuinka käytetyt mittarit toimivat. Tämä vanha viisaus on syytä muistaa myös tekoälyn aikaudella, sillä jatkuva datafikaatio ja analytiikkaohjelmistojen kehittyminen luovat jatkuvasti uusia mahdollisuuksia palkkio- ja seurantajärjestelmille, jotka eivät välttämättä palvele organisaation päämääriä. Tekoäly ei ymmärrä organisaation toimintaa, ja ihmiset ovat erittäin taitavia oppimaan, kuinka konetta voi huijata. Esimerkiksi järjestelmä, joka arvioi asiakaspalvelun ystävällisyyttä mittaamalla henkilökunnan hymyilyä, saattaa nopeasti luoda kummallista ja epätarkoituksenmukaista käyttäytymistä, jos kasvojentunnistusohjelman tunnistamat ja pisteyttämät hymyt eivät ole yhteydessä asiakkaiden kokemuksiin. Tällainen tekoälyn ohjaama mikromanageroitu sosiaalinen vuorovaikutus, josta on jo kokeiluja ulkomailta, tuskin tuottaa yhteiskunnallisesti kestäviä työoloja. Tekoälyn sovellutuksia tuleekin aina arvioida osana laajempaa kokonaisuutta, jotta niiden vaikutukset inhimilliselle vuorovaikutukselle ja organisaatioiden toiminnalle tulevat selväksi.
Datatyö
Data ei synny itsestään. Sekä datan tuottaminen että sen käsittely edellyttävät usein huomattavasti työtä. Ja vaikka data syntyisi muun toiminnan sivutuotteena, sen laadun parantaminen saattaa edellyttää merkittäviä muutoksia työtehtäviin ja niiden sisältöön. Tämä näkökulma tulisi pitää mielessä, kun pohditaan datan käyttöä ja laadun parantamista. Datatyön kustannukset ovat usein osittain näkymättömiä ja vaikeasti hahmotettavia, mutta on tärkeää pohtia, onko tuotettava data todella kustannuksiensa arvoista. Datatyö ei vain vie työtekijöiden tai kuluttajien aikaa vaan vaikuttaa myös siihen, mitä he tekevät. Esimerkiksi hoitoalalla voi kysyä, onko järkevää siirtää hoitajien työaikaa raportointiin tai sensorien ylläpitämiseen, jos se vähentää aikaa, jota he voivat käyttää varsinaiseen hoitamiseen. Datan tuottamisen ja käsittelyn vaihtoehtoiskustannukset ovat päätöksenteossa varteenotettavia asioita.
Datalukutaito
Edellä sanotun pohjalta lienee selvää, että datan ja tekoälyn vastuullinen käyttö edellyttää ymmärrystä siitä, mitä näiden välineiden avulla voidaan ja ei voida tehdä. Tätä ymmärrystä voidaan kutsua datalukutaidoksi. Sen perustana on tieto siitä, kuinka dataa kerätään, prosessoidaan, analysoidaan, tulkitaan ja esitetään. Tämän päälle rakentuu ymmärrys siitä, kuinka data voi toimia näyttönä ja kuinka tekoäly käyttää hyväkseen datasta löydettäviä tilastollisia säännönmukaisuuksia. Tämän lisäksi datalukutaitoon sisältyy ymmärrys datan käyttöä ohjaavista lainsäädännöllisistä ja eettisistä periaatteista. Datan kestävä käyttö päätöksenteossa edellyttää näiden eri ulottuvuuksien kokonaisvaltaista jäsentämistä. Vain kokonaisvaltainen datalukutaito tekee mahdolliseksi sen, että datan käyttöön liittyvät mahdollisuudet ja rajoitukset voidaan tunnistaa.
Datalukutaitoa voidaan ajatella sekä kaikkien jakamana kansalaistaitona että tiettyjen tehtävien edellyttäminä taitoina. Jälkimmäisessä merkityksessä voimme pohtia, millaista datalukutaitoa rekisteriä ylläpitävä viranomainen, yhteiskuntatieteilijä, valmisteleva virkamies tai poliittinen päättäjä tarvitsee. Datalukutaitoa tarvitsevat myös yritysjohtajat, terveydenhuollon ammattilaiset ja kunnalliset päättäjät. Datalukutaito on edellytys realistisille odotuksille uusista data-analytiikkamenetelmistä. Se mahdollistaa myös järkevämmän keskustelun tekoälyn avaamista yhteiskunnallisista mahdollisuuksista ja sen luomista vaaroista. Yhteiskunnallisesti kestävä tekoäly ei edellytä vain tekoälymenetelmiin erikoistuneiden asiantuntijoiden ja tutkijoiden kouluttamista. Se vaatii myös sitä, että niin kansalaisia kuin päätöksentekijöitäkin opetetaan ymmärtämään dataa ja sen käyttöä huomattavasti laajemmin.
3 Viestit päättäjille ja kansalaisille
Olen tässä kirjoituksessa tarkastellut yhteiskunnallisesti kestävää tekoälyä yhden sen keskeisen perusedellytyksen eli datan kannalta. Moninaisten tekoälymenetelmien kehitys vaikuttaa ajoittain hurjalta, joten on järkevää keskittyä perustaviin seikkoihin. Tekoälyn riippuvuus datasta on yksi tällainen ankkuri, joka ohjaa tekoälyn kehitystä pitkälle tulevaisuuteen. Sen avulla voidaan ymmärtää niin tekoälyn mahdollisuuksia kuin sen rajoituksiakin.
3.1 Politiikkasuositukset
Datan laadun merkitys
Suunniteltaessa uusia tekoäly- tai tietojärjestelmiä on otettava huomioon tarkoituksenmukaisen ja laadukkaan datan saatavuus sekä ne kustannukset, joita tällainen data edellyttää. Tämä antaa paremman kuvan hankkeen kokonaiskustannuksista ja paremmat mahdollisuudet hankkeen onnistumiselle.
Datatyön huomioon ottaminen
Arvioitaessa tietojärjestelmiä ja niiden vaikutuksia on huomioitava niiden edellyttämä datatyö. Datan tuottamisen ja sen käsittelyn suorien kustannusten lisäksi on syytä ottaa huomioon, millä tavalla datatyö vaikuttaa organisaation työntekijöiden tehtäviin ja sitä kautta järjestelmän omaksumisen vaihtoehtoiskustannuksiin.
Datalukutaidon koulutus
Datalukutaito on tärkeää niin yhteiskunnallisen keskustelun kuin vastuullisen päätöksenteon kannalta. Tästä syystä on tärkeää, että kansalaisten, asiantuntijoiden ja päätöksentekijöiden datalukutaitoa kehitetään. Tämä ei edellytä uutta oppiainetta, vaan datalukutaidon sisältöjä voidaan sisällyttää muuhun opetukseen ja koulutukseen. Tärkeää on kuitenkin päivittää datalukutaitoa jatkuvasti, kun siirrytään uusiin tehtäviin ja kun uudet käytännöt tai menetelmät asettavat uusia vaatimuksia.
Tämä teksti on julkaistu Eduskunnan tulevaisuusvaliokunnan raportissa Tekoälyratkaisut tänään ja tulevaisuudessa (Tulevaisuusvaliokunta 1/2022). Voit lukea koko raportin täältä.