Antti Honkela, apulaisprofessori, TkT, Tietojenkäsittelytieteen osasto, Helsingin yliopisto
Tämä teksti on julkaistu Eduskunnan tulevaisuusvaliokunnan raportissa Tekoälyratkaisut tänään ja tulevaisuudessa (Tulevaisuusvaliokunta 1/2022). Voit lukea koko raportin täältä.
1 Mistä on kyse?
Yleisesti käytössä olevat tietokoneet ja muut tietotekniset laitteet ovat pohjimmiltaan koneita, jotka toistavat niille täsmällisesti ohjelmoituja tietojenkäsittelyoperaatioita erittäin nopeasti. Tekoälyjärjestelmät hyödyntävät näiden laitteiden nopeutta uudenkaltaisissa sovelluksissa, joissa järjestelmän toimintaa ei ole ohjelmoitu yksityiskohtaisesti suoraan vaan esimerkiksi aiemmista esimerkeistä yleistämällä tai monimutkaisen optimointiongelman ratkaisuna. Aiemmista esimerkeistä yleistämiseen perustuva koneoppiminen on mahdollistanut viimeisten kymmenen vuoden aikana valtavia edistysaskelia esimerkiksi konenäössä, puheentunnistuksessa ja luonnollisen kielen ymmärtämisessä ja tuottamisessa tietokoneella.
Keskityn kirjoituksessani kolmeen koneoppimiselle ominaiseen turvallisuuskysymykseen: opetusaineiston tietosuojaan ja yksityisyyden suojaan, tekoälyjärjestelmien tietoturvaan sekä järjestelmien turvallisuuteen vuorovaikutuksessa ihmisten kanssa. Samoja riskejä käsitellään tarkemmin Liikenne- ja viestintävirasto Traficomin tuoreessa selvityksessä. ¹
Koneoppimista käyttävien tekoälyjärjestelmien kehittämisessä tarvitaan suuria opetusaineistoja. Monet kiinnostavat tekoälyn sovellukset esimerkiksi terveydenhuollossa liittyvät ihmisiin, jolloin tarvittavat opetusaineistot sisältävät henkilötietoja. Näiden aineistojen keräämiseen ja käsittelyyn sekä niistä johdettujen järjestelmien käyttöön liittyy tietosuojariskejä, ja ne saattavat loukata aineiston kohteiden yksityisyyttä.
Tekoälyjärjestelmät ovat tietojärjestelmiä. Kuten kaikissa tietojärjestelmissä, niissä voi olla tietoturvaheikkouksia. Tämä pitää huomioida, jos niitä käytetään turvattomassa ympäristössä, kuten internetissä, tai jos epäluotettavilla tahoilla on mahdollisuus manipuloida niiden kehittämisessä käytettyjä opetusaineistoja tai muita syötteitä.
Tekoälyjärjestelmien ”älykkyys” poikkeaa merkittävästi ihmisen älykkyydestä. Ne voivat tehdä systemaattisesti ihmisen näkökulmasta järjettömiltä vaikuttavia virheitä. Sovelluksissa, joissa virheistä voi olla merkittävää haittaa tai vaaraa, onkin tärkeää rakentaa mekanismeja näiden riskien ehkäisemiseksi hyödyntämällä esimerkiksi ihmisen valvontaa.
1.1 Tekoäly ja tietosuoja sekä yksityisyyden suoja
Tyypillinen oppiva tekoälyjärjestelmä kuvaa syötteitä vasteille, esimerkiksi kuvan tiedoksi siinä näkyvistä liikennemerkeistä tai henkilön terveystiedot arvioksi nykyisestä tai ennusteeksi tulevasta terveydentilasta.
Tällaisten järjestelmien rakentamiseen tarvitaan suuria esimerkkiaineistoja esimerkiksi suuren ihmisjoukon terveystiedoista ja havaitusta terveydentilasta, joista järjestelmä oppii näiden välisen yhteyden. Monissa kiinnostavissa sovelluksissa tarvittavat aineistot sisältävät henkilötietoja, kuten arkaluontoisia terveystietoja. Näiden käsittelyyn liittyy useita tietosuojariskejä, joita ei voida poistaa helposti esimerkiksi poistamalla tiedoista suorat tunnisteet:
- Jos aineisto kerätään yhteen tietokantaan, riski tietojen paljastumiseksi kasvaa, mikäli tietokannan suojaus pettää.
- Aineiston osia voi paljastua järjestelmän opetuksen aikana opetukseen osallistuville ulkopuolisille tahoille.
- Osia aineistosta voi olla mahdollista selvittää valmiiksi opetetusta järjestelmästä.
Kuvattuja riskejä voidaan ehkäistä erilaisin teknisin ratkaisuin. Järjestelmiä on mahdollista opettaa käyttämällä hajautettua dataa, jolloin vältetään keskitettyyn tietokantaan liittyviä riskejä. Esimerkiksi Google ja Apple ovat opettaneet mobiilikäyttöjärjestelmiinsä käyttäjien kirjoituksia hyödyntäviä malleja, joiden opetuksessa käytetty data on pysynyt käyttäjien laitteilla eikä ole paljastunut edes mallin kehittäjille. Samaa periaatetta voidaan hyödyntää esimerkiksi silloin, kun yhdistetään terveystietoja eri maista, jos esimerkiksi lainsäädäntö ei salli datan luovutusta. ”Algoritmi tulee datan luo” olisikin usein hyvä periaate parantamaan tietosuojaa.
Aineiston paljastumista opetuksen aikana voidaan estää salausmenetelmiä käyttämällä. Sopivilla menetelmillä on mahdollista opettaa järjestelmä salattua dataa käyttämällä siten, että kehittäjä ei voi nähdä dataa. Hintana näillä ratkaisuilla on usein se, että järjestelmän opettamiseen tarvittava laskenta-aika on merkittävästi suurempi.
Aineiston paljastuminen valmiista järjestelmästä on hankalampi ongelma, johon perinteiset salausmenetelmät eivät pure. Eduskunnan tulevaisuusvaliokunnassa esiintyi hiljattain GPT-3-malliin pohjautuva tekstiä tuottava tekoälyjärjestelmä. Tutkijat ovat osoittaneet, että GPT-3:n edeltäjä GPT-2 on mahdollista houkutella toistamaan täydellinen kopio opetusaineistossa esiintyneistä henkilötiedoista. ² Sama ilmiö on havaittu muillakin testatuilla järjestelmillä. Ilmiötä voidaan estää hyödyntämällä differentiaalista tietosuojaa, mutta hintana on usein se, että mallin tarkkuus heikkenee. Ilmiön tarkempaan ymmärtämiseen tarvitaan lisätutkimusta. Henkilötietoja tai muita luottamuksellisia tietoja käyttämällä opetettujen tekoälyjärjestelmien jakamisessa on kuitenkin syytä olla varovainen.
1.2 Tekoälyn tietoturva
Tekoälyjärjestelmät ovat tietojärjestelmiä ja siten alttiita samoille tietoturvariskeille kuin muutkin tietojärjestelmät. Erityisesti opetettaviin järjestelmiin liittyy lisäksi niille ominaisia riskejä, joista on seuraavassa muutama esimerkki:
- Opetusaineistoa manipuloimalla järjestelmän kehittäjä tai ulkopuolinen hyökkääjä voi upottaa järjestelmään takaoven, jota on käytännössä mahdoton havaita mutta joka saa järjestelmän toimimaan valituissa tilanteissa hyökkääjän haluamalla tavalla. Esimerkiksi hakemusten käsittelyyn käytetty järjestelmä voitaisiin manipuloida hyväksymään tai hylkäämään aina hakemukset, joissa on tietty harmittomalta vaikuttava avainsana tai muu piirre.
- Valmiista tekoälyjärjestelmästä on mahdollista löytää heikkouksia, joissa jopa ihmiselle huomaamattomat muutokset saavat järjestelmän toimimaan täysin eri tavalla. Tutkijat ovat kehittäneet esimerkiksi liikennemerkkeihin kiinnitettäviä tarroja, jotka eivät erityisesti häiritse ihmistä mutta joiden takia liikennemerkkien tunnistukseen käytetyt järjestelmät alkavat luulla stop-merkkiä nopeusrajoituksen merkiksi. ³ Muiltakin aloilta on vastaavia esimerkkejä siitä, miten on mahdollista tietoisesti kehittää tapoja, jotka eivät hämäisi ihmistä mutta joilla tekoälyä on mahdollista huijata.
- Mikäli järjestelmä oppii adaptiivisesti toiminnan aikana, käyttäjät voivat ohjata sen toimintaa epätoivottuun suuntaan. Esimerkiksi sosiaalisen median keskusteluista oppinut Microsoftin Twitter-botti muuttui alle vuorokaudessa ystävällisestä aggressiiviseksi rasistiksi muiden käyttäjien manipuloinnin vuoksi. ⁴
Yllä kuvattuja riskejä voidaan ehkäistä yhdistelmällä teknisiä ja järjestelmätason ratkaisuja. Tehokkain tapa ehkäistä opetusaineiston manipulointia on käytetyn aineiston tarkka laadunvalvonta. Valmiin järjestelmän käytössä tämä ei ole yhtä helppoa, jolloin on tärkeää lisäksi vahvistaa järjestelmää niin, että se ei olisi niin altis huijausyrityksille (vrt. liikennemerkkeihin liimattavat tarrat edellä). Järjestelmien vahvistamiseen soveltuvat teknologiat ovat tällä hetkellä hyvin aktiivisen tutkimuksen kohteena, eikä ole vielä selvää, mikä on lopulta mahdollista ja mikä ei. Kuten monessa turvallisuuskysymyksessä, tässäkin on riskinä hyökkääjien ja puolustajien välinen varustelukilpailu, jossa kehittyneempää puolustusjärjestelmää seuraa sen kiertävä uusi, vielä edistyneempi hyökkäys.
Useimmat koneoppimiseen pohjautuvat tekoälyjärjestelmät eivät opi enää käytön aikana. Tämä toisaalta helpottaa niiden toiminnan ymmärtämistä, toisaalta rajoittaa mahdollisuuksia sopeutua muuttuvaan ympäristöön. Käytön aikana tapahtuvan oppimisen turvallisuus on toistaiseksi hyvin nuori tutkimusala. Tehokkaita ratkaisuja tämän alueen ongelmiin saadaan todennäköisesti odottaa vielä useita vuosia.
1.3 Ihminen tekoälyn valvojana ja yhteistyökumppanina
Tekoälyjärjestelmiä käytetään yhä enemmän sovelluksissa, joilla on merkittäviä vaikutuksia esimerkiksi ihmisten talouteen, hyvinvointiin ja terveyteen. Turvallinen tekoäly vaatii mekanismeja, joilla varmistetaan, että nämä vaikutukset eivät ole haitallisia. Nämä kysymykset ovat läheisessä yhteydessä tekoälyn vastuullisuuteen ja etiikkaan, mutta osa kysymyksistä liittyy myös turvallisuuteen: miten hallitaan autonomisten ajoneuvojen liikenneturvallisuusriskejä tai varmistetaan, ettei tekoälyn ehdottama hoitotoimenpide aiheuta tarpeetonta vaaraa?
Tekoälyjärjestelmille ja ihmisille on yhteistä se, että molemmat tekevät virheitä ja erehdyksiä. Tekoälyn ja ihmisten tekemät virheet ovat kuitenkin usein erilaisia, jolloin niitä voidaan ehkäistä koneen ja ihmisen yhteistyöllä. Matkalla on monta haastetta:
- Miten selitetään koneen toimintaa ihmiselle niin, että tämä voi sitä arvioida ja havaita mahdollisia ongelmia?
- Miten kehittää järjestelmiä, jotka ovat ihmiselle helpommin ymmärrettäviä, menettämättä niiden tehokkuutta?
- Miten rakennetaan ihmiselle mahdollisuus valvoa koneen toimintaa niin, että tehtävä pysyy mielekkäänä ja ihminen pystyy oikeasti puuttumaan toimintaan tarpeen vaatiessa riittävän nopeasti?
- Miten järjestetään ihmisohjaus menettämättä liikaa koneen tehokkuushyötyjä?
- Miten koulutetaan ihmisiä seuraamaan koneiden toimintaa tehokkaasti?
Kuten tavalliset tietojärjestelmät, tekoälyjärjestelmät eivät opi virheistään, ellei niitä ole erityisesti siihen suunniteltu. Yleisin tapa korjata virheitä on uuden version julkaisu ja käyttöönotto. Tämä rajoittaa mahdollisuuksia nopeaan reagointiin, erityisesti jos käyttäjä ja kehittäjä ovat erillisiä tahoja. Aiemmin mainittu aktiivinen oppiminen käytön aikana mahdollistaisi teoriassa nopeamman reagoinnin, mutta näiden menetelmien turvallisuudessa on vielä paljon avoimia ongelmia.
2 Tekoäly muutosvoimana
Erilaiset tekoälyjärjestelmät ovat viime vuosina tulleet yhä enemmän osaksi ihmisten arkea erilaisissa nettipalveluissa ja elektronisissa laitteissa. Niiden yleistymisen voi olettaa jatkuvan ja laajenevan uusille aloille. Paljon potentiaalia on esimerkiksi terveydenhuollossa. Toimiessaan nämä järjestelmät sujuvoittavat arkea ja tehostavat palveluita, mutta samalla ne luovat uusia turvallisuusuhkia.
Tekoälyjärjestelmät ovat ensisijaisesti tietojärjestelmiä, ja näihin molempiin pätevät monet samat lainalaisuudet. Perinteisten tietojärjestelmien turvallisuudesta muodostuu valitettavan usein ”kisa pohjalle”, jossa järjestelmien rakentajat kilpailevat kustannuksia leikatakseen säästämällä turvallisuudesta, koska ostajat eivät osaa sitä vaatia eivätkä ole valmiita siitä maksamaan. Yksi osa ongelmaa on se, että turvallisuuden puutteet koituvat usein muiden vahingoksi. Kuinka moni auton ostaja olisi vapaaehtoisesti valmis maksamaan enemmän autosta, joka olisi kolaritilanteessa turvallisempi muille, esimerkiksi jalankulkijoille?
Turvallisuuteen liittyvissä sovelluksissa hyökkääjän ja puolustajan välille muodostuu helposti varustelukierre, jossa paremman puolustuksen hyöty häviää paremman hyökkäyksen edessä, mikä edellyttää vielä parempaa puolustusta ja niin edelleen. Tällaisia kierteitä voi syntyä myös silloin, kun tekoälyn antamaa turvaa murretaan ja puolustetaan. Tekoäly on vahva työkalu kisan molemmilla puolilla, jolloin molempien osapuolten voi olla käytännössä pakko hyödyntää sitä pärjätäkseen kilpailussa. Tieteellinen perustutkimus voi joissain tilanteissa tarjota ulospääsyn varustelukierteestä. Esimerkiksi differentiaalista tietosuojaa käyttämällä voidaan todistaa matemaattisesti, että yksikään hyökkääjä ei voi loukata käyttäjien tietosuojaa, vaikka tämä käyttäisi mitä tahansa tulevaisuuden teknologiaa. Vastaavasti tekoälyjärjestelmien huijaamista tai kiertämistä vastaan kehitetään teknologioita, joilla voidaan todistaa mallin kestävän varmasti tiettyjä manipulaatioita.
Turvallisten tekoälyteknologioiden kehitys tuottaa todennäköisesti tulevaisuudessa helppokäyttöisiä työkaluja, joilla järjestelmien turvallisuutta voidaan vahvistaa ja varmistaa. Turvallisen tekoälyn käytössä tullaan kuitenkin todennäköisesti törmäämään vaikeisiin arvovalintoihin, koska valinnoilla on hintansa. Tietosuojaa kunnioittava tai manipulaatioita kestävä järjestelmä tuottaa usein optimiolosuhteissa vähemmän tarkkoja ennusteita, jolloin järjestelmän tuottama hyöty pienenee. Mikä pahempaa, tämä tarkkuuden lasku vaikuttaisi kohdistuvan helposti voimakkaampana vähemmistöihin ja yleensä enemmistöstä poikkeaviin yksilöihin, mikä voi loukata yhdenvertaisuutta. Näiden eri arvojen yhteensovittamisesta tarvitaan vilkasta yhteiskunnallista keskustelua, ettei ongelmien ratkaisu jää yksin teknologian kehittäjien vastuulle. Yhteensovittamisessa on paljonkin pelivaraa, koska turvallisuus ei ole päällä tai poissa -tyyppinen ominaisuus, vaan useimmissa teknologioissa on mahdollista säätää suojan tasoa ja siten myös kustannuksia ja sivuvaikutuksien voimakkuutta.
3 Viestit päättäjille ja kansalaisille
Tietoturvan ja -suojan sääntely on tietoyhteiskunnan ympäristönsuojelua. Koska kustannukset kohdistuvat ulkopuolisiin, markkinat eivät sitä ratkaise, vaan tarvitaan ulkopuolista ohjausta ja sääntelyä.
Turvallisen ja eettisen tekoälyn toivottavat ominaisuudet voivat olla ristiriitaisia, jolloin yhden toteuttaminen heikentää muita. Ominaisuudet eivät ole mustavalkoisesti päällä tai poissa, vaan niiden välistä tasapainoa voi yleensä säätää tarkemmin. Tarvitaan sopivasti vapautta ja sääntöjä, jotta löydetään kuhunkin sovellukseen paras ratkaisu. Samalla pitää varmistaa, että tasapainoa muodostettaessa huomioidaan myös muiden kuin järjestelmän kehittäjän ja omistajan etu.
Valmiista tekoälyjärjestelmästä on mahdoton todentaa, toimiiko se joka tilanteessa oikein eikä esimerkiksi sisällä piilotettua takaovea. Luotettavuuden varmistamiseksi on siksi tärkeää varmistaa prosessi, jolla järjestelmä on rakennettu.
Tekoälyjärjestelmät eivät ole erehtymättömiä, mutta eivät ole ihmisetkään. Näiden kahden tekemät virheet ovat luonteeltaan hyvin erilaisia. Tärkeissä sovelluksissa käytettäviä tekoälyjärjestelmiä tulee valvoa tavalla, joka on tarkoituksenmukainen kyseisessä sovelluksessa eikä turhaan nosta valvonnan kustannuksia mahdollisten virheiden haittoja suuremmiksi.
Datan luovuttamisen sijaan kannattaa suosia järjestelmiä, joissa koodi tulee valvotusti datan luo. Esimerkiksi sen sijaan, että terveystietoja luovutettaisiin ulkopuolisille, olisi parempi suosia ratkaisuja, joissa dataa ei luovuteta vaan sen tarvitsijat pääsevät käsittelemään tarvitsemiaan osia turvallisesti suojatussa ympäristössä.
Datan keskittämisen sijaan kannattaa mahdollisuuksien mukaan edistää datan hajauttamista tietosuojariskien pienentämiseksi. Suunniteltu kansallinen genomitietorekisteri on esimerkki erittäin suuririskisestä hankkeesta, jonka hyödyistä on erimielisyyttä.
Tekoälyn tietoturvan ja tietosuojan osaamista tulee ylläpitää ja kehittää aktiivisesti kaikilla tasoilla. Turvaa ei usein voi lisätä jälkikäteen valmiiseen järjestelmään, joten kehittäjien pitää osata rakentaa se järjestelmän sisään alusta asti, mikä vaatii laajaa koulutusta. Toisaalta tarvitaan uusien, turvallisempien menetelmien tutkimusta. Vain panostamalla alan perustutkimukseen Suomessa voidaan varmistaa paras osaaminen ja korkeatasoisin uusien menetelmien opetus.
Tietolaatikko
Kansalaisten tietosuojan turvaava tietojen jako Yhdysvalloissa järjestetään kymmenen vuoden välein väestönlaskenta (US Census). Laskennan tuloksena julkaistaan tilastoja eri ikä-, etnisiin ja muihin ryhmiin kuuluvista henkilöistä tarkalla maantieteellisellä jaolla. Näitä tilastoja käytetään erilaisiin hallinnollisiin ja tutkimustarkoituksiin. Tietoja on aiemmin suojattu muun muassa korvaamalla pieniä ihmismääriä koskevia tietoja synteettisillä arvoilla. Väestönlaskentaviraston tutkimuksen mukaan näistä suojatoimista huolimatta huomattava osa väestöstä voitiin tunnistaa julkaistuista tiedoista yhdistämällä niitä muihin julkisesti saatavilla oleviin tietoihin.
Uusin vuoden 2020 US Census on ottanut tietojen suojaamisessa käyttöön differentiaalisen tietosuojan, joka perustuu tietojenkäsittelytieteen yksityisyyttä turvaavien teknologioiden tutkimukseen. ⁵ Differentiaalisen tietosuojan käyttö vähentää huomattavasti tunnistamisriskiä ja parantaa siten selvästi kansalaisten yksityisyyden suojaa. Sen käyttöä on silti myös kritisoitu, koska tietosuojan turvaaminen vaatii lisäämään tuloksiin enemmän satunnaisuutta, mihin tietojen käyttäjät eivät ole tottuneet ja mikä saattaa haitata joidenkin tietojen käytön vakiintuneiden päämäärien saavuttamista.
Differentiaalisen tietosuojan kaltaisten menetelmien käyttö avaa laajemminkin mahdollisuuksia yksityisyyden turvaavaan tietojen jakamiseen. Yhdysvalloissa saatavia kokemuksia on siis syytä seurata. Yksi erityisen kiinnostava mahdollisuus on differentiaalisen tietosuojan yhdistäminen niin sanottuun synteettiseen dataan, jossa esimerkiksi koneoppivan tekoälyn opettamiseen voidaan luoda todellista vastaava keinotekoinen aineisto, joka ei todistettavasti voi loukata kenenkään yksityisyyttä. Näillä menetelmillä on kuitenkin rajoitteensa, ja lisätutkimusta tarvitaan, jotta niiden potentiaali voidaan ymmärtää.
Lähteet
-
- A. Vähä-Sipilä, S. Marchal & M. Aksela. Tekoälyn soveltamisen kyberturvallisuus ja riskienhallinta. Traficomin tutkimuksia ja selvityksiä 9/2021
- N. Carlini et al. Extracting Training Data from Large Language Models. In Proceedings of the 30th USENIX Security Symposium, 2021.
- K. Eykholt et al. Robust physical-world attacks on deep learning visual classification. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition CVPR 2018). IEEE, 2018.
- O. Schwartz. “In 2016, Microsoft’s Racist Chatbot Revealed the Dangers of Online Conversation”. IEEE Spectrum 25.11.2019. Viitattu 26.11.2021. 124
- US Census Bureau. 2020 Census Data Products: Disclosure Avoidance Modernization. Viitattu 26.11.2021.
Lue koko raportti täältä: Ailisto, Heikki et al.: Tekoälyratkaisut tänään ja tulevaisuudessa. Helsinki, Tulevaisuusvaliokunta, 2022. 183 s. Eduskunnan tulevaisuusvaliokunnan julkaisu 1/2022.