Eesti andmeteadlane selgitab: kas sinu terviseandmeid saab müüa ilma neid ära andmata?

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.
Foto: Hans Lõugas

Cybernetica andmeteadlane Dan Bogdanov kirjutab sellest, et puhtalt nimede äravõtmisega privaatsust suurandmete analüüsis ei kaitse, eriti Eestis. Kuid tema sõnul on olemas tehnoloogiad, mis lubaks privaatset andmeanalüüsi, mida näiteks Eesti terviseandmete projektis DigInEst kasutada.

Kuidas luua lisaväärtust?

Andmeid (ja just isikustatud andmeid) on interneti sõnul maavaradega samastatud alates 2006. aastast. Analoogia on paljuski puudulik, aga mõned sarnasused on tõesti olemas.

Paljud andmed, nagu ka mitmed maavarad, ei ole väärtuslikud iseeneses. Väärtus tekib siis, kui neid töödeldakse, nende põhjal pakutakse teenuseid. Olgu see siis kiiremaks takso tellimiseks või terviseandmete analüüsiks masinõppe toel.

Kui süsteem toimib, tekivad turud, maaklerid ja vahendajad. Euroopa Komisjoni hinnangul võib andmepõhine majandus ainuüksi Euroopa Liidus kasvada 740 miljardi euroni.

Kui maavarade kasutamise üle on kontroll tugev – vaja on hinnata toimet keskkonnale ja saada vastavad load, siis isikuandmete puhul on kontroll veel lapsekingades. Euroopa andmekaitse üldmäärus (tuntud ka kui GDPR) on seda tugevdamas, nõudes teenuste privaatsustoime kaalutlemist (Privacy Impact Assessment). Samas annab määrus õnneks ka suuniseid, kuidas moodsaid internetipõhiseid teenuseid Euroopas käivitada.

Andmed keskpõrandale kokku?

Eesti suurim andmete turg on riiklik X-tee. Selle abil saab teha suurepäraseid e-riigi teenuseid. Kui X-tee kunagi alguses loodi, siis privaatsusmõju veel hindama ei pidanud. Küll aga viidi läbi ka uuring, et kas andmed peaks tooma ühte kohta kokku või tuleks andmed riigis hajutada. Turvakaalutlustel jäi peale hajutatud lahendus, millele tugineb X-tee ka täna.

Hajusad andmekogud on küll turvalisemad, kuid nendega on keerukas ehitada suurandmete analüüsi teenuseid. Viimased vajavad seda, et andmed oleks loogiliselt koos ja ühendatavad. Eesti riigisektoris pakuvad andmete analüüsiga teenuseid näiteks Statistikaamet, Eesti Pank ja Tervise Arengu Instituut. Nemad koondavad andmeid nii üle X-tee, kui ka muudest allikatest. Neil on ka antud õigus vastavat töötlust läbi viia (vt Statistikaamet, Eesti Pank, TAI põhimäärus ja andmekaitse).

Andmetega tervist edendama!

Eesti riigi andmekogud on laiema maailmaga võrreldes väga heas korras. Seega on ka loomulik, et nende peale teenuste loomiseks on palju häid mõtteid. Vaatleme siin mõningaid tervise valdkonna ideid.

Esiteks – personaalmeditsiin. Selle aasta eesmärk on saada 100 000 uut geenidoonorit. Neile on pärast vaja osutada teenust, mis koondab geeni- ja terviseandmeid ning võimaldab teha ka teadust.

Teiseks – väga hiljuti välja hüütud DigInEst, mille eesmärk sarnane, kuid teenust osutataks juba näiteks ka ravimiarendajatele.

Mõlema puhul peaksime aluseks võtta sama X-teest pärit hajutamise põhimõte – andmed jäävad oma kohale, kuid loome tingimused nende koondamiseks päringutes. Andmete koondamist ja lahtiselt edastamist tuleks vältida.

Suurbritannias proovis Google’iga samasse ettevõtete gruppi kuuluv masinõppe firma Deepmind patsientide andmetele otse ligi pääseda, kuid see tunnistati ebaseaduslikuks.

Eestis on Suurbritannias tehtud vigadest õpitud ja välja pakutud, et andmed võiks viia anonüümsele kujule. Mõte on mõistlik, sest andmekaitse üldmäärus lubab anonüümitud andmetega olla pisut vähem hoolas kui isikustatud andmetega.

Aga kas anonüümimine ongi imerohi?

Anonüümsed andmed on määruse mõistes sellised, millest ei ole isikute tuvastamine mõistliku pingutusega võimalik. Õnneks määrus tehnilisi lahendusi ette ei kirjuta ja ebaturvalisi lahendusi peale ei suru.

Seadusandjad on isegi kirja pannud, et pseudonüümsed andmed (kus nt nimi või isikukood on asendatud konkreetse koodiga) ei ole anonüümsed, sest sealt on isikut tuvastada võrdlemisi kerge.

Kui palju mõnes Eesti väiksemas asulas 34-aastaseid kolme lapsega pereisasid ikka on? Eestis on inimesi vähe ja unikaalseid isikuid palju. Seega on risk, et anonüümitud andmeid näiteks avalike Facebooki andmetega sidudes saab isiku tuvastada.

Häda ongi selles, et kui teadlane või ajakirjanik suudab anonüümsetest andmetest tuvastada kas või ühe inimese ja tema haiguse, siis on kahju juba tehtud ja usaldus võib olla rikutud. Nagu igasuguses turbes – ründajal peab vedama üks kord, kaitsjal peab vedama iga päev.

Kuidas jõuame lahenduseni?

Sobiv anonüümimise lahendus tuleb valida vastavalt sellele, kes ja kuidas andmeid analüüsima hakkab. Variant, mille järgi antaks soovijatele minimaalsete muudatustega andmestik, peab olema välistatud.

Lahendusi võib otsida müral põhinevatest lahendustest, mis lisavad juhuslikkust kas lähteandmetele enne jagamist või siis päringu tulemustele enne nende avaldamist. Tehnoloogia valikud tuleb aga teha juba äriprotsesside väljatöötamise ajal, et oleks saavutatud määruses nõutav lõimprivaatsus (Privacy by Design).

Lisaks tuleb rakendada krüptograafiat – kindlasti transpordile ja salvestusele, aga sobivates protsessidel ka töötlemisele. Nii välditakse ka sisemisi lekkeid, mille risk tsentraliseeritud andmekogu juures on liialt suur.

Kokkuvõttes – õigete tehnoloogiliste valikutega on võimalik teha nii, et väärtus saadakse kätte, aga andmed jäävad terveks. Ambitsioonikaid plaane maha matta ei ole kindlasti vaja. Tipptasemel andmekaitse olgugi Eesti e-riigi üks järgmistest väljakutsetest.

Märksõnad: , , ,

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.