Andmed kui uus nafta: Miks andmetest nii palju räägitakse ja mida me nendega tegelikult teeme?

Solita OÜ Eesti juht Märt Ridala.

Andmed. Sõna, mida kuuleb tänasel päeval üha enam ja enam. Andmelekked, andmevargus, andmete töötlemine, andmete kaitsmine.

Hoolimata sellest, et tegu on ühe praeguse aja populaarseima ja olulisima teemaga, võib asjast sisulist arusaama omamata tekkida lausa tunne, et tegu on mingi 21. sajandi leiutisega, mitte täiesti tavalise aspektiga, mida inimesed alles nüüd tehnoloogia abil efektiivsemalt ära suudavad kasutama hakata.

Kui oled üks neist, kelle jaoks puhtalt sõnakõlksust ei piisa ning keda huvitab teema sügavam pool, siis see lugemine on just Sulle.

Miks me nii palju andmetest räägime?

Andmed on mistahes informatsioon, mida on võimalik koguda kellegi või millegi kohta. Pikkus, kaal, vanus, elukoht, nimi – need kõik on andmed, mida iga inimene enda kohta teab, aga enamasti “andmeteks” ei kutsu. Andmed, millest rohkem räägitakse, puudutavad juba palju põhjalikumat informatsiooni, mille kogumine ja töötlemine on kellegi nime küsimisest tunduvalt keerulisem.

“Andmemass kasvab ja andmeid kogutakse järjest rohkem. Kui varem käisid toidupoes ja maksid oma arve, ei jäänud sellest sularahaga makstes ühtegi jälge. Nüüd näiteks mTaskuga makstes moodustub kuskile andmestu, et oled seda ja seda ostnud. Rääkimata kõiksugu IoT ja anduritest, mis on odavamad ja üha enam kättesaadavamad ning koguvad samuti pidevalt andmeid,” rääkis Märt Ridala, Solita OÜ Eesti juht.

Samuti on Ridala sõnul toimunud murranguline muutus andmete salvestamise ja töötlemise süsteemides. “Tänapäeval on olemas pilvepõhised lahendused näiteks Amazonilt, Microsofilt ja Google’ilt ja paljudelt teistelt, mis ongi mõeldud suurte andmemasside modelleerimiseks ja kokkupanemiseks ning nende pealt järelduste tegemiseks. Seega tehniliselt on astutud üle niinimetatud läve, mis on meie jaoks paljud asjad võimalikuks muutnud.”

Muutused tehnoloogias ja võimalustes ei ole aga alati sajaprotsendiliselt positiivsed. Koos uute lahendustega on nüüd võimalik sotsiaalmeedia platvormidel ja teistel ettevõtetel ning isegi riiklikel asutustel koguda inimeste kohta andmeid, mis varem ehk nii lihtsasti kättesaadavad polnud. Enamasti pääsevadki ajakirjandusse just need juhused, kus andmeid käsitletakse negatiivses valguses, sest see puudutab lugejaid otsesemalt ja on inimestele arusaadavam.

Mis on andmetega seotud ohud, riskid ja probleemid?

Internetiajastu alguses hakkas levima ütlus, et internetist ei kustu mitte miski. Vaadates sotsiaalmeediahiiglaste andmete käsitluse poliitika poole tekib tunne, et suures osas see nii tõesti ongi: isegi kui mõne pildi Facebookist kustutad, võib see firma andmebaasi igaveseks alles jääda. Suur osa olemasolevatest andmetest jäetakse alles aga täiesti vabatahtlikult.

“Inimestel ja eriti firmadel on selline koriluse mentaliteet, et “igaks juhuks jätame ikka alles”. On muidugi erinevaid nõudeid andmete kustutamiseks, aga ma arvan, et üldjuhul jäetakse tõesti enamik andmeid alles. Tegelikkuses on aga mõtet andmeid arhiveerida ja teatud aja tagant ära kustutada. Aga samas on ka mul endal on veel viis aastat vanad emailid alles.”

Andmetega on seotud mitmeid ohte, millest on oluline rääkida ja teadlik olla. On olemas otsesed ohud, nagu näiteks see, kui keegi sinu krediitkaardi infole või pangakontole ligi pääseb ja seeläbi raha varastab. “See on inimestele üldiselt väga selgelt nähtav ja tuntav oht,” nentis ta ning lisas, et teine ja väga oluline oht puudutab aga üldisemalt hooletust.

Hooletusega seotud probleeme esineb Ridala sõnul nii üksikisiku kui ka firma tasemel ning kahjuks ei pöörata neile endiselt piisavalt tähelepanu. “Häkkerid ei ründa reeglina panga põhisüsteemi, vaid mõnda kümme aastat vana nurka jäetud spordiklubi veebisaiti, mis on uuendamata. Kuid huvitavaks muutub nii positiivses kui ka negatiivses mõttes asi siis, kui andmeid on võimalik omavahel ühendada. Lisaks spordiklubi veebilehele leitakse veel mõni andmebaas, siis vaadatakse üle inimeste sotsiaalmeedia kontod ja tegelikult sedasi võimalik nii inimese kui firma kohta sedasi andmeid kokku pannes igasugu huvitavaid järeldusi.”

Just sellised “miks ta ostab iga kolmapäeva õhtul kuuspaki õlut ja läheb hotelli”-tüüpi päringud on need ohud, mida paljud inimesed Ridala sõnul endale ei teadvusta. Kui suured andmelekked, kus reaalselt inimeste krediitkaarte varastatakse ja seeläbi rahalist kahju tekitatakse, jõuavad tihtipeale meediasse, siis hoopis huvitavam on tema sõnul eelkirjeldatud profileerimine, millega on võimalik korda saata tavalisest vargusest palju enamat.

Mida head andmetega teha saab?

Ridala sõnul on hoolimata andmetega seotud ohtudest enamike inimeste elu siiski tänu tehnoloogia arengule paremaks läinud. “Kindlasti peaksime oma privaatsusele ja ohutusele rohkem tähelepanu pöörama, aga kohati lüüakse andmete kohta isegi liiga palju häirekella.”

Just tänu andmetele on paljude ettevõtete käive ja tootlus kasvanud ning tööstusmaailma poole vaadates võib lausa kohati näha võidujooksu selle peale, et kes suudab andmeid kõige efektiivsemalt ja nutikamalt ära kasutada. Üheks näiteks võib tuua logistika, kus andmete abil on võimalik palju head korda saata. Kui varem tellis kauplus teatud hulga kaupa, näiteks käekellasid, ja müüs need kindla perioodi vältel maha, teadis kaupmees vaid seda, kui kiiresti vastav kaup maha müüdi.

Olenevalt kogutud andmetest on tänapäeval võimalik pea igas valdkonnas minna säärase analüüsiga hoopis rohkem sügavuti. Millised käekellad kõige populaarsemad olid? Mis kuupäeval ja kellaajal enim kellasid osteti? “Mida detailsemaks minna, seda paremaid järeldusi on hiljem nende andmete põhjal teha võimalik. Asi läheb veelgi huvitavamaks kui meil on olemas veel näiteks nimetatud kaupluse ümbruses elavate inimeste keskmine sissetulek, müügiperioodi ilm ja nii edasi,” sõnas Ridala.

Käekellade näite puhul tuleb aga ilmsiks üks andmetöötluse ja -analüütika ülioluline külg – andmete kvaliteet. Kui kaupmees ei ole õigel ajal suutnud kõikvõimalike erinevaid kriteeriume juba paika panna ning neid salvestada, siis tagantjärele läheb erinevate andmete kogumine ja nende põhjal järelduste tegemine kordades keerulisemaks või muutub vaat et võimatuks. Suur osa Solita tööst mõne uue projektiga alustades ongi Ridala sõnul just andmete kvaliteediga tegelemine, sest õigel ajal oli midagi tegemata jäänud.

Kui andmed on uus nafta, siis kuidas neist raha välja pumpama hakata?

Ingliskeelses maailmas on andmeid juba uueks naftaks nimetatud. Säärane väljend on Ridala jaoks natuke liialt hype-termin, aga efektiivselt andmeid ära kasutades on tema sõnul siiski võimalik väga palju korda saata.

Soomes esitas mõni aeg tagasi raudteid haldav ettevõte hüpoteesi, et enim kuluvad need raudteed, kus sõidavad suured ja rasked kaubarongid. Peale andmepõhise analüüsi läbiviimist selgus aga, et kõige rohkem kuluvad hoopis raudteed, mida kasutatakse kergemate reisivagunite poolt, aga suurema tihedusega. Sääraseid näiteid andmete kasutamise kohta on igas sektoris tänaseks lugematul hulgal ning mida rohkem süvitsi minna, seda enam on võimalik andmetest otseses või kaudses mõttes raha välja pigistada.

Üha enam ja enam hakatakse aga andmeid ära kasutama igapäevastes valdkondades, mis seni on kohati aastaid või aastakümneid stagnatsiooni vajunud.

Kindlustusseltsid arvutavad näiteks liikluskindlustuse maksed välja kindlate andmete põhjal, kuid ei võta sealjuures arvesse seda, palju iga inimene keskmiselt kuus sõidab. Seega on tulemuseks, et nädalas kümme kilomeetrit ja igapäevaselt Tartust-Tallinnasse sõitvad inimesed võivad kindlustusele maksta täpselt sama summat, kuigi ühe õnnetusse sattumise risk on kordades suurem.

Ridala sõnul annaks palju ära teha ka valitsuse tasemel: “Hiljuti publitseeriti järgmise aasta majandusprognoos. Tegelikult võiks ju ka selle teha reaalajas kogutud andmete põhjal, kasvõi näiteks masinõpet kasutades. Kindlasti annaks see meile mingisuguse vihje selle kohta, kuhu parajasti majandus liigub.”

Tahad andmetega raha tegema hakata, aga ei tea kust alustada?

“Eraisikuna tõesti andmetest raha teenimine on keeruline, kui inimene ei oma just ise ülisuuri ja olulisi andmebaase. Teine variant on minna tööle mõnda ettevõttesse, kus andmetega tegeletakse,” ütles Märt Ridala.

Kuigi andmetest rääkides huvitab inimesi enim just nende põhjal tehtud järeldused ja tulemused, siis 80-90% Solita tööst kulub Ridala sõnul nn data engineering‘ule ehk erinevatest andmebaasidest info kogumisele ja kokku panemisele, et oleks üldse midagi, mille põhjal analüüsi läbi viia. Alles peale kogu eeltöö tegemist saab andmeteadlane ehk põhimõtteliselt statistik kogutud info põhjal hakata oma tööd tegema.

“See on aga mööduv nähtus. Tulevikus kasvab andmeteadlaste roll üha enam ja andmeinsenerid ei pea enam nii palju tegema. Praegu õpinguid alustades valiksin seega veel andmeinseneri eriala, aga juba kolme aasta pärast vaataksin pigem andmeteadlase valdkonna poole,” sõnas ta.

Tuleviku poole vaadates ei usu Ridala, et kunagi saavutatakse olukord, kus kõik on viimseni optimeeritud ja et enam efektiivsemaks pole protsesse võimalik muuta. Kogu maailm on pidevalt muutumises ja täiuslik andmepõhine maailm jääb pigem ulmekirjandusse. Küll aga tasuks tema sõnul andmetesse positiivselt suhtuda, sest andmepõhises maailmas elame me juba praegu.

“See on nagu elekter. Võibolla kunagi tundus ka hirmsana, et kõik asjad sõltuvad elektrist. Noh, nüüd nad sõltuvadki ja nii traagiline ei olegi ju?”

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.