Veebruari alguses sai keeletehnoloogia valdkond mõne päevaga rohkem avalikku tähelepanu kui oma senise 75-aastase ajaloo jooksul kokku. Justiits- ja digiminister postitas Facebookis(!), et oli andnud Metale nelja miljardi sõna jagu eestikeelseid tekste. Kuna suhteliselt suure osa kõnealuse tekstikogumi mahust moodustavad meediatekstid ehk ajakirjanike ja meediaorganisatsioonide intellektuaalne omand, siis olid eriti ajakirjanikud õigustatult pahased, et mismoodi saab üks minister ära anda midagi, mis pole talle kunagi kuulunudki.
Nagu sellistel puhkudel ikka osutus tegelikkus esmamuljest märksa keerukamaks. Selgus, et midagi ära antud ei ole. Jah, riigi raha eest tehtud keeleressursid on tasuta kättesaadavad, aga mitte kitsalt Metale, vaid kõigile, ja on seda olnud juba 1999. aastast. Keegi pole lihtsalt tähele pannud, hoolimata isegi sellest, et autoriõiguse ja isikuandmetega tegelevad õigusteadlased on samale vastuolule era- ja avaliku huvi vahel oma publikatsioonides tähelepanu juhtinud 2012. aastast saadik.
Kirsiks tordil on aga asjaolu, et 2020. aastast on Eesti riik nii ametnike kui ka poliitikute tasandil aktiivselt vaeva näinud, et saada kontakti tehnoloogiahiidudega (lisaks Metale ka Google, Apple, OpenAI jt) ja veenda neid meie loodud tasuta keeleressursse oma toodetes kasutama, et parandada eesti keele ja kultuuri tuge neis. Vastus on ikka olnud sama mis praegu Metal: tänan, me väga hindame teie pakkumist, aga selle materjali kasutamine ei ole praegu meie prioriteetide hulgas.
Miks siis on riik kõigepealt finantseerinud keeleressursside kogumist, nõudnud tulemuste avaldamist võimalikult avatud litsentsiga ja näinud koguni ise vaeva nende ressursside tasuta levitamisega?
Lühike vastus on kirjas põhiseaduses: Eesti riik peab tagama eesti rahvuse, keele ja kultuuri säilimise läbi aegade. Tänapäeva maailmas sõltub nende säilimine aga üha enam sellest, kas nad on esindatud meie igapäevastes tööriistades või mitte. Keelealal on kaua olnud keskne hirm, et eesti keel taandub köögikeeleks. Kui aga kodumasinad üha enam inimkeelselt suhtlevad, ei ole tal ju köögiski pikka pidu. Välja arvatud juhul, kui need masinad oskavad lisaks muudele ka eesti keelt.
Nagu laps, ainult suurem
Praegused tehisintellektirakendused on ehitatud põhimõtteliselt teistmoodi kui traditsioonilised IT-süsteemid. Kui varem programmeeriti arvutid täitma iga vajalikku funktsiooni ükshaaval, siis praegused süsteemid on programmeeritud tegema ainult üht – õppima. Üsna täpselt nagu inimlaps, ainult mastaabid on hoopis teised.
Hiljutise avaliku tähelepanu käigus on välja tulnud, et nende mastaapide hoomamine ongi üks asi, mis teema mõistmist raskendab. Tähelepanu pälvinud eesti keele uusima korpuse maht on praegu ligi 4 miljardit tekstisõna. Raamatuteks trükituna täidaks see umbes kilomeetri riiulit. Umbes sama palju teksti suudaks teoreetiliselt ka üks inimene oma elu jooksul vastu võtta eeldusel, et ta elab kõrge eani ja veedab kogu ärkveloleku aja lugedes-kuulates.
Tehisintellektitööriistade meid praegu rõõmustav võimekus on aga saavutatud inglise keele peal, kus treeningmaterjali maht on triljoneid sõnu. Näiteks ChatGPT sellepärast ongi nii tark, et tema keelemudel on oma treenimise käigus läbi lugenud tuhatkond riiulikilomeetrit raamatuid ehk umbes tuhat korda rohkem kui kõige erudeeritumad inimesed.
Teine hoomamatu mastaabiga asi on mudelite treenimise töömaht, sest ega niisugune lugemine ju tasuta ei tule. Sellesama Meta aasta alguses avaldatud tehisintellektieelarve on 60 miljardit dollarit ehk üle kolme Eesti riigieelarve, ainuüksi mudeli treenimisega tegeleb sadu insenere, treeningmaterjali ettevalmistajad sinna veel lisaks, ja niigi kõrgepalgalisi tipptegijaid ostetakse pidevalt üksteiselt üle.
Eesti ei suudaks selle kõigega võistelda ei raha, inimeste ega tekstimahtude poolest, väga kaugel sellest, mistõttu ongi koostöö vältimatu.
Eesti keel
Niisiis, me tahaksime, et tehisintellekt räägiks meiega eesti keelt. Natuke ta seda juba teeb: võimekamad keelemudelid saavad eesti keelest raskusteta aru ja ka väljendavad end praktiliselt veatult. Nii et probleem tunduks nagu lahendatud?
Siiski peidab ka siin saatan end detailides (nagu nad inglise keeles ütlevad ja nagu peab inglise keele peal treenitud mudel loomulikuks öelda ka eesti keeles). Populaarsed ja hästi eesti keelt rääkivad rakendused nagu ChatGPT põhinevad suletud mudelitel, mis tähendab, et kogu info saadetakse teenusepakkuja serverisse, sageli väljaspool Euroopa Liitu, töödeldakse seal ja saadetakse tagasi. Näiteks jõustruktuurid ei saa sellist saatmist endale lubada. Samuti ei saa suletud mudeleid ise edasi arendada.
On olemas ka vabavaralised mudelid, näiteks sellesama Meta omad, mida saab jooksutada siinsamas oma serveris ja vajadusel ka edasi arendada. Neil aga on just eesti keele oskus märgatavalt nõrgem, mistõttu on sellesse ikkagi tarvis panustada kas juba alusmudeli treenimise või siis hilisema täiustamise käigus, ja selleks on tarvis palju eestikeelset teksti.
Lisaks, kuna me ju tahame, et järjest suuremat osa meie inforuumist täitev tehisintellekt ei räägiks mitte lihtsalt eesti keelt, vaid ilusat ja väljendusrikast eesti keelt, siis on vaja mitte lihtsalt eestikeelset, vaid ka kvaliteetset teksti.
Eesti meel
On ju tore, kui tehisintellekt teab, mis olukord koolis valitses, kui Arno isaga sinna jõudis, või oskab joonistada pildi jaanitule ümber tantsivatest rahvarõivas eestlastest nii, et rahvarõivad meile tuttavad tunduvad ja taustal lehviv trikoloor ikka sini-must-valge on. Näiteks OpenAI tooted said selle kirjutamise ajal veebruaris 2025 kenasti hakkama lipuga, mis veel paar kuud varem oli valge-sini-punane, aga rahvarõivad tulid ikka kuidagi võõrad.
Ühest küljest näitab see mudelite arengu kiirust, teisest küljest aga on see ikka üsna kõrvaline probleem. Kui pilt ei kõlba, kehitame õlgu ja läheme eluga edasi. Keegi ju ei ootagi, et tehisintellekt oma praegusel arengutasemel garanteeritult kõigega hakkama saaks.
Tasub aga tähele panna, et rahvarõivad või lipuvärvid on siiski faktiküsimus. Eesti rahvarõivaste väljanägemine on kultuuriline tõsiasi, ja nende teistsuguseks joonistamine on vaieldamatu viga, mille parandamise soovi tundub olevat loogiline oodata ükskõik milliselt tehisintellekti arendajalt.
Huvitavam lugu on aga väärtustega. Nende puhul pole õiget vastust, vaid ka inimeste hulgas on arvamusi rohkem kui üks. Kas mitmekesisus on väärtus? Kas väikeriikide iseseisvus on väärtus? Kas vägivallast hoidumine on väärtus?
Elame maailmas, kus järjest rohkem sõjalist ja poliitilist jõudu koondub suurriikide kätte, ja nii mõnedki neist on vihjamisi või lausa otse väljendanud, et see ongi nende eesmärk. Selles olukorras ei ole üldse meie huvides, et keelemudelid oleksid treenitud ainult nendesamade suurriikide materjalide peal, mida neil kasvõi juba rahvaarvu tõttu on saadaval väga palju rohkem kui meil. Meie jaoks on kriitiliselt oluline, et treeningmaterjali hulgas oleks võimalikult palju meie tekste, kusjuures päriselt olulisi tekste, mitte (ainult) pesumasinajuhendeid ja seaduste seletuskirju, mida on suhteliselt lihtne korpusse saada.
Kokkuvõtteks
Vähemalt praegused tehisintellekti rakendused on sisuliselt õppimismasinad, mille väljundi määrab peaaegu tervenisti ära see sisend, mida nad oma treeningmaterjalis näinud on. Seetõttu on meile elutähtis, et see treeningmaterjal kajastaks päriselt meie keelt, kultuuri ja väärtusi, mitte kellegi teise omi. Tehnika areneb väga kiiresti ja võtab üle järjest uusi funktsioone. Rahvusena püsimiseks ei ole meil muud valikut, kui et meil peab olema omakeelne ja -meelne tehisintellekt. Selleks omakorda ei ole muud valikut, kui et meil peab olema talle treenimiseks anda palju meile sobivat materjali. Kujuteldamatult palju, terveid raamatukogutäisi kvaliteetset, sisukat, ilusat eestikeelset teksti, heli, pilti ja videot.
Nõus, selle kogumine on ebamugav ja töömahukas ning võib sisaldada inimeste muude õiguste piiranguid. Võime seda võrrelda kaitseväeteenistusega, mis on samuti raske, ebamugav ja toob kaasa harjumuspärastest õigustest ja hüvedest loobumise pikkadeks kuudeks. Aga oma riigi, nagu ka keele ja kultuuri kaitsmine pole mitte ainult vajalik ja vältimatu, vaid lisaks ka auasi.