Suurte keelemudelite arendamisel ei saa üle ega ümber kvaliteetsete keeleandmestike vajadusest, kuid treeningandmete kogumisel komistatakse sageli erinevate õiguslike nüansside taha, mis muudab eestikeelsete ja -meelsete mudelite arendamiseks vajalike andmete kogumise märksa keerulisemaks.
Et teemasse selgust luua, kutsus Eesti Keele Instituudi (EKI) teadus- ja arendusjuht Martin Eessalu virtuaalsele kohvile justiitsministeeriumi uute tehnoloogiate ja digitaliseerimise õigusnõuniku ja Tartu Ülikooli intellektuaalomandi õiguse lektori Henrik Trasbergi, et arutleda selle üle, kuidas meie praegune õigusruum lubab või keelab keeleandmete kogumist ja kasutamist suurte keelemudelite treenimisel.
Meie Eesti Keele Instituudis mõtleme keeleandmete peale ja toimetame nendega iga päev, aga kuidas sina kui õigussüsteemi kujundaja ja intellektuaalomandi ekspert ütled, mis on keeleandmed ja miks me neist räägime?
Ma ei olnud keeleandmetega väga palju tegelenud, kuni see järsku muutus väga relevantseks, kui olid tekkimas olulised targad tehnoloogiad ja keelemudelid.
On näha, et sellistel eesti keelt ja kultuuri mõistvatel keelemudelitel saab avaliku sektori kontekstis olema suur roll näiteks selles, kuidas me mingeid avalikke teenuseid pakume; kuidas riik suhtleb inimestega; kuidas ametnikud oma tööd teevad.
EKI missioon on koguda kokku nii palju eesti keelt kui võimalik. Mida rohkem sõnu suudame kokku koguda, seda parem. Mida me peame tegema selleks, et keeleandmeid kätte saada? Meil on erinevaid takistusi, kuid kindlasti on ka lahendusi.
Mulle tundub alati, et selles teemas on üks keeruline konflikt.
Meie õigusruum on selgelt (ja põhjendatult) üles ehitatud nii, et me üritame kaitsta autoreid või teisi õiguste omajaid. Samuti anname väga tugeva isikuandmete kaitse inimesele tema andmete osas, mis on väga oluline ning ühtib meie väärtusruumiga.
Aga keeleandmete puhul tahame me nüüd järsku neid samu andmeid kasutada mitte selleks, et teost või andmeid ennast kuidagi kopeerida või taastoota, vaid tahame sealt tegelikult kätte saada väga väikest tükikest väärtust selle jaoks, et meie tehnoloogiad muutuksid eesti keeles paremaks, mis on indiviidide õiguste kõrval oluline ühiskondlik huvi.
Aga need huvid on kohati vastandlikud. Kui me siis hakkame neid teoseid, isikuandmeid või muud kaitstud teavet kokku koguma ja jagama erinevatele teadusasutustele või ettevõtetele, et nad saaksid treenida tarku keelemudeleid, mis muutuksid eesti keeles paremaks, siis tegelikult ei ole me seni pidanud seda tasakaalupunkti õigusruumis lahendama. Vähemalt mitte sellise spetsiifilise konkreetse probleemi osas.
Meil ei ole täna piisavalt selget kohtupraktikat või selgeid vastuseid sellele, kui palju me siis ikkagi saaksime võtta kellegi teise loodud teoseid ja lihtsalt tõsta need kuhugi keelemudeli treeningmaterjali hulka, et luua paremaid mudeleid.
Praktilises elus kohtame praegu ridamisi näiteid, kus võiks öelda, et juurdepääsetavus ja kasutatavus on kaks kardinaalselt erinevat asja. Sa võid näiteks ülikooli lõputöödele läbi repositooriumi juurde pääseda, aga see ei tähenda, et sa tohid neid kasutada. Me nüüd elame läbi neid kohti, kus me 10–15 aastat tagasi ei osanud ennustada, miks litsentseerimine oluline on, aga tagantjärele on väga raske neid asju muuta?
Litsents on juba olukord, kus sul on küsimus selles, kas õiguste omaja annab või ei anna sulle loa seda materjali kasutada. Tegelikult saab seda küsimust lahendada juba õigustaktis, kuhu sa saad sisse kirjutada, kuidas ja mis tingimustel tohib andmestikku võtta ilma loata selleks, et treenida mingeid süsteeme või teha mingisugust muud andmekaevet.
Tegelikult üritab ju Euroopa Liidu autoriõiguse direktiiv lahendada sedasama küsimust, aga see siiski ei saavutanud tulemust, mis oleks meile tekitanud õigusselguse, kus saaksime väga selgelt ja ühtemoodi aru, mil määral me tohime või ei tohi erinevates olukordades andmeid kasutada.
Mis tähendabki, et jõuame sinna litsentside juurde, kus Eesti Keele Instituut ja ka kõik teised peavad ikkagi minema andmete omanike juurde küsima, et palun andke meile andmeid loa alusel ja sealt tuleb juba uus kiht probleeme seoses sellega, milline on õiguste omajate valmisolek seda teavet jagada. Võib juhtuda, et nad on näiteks lihtsalt konservatiivsed ja ei julge andmeid igaks juhuks jagada, sest nad pole päris lõpuni kindlad, millele nad heakskiidu annavad.
Ilmtingimata ei ole põhjust õigusruumi üleliia konservatiivselt tõlgendada. Seal on tegelikult suurem paindlikkus olemas, aga sageli võetakse enda riskide maandamiseks hästi keelav positsioon. Lihtsalt igaks juhuks. See on selgelt väga suur barjäär.
Meie ligipääs andmestikele saaks olla suurem, kui me suudaksime nendes kokkulepetes aktsepteerida natukene rohkem julgust ja möönda seda, et õigusruum päris nii kinni ei keera neid asju.
Hea küsimus on see, kuidas seda ületada. See võib-olla ongi rohkem selline töökultuuri või koostöö kultuuri küsimus. Näeme sama ka muudes valdkondades, näiteks isikuandmete regulatsiooni osas, kus valitakse konservatiivseid tõlgendusi isegi siis, kui ilmtingimata ei pea. See ongi kuidagi meie lähenemine Eestis. Teistes riikides, või vähemalt mõnes riigis, on need tõlgendused julgemad.
Milliseid süstemaatilisemaid lahendusi meil on ja kuidas need jagunevad õigusruumi ja selle tõlgendamise vahel? Alati ei pea ju hakkama seadust muutma. Saavad olla näiteks head praktikad, mida saab kokku leppida nt sektoriüleselt vms. Mis võimalusi meil üldse on ja kas on teada, et keegi teine kuskil on juba midagi sel alal hästi teinud?
Olen väga nõus, et selleks, et asja parandada, ei pea ilmtingimata õigusruumi muutma. Meil on mehhanisme, mille kaudu tekitada parimaid praktikaid ja mõtestada lahti, mis on tegelikult võimalikud riskid ja milline on õigusruumi tegelik eesmärk.
Kuidas seda täpsemalt teha on autoriõiguse vaatest päris keeruline, sest see on Euroopa Liidu tasandil, või tegelikult üldse rahvusvaheliselt, üsna harmoniseeritud. Seetõttu oleks meil vaja läbi parimate praktikate või suuniste lahti kirjeldada, mis on näiteks autoriõiguse kontekstis teksti- ja andmekaeve erandi olemus ja kuidas seda rakendada.
Rohkem tuleks kokku tuua nii Euroopa kohtu praktikat kui ka seda, kuidas teised riigid samadele probleemidele lähenenud on. Ja seda rohkem kommunikeerida. Ega seal midagi muud ei olegi. See kõik aga nõuab ressurssi ja pingutust, mida on alati raske leida. Prioriteet peab olema väga selgelt sinna suunatud, et sellega tegeleda.
Kust tavaliselt sedalaadi praktikate kokkuleppimise initsiatiiv tuleb? Kas rohkem andmete kasutajate poolelt, kes kõige enam tunnevad neid valukohti, või pigem poliitika kujundajate poolelt?
Arvan, et see võib tulla mitmest kohast. Kui ma mõtlen enda töö näidete peale, näiteks tehisintellekti riskijuhtimise peale, siis teeme seda avaliku sektori vaatest üha rohkem. Siin oleme selgelt ministeeriumites (nii majandus- ja kommunikatsiooni- kui ka justiitsministeeriumis) võtnud kesksema rolli, et seda ise teha ja töötada välja mingid platvormid või keskkonnad, kuhu neid parimaid praktikaid ja juhiseid kokku koondada.
Ma arvan, et autoriõiguse probleemi vaatest oleks samuti ministeerium Eestis suhteliselt loogiline koht, mis annaks kindluse, et see pole kellegi üksik arvamus, vaid me tõesti ministeeriumina oleme selle taga. Aga see muidugi ei tähenda, et teised, kas või EKI või keegi kolmas, ei võiks võtta aktiivset rolli ja aidata seda olukorda lahendada ja kaasa mõelda.
Ja ma lisaksin siia juurde ka sellise mitte-õigusliku komponendi – proovida luua hea koostöövõrgustik. Mulle tundub mõnede teiste riikide näitel, kellega olen sel teemal arutlenud, et tehakse erinevaid programme ja projekte, näiteks keelekorjetalguid jms, ning proovitakse tuua kokku ettevõtteid, kellel on palju andmestikke ja ka õigus neid jagada, näiteks meediaettevõtteid. Rõhutatakse seda, et see siin on meie võimalus üheskoos midagi ära teha.
See tundub õigusliku raamistiku kõrval hästi oluline ja tõenäoliselt isegi suurema mõjuga kui see, et me üritame siin sellist õiguslikku tõlgendust natukene edasi arendada.
Need erandid, millest oleme rääkinud, ütlevad ju põhimõtteliselt seda, millistel tingimustel tohib minna ja võtta andmeid ilma omanikult küsimata. Ilmselt on aga alati kindlam, kui see luba on siiski teadlik.
Tõepoolest kujutan ette, milline mõju oleks siin meediaettevõtetel ja milline oleks nii nende võimalik panus kui ka saadav kasu, kui selle tulemusel on hiljem meil keelemudel, mis suudab väga rikkaliku ja kvaliteetse eesti keelega töötada.
Ilmselt on kasulik teha paar olulist eristust, mis on ka üks väljakutse kohti. Näiteks kui te EKI-s kogute need andmed kokku, siis õigusraamistiku vaates on päris suur erinevus, kas kogute neid teadus- ja arendustegevuseks või siis kommertsialiseerimiseks. Ehk seal on ka mingisugune otsustuskoht või läbimõtlemise koht, kuidas seda võimalikult hästi teha.
Üks suur probleem on alati see, et me võib-olla alustame mingisuguse teadus- ja arendustegevusega, kuid ühel hetkel kasvab sellest välja kommertsialiseeritud keelemudel, mis lisab olukorda komplekssust. Kui istuda näiteks rahvusraamatukogu või meediaettevõtetega maha ja öelda neile, et see on ainult teadus-arendustegevuse jaoks, siis tõenäoliselt on nende vastuvõtlikkus selliseks koostööks suurem.
Aga loomulikult tahame me lõpuks neid andmestikke kasutada selleks, et loodavad keelemudelid oleksid rakendatavad igasugustes olukordades. Nii avalike hüvede pakkumisel kui ka võib-olla ettevõtete jaoks, kes tahavad endale ägedaid süsteeme ehitada, et klientidele mingit lisandväärtust pakkuda. Mul ei ole kohe ühtegi head lahendust pakkuda, aga see tundub olevat üks asi, mille peale tuleb põhjalikult mõelda.
Täitsa nõus, et peame andmete kasutuseesmärgi osas olema täiesti ausad ja küllap reaalne elu kirjutabki ette seda, et meil on väga kirju pakett erinevaid piiranguid või kasutuseesmärke. Ilmselt jääbki olema nii, et meile tulevad sisse piirangutega andmed ja me saame anda ka välja piirangutega andmeid, filtreerides vastavalt sellele, mis need piirangud on.
Siit aga tekibki küsimus, kust maalt on mingisugune järgmine produkt tuletatud eelmisest? Millal saab mingisugune uus asi iseseisvaks? Kui meie kogume näiteks andmed kokku ja mõni ülikool või teadusasutus loob selle pealt mingi mudeli, siis kas see on autoriõiguse mõistes tuletatud teos või juba iseseisev tulemus?
Ja sealt edasi, et millisele osale sellest kõigest kehtib ärilise kasutuse keeld? Kas kuni lõpuni välja või on sellega õiguslikus mõttes juba kõik hästi, kui see vaheetapp on avalikult rahastatud teadus-arendustegevuse tulemusena vabalt kättesaadav ning seda siis omakorda kommertsialiseeritakse ühel hetkel?
See on hea küsimus, millele ei ole täna tekkinud väga selget vastust. Seda ei loe välja seadusest ja meil pole piisavalt kohtupraktikat, mis peaks tekkima Euroopa kohtu tasandil.
Ütleksin ikkagi seda, et kui me vaatame, mis asi keelemudel lõpuks on, siis see algoritm, mis tekib, ei sisalda treenimise käigus läbitöötatud materjalide reproduktsioone. See koosneb mingitest korrelatsioonidest, mis on andmepunktide vahel tekkinud. Mina ütleks, et mudel ise ei sisalda neid teoseid, mille peal see on treenitud.
Mistõttu kui sa võtad selle mudeli, teed sellest koopia, jagad seda või proovid seda müüa, siis oleks väga keeruline väita, et see on nende teoste autoriõiguste rikkumine, millel mudelit treeniti. Vähemalt see on see, mis oleks minu tõlgendus lähtuvalt sellest, kuidas keelemudeleid mõista.
Aga autoriõiguse rikkumine saab toimuda andmete kogumise ja mudeli treenimise faasis, kui teosed ilma loata kuskile andmebaasi kokku kopeeritakse. Loomulikult keelemudel võib panna toime autoriõiguse rikkumise ka siis, kui ta oma väljundis hiljem kellegi teose taastoodab, aga see on juba eraldi küsimus. See on juba kohati küsimus selle kohta, et kas selle mudeli väljatöötamisel on piisavalt hästi rakendatud mingisuguseid mehhanisme selleks, et see ei genereeriks neid väljundeid, mida see toota ei tohi.
Aga noh… ma toon siin muidugi sisse selle disclaimer’i (lahtiütleja – ingl k.), Euroopa kohtupraktikat, mis neid seisukohti kinnitaks, meil täna ei ole.
Nii et tuleb leida mõni selline avatud meelega partner, kes on nõus sel teemal kohtuvaidlused läbi tegema?
Jah, ma väga loodan, et sellel teemal juba on mõni kohtuvaidlus, mis tooks kaasa selle, et meil tekib lähiajal selge seisukoht.