Augustist 2024 sai alguse uus projekt nimega “Eesti keele toetus suurtes generatiivsetes vabavaralistes keelemudelites”, mille fookuseks on vabavaraliste keelemudelite eesti keele oskuse ja kultuuriteadmiste parendamine. Käesolevas artiklis annan ülevaate mõningatest projektiga seotud väljakutsetest.
Algselt oli plaanis võtta aluseks mõni ainult inglise keelt oskav vabavaraline mudel (näiteks LLaMa 2) ning treenida seda eesti- ja inglisekeelseid tekste sisaldaval andmestikul, et õpetada mudelile eesti keelt ning samal ajal kindlustada, et ka inglise keele oskus ei ununeks.
Selleks ajaks, kui projekt alguse sai, oli olukord aga muutunud ning juba oli avaldatud mitu vabavaralist mitmekeelset mudelit, mis oskasid ka eesti keelt. Seetõttu muutus ka ülesande püstitus – enam ei ole vaja õpetada inglisekeelsetele mudelitele eesti keelt nullist, vaid nüüd on eesmärk eesti keele oskuse parandamine ning Eesti kultuuriga seotud info parem toetus.
Kõige olulisem väljakutse on seotud andmetega
Praeguseks on teada, et hea kvaliteediga keelemudeli treenimiseks on vaja palju tekstiandmeid ning need tekstiandmed peavad olema kõrge kvaliteediga. Vabavaralised mudelid on üldiselt treenitud tekstidel, mida on võimalik veebist kätte saada.
Samas on vabalt kättesaadavate veebitekstide hulk siiski piiratud ja võib eeldada, et need kättesaadavad andmed on juba olemasolevatesse vabavaralistesse keelemudelitesse sisse treenitud. Seetõttu on vaja eesti keele toetuse parandamiseks kõrge kvaliteediga lisaandmeid.
Lisaandmed saavad tulla erinevatest allikatest, mis erinevalt veebitekstidest ei ole avalikult kättesaadavad ning millele võivad rakenduda erinevad autoriõigused. Need allikad võivad olla maksumüüri taga olevad ajalehe- ja ajakirjaartiklid, ilukirjandus- ja muud teosed, üliõpilaste kirjutatud lõputööd, avaliku sektori loodud erinevad tekstid jmt.
Selliste andmete kasutamise õiguse keelemudelite treenimiseks saavad anda nii piisavalt vabad andmete jagamise litsentsitingimused, läbirääkimised andmete omanikega kui ka autoriõiguse seaduses sätestatud erand.
Millised andmed pääsevad mudelisse?
Enamasti eelneb tekstide kasutamisele eeltöötlus, mille käigus püütakse välja filtreerida madala kvaliteediga ning üksteist kordavad tekstid. See on eriti oluline veebiandmete puhul, kus võib leiduda palju ebakvaliteetseid andmeid.
Näiteks korduvaid fraase, mis viitavad küpsiste kasutusele, veebilehe kasutajaõigustele, kommentaaride sektsiooni algusele või väga tehnilisi tootekirjeldusi, mitte-eestikeelset sisu, ebakvaliteetseid masintõlgitud tekste, sama veebilehe erinevatest aegades pärit versioone, mis üksteisest olulisel määral ei erine jmt. Selline eeltöötlus on väga aeganõudev ja tüütu töö, aga samas võib lõpptulemusele olla väga oluline.
Eesti keele jaoks sobivate optimaalsete eeltöötlussammude leidmine eeldab süstemaatilist katsetamist erinevalt eeltöödeldud andmetel treenitud mudelite hindamise kaudu, mis on aga arvutuslikult väga kallis. Kuigi andmete eeltöötlus ja filtreerimine ei ole tehniliselt kuigi keerukad, on see samas üks keerukamaid etappe kogu protsessis, sest nõuab potentsiaalselt suurt mõju omavate otsuste tegemist piiratud info tingimustes.
Kuidas me teame, kas mudel oskab eesti keelt hästi?
Pärast mudelite treenimist on vaja neid hinnata, et saada aru, kas nende eesti keele ja kultuuri mõistmise tase paranes ja kui palju. Selleks kasutatakse erinevaid nö benchmark-andmestikke, mis sisaldavad näiteks erinevaid küsimusi koos võimalike vastusevariantidega.
Eesti keele jaoks on olemas mõned andmestikud, mida saab mudelite hindamiseks kasutada. Samas pole neid andmestikke piisavalt, et ammendavaid hinnanguid anda. Olemasolevaid inglisekeelseid hindamisandmestikke saab ka eesti keelde masintõlkida ning seda on ka tehtud, aga masintõlgitud andmestikud sisaldavad paratamatult tõlkevigu ja konarlikku keelekasutust ning samuti ei pruugi tõlgitud andmestikud sisaldada eesti keele ja kultuuri seisukohalt olulisi teadmisi.
Mudelite laiemat kvaliteeti, teadmisi ja keeleoskust saab aga adekvaatselt hinnata vaid neid kasutavate inimeste abil. Sellist hindamist saab teha näiteks Chatbot Arena abil, kus on võimalik oma küsimustele ja viipadele saada vastuseid erinevatelt mudelitelt ning valida pakutud vastuste hulgast parim. Plaanime ka spetsiaalselt eesti keelt oskavate mudelite jaoks Chatbot Arena püsti panna, et seeläbi neid mudeleid omavahel paremini võrrelda.
Kuigi projektiga kaasnevad mitmed väljakutsed ja lahendamist vajavad küsimused, mille tulemusi ei ole tingimata võimalik ette teada, on kogu protsess väärtuslik, sest see tugevdab meie teadlaste oskusi ning võimaldab meil keelemudelite arenguga sammu pidada ning panustada eesti keele ja kultuuri tulevikku digitaalmaailmas.
Kairit Sirts juhib EKT projekti “Eesti keele toetus suurtes generatiivsetes vabavaralistes keelemudelites”. Projektis osalevad teadlased Tartu Ülikoolist, Tallinna Tehnikaülikoolist ja Eesti Keele Instituudist. Projekt on rahastatud riiklikust teadus- ja arendustegevuse programmist Eesti keeletehnoloogia 2018–2027.