Soomlased loovad ChatGPT analoogi, mis oskab mõelda ka eesti keeles

Soomlased asusid looma ChatGPT analoogi.Foto: Shutterstock

Turu Ülikool koos välispartneritega loob soome, eesti ja teistes väikekeeltes mõtleva ja nende kultuure tundva tehisintellekti, mis tagab väikekeelte kestmise ka ChatGPT järgsel ajastul. Eesti keele instituudi keeletehnoloog Eleri Aedmaa selgitab, mida peavad eestlased omalt poolt tegema, et tema sõnul hädavajalik algatus õnnestuks.

Aedmaa sõnul veavad äsja välja kuulutatud konsortsiumi eest Turu Ülikool ning keeletehnoloogiaettevõte SiloGen. Loodav maailma suurim avatud keelemudel hõlmab kõiki Euroopa keeli, sealhulgas eesti keelt, ning rakendab maailma suuruselt kolmandat ja Euroopa suurimat superarvutit LUMI.

Eleri Aedmaa sõnul on eesti keele jaoks võtmetähtsusega see, kui palju eri laadi ja algupäraseid digitaalseid eestikeelseid tekste suudame nii sellele kui tulevastele keelemudelitele õppimiseks ette anda.

“Praegu populaarseks saanud suurte keelemudelite ühine nõrk külg on see, et neid on treenitud peaaegu täielikult inglise keele põhjal. See tähendab, et kui näiteks GPT-4 ka otsekui saab eesti keelest aru, on tegu ikkagi ainult tõlkimisega – piltlikult öeldes masin mõtleb inglise keeles ja tõlgib jutu viimasel hetkel eesti keelde. See on aga eesti keelele pikemas plaanis väga ohtlik,” selgitas Aedmaa.

Uute tööriistade väärtus peitub selles, et need nii-öelda mõistavad lisaks sõnadele ja lausetele ka laiemat kultuurikonteksti. “Kui keelemudel on treenitud ainult ingliskeelse materjali baasil, siis see paratamatult eesti kultuuri ei tunne,” lisas Aedmaa.

“Olukord on võrreldav sellega, kui leiutati trükipress – mis oleks eesti keelest saanud, kui raamatuid oleks trükkima hakatud ainult suurkeeltes, aga eesti keeles mitte?” sõnas Aedmaa.

Sama mure vaevab enamikku maailma keeli

Aedmaa sõnul luuaksegi nüüd soomlaste algatusel uus keelemudel ehk GPT-laadne digitaalne masin, mida on algusest peale treenitud enam-vähem võrdselt paljude erinevate keelte põhjal. Eesmärgiks on Euroopa keelte suveräänsus ja keeletehnoloogia demokraatlikkus.

“Uus keelemudel on erinevalt enamikust senistest ka avatud koodiga – selle loogika on läbipaistev ja seda saavad kõik soovijad uute keeletehnoloogiarakenduste jaoks kasutada,” lisas Aedmaa.

Ingliskeelne ChatGPT jahmatas maailma sellega, et oskas inimese sarnaselt tavakeelest aru saada ja ise samamoodi vastata. Aedmaa sõnul ei olnud aga selle taga mingi imetehnoloogia, vaid ennekõike see, et programmile anti ette enneolematult palju tekste, mille seest mustreid leida ja õppida niimoodi inimeste suhtlust imiteerima.

“Seega äsja alanud uuel keeletehnoloogiaajastul loeb tekstide mass. Eesti keelega selle kriitilise massi saavutamiseks peaksime digiteerima ja avalikuks tegema kõik tekstid, mis vähegi võimalik. Kogu Rahvusraamatukogu, kõik arhiivid, võimalikult palju uusi ja vanu uudiseid ning veebisuhtlust. Mida rohkem eesti keelt on veebis vabalt leitav, seda kindlam on eesti keele tulevik,” soovitas Aedmaa.

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.