“Praegu populaarseks saanud suurte keelemudelite ühine nõrk külg on see, et neid on treenitud peaaegu täielikult inglise keele põhjal. See tähendab, et kui näiteks GPT-4 ka otsekui saab eesti keelest aru, on tegu ikkagi ainult tõlkimisega – piltlikult öeldes masin mõtleb inglise keeles ja tõlgib jutu viimasel hetkel eesti keelde. See on aga eesti keelele pikemas plaanis väga ohtlik,” selgitas Aedmaa.
Uute tööriistade väärtus peitub selles, et need nii-öelda mõistavad lisaks sõnadele ja lausetele ka laiemat kultuurikonteksti. “Kui keelemudel on treenitud ainult ingliskeelse materjali baasil, siis see paratamatult eesti kultuuri ei tunne,” lisas Aedmaa.
“Olukord on võrreldav sellega, kui leiutati trükipress – mis oleks eesti keelest saanud, kui raamatuid oleks trükkima hakatud ainult suurkeeltes, aga eesti keeles mitte?” sõnas Aedmaa.
Sama mure vaevab enamikku maailma keeli
Aedmaa sõnul luuaksegi nüüd soomlaste algatusel uus keelemudel ehk GPT-laadne digitaalne masin, mida on algusest peale treenitud enam-vähem võrdselt paljude erinevate keelte põhjal. Eesmärgiks on Euroopa keelte suveräänsus ja keeletehnoloogia demokraatlikkus.
“Uus keelemudel on erinevalt enamikust senistest ka avatud koodiga – selle loogika on läbipaistev ja seda saavad kõik soovijad uute keeletehnoloogiarakenduste jaoks kasutada,” lisas Aedmaa.
Ingliskeelne ChatGPT jahmatas maailma sellega, et oskas inimese sarnaselt tavakeelest aru saada ja ise samamoodi vastata. Aedmaa sõnul ei olnud aga selle taga mingi imetehnoloogia, vaid ennekõike see, et programmile anti ette enneolematult palju tekste, mille seest mustreid leida ja õppida niimoodi inimeste suhtlust imiteerima.