Google kuulab, aga ei mõista: eestikeelset Google Assistanti niipea oodata ei ole

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.

Google’i kõnetuvastus saab nüüd Eesti keelest aru, kuid kahjuks ei tähenda see, et lähitulevikus saame Google Assistanti ja teiste teenustega emakeeles suhelda.

Selleks, et Google Translate või Google’i klaviatuur eestikeelse kõne tekstiks muudaks, ei ole tegelikult vaja sugugi palju, selgitas TalTechi tarkvarateaduse instituudi vanemteadur Tanel Alumäe.

Kuidas Google eesti keelt tuvastama õpib?

2017. aastal alustas Google eestikeelsete heliklippide kogumist. Kokku sooviti saada üle 600 000 erineva salvestise. Sisselugemine oli lihtne: inimesele kuvati suvaline eestikeelne lause ja see tuli sisse dikteerida. Selle pealt ilmselt ka praegune kõnetuvastus kokku pandi.

Tanel Alumäe sõnul ei tähenda aga see, et Google nüüd eesti keelt tuvastada suudab, et Google sellest tekstist ka aru saab.

Põhimõtteliselt on kõnetuvastussüsteemi arendamiseks vaja viia kokku kõne ja tekst. Kõneandmete jaoks ongi Google eestlastelt kogunud helisalvestisi, kuid tegelikult ei pea tegu olema üldse dikteeritud tekstiga. “Näiteks meie olemegi kasutanud raadiosaateid ja loengusalvestusi,” ütles Alumäe.

Oluline on vaid see, et kogutud kõne oleks transkibeeritud ehk olemas ka teksti kujul. Google lasi kõneandmete kogumiseks eestlastel sisse lugeda kindlaid fraase, samas kui TalTechis on kasutatud kõne transkibeerimise varianti.

Vahe seisneb suuresti vaid selles, et sisseloetud tekst on suurema tõenäosusega dikteeritud ning mitte nii loomulik kui näiteks raadiosaates või inimeste omavahelistes vestlustes, mistõttu ei pruugi sisseloetud tekstil põhinev süsteem hiljem nii hästi spontaanset juttu tuvastada.

Kogutud kõneandmete põhjal treenitakse Alumäe sõnul selline asi nagu akustiline mudel, mida kasutatakse selleks, et modelleerida häälikuid. “Kuidas häälikud kõlavad, kui pikad need on ja nii edasi,” selgitas Alumäe.

Teine kõnetuvastuses oluline mudel on keelemudel, mis iseloomustab juba seda, millised on keeles esinevad sõnad ning kuidas neid sõnu omavahel kombineeritakse. Erinevalt akustilisest mudelist ei ole keelemudeli treenimise jaoks vaja midagi muud kui teksti. Selleks võivad Alumäe sõnul sobida näiteks ajalehe- ja veebitekstid, kõik sõltub valdkonnast.

“Näiteks meditsiinivaldkonna jaoks on vaja juba meditsiiniga seotud tekste,” sõnas ta. Kõnetuvastus on Alumäe sõnul paindlik: kõnekorpuse ja keelemudeli andmed ei pea olema omavahel seotud ja võivad olla täiesti erinevatest valdkondadest. “Kui meil on olemas näiteks ainult raadio vestlussaadete kõneandmed, saame ikkagi teha meditsiinivaldkonna kõnetuvastussüsteemi, kui meil on olemas meditsiinivaldkonna tekstiandmed.”

Google’il ei ole probleemi uusi sõnu õppida

Uute fraaside õppimine on seega suhteliselt lihtne, kuna selleks on vaja lihtsalt keelemudelile sööta uusi tekste, mis kombineeruvad olemasoleva akustilise mudeliga. “Keelemudelit peab lihtsalt aegajalt ümber treenima nende uuendatud andmete põhjal. Seda teeme meie ka aastas paar korda, uue keelemudeli põhjal saavad uued sõnad tuvastatavaks,” ütles Alumäe.

Alumäe sõnul transkibeeritakse Google’is vähemalt inglise keele puhul reaalseid kasutusandmeid ning uuendatakse sedasi akustilist mudelit. Iseasi, kas seda nüüd ka eesti keele puhul tehakse.

Google kuuleb, aga ei mõista meid

Google’i kõnetuvastuse järgmine samm võiks loogiliselt olla juba see, et saame oma nutitelefone või muid Google Assistantiga varustatud seadmeid eesti keeles juhtida.

Kahjuks asi nii lihtne ei ole, sest praegu suudab Google meie kõne küll tekstiks muuta, kuid selleks, et näiteks nutitelefonile käsklusi anda, peab Google meie kõnest ja tekstist ka selgelt aru saama.

Alumäe sõnul ei ole see aga nii lihtsasti tehtav asi, nagu kõnetuvastus. “Kõnetuvastuse tegemiseks ei ole tegelikult vaja praktiliselt midagi teada sellest keelest,” sõnas ta. “Näiteks oleme oma laboris teinud leedu keele kõnetuvastaja.”

Mõned aastad tagasi USAs töötades tegi Alumäe oma uurimisgrupiga ka kõnetuvastussüsteemid 27-le erinevale keelele ilma, et keegi grupist oleks ühtegi nendest keeltest osanud. Sisuliselt tähendab see, et eesti keele tuvastamine ei ole mingi suursaavutus.

“Eesti keel oligi enam-vähem viimane valge laik Euroopa kaardil.”

Praegu tähendaks eestikeelne Google Assistant seda, et me ütleme oma seadmele midagi eestikeelset, meie tuvastatud kõne muutuks tekstiks ning seejärel peaks Google selle teksti tõlkima inglise keelde, et saada aru, mida me ütlesime.

Alumäe tõi takistusena välja ka asjaolu, et Google’i ökosüsteem on väga suletud. “Kõnetehnoloogidel puudub igasugune võimalus eesti keele tuge ise lisada. Kui tahame, et Google oleks eesti keeles, siis ainus võimalus on praegu ise mingi tugi leiutda, mis ei ole kahjuks mõeldav.”

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.