USA luureagentuuri projektis töötav Eesti teadlane: tulevikus võiks arvuti ka inimeste kõne arhiveerida ja teha otsitavaks

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.
1th20oct11x102.jpg

Jätkuna Geeniuse artikliseeriale sellest, kuidas arvutid eesti keelt oskavad, rääkisime Tanel Alumäega, kes on osalenud Eestis tehtud kõnetuvastuse tehnoloogia loomisel Tallinna tehnikaülikoolis ja töötab praegu USA-s luure-teadusuuringute agentuuriIARPA projektis.

Tanel Alumäe, kuidas sa sattusid selle valdkonna juurde, kus kohtuvad keel jatehnoloogia?

Kui kaugemalt alata, siis mind on juba lapsest saati paelunud arvutid,mis on "intelligentsed" nagu Knight Rider ja Kosmoseodüsseia.Inimkõnet mõistev arvuti loomulikult tundub üsna intelligentne.Kõnetuvastust lähemalt tundma õppides sain ma muidugi aru, et puhtalkõnetuvastusel ehk kõne muutmisel tekstikspole intellektiga paljupistmist.

Konkreetsemalt rääkides sattusin kõnetehnoloogia juurde üsnajuhuslikult. Õppisin Tallinna tehnikaülikooli (TTÜ) magistrantuuris olles aasta Saksamaal, kusläbisin ka aine "Kõnetuvastus". Et kõik ausalt ära rääkida, siis tulebka mainida seda, et see oli üks kahest ainest mu ülikoolikarjäärikooksul, mille eksami ma esimesel korral läbi kukkusin. Korduseksamiksõppides sai siis asi endale korralikult selgeks tehtud.

Tagasi Eestissetulles uuris mu juhendaja profLeo Võhandu, mida ma seal Saksamaalõppisin, ja kõnetuvastusest kuuldes soovitas kohe selle teemaga edasitegeleda. Pärast magistrantuuri lõppu kutsus Einar Meister mind juba TTÜküberneetika instituuti, kus ma olengi sellest ajast seda suundauurinud.

Kus sa kõnetehnoloogiaga praegu töötad?

Hetkel töötan Bostoni firmas Raytheon BBN Technologies. BBN on 1948.aastal asutatud firma, mis alguselt tegeles akustikaga, aga hiljemigasuguse arvutiteadusega. Siin on väidetavalt ka käivitatud maailmaesimene internet, saadetud esimene e-mail ja võetud kasutusele “@"e-maili aadressides.

2009. a ostis BBNi põhiliseltkaitsetehnoloogiaga tegelev firma Raytheon. Kuidas BBNkaitsetehnoloogiaga seostub, tuleb näitena välja sellest projektist,millega mina siin tegelen. See on projekt BABEL, mida rahastabIARPA (Intelligence Advanced Research ProjectsActivity, USA riiklik luure-teadusuuringute agentuur).

Projektieesmärgiks on arendada töökindlat ja kiiresti adapteeritavatkõnetuvastustehnoloogiat, mida saaks rakendada suurtest kõnearhiividestsisult "huvitavate" kohtade otsimiseks. Töökindluse all peetakse silmassiin seda, et tehnoloogia ei eeldaks hea kvaliteediga kõnet (nagunäiteks praegune eesti keele tuvastustehnoloogia), vaid töötaks hästi kanäiteks tänavamüras tehtud telefonikõnede puhul. Teine projekti aspekton see, et tuvastus peab olema kiiresti rakendatav uutele keeltele.

Praegu tegeleme põhimõtteliselt 20 erineva keelega, enamus neist oneksootilised, nagu suahiili, kasahhi, mongoolia, ja suurt osa polnud mavarem kunagi kuulnud. Loomulikult pole meie grupis kedagi, kes neidkeeli kõneleks, küll aga annab IARPA meile käsitsi transkribeeritudtreeningandmed iga keele jaoks (stkõnesalvestused ja neile vastavtekst).

Milleks USA valitsuse poolt rahastatav teadusagentuur sellistprojekti veab, pole ilmselt raske arvata. Huvitav on siinjuures see, etprojekti teaduslikud tulemused on absoluutselt avalikud, sellepärastvõin ka mina sellest siin rääkida. Eesti keelega on sellel tööl seostnii palju, et minu töös eesti kõnetuvastusega on mul tulnud kokkupuutuda paljude selliste probleemidega, mis on omased teisteleeksootilistele keeletele ja mida inglise keele puhul ei eksisteeri. Need mured on näiteks algusaastate treeningandmete vähesus, keele keerulinemorfoloogia, mis teeb keeles esinevate erinevate sõnavormide arvu väga suureks jms. Neid kogemusi saan praegu ära kasutada.

Minul on siin Bostonis kavas töötada üks aasta, pärast seda tahaksEestisse tagasi tulla ja jälle eesti kõnetehnoloogiaga tegelema hakata.Tulin siia eelkõige selleks, et saaks tarkade inimestega koos tööd tehaja nii ennast värskendada.

Kuidas sa kokkuvõttes iseloomustaks Eesti keeletehnoloogiat, ntkõnetuvastust, võrdluses teiste keeltega?

Eesti keeletehnoloogia on eesti keele väiksust arvestades tegelikultpäris heas seisus. Kuna eesti keelt kõnelejaid on nii vähe, siisparatamatult suurfirmade huvi eesti keeletehnoloogiat arendada väga suurei ole ja ma arvan, et me jääme alatiseks suurte keeltega võreldessabassörkijate rolli. Siin pole ka midagi suurt teha, et seda parandada.

Eesti ülikool võib välja töötada super-hea kvaliteediga eesti keelekõnetuvastuse, aga vaevalt, et Apple, Google või Microsoft viitsiks hakataseda oma tootesse integreerima – neil on odavam, lihtsam javähemtülikam see ise teha, arvestades, et eesti keeleni jõudes on nadilmselt seda tehnoloogiat umbes80-le keelele arendanud.

Muide, 2012. aastal olinkonverentsil, kus kõneles Google'i kõnetuvastusüksuse juht. Ta näitasuhkelt kaarti, kus oli värviliselt ära näidatud riigid, mis on jubaGoogle'i kõnetuvastuse toega kaeutud, või kavas katta. Balti riigid olidseal ilusasi valged. Nüüd vist on tegelikult leedu keelele juba Google’ikõnetuvastuse tugi olemasja ilmselt tuleb ka millalgi eesti keelele.

Aga see puudutabainult kõnetuvastust, mis on tegelikult lihtne.Intelligentsed agendid nagu Siri nõuavad palju rohkem keelespetsiifilistkäsitööd. Seetõttu on oluline, et moodsatesse operatsioonisüsteemidessekirjutataks tootja poolt sisse võimalus kasutada kolmandate osapoolteloodud keeletehnoloogilisi vidinaid, mis võimaldab teha selliseidlahendusi, nagu meie loodud Kõnele rakendus. Siin ei ole tegelikultolukord väga hea – Kõnele rakendusega on meil on olnudpalju probleeme sellega, et ta võimalikutl intuitiivselt ülejäänudAndroidiga sidestada.Osasid asju, mis me teha tahaksime, eisaagi,kuna Google on fikseerinud, et kasutatakse tema enda tuvastusmootorit(kuigi see eesti keelt ei toeta).

Eesti keeletehnoloogia üldisemalt on viimastel aastatel kõvasti arenenudja muutunud palju paremini integreeritavaks. Ma mõtlen siin just mittelõpp-kasutaja tehnoloogiat vaid n-ö tuumikkeeletehnoloogiat. Suur rollon siin olnud riiklikul programmil Eesti Keeletehnoloogia 2011–1017 jatema eelkäijal. Tänu selleleprogrammile oleme teinud ka suuri edusamme kõnetuvastuses, loonud kalõppkasutaja-rakendusi nagu Kõnele ja Dikteerija ma arvan, et progress jätkub,vähemalt kõnetuvastuses võin küll lähiaastatel edasiminekut lubada.

Keeletehnoloogia riiklik programm saab järgmisel aastal läbi. Milline on vajadus selle järel uue programmi järele?

Vajadus uue programmi järele on väga suur. Praegust programmi olemeüritanud nii suunata, et tekiks palju tõeliselt praktilist ja reaaleluskasutatavat väljundit. Seda nii tavakasutajale kui ka keeletehnoloogiamadalamal tasemel integreerida soovijatele. Tulemused on olnud väga head.

Ilma sellise rahastuseta puudub teadlastel tegelikult laiemmotivatsioon laboris eksisteerivat koodi universaalsemalt kasuatavakspakendada, sest teadlasi hinnatakse ju eelkõige teadusartiklitepublitseerimise, mitte selle järgi, palju nende väljatöötatudmeetoditest praktilisse kasutusse jõuab.

Teine oluline aspekt selleprogrammi juures on see, et see aitab Eestis ehitada ja hoida tugevatkeeletehnoloogia kompetentsi. Ma arvan, et keeletehnoloogia on tulevikusjärjest suurema tähtusega ja tegemist on just sellise IT-ga, mis onsuure lisandväärtusega, võrreldes näiteks n-ö tavalise veebitreimisega.See tähendab, et riiklik programm ei aita ainult eesti keeletehnoloogiat, vaidaitab koolitada keeletehneloogia spetsialiste, kes tunnevad aktuaalseidkeeletehnoloogilisi meetodeid, et neid siis rakendada eesti, inglise,suahiili või mingile muule keelele.

Milline su nägemus selle tehnoloogia tulevikust on?Kui loomulikuks, orgaaniliseks ja veatuks kõnetuvastus võib sinu arvates muutuda?

Mõnes mõttes on kõnetuvastus juba praegu inimesest efektiivsem. Näiteksükski inimene ei suuda reaalajas 15% vigade arvuga raadiosaateidtranskribeerida. Vahe on selles, et kui vajame väga täpset tulemust jalepime sellega, et see võtab 10 x rohkem aega kui kõne ise, siis selleson inimene praegu parem.

Umbes viis aastat tagasi tundus, et kõnetuvastus on jõudnud tasemele,kust edasi saab minna ainult väikeste sammudega. Siis tulid läbimurdeddeep learningus, mis jätkuvad praeguseni ja ilmselt sama hoogsalttulevikus. Kõnetuvastuses on palju selliseid komponente, mille kohtateadlased teavad juba 20 aastat, et see pole päris korrektne viis sedaaspekti modelleerida (stmudelid on liiga lihtsustatud/naiivsed), agavarem ei osatud ka midagi oluliselt paremat asemele pakkuda.

Praeguasendatakse järjest uusi komponente närvivõrkudega ja leiutataksejärjest uusi viise, kuidas neid närvivõrke omavahem kombineerida. Samason närvivõrgud ikka veel paras müstika ja paljudes aspektides ei teata,miks nad täpselt nii toimivad või ei toimi. Tööd jagub siin pikalt jaoodata on jätkuvat kiiret progressi.

Seda, millal näiteks Digitunni saadet arvuti veatult transkribeerimahakkab, ma ei oska öelda. Kiire spontaanne kõne, osalisedpealerääkimised, äkki sõnavarasse tekkivad uued võõrkeelsed nimed onkõnetuvastuse jaoks suur probleem, millele ka deep learning headlahendust ei paku.

Kui kõnesüntees siia otsa veel liita, siis millisena sa kujutad ette kõnepõhiseid kasutajaliideseid?

Kõnepõhised kasutajaliidesed arenevad täpselt selles suunas, nagu meulmefilmides oleme näinud. Aga ma arvan, et võivad tekkida ka täiestiuued rakendused, mida me veel ette ei kujutagi ja mis võivad täielikultmuuta inimestevahelist suhtlust. Ma arvan, et just inimestevahelinesuhtlus, s.t. selle augmenteerimine, arhiveerimine ja sisuindekseerimine ongi see, kus saavad olema kõige huvitavamad arengud.

Näiteks täna on ju pea kõikidel inimestel GMaili konto, kust on vägamugav märksõnade põhjal otsida mingit viie aasta tagust kirja. Miks eivõiks selline otsimisvõimalus toimida ka inimestevahelise suulisesuhtluse puhul? Äkki salvestab iga inimene tulevikus kogu oma suhtluseoma personaalsesse "pilve", et saaks sealt hiljem huvitavaid kohtiotsida?

See eeldab muidugi, et inimesed sellist võimalust aktsepteeriks,mis võib võtta väga kaua aega. Natuke reaalsem ja vähemhäirivam ontehnoloogia, mis suudaks koostada igasuguste koosolekute protokolle nagu ühistu koosolek. Nende protokollide kirjutamine on ju kohutav piin,miks seda ei võiks teha arvuti?

Loe kaartikliseeriat sellest, kuidas arvutid eesti keelt oskavad.

Avafoto: Toomas Huik (PM/Scanpix)

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.