Rakendused masinatega eesti keeles suhtlemiseks ei jõua kasutajateni

«Meil on rakendusi, mis võiksid olla juba laiemalt kasutuses, aga ärimehi, kes tahaksid sellega tegeleda, pole näha,» ütleb Tartu Ülikooli arvutilingvistika uurimisrühma vanemteadur Heiki-Jaan Kaalep.

«Kommertsi mõttes tasuvust on raske loota, arendused on kallid ja riskantsed,» nendib haridus- ja teadusministeeriumi teadusosakonna juhataja Indrek Reimand. «Näiteks pimedatele teksti ette lugev arvuti võiks olla eestikeelne, Eesti oma tehnoloogial põhinev, aga ei ole niisugust arendust, mis oleks selle ülesande võtnud ja ellu viinud.»

Eestikeelset kõnesüntesaatorit arendava Eesti Keele Instituudi osakonnajuhataja Arvi Tavast kinnitab, et eestimaisel tehnoloogial põhinev vaegnägijate abivahend on asi, mis tuleks kindlasti ära teha.

Praegu kasutavad eesti vaegnägijad sageli soome keele kõnesüntesaatorit. Eelmisel aastal said Eesti parima keeleteo auhinna vaegnägijate abistamiseks mõeldud vahendid, mis kõne sünteesimise asemel kasutavad näitlejate salvestatud kõnejuppe.

«Teine näide on e-riigi rakendused, kus olemasoleva eesti keeletehnoloogia kasutamisega ei ole samuti eriti kaugele jõutud,» ütleb Indrek Reimand.

Olukord pole lootusetu

Rakendusi on näha vähe, ometi on teadlased juba palju ära teinud eesti keele muutmisel arvutisuhtluse vahendiks ning töö jätkub. Aasta algul haridusministri kinnitatud riiklik programm «Eesti keeletehnoloogia 2011–2017» tõdeb, et eesti keel kuulub maailmas 50 kõrgelt arendatud keeletehnoloogiaga keele hulka.

Muu hulgas on eesti keele jaoks praegu arendamisel ning juba ka töötavate versioonidena olemas üha olulisemaks muutuvad tehnoloogiad – kõnetuvastus (suulise kõne tekstikujule muutmine), kõnesüntees (arvutiteksti muutmine kuuldavaks eestikeelseks kõneks) ning masintõlge paljudest keeltest eesti keelde ja eesti keelest teistesse keeltesse.

Mida selliste asjadega peale saab hakata, on näha eelkõige ingliskeelsest maailmast. Sel kuul esitles tehnoloogiafirma Apple koos oma uusima mobiiltelefoniga rakendust Siri, mis lubab inimkõnes edastatud käsklustega kirjutada ja edastada sõnumeid, lisada kalendermärkmikusse kohtumisi, otsida lähimat restorani ja veel palju muud. Tegu pole küll millegi päris senitundmatuga, kuid just suurfirma rakendus võib anda tõuke, mis viib massidesse harjumuse anda oma elektroonilistele vidinatele korraldusi mitte enam näpuvajutuse, vaid häälkäsklustega.

Eesti puhul võib see aga tähendada, et kui uusimad telefonimudelid ilmuvad eestlaste taskutesse, jõuab uuele tasemele ka kohalik ingliskeelsuse võidukäik. Eestlased hakkavad oma taskutelefonidele ingliskeelseid korraldusi andma, sest eesti keelest telefon aru ei saa.

Üks Eesti keeletehnoloogia tipptegijaid, TTÜ küberneetika instituudi teadur Tanel Alumäe ütleb, et Siri-taolist rakendust eestikeelsena ei ole veel lähiaastatel kindlasti oodata. «Kõnetuvastust ja masintõlget saab teha statistiliste meetodite abil – nii, et arvuti tegelikult keelest midagi ei tea. Siin on aga tarvis keelespetsiifilisi vahendeid,» märkis ta.

Heiki-Jaan Kaalep on samas veendunud, et areng läheb edasi. «Siis, kui mobiiltelefonid tulid, öeldi, et mul on ekraanil missed call. Nüüd ei räägi keegi enam nii. Miks peaksid ka need uued rakendused ingliskeelseks jääma?»

Tanel Alumäe, kelle uurimisvaldkond on eestikeelne kõnetuvastus, ütleb, et inglise keele jaoks on lihtsamad kõnetuvastuse süsteemid töötanud juba paarkümmend aastat ning näiteks Windowsisse integreeritud dikteerimissüsteem on ammu olemas ja töötav.

Kõnetuvastuse põhilised algoritmid ja tehnoloogiad on eesti keele puhul samad, mis inglise keeles. Arvuti treenitakse kõnet tuvastama suurte andmebaaside põhjal statistiliste meetodite abil.

Arvutit peab treenima

Eesti teadlaste elu teeb aga raskemaks see, et inglise keele jaoks on olemas kõvasti rohkem treeningmaterjali – salvestatud kõnet ja selle käsitsi tehtud üleskirjutust, mida omavahel võrrelda.
«Eelkõige sellepärast on inglise keele kõnetuvastamise kvaliteet parem,» märgib Alumäe. Eestis on algmaterjaliks näiteks raadiote vestlussaated, mida käsitsi transkribeeritakse.

Riigikogus peetavad debatid ja nende stenogrammid samas keeletehnoloogidele heaks algmaterjaliks ei ole, kuna sealne jutt on enamasti aeglane ja dikteeritud, ning ka erinevaid kõnelejaid on liiga vähe. «Et statistilisi mudeleid täpsemaks saada, on tarvis, et andmete hulgas oleks palju eri kõnelejaid,» sõnab teadlane.

Lisaks eelnimetatutele toimub Eestis keeletehnoloogia arendamine veel paljudes suundades. Üks näide on tekstist või näiteks loengutest automaatne kokkuvõtete tegemine. Esialgu käib see väljaviskamise meetodil – arvuti otsib tekstist tema arvates informatiivsema osa ja ülejäänu kustutab ära. Märksa keerulisem ülesanne on see, et arvuti võiks ka teatud piires aru saada, millest jutt on ning genereerida selle põhjal ise kokkuvõtlikku eestikeelset teksti.

Eestikeelse kõne või teksti grammatiline genereerimine on seni veel lahendamata ülesanne. EKI teadur Arvi Tavast nendib, et esialgu pole isegi veel eesti keele masinloetavat grammatikat, rääkimata sellest, et arvuti oskaks selle põhjal eestikeelset teksti genereerida. «Ka põletavat vajadust pole selle järele veel olnud. Samas, kui soovida arvutiga mõistlikumat suhtlust, siis sellest mööda minna ei saa.»

Rakendused masinatega eesti keeles suhtlemiseks ei jõua kasutajateni

Märksõnad