AK ⟩ EKI keelekool: kroolin nagu jaksan – veebis

Tiiu ÜksikEesti Keele Instituudi keeletehnoloog

11. juuni 2022, 00:00

Tiiu Üksik FOTO: Jake Farra Foto: Jake Farra

Veebitekstidest saavad vajalikku infot nii teadlased kui ettevõtted
Veebist saab kroolida kõiki tekste, kuid kasutamisel võib esineda piiranguid
Statistiliste mustrite leidmiseks tekstist on vaja see esmalt märgendada

Kõik, mis internetti paned, sinna ka jääb, hoiatatakse. Alates 2000ndatest, mil tekstid hakkasid veebi kolima, on neid regulaarselt talletatud. Veebist tekstide kogumisest ehk veebi kroolimisest kirjutab Eesti Keele Instituudi keeletehnoloog Tiiu Üksik.

Igaüks võib veebi kroolida. Eeltingimuseks on oskus kirjutada programm, mis automaatselt URLe mööda ühelt lehelt teisele liigub, vajaliku tekstimaterjali välja selekteerib ja salvestab.

Vajadus nii spetsiifilisemate (näiteks Facebooki postitused) kui ka peaaegu kogu veebi hõlmavate tekstikorpuste ehk elektrooniliste tekstikogude järele kasvab: peale selle, et need on keeleteadlaste uurimismaterjal ja keeletehnoloogiate väljatöötamise alus, on need vajalikud ka eraettevõtetele. Näiteks võimaldab sotsiaalmeediapostituste kroolimine ettevõttel filtreerida automaatselt infot oma klientide eelistuste (millest nad räägivad ja milline on nende meelestatus) ja kasutajakogemuse ning toodete tagasiside kohta. Sotsiaalmeedia peegeldab kõige kiiremini ka turumuutusi ja võimaldab jälgida konkurente. Tekstidest leitud info põhjal on ettevõttel võimalik oma tegevust paremini planeerida.

Näiteks võimaldab sotsiaalmeediapostituste kroolimine ettevõttel filtreerida automaatselt infot oma klientide eelistuste (millest nad räägivad ja milline on nende meelestatus) ja kasutajakogemuse ning toodete tagasiside kohta.

Enne hoogsalt kroolima asumist tasuks kõigepealt uurida, kas ehk on sinu vajadustele vastav korpus juba olemas. Näiteks Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös loodud eesti keele ühendkorpus 2021 (2,9 miljardit sõnet, 197 miljonit lauset) sisaldab mitut alamkorpust, muuhulgas eri aastatel kogutud eesti keele veebikorpusi, mis moodustavad ühendkorpuse mahust üle 90 protsendi. Sealt leiab muu hulgas blogisid, foorumipostitusi, perioodikaväljaandeid jmt.

Samuti tasub meeles pidada, et kuigi koguda võib igasuguseid tekste, võib nende kasutamisel esineda piiranguid. Autoriõigustega kaetud tekste tohib kasutada vaid õppe- ja teadustöö eesmärgil. Tekstis leiduvad tundlikud isikuandmed tuleks enne korpuse avalikustamist anonümiseerida. Ka seda protsessi on otstarbekas automatiseerida.

Et tekstist endale vajalikku infot saada, tuleb see kõigepealt struktureerida ja märgendada. Esimese etapina määratakse lausepiirid ja tuvastatakse sõnavormid. Selleks sobib näiteks Tartu Ülikoolis loodud EstNLTK teek. Veebis kohtame ka palju ebastandardset keelt – sellega teevad automaatmärgendajad sageli rohkem vigu (teatav eksimisprotsent on paratamatu) ja vaja võib olla inimese järelkontrolli. Sellegipoolest on suure koguse keeleandmete automaattöötlus otstarbekam kui selleks inimtööjõu kasutamine. Tuleb ka otsustada, millised metaandmed (nt allikas, avaldamiskuupäev, autor jne) on vajalikud tekstile lisada.

Sel viisil korrastatud tekste on võimalik analüüsida näiteks korpuspäringusüsteemi KORP (korp.keeleressursid.ee) või Sketch Engine’i (sketchengine.eu) abil või luua hoopis endale sobiv tekstianalüüsi keskkond. Päringusüsteemide kasutajaliidesed võimaldavad paari klikiga tuvastada statistilisi mustreid, mida saab kasutada keele uurimiseks või ettevõtte tulevikuotsuste tegemiseks.

AK ⟩ EKI keelekool: kroolin nagu jaksan – veebis

Märksõnad