Mida on tarvis teha, et meie isikuandmed oleksid uudishimulike pilkude eest varjatud ega satuks andmelekete kaudu pahatahtlike osapoolte valdusesse? Andmete anonümiseerimise vajadusest ning selle keeletehnoloogilisest seisust Eestis kirjutab Eesti Keele Instituudi keeletehnoloog Silver Vapper.
AK ⟩ EKI keelekool: kodanik XXXX XXXX isikukoodiga XXXXXXXXXXX soovib taotleda dokumenti...
Andmed ning nende haldamine on muutunud iseenesest mõistetavaks osaks meie igapäevaelust. Kes poleks kuulnud akronüümist GDPR, mis on Euroopa Liidu poolt ellu toodud meie andmeküllasele maailma tõttu. Pea iga veebileht mida külastame, nõuab meilt nõusolekut andmetöötluseks, kuid alati pole tegemist rangelt isikuandmetega, mille käitlemine ja talletamine vajab nii juriidilisel kui eetilisel tasandil erilist tähelepanu. Mida aga on võimalik ja tarvilik teha, et organisatsioonid saaksid andmeid kasutada nii, et säiliks meie privaatsus? Selleks tulevad mängu kaks erinevat metoodikat – anonümiseerimine ja pseudonümiseerimine.
Mis vahe neil kahel tegevusel tegelikult on? Mõlema idee on asendada privaatsed isikuandmed, nagu näiteks nimi, isikukood, aadress jms, mitte-isikuliste aseandmetega. Vahe seisneb selles, kuidas aseandmete genereerimise protsess välja näeb ning mis nendega hiljem võimalik teha on. Peale vaadates võivad nii pseudonümiseeritud kui ka anonümiseeritud andmed tunduda mitte-isikulised, kuid erinevus seisneb selles, et pseudonümiseeritud andmeid on võimalik otseselt või kaudselt taas isikustada. Ka on võimalik andmeid pseodonümiseerida nii, et mitme isiku puhul on nad küll üksteisest eritatavad, kui konkreetsed indiviidi andmed on siiski varjatud.
Millised on aga võimalused, et isikuandmeid tekstist eemaldada või hägustada ning mis rolli mängib siin keeletehnoloogia?
Anonümiseerimise puhul peab olema tehtud kõik selleks, et ka kaudsed võimalused indiviidi tuvastamiseks oleks välistatud. Seetõttu on mõlemat tüüpi andmed ka õiguslikult erinevad. Pseudonümiseeritud andmeid loetakse ikkagi isikuandmeteks ning need kuuluvad jätkuvalt vastavate õigusaktide reguleerimisalasse.
Millised on aga võimalused, et isikuandmeid tekstist eemaldada või hägustada ning mis rolli mängib siin keeletehnoloogia? Ideaalis võiks selle töö ära teha masin ning teatud määral on see juba eesti keeles võimalik. Oluline oskus sellise tööriista puhul on sõnaliigi, täpsemalt nimeolemite tuvastus selleks, et tekstilistest andmetest isikuandmed üles leida. Eesti keele tarbeks on loodud mitmeid keeletehnoloogilisi tööriistu nagu näiteks Tartu Ülikooli poolt loodud EstNLTK teek, millel on justnimelt võimekus ka nimeolendeid leida. Sageli aga ei piisa ainult tavalistest olemituvastusest, sest näiteks Eesti isikukoodi on masinal keeruline tavalisest numbrijadast eristada ilma selle omapärasid teadmata. Taoliseid erikujulisi andmeid on mitmeid ning need erinevad eri keeltes ja kultuurides. Seega on oluline, et eesti keelel oleks korralik automaatne anonümiseerimis- ja pseudonümiseerimistarkvara olemas. Algus selleks on tehtud ning näiteks on keeletehnoloogia ettevõtte TEXTA loodud tööriistateeki kuuluv anonümiseerimise lahendus lihtsamate kasutusjuhtude tarbeks. Loodetavasti valmib tulevikus ka veel laialdasema võimekusega eesti keelele loodud lahendusi.