Igaüks võib veebi kroolida. Eeltingimuseks on oskus kirjutada programm, mis automaatselt URLe mööda ühelt lehelt teisele liigub, vajaliku tekstimaterjali välja selekteerib ja salvestab.
Vajadus nii spetsiifilisemate (näiteks Facebooki postitused) kui ka peaaegu kogu veebi hõlmavate tekstikorpuste ehk elektrooniliste tekstikogude järele kasvab: peale selle, et need on keeleteadlaste uurimismaterjal ja keeletehnoloogiate väljatöötamise alus, on need vajalikud ka eraettevõtetele. Näiteks võimaldab sotsiaalmeediapostituste kroolimine ettevõttel filtreerida automaatselt infot oma klientide eelistuste (millest nad räägivad ja milline on nende meelestatus) ja kasutajakogemuse ning toodete tagasiside kohta. Sotsiaalmeedia peegeldab kõige kiiremini ka turumuutusi ja võimaldab jälgida konkurente. Tekstidest leitud info põhjal on ettevõttel võimalik oma tegevust paremini planeerida.
Näiteks võimaldab sotsiaalmeediapostituste kroolimine ettevõttel filtreerida automaatselt infot oma klientide eelistuste (millest nad räägivad ja milline on nende meelestatus) ja kasutajakogemuse ning toodete tagasiside kohta.
Enne hoogsalt kroolima asumist tasuks kõigepealt uurida, kas ehk on sinu vajadustele vastav korpus juba olemas. Näiteks Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös loodud eesti keele ühendkorpus 2021 (2,9 miljardit sõnet, 197 miljonit lauset) sisaldab mitut alamkorpust, muuhulgas eri aastatel kogutud eesti keele veebikorpusi, mis moodustavad ühendkorpuse mahust üle 90 protsendi. Sealt leiab muu hulgas blogisid, foorumipostitusi, perioodikaväljaandeid jmt.
Samuti tasub meeles pidada, et kuigi koguda võib igasuguseid tekste, võib nende kasutamisel esineda piiranguid. Autoriõigustega kaetud tekste tohib kasutada vaid õppe- ja teadustöö eesmärgil. Tekstis leiduvad tundlikud isikuandmed tuleks enne korpuse avalikustamist anonümiseerida. Ka seda protsessi on otstarbekas automatiseerida.