Dvikalbis automatinis terminų atpažinimas, Nr. P-MIP-20-282
Projekto Nr. P-MIP-20-282
Projekto pavadinimas: „Dvikalbis automatinis terminų atpažinimas”
Projekto vykdymo laikotarpis: nuo 2019-05-01 iki 2022-06-30
Projekto vykdytojas: Vytauto Didžiojo universitetas
Projekto dalies koordinatorius MRU: prof. dr. Sigita Rackevičienė.
Santrauka: Projekto tikslas – sukurti metodiką, kuri leistų automatiniu būdu pasirinktos specialiosios srities tekstynuose atpažinti angliškus ir lietuviškus terminus bei sudaryti empiriniais duomenimis paremtą dvikalbę terminų bazę, viešai prieinamą internete. Projekto metu sprendžiama mokslinė problema – automatinis terminologinių duomenų rinkimas iš dvikalbių lygiagrečiųjų ir palyginamųjų tekstynų, kai viena iš kalbų yra neturinti daug kalbinių išteklių ir yra morfologiškai turtinga. Įgyvendinant projekto tikslą, buvo siekiama sukurti inovatyvią giliojo mokymosi sistemomis paremtą metodiką, kuri, mūsų žiniomis, Lietuvoje dar nebuvo taikyta.
Projekto tyrimui pasirinkta specialioji sritis – kibernetinis saugumas (KS). Ši sritis pasirinkta dėl jos dinamiškumo ir ypatingo aktualumo šiandieninėje informacinėje visuomenėje. Nuolat atsiranda nauji KS srities dokumentai, juose formuojamos naujos sąvokos, kurių pavadinimai lietuvių kalba dar nenusistovėję, vartojami keliais variantais, dažnai originalo (anglų) kalba arba kaip hibridai (anglų ir lietuvių kalbų leksinių vienetų junginiai). Todėl KS terminų bazė šiuo metu itin reikalinga tiek teisės bei administracinių aktų rengėjams ir jų vertėjams, tiek informacinių technologijų specialistams, tiek plačiajai visuomenei.
Pasiekti rezultatai: Projekto metu sukurti ir atverti visuomenei CLARIN-LT saugykloje dvikalbiai (anglų-lietuvių kalbų) kibernetinio saugumo srities tekstynai – lygiagretusis ir palyginamasis. Jie atspindi kibernetinio saugumo terminų vartoseną įvairių žanrų ir tipų tekstuose nacionalinėje ir tarptautinėje aplinkoje. Įvairūs naujausi besimokančių sistemų algoritmai ir neuroniniai tinklai buvo išbandyti, siekiant automatizuoti terminologinių duomenų ištraukimą iš tekstynų ir padidinti šio proceso efektyvumą. Surinkti duomenys buvo panaudoti, kuriant Lietuvių-anglų kalbų kibernetinio saugumo terminų bazę. Ši bazė galėtų tapti modeliu ir kitų sričių terminų bazių kūrimui, pasitelkus pažangiausias technologijas.
Projektas vykdomas pagal Lietuvos mokslo tarybos (LMT) remiamą veiklos kryptį „Mokslininkų grupių projektai“.