Maža kaina - didelė vertė. Prenumerata vos nuo 1,00 Eur!
Išbandyti

Lietuvos mokslininkai sukūrė įrankį, galintį apsaugoti net nuo terorizmo

Prieš dešimt metų Davidas Brooksas yra pasakęs: „Kalba, kuri neįsitvirtins elektroninėje erdvėje, pasmerkta pražūčiai.“ Lietuvių kalba šokti į technologijų traukinį neskubėjo, tačiau ES pareigūnų sugėdyta spurtavo. Todėl per pastaruosius ketverius metus sukaupėme milijardinį žodžių tekstyną ir sukūrėme automatinę rašytinės kalbos analizės sistemą. O kas iš to?

– Paaiškinkite plačiau, kuo jūsų sistema skiriasi nuo „Google“, kuo ji pranašesnė?

– Tuo, kad mūsų sistema ne tik suranda tekstus pagal jūsų pateiktus žodžius, bet ir pateikia susijusius raktažodžius: kokios pavardės, organizacijos ar vietovės tame tekste yra minimos. Tarkime, į paieškos lauką įvesite žodį tuberkuliozė. Sistema pateiks apie šią ligą straipsniuose kalbėjusių gydytojų pavardes, ligoninių, kuriose liga gydoma, pavadinimus, vietoves.

Luko Balandžio/15min.lt nuotr./Darius Amilevičius
Luko Balandžio/15min.lt nuotr./Darius Amilevičius

Be to, mūsų sistema vykdo tekstų atranką pagal tam tikrus atsakymus į iš anksto parengtus klausimus. Sistemoje pasirenkate paieškos sritį – ekonomika ir verslas, politika arba viešasis administravimas. Tada pasirenkate asmenį, kurį norite analizuoti. Po to nustatote jus dominantį paieškos laikotarpį. Tada pasirenkate vieną iš siūlomų klausimų arba įvedate savo.

Mūsų sistema tobulesnė už „Word'o“ korektorių.

Tarkime, jūs norite analizuoti straipsnius, kuriuose prezidentė Dalia Grybauskaitė ką nors pasakė, pavyzdžiui, apie referendumą Graikijoje. Tokiu atveju kaip raktažodį pasirenkate asmenį ir vietovę, nustatote klausimą „asmuo pasakė“ ir jums paieška siaurėja nuo 100 iki 10 puslapių rezultatų.

– Sistemoje galima atlikti ir vadinamąją sentimentų analizę – kas tai?

– Tai – nuomonių ištraukimas. Tarkime, jums rūpi teigiami ir neigiami atsiliepimai apie prezidentę, bei tai, kaip nuomonės apie ją kito laike. Pagal tam tikrus parametrus, analizuodama sąryšius tarp žodžių, sistema jums pateiks sentimentų kreivę.

Svetainėje semantika.lt vartotojas gali naudotis šešiomis paslaugomis, tarp jų ir patikrinti savo sukurto teksto gramatiką ir rašybos klaidas. Mūsų sistema tobulesnė už „Word'o“ korektorių.

– Sukūrėte įrankį, gebantį analizuoti bendrinę – labai sterilią – lietuvių kalbą: tai, kas rašoma knygose ir žiniasklaidoje. O kaip su socialinių tinklų, interneto komentarų kalba?

– Literatūros kūrinio ar žiniasklaidos tekstą sistema analizuoja 95 proc. tikslumu. Jei įmetu komentarą ar socialinio tinklo tekstą, tikslumas nukrenta iki 40 proc.

Facebook Seen funkciją galima nesudėtingai išjungti
Socialinių tinklų kalba - tyrinėjimų lobynas.

Mašina tokius tekstus atmeta kaip nelietuviškus arba įspėja, kad juose per daug gramatinių klaidų, nes socialiniuose tinkluose ar komentaruose rašoma be skyrybos ženklų, be diakritinių ženklų, vartojama daug naujadarų.

Juokais sakau, kad komentatorių kalba – tai dialektas. Tačiau iš tikrųjų – tai lietuvių kalbos dalis, milžiniškas išteklius kalbos tyrinėjimui. Ir įrodymas, kad kalba yra gyva, kintanti, atsinaujinanti, nors kalbininkai nori, kad ji būtų sustabarėjusi.

Kalba yra gyva, kintanti, atsinaujinanti, nors kalbininkai nori, kad ji būtų sustabarėjusi.
 

Yra šalių, kuriose, jei žodis internete pavartojamas 10 tūkst. kartų, jį siūloma įtraukti į bendrinę kalbą. Todėl į savo sistemą įdiegėme naujovių paieškos paslaugą. Analizatorius, atsakantis už morfologinę analizę, sutikęs nepažįstamą žodį, kurio nėra bendrinėje kalboje, deda specialią žymę. Toks žodis keliauja į kandidatų į naujoves sąrašą.

Pranešti klaidą

Sėkmingai išsiųsta

Dėkojame už praneštą klaidą
Reklama
Miškasodyje dalyvavę „Herbalife“ nepriklausomi partneriai pagerino savo pačių rekordą – pasodino daugiau nei 3 tūkst. medžių
Reklama
„Teleloto“ studija virs podiumu
Reklama
Šimtai vyrų kasdien susiduria su erekcijos sutrikimais ar net prostatos vėžio diagnoze – kaip to išvengti?
Reklama
Pirmą kartą per beveik penkiolika metų fiksuotas verslo ginčų augimas – ką tai reiškia verslui?
Užsisakykite 15min naujienlaiškius