Skaitmeninis kodas: kaip „Google“ moko kompiuterius matyti

Anksčiau kompiuteriai ir telefonai buvo akli, bet programavimo specialistai moko juos regėti. Ir atpažinti tai, ką jie „mato“ savo mažomis vaizdo kameromis.

Išplėstinės realybės programos gali ne tik suteikti informacijos apie objektą, bet ir papildyti realybę vaizdais. / AFP/„Scanpix“ nuotr.

Sudėtingi algoritmai jau dabar leidžia tokiems įrenginiams, kaip planšetiniai kompiuteriai ar išmanieji telefonai, atpažinti, tarkime, Paryžiaus Eifelio bokštą, Mona Lizos paveikslą ar „Carlsberg“ alaus skardinę.

Šioje srityje per pastarąjį dešimtmetį smarkiai pasistūmėta, bet kol kas lengviau išvardyti tai, ką vaizdų atpažinimo sistema gali padaryti, nei tai, ko negali. Taigi didieji iššūkiai dar priešakyje.
Kompanijos „Google“ vaizdo paieškos sistemos technikos vadovas Hartmutas Nevenas prognozuoja, kad per artimiausią dešimtmetį įvyks lūžis. Tyrimus šioje srityje jis pradėjo dar 1992 metais, ir dabar teigia manąs, jog yra pusiaukelėje link tikslo.

„Per ateinančius 10 metų išmanieji įrenginiai galės atpažinti beveik bet kokį objektą. Moksliniai tyrimai ir technologijos šioje srityje tobulėja geometrine progresija“, – teigia H.Nevenas.

Šiuo metu pagrindinis jo darbas – išplėstinės realybės (IR) paslauga „Google Goggles“. Ja galima pasinaudoti atsisiuntus programą „Android“ ir „iOS“ operacines sistemas naudojančiuose telefonuose. Esminis reikalavimas – įrenginys turi turėti veikiančią vaizdo kamerą.

IR – tai realaus pasaulio atvaizdavimas su papildomais kompiuterinės grafikos elementais, suteikiančiais papildomos informacijos apie stebimą objektą.

„Goggles“ būtent tai ir leidžia padaryti: nuotrauka yra siunčiama į „Google“ serverius, kompiuteriai ją išanalizuoja ir atsiunčia informaciją apie užfiksuotą objektą. Šis procesas gali užtrukti vos kelias sekundes, o kartais dar mažiau.

„Google“ nuotraukos vaizdą paverčia kompiuteriams suprantamu kodu, kuris išanalizuojamas ir parenkamas panašiausias variantas į sistemoje įvestus kodus. Taip galima atpažinti žinomus pastatus, meno kūrinius, parduotuvėse esančius produktus, jų logotipus bei prekinius kodus ar net reklamas. Taip pat „Goggles“ gali atpažinti nufotografuotą tekstą ir išversti jį į kitą kalbą (pvz., meniu prancūzų restorane).

Tačiau „Goggles“ kol kas negali atpažinti tokių daiktų, kaip baldai, drabužiai, papuošalai, maistas, gyvūnai, automobiliai, medžiai ir t.t.

Taip pat „Google“ inžinieriai intensyviai dirba su veidų atpažinimo sistemomis. Tikslas – išmokyti kompiuterius atpažinti nuotraukose užfiksuotus žmones pagal jų veido bruožus.

Vaizdų atpažinimo technologijos svarbios kitiems „Google“ produktams. Tarkime, jos padeda atpažinti „Google Street View“ užfiksuotus automobilius, žmones ir automatiškai užtušuoti jų veidus ar mašinų numerius.

Tačiau pagrindinis siekis yra suteikti pilnavertes IR paslaugas vartotojams. Pvz., kad nufotografavę praeinančios merginos švarkelį galėtumėte sužinoti jo kainą, o radę musmirę miške jos nesuvalgytumėte.

Skaitmeninis kodas: kaip „Google“ moko kompiuterius matyti

Pranešti klaidą

Sėkmingai išsiųsta