Polscy naukowcy opracowali metodę, która sprawia, że roboty skuteczniej niż dotychczas rozpoznają obiekty obserwowane przez nie za pomocą kamer. Rozwiązanie poprawi wydajność oprogramowania sterującego dronami i robotami autonomicznymi. Metoda oparta na tzw. Vision transformer została opracowana przez zespół badaczy związanych z IDEAS NCBR, ośrodkiem badawczo-rozwojowym w obszarze sztucznej inteligencji. W czwartek 24 sierpnia zaprezentują oni wyniki swoich badań na prestiżowej konferencji IJCAI w Makau.
Sylwetka, auto, napis, znak drogowy – ludzkie oko odruchowo wyławia z otoczenia obiekty, na których warto skupić wzrok. A nasz mózg niemal automatycznie wybiera, którym z nich chce się przyjrzeć. O tym, jak bezcenna jest to umiejętność, przekonują nas… roboty. One w przeciwieństwie do ludzi nie rozwijają jej od urodzenia, zaś sterujące nimi oprogramowanie dopiero nabywa ją w miarę rozwoju technologii widzenia maszynowego.
O ile np. skanowanie kodów kreskowych przez kasy samoobsługowe szybko stało się szeroko stosowanym standardem, o tyle orientacja w terenie okazuje się dla robotów znacznie trudniejszym wyzwaniem. – Poruszający się robot lub dron powinien skupiać uwagę jedynie na kluczowych elementach otoczenia, bowiem nie jest w stanie analizować całej przestrzeni w czasie rzeczywistym z uwagi na ograniczenia sprzętowe. Musi zatem decydować, na czym skupić swoją uwagę, w jakim kierunku spojrzeć – obrócić kamerę – wyjaśnia Bartosz Zieliński, lider zespołu badawczego z IDEAS NCBR.
Problem ten jest rozwiązywany przez coraz doskonalsze oprogramowanie oparte na sztucznej inteligencji wspierającej eksplorację wizualną robotów. Jedną z takich innowacji jest metoda Attention-Map Entropy (AME). – Opracował ją zespół polskich naukowców: Adam Pardyl (IDEAS NCBR, Uniwersytet Jagielloński), Grzegorz Rypeść (IDEAS NCBR, Politechnika Warszawska), Grzegorz Kurzejamski (IDEAS NCBR), Bartłomiej Zieliński (IDEAS NCBR, Uniwersytet Jagielloński, Ardigen) oraz Tomasz Trzciński (IDEAS NCBR, Uniwersytet Jagielloński, Politechnika Warszawska, Tooploox). Metoda została niedawno opisana w pracy naukowej “Active Visual Exploration Based on Attention-Map Entropy”, która zakwalifikowała się na konferencję naukową International Joint Conference on Artificial Intelligence (IJCAI 2023). Odbywa się ona w dniach 19-25 sierpnia 2023 w Makau w Chinach, a polscy badacze zaprezentują na niej swoje osiągnięcia.
Jak działa Attention-Map Entropy?
Jak wskazują twórcy, metoda Attention-Map Entropy wykorzystuje wewnętrzną niepewność modelu. Pojawia się ona wszędzie tam, gdzie system sterujący autonomicznym urządzeniem ma zbyt mało danych. Ich rozwiązanie stara się ową niepewność mierzyć i na jej podstawie kontynuować obserwacje tam, gdzie niepewność jest największa. Np. widząc głowę zwierzęcia, model „domyśla się”, że w jej otoczeniu powinien znajdować się tułów, ale nie jest pewny, co znajduje się w dalszych obszarach obrazka i tam będzie “skupiać swoją uwagę” w dalszej kolejności. – Przeprowadziliśmy dużą liczbę eksperymentów. Testowaliśmy nasz model na kilku ogólnodostępnych zbiorach obrazów, stymulując proces działania robota eksplorującego otoczenie poprzez wycinanie małych fragmentów dużych zdjęć otoczenia – wyjaśnia Adam Pardyl, członek zespołu i doktorant z IDEAS NCBR.
Standardowe rozwiązania problemu z aktywną deklaracją wizualną u robotów opierają się na metodach Reinforcement Learning (uczenia przez wzmacnianie) używanych do uczenia strategii eksploracji lub też na dedykowanych funkcjach kosztu wykorzystywanych do uczenia dodatkowych modułów sieci neuronowych kierujących eksploracją. – Nasze rozwiązanie nie wymaga dodatkowych modułów, dzięki bezpośredniej analizie wewnętrznej niepewności modelu wykonującego zadanie i używania jej do wyboru kolejnego obszaru eksploracji. Dzięki temu jest ono prostsze w uczeniu oraz osiąga lepsze wyniki niż standardowe metody – opowiada Grzegorz Kurzejamski, pracownik naukowy w IDEAS NCBR.
Film ilustrujący badanie na YouTube:
Skuteczność i zastosowanie nowej techniki
Problemy z eksploracją wizualną spotykane u robotów dostępnych obecnie na rynku utrudniają im poruszanie się w naturalnym środowisku. Mimo bardzo szerokiej palety możliwych zastosowań autonomicznych urządzeń, wciąż widujemy ich stosunkowo niewiele. Lepsze algorytmy widzenia maszynowego będą jednak w stanie to zmienić.
Jednym z potencjalnych wdrożeń badań naukowców z IDEAS NCBR mogłaby być optymalizacja oprogramowania sterującego dronami i robotami autonomicznymi. Dron monitorujący daną okolicę mógłby na podstawie analizowanego obrazu samodzielnie zadecydować, czy powinien lecieć wyżej czy niżej, by lepiej wykonywać swoje zadanie.
– Nasze rozwiązanie może znaleźć zastosowanie wszędzie tam, gdzie konieczna jest aktywna eksploracja, jak np. w dronach wspierających ochronę parków narodowych, w tym ochronę zwierząt przed kłusownictwem – podsumowuje Tomasz Trzciński, lider grupy badawczej z IDEAS NCBR.