Albina Klepach, Alexander Nikulin, Ilya Zisman, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Nikita Lyubaykin, Vladislav Kurenkov
개요
본 논문은 인터넷 비디오 데이터를 활용한 임바디드 AI 학습의 어려움, 특히 액션 라벨 부족과 시각적 방해 요소의 존재를 해결하기 위한 새로운 접근법을 제시합니다. 기존의 잠재적 액션 정책 최적화(LAPO)는 시각적 관찰로부터 대리 액션 라벨을 추론하는 데 효과적이지만, 방해 요소가 존재할 경우 성능이 크게 저하됩니다. 이를 해결하기 위해, 본 논문에서는 픽셀이 아닌 객체에 중점을 둔 객체 중심 잠재적 액션 학습 프레임워크를 제안합니다. 자기 지도 학습 기반 객체 중심 사전 학습을 통해 액션 관련 역학과 방해 요소 역학을 분리하여 LAPO가 작업 관련 상호 작용에 집중하도록 합니다. 이를 통해 더욱 강건한 대리 액션 라벨을 생성하고, 적은 수의 액션 라벨이 있는 궤적만으로도 더 나은 모방 학습과 효율적인 에이전트 적응을 가능하게 합니다. Distracting Control Suite (DCS)와 Distracting MetaWorld (DMW)의 8가지 시각적으로 복잡한 작업에서 평가한 결과, 객체 중심 사전 학습이 하류 작업 성능(DCS의 평균 수익 및 DMW의 성공률)에서 방해 요소의 부정적 영향을 50%까지 완화하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
객체 중심 사전 학습을 통해 시각적 방해 요소가 있는 환경에서도 강건한 잠재적 액션 라벨을 생성하는 효과적인 방법을 제시합니다.