From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models
Created by
Haebom
저자
Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomas Lozano-Perez, Leslie Pack Kaelbling
개요
본 논문은 저수준 기술과 짧은 시간의 이미지 시퀀스를 포함하는 소수의 데모만을 사용하여 복잡한 로봇 공학 분야에서 장기적인 의사결정 문제를 해결하는 방법을 학습하는 것을 목표로 합니다. 이를 위해, 계획을 통해 새로운 목표에 대한 제로샷 일반화를 용이하게 하는 추상적인 상징적 세계 모델을 학습하는 데 중점을 둡니다. 이러한 모델의 중요한 구성 요소는 객체의 속성과 관계를 정의하는 상징적 술어 집합입니다. 본 연구에서는 사전 학습된 비전 언어 모델(VLMs)을 활용하여 의사 결정에 잠재적으로 관련된 많은 수의 시각적 술어를 제안하고 카메라 이미지에서 직접 해당 술어를 평가합니다. 학습 시간에 제안된 술어와 데모를 최적화 기반 모델 학습 알고리즘에 전달하여 제안된 술어의 압축된 하위 집합으로 정의된 추상적인 상징적 세계 모델을 얻습니다. 테스트 시간에 새로운 설정에서 새로운 목표가 주어지면 VLM을 사용하여 현재 세계 상태의 상징적 설명을 구성한 다음 검색 기반 계획 알고리즘을 사용하여 목표를 달성하는 저수준 기술 시퀀스를 찾습니다. 시뮬레이션과 실제 세계에서의 실험을 통해 제안된 방법이 다양한 객체 유형, 배열, 객체 수 및 시각적 배경뿐만 아니라 훈련 시간에 비해 훨씬 더 긴 수평선을 가진 새로운 목표에 적용하여 공격적으로 일반화할 수 있음을 실험적으로 보여줍니다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 VLM을 활용하여 효과적으로 시각적 술어를 추출하고 평가함으로써 복잡한 로봇 작업에 대한 추상적 세계 모델 학습을 가능하게 함.
◦
제로샷 일반화를 통해 다양한 객체, 배열, 목표 및 환경에 대한 적응력을 보여줌.
◦
최적화 기반 모델 학습 알고리즘과 검색 기반 계획 알고리즘의 결합을 통해 장기적인 의사 결정 문제 해결 가능성 제시.