Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation
Created by
Haebom
저자
Weiliang Tang, Dong Jing, Jia-Hui Pan, Zhiwu Lu, Yun-Hui Liu, Li Erran Li, Mingyu Ding, Chi-Wing Fu
개요
본 논문은 대규모 다중 모드 모델(LMM)을 활용하여 로봇 조작을 수행하는 새로운 방법을 제시합니다. 기존의 별도의 액션 헤드에 의존하는 방식 대신, LMM이 언어를 통해 추론으로 다음 목표를 직접 유추하도록 함으로써 복잡한 수학 문제 해결 및 정확한 공간 인식 능력을 로봇 조작에 활용하고자 합니다. 이를 위해 공간 행동 공간을 LMM이 이해하도록 새로운 작업 공식화 방법 (객체 부품 및 그리퍼의 현재 상태를 입력으로 받고, 회전을 새로운 축 표현으로 재구성)과, 다중 라운드 대화로 구성된 고품질 추론 데이터셋을 생성하여 LMM의 추론 능력을 활용하는 파이프라인을 설계했습니다. 시뮬레이션 환경에서 강화 학습을 통해 모델의 추론 능력을 향상시켰으며, 결과적으로 7B 백본을 기반으로 하는 ReasonManip 모델을 제시합니다.
시사점, 한계점
•
시사점:
◦
LMM 기반 로봇 조작에서 시스템-2 수준의 추론 능력을 통해 일반화 성능, 시뮬레이션-실제 전이 성능, 그리고 투명한 해석성을 향상시켰습니다.
◦
새로운 작업 공식화 및 데이터셋 생성 파이프라인을 통해 LMM의 공간 추론 능력을 효과적으로 활용할 수 있음을 보여줍니다.
◦
통합된 언어 표현을 통해 도메인 간의 지식 전이를 용이하게 합니다.
•
한계점:
◦
제시된 방법의 실제 로봇 환경에서의 성능 및 견고성에 대한 추가적인 검증이 필요합니다.
◦
현재는 시뮬레이션 환경에 기반한 결과이며, 실제 환경의 복잡성을 완벽히 반영하지 못할 수 있습니다.