[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Created by
  • Haebom

저자

Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao

개요

본 논문은 로봇 조작에서 미지의 시나리오와 새로운 작업에 대한 일반화 문제를 해결하기 위해, 공간 관계 추론을 통해 중간 표현을 생성하는 새로운 비전-언어 모델 FSD(From Seeing to Doing)를 제안합니다. FSD는 계층적 데이터 파이프라인과 공간 좌표와 시각 신호를 정렬하는 자기 일관성 메커니즘을 결합하여, 시각 정보를 로봇 조작에 대한 세부적인 지침으로 변환합니다. 광범위한 실험을 통해 일반적인 공간 추론 및 구현된 참조 능력에 대한 8개의 벤치마크와 새롭게 제안된 더욱 어려운 벤치마크인 VABench에서 뛰어난 성능을 달성했습니다. SimplerEnv 및 실제 로봇 환경에서 기존 방법보다 훨씬 향상된 제로샷 로봇 조작 능력을 입증하였으며, SimplerEnv에서 54.1%의 성공률, 8가지 실제 작업에서 72%의 성공률을 달성하여 기존 최고 성능 대비 30% 향상을 보였습니다.

시사점, 한계점

시사점:
공간 관계 추론을 통한 중간 표현 생성으로 로봇 조작의 일반화 문제 해결에 기여.
계층적 데이터 파이프라인과 자기 일관성 메커니즘을 활용한 효과적인 학습 전략 제시.
제로샷 로봇 조작에서 기존 방법 대비 괄목할 만한 성능 향상을 달성.
SimplerEnv와 실제 로봇 환경 모두에서 우수한 성능 검증.
새로운 벤치마크 VABench 제시를 통한 로봇 조작 연구 발전에 기여.
한계점:
제시된 VABench의 구체적인 내용 및 구성에 대한 정보 부족.
실제 로봇 환경에서의 실험 범위 및 일반화 성능에 대한 추가적인 분석 필요.
FSD 모델의 계산 비용 및 효율성에 대한 평가 부족.
다양한 로봇 플랫폼 및 작업에 대한 일반화 성능 검증 부족.
👍