본 논문은 로봇 조작에서 특히 보지 못한 시나리오와 새로운 작업에 대한 일반화를 달성하는 문제를 해결하기 위해, 공간 관계 추론을 통해 중간 표현을 생성하여 로봇 조작에 대한 세분화된 지침을 제공하는 새로운 비전-언어 모델인 FSD(From Seeing to Doing)를 제안합니다. 계층적 데이터 파이프라인과 공간 좌표와 시각 신호를 정렬하는 자기 일관성 메커니즘을 결합하여 훈련합니다. 광범위한 실험을 통해 일반적인 공간 추론과 구현된 참조 능력에 대한 8개의 벤치마크와 더욱 어려운 벤치마크인 VABench에서 뛰어난 성능을 달성했습니다. SimplerEnv 및 실제 로봇 설정에서 기준 방법보다 상당한 성능 향상을 보여주는 제로샷 로봇 조작 기능도 검증했습니다. 실험 결과, FSD는 SimplerEnv에서 40.6%의 성공률, 8가지 실제 작업에서 72%의 성공률을 달성하여 최고 성능의 기준 방법보다 30% 향상되었습니다.
시사점, 한계점
•
시사점:
◦
공간 관계 추론을 통해 중간 표현을 생성하는 새로운 접근 방식으로 로봇 조작의 일반화 문제를 효과적으로 해결했습니다.
◦
제로샷 로봇 조작에서 기존 방법보다 상당한 성능 향상을 달성했습니다.
◦
SimplerEnv와 실제 로봇 환경 모두에서 우수한 성능을 입증했습니다.
◦
제안된 VABench를 통해 더욱 어려운 벤치마크를 제공했습니다.
•
한계점:
◦
제시된 VABench의 구체적인 내용과 한계에 대한 논의가 부족합니다.
◦
실제 로봇 환경에서의 실험 데이터의 다양성 및 일반화 가능성에 대한 추가적인 분석이 필요합니다.