Sign In

Toward Accurate Long-Horizon Robotic Manipulation: Language-to-Action with Foundation Models via Scene Graphs

Created by
  • Haebom
Category
Empty

저자

Sushil Samuel Dinesh, Shinkyu Park

개요

본 논문은 도메인별 학습 없이 사전 학습된 기반 모델을 활용하는 로봇 조작 프레임워크를 제시한다. 이 프레임워크는 다중 모드 인식을 제공하는 기반 모델과 견고한 작업 시퀀싱이 가능한 일반 목적 추론 모델을 통합한다. 동적으로 유지 관리되는 장면 그래프는 공간 인식을 제공하고 환경에 대한 일관된 추론을 가능하게 한다. 테이블탑 로봇 조작 실험을 통해 프레임워크를 평가하며, 사전 학습된 기반 모델을 직접 사용하여 로봇 조작 시스템을 구축할 수 있는 잠재력을 보여준다.

시사점, 한계점

사전 학습된 기반 모델을 활용하여 도메인별 학습의 필요성을 줄임
다중 모드 인식 및 일반 목적 추론 모델의 통합을 통해 견고한 로봇 조작 시스템 구축 가능성 제시
동적 장면 그래프를 사용하여 환경에 대한 공간 인식 및 일관된 추론 구현
테이블탑 로봇 조작 실험을 통해 프레임워크의 유효성 검증
구체적인 한계점에 대한 언급은 논문 내용에 포함되지 않음
👍