Sign In

A Backbone for Long-Horizon Robot Task Understanding

Created by
  • Haebom
Category
Empty

저자

Xiaoshuai Chen, Wei Chen, Dongmyoung Lee, Yukun Ge, Nicolas Rojas, Petar Kormushev

개요

본 논문은 장기간 작업에 대한 엔드투엔드 로봇 학습의 예측 불가능성과 일반화 성능 저하 문제를 해결하기 위해, 해석력, 데이터 효율성 및 일반화 성능을 향상시키는 Therblig-Based Backbone Framework (TBBF)를 제안한다. TBBF는 전문가 시범을 활용하여 Therblig 단위의 작업 분해, 효율적인 행동-객체 매핑, 새로운 시나리오에 대한 적응형 궤적 생성을 가능하게 한다. 오프라인 학습 단계에서는 다양한 작업에 대한 정확한 Therblig 분할을 위한 Meta-RGate SynerFusion (MGSF) 네트워크를 개발하였고, 온라인 테스트 단계에서는 새로운 작업에 대한 일회성 시범을 기반으로 MGSF 네트워크가 고차원 지식을 추출하여 Action Registration (ActionREG)을 통해 이미지에 인코딩한다. 또한, 정확한 행동 등록을 보장하고 새로운 로봇 시나리오에서 궤적 전이를 용이하게 하기 위해 Large Language Model (LLM)-Alignment Policy for Visual Correction (LAP-VC)를 사용한다. 실험 결과, Therblig 분할에서 94.37%의 재현율을 달성하였으며, 실제 로봇 온라인 테스트에서 단순 시나리오는 94.4%, 복잡한 시나리오는 80%의 성공률을 기록했다.

시사점, 한계점

시사점:
Therblig 기반의 작업 분해를 통해 로봇 학습의 해석력을 향상시켰다.
데이터 효율적인 학습 및 새로운 작업에 대한 일반화 성능 향상을 달성했다.
실제 로봇 시스템에서 높은 성공률을 보였다.
LLM을 활용하여 시각적 보정을 수행하는 새로운 방법을 제시했다.
한계점:
복잡한 시나리오에서의 성공률이 단순 시나리오에 비해 상대적으로 낮다 (80% vs 94.4%).
제안된 프레임워크의 적용 가능성이 제한적인 작업 유형에 국한될 수 있다.
더욱 다양하고 복잡한 환경에서의 추가적인 실험이 필요하다.
전문가 시범 데이터에 대한 의존도가 높다.
👍