Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning

Created by
  • Haebom
Category
Empty

저자

Wensheng Wang, Ning Tan

개요

본 논문은 복잡한 조작 작업에 대한 로봇 모방 학습의 일반화 성능 향상을 위해 대규모 다양한 시범 데이터 획득의 어려움을 해결하는 HybridGen 프레임워크를 제시한다. HybridGen은 Vision-Language Model(VLM)과 하이브리드 계획을 통합하는 두 단계 파이프라인을 사용한다. 첫 번째 단계는 VLM을 이용하여 전문가 시범을 분석하고 작업을 전문가 의존적 부분(정밀 제어를 위한 객체 중심 자세 변환)과 계획 가능한 부분으로 분해한다. 두 번째 단계는 경로 계획을 통해 다양한 궤적을 합성하고, 자세 변환을 통해 첫 번째 단계 데이터를 상당히 확장한다. HybridGen은 특정 데이터 형식을 필요로 하지 않고 대량의 훈련 데이터를 생성하여 다양한 모방 학습 알고리즘에 광범위하게 적용될 수 있으며, 실험적으로 여러 알고리즘에서 이를 입증한다. 7가지 작업 및 그 변형에 대한 평가 결과, HybridGen으로 훈련된 에이전트는 최첨단 방법보다 평균 5% 향상된 성능 및 일반화 성능을 달성했다. 특히 가장 어려운 작업 변형에서 HybridGen은 59.7%의 평균 성공률을 달성하여 Mimicgen의 49.5%를 크게 능가했다.

시사점, 한계점

시사점:
VLM과 하이브리드 계획을 결합하여 대규모 다양한 로봇 조작 데이터를 효율적으로 생성하는 새로운 프레임워크 HybridGen 제시.
특정 데이터 형식에 의존하지 않고 다양한 모방 학습 알고리즘에 적용 가능.
다양한 작업에서 최첨단 방법보다 향상된 성능 및 일반화 성능을 보임. 특히 어려운 작업에서 현저한 성능 향상.
한계점:
VLM의 성능에 의존적일 수 있음. VLM의 오류가 데이터 생성에 영향을 미칠 수 있다.
계획 가능한 부분과 전문가 의존적 부분의 분리가 항상 명확하지 않을 수 있음.
제시된 7가지 작업 외 다른 작업에 대한 일반화 성능은 추가 연구가 필요.
👍