VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation

Created by

Haebom

저자

Changhua Xu, Jie Lu, Junyu Xuan, En Yu

💡 개요

본 논문은 적은 수의 시연만으로도 새로운 작업에 Vision-Language-Action (VLA) 모델을 신뢰성 있게 적용하는 문제를 해결하고자 합니다. VGAS(Value-Guided Action-Chunk Selection)는 의미적으로 정확하고 기하학적으로 정밀한 행동 덩어리(action chunk)를 선택하는 새로운 프레임워크를 제안합니다. VGAS는 제안 생성기와 기하학적으로 근거 있는 비평가(Q-Chunk-Former)를 사용하여 미세한 기하학적 모호성을 해결하며, 특히 제한된 지도 학습 환경에서 행동 순위의 해상도를 유지하고 값의 불안정성을 완화하는 명시적 기하학적 정규화(EGR)를 도입합니다.

🔑 시사점 및 한계

•

적은 수의 시연으로도 VLA 모델의 성공률과 강건성을 일관되게 향상시킬 수 있음을 입증했습니다.

•

의미적 충실성과 기하학적 정확성을 동시에 고려하는 "생성-선택" 관점의 접근 방식이 효과적임을 보여줍니다.

•

제한된 지도 학습 환경에서 발생하는 값의 불안정성을 완화하고 행동 순위의 해상도를 보존하는 명시적 기하학적 정규화의 중요성을 강조합니다.

•

향후 연구에서는 더 복잡하고 동적인 환경에서의 성능 확장 및 다양한 VLA 작업에 대한 일반화 가능성 탐색이 필요할 수 있습니다.

PDF 보기

Made with Slashpage