Continually Evolving Skill Knowledge in Vision Language Action Model

작성자

Haebom

카테고리

Empty

저자

Yuxuan Wu, Guangming Wang, Zhiheng Yang, Tianchen Deng, Maoqing Yao, Brian Sheil, Hesheng Wang

💡 개요

본 논문은 Vision-Language-Action (VLA) 모델의 효율적인 지속 학습(continual learning) 문제를 해결하기 위해 파라미터 증가 없이 지식 기반의 지속 학습 프레임워크인 Stellar VLA를 제안한다. Stellar VLA는 태스크 표현과 학습된 지식 공간을 공동으로 최적화하여 지식 자체의 점진적 진화를 가능하게 하며, 이를 통해 태스크 전문화를 달성한다. LIBERO 벤치마크 실험에서 1%의 데이터만 재사용하고도 기존 VLA 및 지속 학습 기법 대비 우수한 성능을 입증했다.

🔑 시사점 및 한계

•

VLA 모델에서 파라미터 수를 늘리지 않고도 지속적인 지식 학습 및 태스크 적응이 가능함을 보여준다.

•

계층적 태스크 구조를 효과적으로 다룰 수 있는 TS-Stellar 변형을 통해 복잡한 로봇 조작 태스크에서의 성능 향상을 기대할 수 있다.

•

실제 로봇 환경에서의 검증을 통해 제안된 방법론의 일반화 및 전이 학습 능력을 확인하였다.

•

향후 연구에서는 더 다양한 종류의 태스크와 복잡한 환경에 대한 Stellar VLA의 확장 및 성능 최적화가 필요하다.

PDF 보기

Made with Slashpage