LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models

작성자

Haebom

카테고리

Empty

저자

Boyang Shen, Kaixiang Yang, Hao Wang, Qiuyu Yu, Qiang Xie, Qiang Li, Zhiwei Wang

💡 개요

본 논문은 기존 Vision-Language-Action (VLA) 모델이 추상화 수준이 높은 표현을 액션 예측에 일관되게 사용하는 한계를 지적하며, 로봇 조작의 반복적인 공간 조정 작업에 적합하지 않음을 보여줍니다. 이를 해결하기 위해 LoopVLA는 순환적 재구축, 액션 예측, 충분성 추정을 공동으로 학습하는 새로운 VLA 아키텍처를 제안합니다. LoopVLA는 공유 트랜스포머 블록을 통해 반복적으로 멀티모달 토큰을 개선하고, 각 단계에서 액션 후보와 추가 재구축의 필요성을 추정하는 충분성 점수를 생성합니다.

🔑 시사점 및 한계

•

적응형 표현 재구축: LoopVLA는 각 반복마다 표현을 동적으로 재구축하여 작업에 필요한 정보의 추상화 수준을 조절함으로써 효율성을 높입니다.

•

효율적인 액션 예측: 충분성 추정 메커니즘을 통해 불필요한 계산을 줄이고, 필요한 시점에 정확한 액션 예측을 수행하여 성능을 향상시킵니다.

•

향후 과제: 충분성 추정의 정확도를 더욱 높이고, 다양한 로봇 조작 환경 및 복잡한 작업에 대한 일반화 성능을 평가하는 것이 향후 과제입니다.

PDF 보기

Made with Slashpage