Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

Created by
  • Haebom

저자

Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng

개요

본 논문은 장기간 과제를 해결하는 실체화된 에이전트를 위한 새로운 통합 VLA(Vision Language Action) 프레임워크인 LoHoVLA를 제시합니다. LoHoVLA는 사전 훈련된 거대 언어 모델(VLM)을 기반으로 하위 작업 생성과 로봇 동작 예측을 위한 언어 및 동작 토큰을 공동으로 생성하여 작업 간 일반화 성능을 향상시킵니다. 또한, 계층적 폐쇄 루프 제어 메커니즘을 통해 고차원 계획 및 저차원 제어에서 발생하는 오류를 완화합니다. Ravens 시뮬레이터를 기반으로 구축된 새로운 데이터셋 LoHoSet을 사용하여 훈련되었으며, 실험 결과 기존의 계층적 및 표준 VLA 방식보다 장기간 실체화된 과제에서 성능이 크게 향상됨을 보여줍니다.

시사점, 한계점

시사점:
통합 아키텍처를 통해 장기간 과제에 대한 실체화된 에이전트의 일반화 성능을 크게 향상시킬 수 있음을 보여줌.
LoHoVLA는 고차원 계획과 저차원 제어의 오류를 효과적으로 완화하는 계층적 폐쇄 루프 제어 메커니즘을 활용.
사전 훈련된 VLM을 활용하여 작업 간 일반화 성능을 향상.
새로운 장기간 과제 데이터셋 LoHoSet을 제시.
한계점:
현재 Ravens 시뮬레이터 환경에서만 평가되었으므로, 실제 세계 환경으로의 일반화 성능은 추가적인 연구가 필요.
LoHoSet 데이터셋의 규모가 상대적으로 작을 수 있음. 더욱 다양하고 대규모의 데이터셋을 통해 성능 향상 및 일반화 성능 검증 필요.
계산 비용이 높을 수 있음. 효율적인 훈련 및 추론 방법에 대한 추가적인 연구가 필요.
👍