# LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

### 저자

Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng

### 개요

본 논문은 장기간 과제를 해결하는 실체화된 에이전트를 위한 새로운 통합 VLA(Vision Language Action) 프레임워크인 LoHoVLA를 제시합니다. LoHoVLA는 사전 훈련된 거대 언어 모델(VLM)을 기반으로 하위 작업 생성과 로봇 동작 예측을 위한 언어 및 동작 토큰을 공동으로 생성하여 작업 간 일반화 성능을 향상시킵니다. 또한, 계층적 폐쇄 루프 제어 메커니즘을 통해 고차원 계획 및 저차원 제어에서 발생하는 오류를 완화합니다.  Ravens 시뮬레이터를 기반으로 구축된 새로운 데이터셋 LoHoSet을 사용하여 훈련되었으며, 실험 결과 기존의 계층적 및 표준 VLA 방식보다 장기간 실체화된 과제에서 성능이 크게 향상됨을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 통합 아키텍처를 통해 장기간 과제에 대한 실체화된 에이전트의 일반화 성능을 크게 향상시킬 수 있음을 보여줌.

    - LoHoVLA는 고차원 계획과 저차원 제어의 오류를 효과적으로 완화하는 계층적 폐쇄 루프 제어 메커니즘을 활용.

    - 사전 훈련된 VLM을 활용하여 작업 간 일반화 성능을 향상.

    - 새로운 장기간 과제 데이터셋 LoHoSet을 제시.

- **한계점:**

    - 현재 Ravens 시뮬레이터 환경에서만 평가되었으므로, 실제 세계 환경으로의 일반화 성능은 추가적인 연구가 필요.

    - LoHoSet 데이터셋의 규모가 상대적으로 작을 수 있음.  더욱 다양하고 대규모의 데이터셋을 통해 성능 향상 및 일반화 성능 검증 필요.

    - 계산 비용이 높을 수 있음.  효율적인 훈련 및 추론 방법에 대한 추가적인 연구가 필요.

[PDF 보기](https://arxiv.org/pdf/2506.00411)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).