본 논문은 장기간 과제를 해결하는 실체화된 에이전트를 위한 새로운 통합 VLA(Vision Language Action) 프레임워크인 LoHoVLA를 제시합니다. LoHoVLA는 사전 훈련된 거대 언어 모델(VLM)을 기반으로 하위 작업 생성과 로봇 동작 예측을 위한 언어 및 동작 토큰을 공동으로 생성하여 작업 간 일반화 성능을 향상시킵니다. 또한, 계층적 폐쇄 루프 제어 메커니즘을 통해 고차원 계획 및 저차원 제어에서 발생하는 오류를 완화합니다. Ravens 시뮬레이터를 기반으로 구축된 새로운 데이터셋 LoHoSet을 사용하여 훈련되었으며, 실험 결과 기존의 계층적 및 표준 VLA 방식보다 장기간 실체화된 과제에서 성능이 크게 향상됨을 보여줍니다.