# DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

### 저자

Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu

### 💡 개요

본 논문은 기존 Vision-Language-Action (VLA) 모델이 VLM을 단순한 인코더로만 활용하여 학습 불안정성 및 VLM의 잠재력 저하 문제를 겪는 점을 지적합니다. 이를 해결하기 위해 DIAL은 VLM 기반의 'System-2'가 잠재적 세계 모델링을 통해 의도를 인코딩하고, 경량화된 'System-1' 정책이 이 의도와 관측을 바탕으로 로봇 행동을 생성하는 프레임워크를 제안합니다. DIAL은 두 단계의 학습 과정을 통해 최적화 안정성을 확보하고 VLM의 사전 학습된 지식을 보존하며, 이를 통해 새로운 최신 성능을 달성했습니다.

### 🔑 시사점 및 한계

- VLM을 단순한 인코더를 넘어 고수준 의사결정 및 잠재적 세계 모델링에 활용함으로써 VLA 모델의 성능과 안정성을 크게 향상시킬 수 있습니다.

- 잠재적 의도 병목(latent intent bottleneck)을 도입하고 분리된 학습 단계를 통해 VLM의 사전 학습된 지식을 보존하면서도 효과적인 행동 생성을 가능하게 합니다.

- 복잡하거나 동적인 환경에서의 실제 로봇 적용 시, DIAL의 일반화 능력 및 강건성을 추가적으로 검증할 필요가 있으며, 잠재적 세계 모델링의 복잡성을 줄이는 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.29844)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).