Sign In

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

Created by
  • Haebom
Category
Empty

μ €μž

Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ Vision-Language-Action (VLA) λͺ¨λΈμ΄ VLM을 λ‹¨μˆœν•œ μΈμ½”λ”λ‘œλ§Œ ν™œμš©ν•˜μ—¬ ν•™μŠ΅ λΆˆμ•ˆμ •μ„± 및 VLM의 잠재λ ₯ μ €ν•˜ 문제λ₯Ό κ²ͺλŠ” 점을 μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ DIAL은 VLM 기반의 'System-2'κ°€ 잠재적 세계 λͺ¨λΈλ§μ„ 톡해 μ˜λ„λ₯Ό μΈμ½”λ”©ν•˜κ³ , κ²½λŸ‰ν™”λœ 'System-1' 정책이 이 μ˜λ„μ™€ 관츑을 λ°”νƒ•μœΌλ‘œ λ‘œλ΄‡ 행동을 μƒμ„±ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DIAL은 두 λ‹¨κ³„μ˜ ν•™μŠ΅ 과정을 톡해 μ΅œμ ν™” μ•ˆμ •μ„±μ„ ν™•λ³΄ν•˜κ³  VLM의 사전 ν•™μŠ΅λœ 지식을 λ³΄μ‘΄ν•˜λ©°, 이λ₯Ό 톡해 μƒˆλ‘œμš΄ μ΅œμ‹  μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VLM을 λ‹¨μˆœν•œ 인코더λ₯Ό λ„˜μ–΄ κ³ μˆ˜μ€€ μ˜μ‚¬κ²°μ • 및 잠재적 세계 λͺ¨λΈλ§μ— ν™œμš©ν•¨μœΌλ‘œμ¨ VLA λͺ¨λΈμ˜ μ„±λŠ₯κ³Ό μ•ˆμ •μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
잠재적 μ˜λ„ 병λͺ©(latent intent bottleneck)을 λ„μž…ν•˜κ³  λΆ„λ¦¬λœ ν•™μŠ΅ 단계λ₯Ό 톡해 VLM의 사전 ν•™μŠ΅λœ 지식을 λ³΄μ‘΄ν•˜λ©΄μ„œλ„ 효과적인 행동 생성을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•˜κ±°λ‚˜ 동적인 ν™˜κ²½μ—μ„œμ˜ μ‹€μ œ λ‘œλ΄‡ 적용 μ‹œ, DIAL의 μΌλ°˜ν™” λŠ₯λ ₯ 및 강건성을 μΆ”κ°€μ μœΌλ‘œ 검증할 ν•„μš”κ°€ 있으며, 잠재적 세계 λͺ¨λΈλ§μ˜ λ³΅μž‘μ„±μ„ μ€„μ΄λŠ” 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘