haebom
Sign In
DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
Created by
Haebom
Category
Empty
μ μ
Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κΈ°μ‘΄ Vision-Language-Action (VLA) λͺ¨λΈμ΄ VLMμ λ¨μν μΈμ½λλ‘λ§ νμ©νμ¬ νμ΅ λΆμμ μ± λ° VLMμ μ μ¬λ ₯ μ ν λ¬Έμ λ₯Ό κ²ͺλ μ μ μ§μ ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ DIALμ VLM κΈ°λ°μ 'System-2'κ° μ μ¬μ μΈκ³ λͺ¨λΈλ§μ ν΅ν΄ μλλ₯Ό μΈμ½λ©νκ³ , κ²½λνλ 'System-1' μ μ± μ΄ μ΄ μλμ κ΄μΈ‘μ λ°νμΌλ‘ λ‘λ΄ νλμ μμ±νλ νλ μμν¬λ₯Ό μ μν©λλ€. DIALμ λ λ¨κ³μ νμ΅ κ³Όμ μ ν΅ν΄ μ΅μ ν μμ μ±μ ν보νκ³ VLMμ μ¬μ νμ΅λ μ§μμ 보쑴νλ©°, μ΄λ₯Ό ν΅ν΄ μλ‘μ΄ μ΅μ μ±λ₯μ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
VLMμ λ¨μν μΈμ½λλ₯Ό λμ΄ κ³ μμ€ μμ¬κ²°μ λ° μ μ¬μ μΈκ³ λͺ¨λΈλ§μ νμ©ν¨μΌλ‘μ¨ VLA λͺ¨λΈμ μ±λ₯κ³Ό μμ μ±μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μ μ¬μ μλ λ³λͺ©(latent intent bottleneck)μ λμ νκ³ λΆλ¦¬λ νμ΅ λ¨κ³λ₯Ό ν΅ν΄ VLMμ μ¬μ νμ΅λ μ§μμ 보쑴νλ©΄μλ ν¨κ³Όμ μΈ νλ μμ±μ κ°λ₯νκ² ν©λλ€.
β’
볡μ‘νκ±°λ λμ μΈ νκ²½μμμ μ€μ λ‘λ΄ μ μ© μ, DIALμ μΌλ°ν λ₯λ ₯ λ° κ°κ±΄μ±μ μΆκ°μ μΌλ‘ κ²μ¦ν νμκ° μμΌλ©°, μ μ¬μ μΈκ³ λͺ¨λΈλ§μ 볡μ‘μ±μ μ€μ΄λ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage