Sign In

EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‘œλ΄‡μ˜ μš΄λ™ν•™μ  μ œμ–΄μ™€ μ‹œκ°μ  지각을 효과적으둜 μ—°κ²°ν•˜λŠ” 사건 인식 생성 μ›”λ“œ λͺ¨λΈ(EA-WM)을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λͺ¨λΈκ³Ό 달리, EA-WM은 λ‘œλ΄‡μ˜ μš΄λ™ν•™μ  μƒνƒœμ™€ λ™μž‘μ„ 좔상적인 토큰이 μ•„λ‹Œ, λŒ€μƒ 카메라 뷰둜 직접 νˆ¬μ˜λ˜λŠ” κ΅¬μ‘°ν™”λœ μš΄λ™ν•™-μ‹œκ° 행동 ν•„λ“œ(Structured Kinematic-to-Visual Action Fields)둜 ν‘œν˜„ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ κΈ°ν•˜ν•™μ μœΌλ‘œ κ·Όκ±°ν•œ ν‘œν˜„μ„ ν™œμš©ν•˜μ—¬, EA-WM은 객체 μƒνƒœ 변화와 μƒν˜Έμž‘μš© 역학을 ν¬μ°©ν•˜λŠ” 사건 인식 μ–‘λ°©ν–₯ μœ΅ν•© 블둝을 λ„μž…ν•¨μœΌλ‘œμ¨ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‘œλ΄‡μ˜ μš΄λ™ν•™μ  μ œμ–΄ μ‹ ν˜Έλ₯Ό μ‹œκ°μ  생성 λͺ¨λΈμ— 직접 ν†΅ν•©ν•˜μ—¬, λ‘œλ΄‡μ˜ μ •λ°€ν•œ 곡간 κΈ°ν•˜ν•™ 및 λ‘œλ΄‡-객체 μƒν˜Έμž‘μš© 역학을 더 잘 λ³΄μ‘΄ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ΅¬μ‘°ν™”λœ μš΄λ™ν•™-μ‹œκ° 행동 ν•„λ“œμ™€ 사건 인식 μ–‘λ°©ν–₯ μœ΅ν•© 블둝은 κΈ°μ‘΄ λͺ¨λΈ λŒ€λΉ„ μ›”λ“œ λͺ¨λΈμ˜ μ‹œκ° 생성 ν’ˆμ§ˆκ³Ό λ‘œλ΄‡ λ™μž‘ μž¬ν˜„ λŠ₯λ ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ EA-WM의 λ³΅μž‘μ„±κ³Ό κ³„μ‚°λŸ‰, 그리고 μ‹€μ œ λ‘œλ΄‡ ν™˜κ²½μ—μ„œμ˜ ν™•μž₯μ„± 및 강건성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘