Sign In

Self-Improving World Modelling with Latent Actions

Created by
  • Haebom
Category
Empty

μ €μž

Yifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM 및 VLM의 μΆ”λ‘  및 κ³„νšμ— ν•„μˆ˜μ μΈ μ›”λ“œ λͺ¨λΈλ§(μƒνƒœ 전이 예츑)을 ν•™μŠ΅ν•˜κΈ° μœ„ν•΄ 기쑴의 λΉ„μ‹Ό μ•‘μ…˜ λ ˆμ΄λΈ”μ΄ ν•„μš”ν•œ ꢀ적 데이터 λŒ€μ‹  μƒνƒœ μ •λ³΄λ§ŒμœΌλ‘œ ν•™μŠ΅ν•˜λŠ” SWIRL ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SWIRL은 μ•‘μ…˜μ„ 잠재 λ³€μˆ˜λ‘œ μ·¨κΈ‰ν•˜μ—¬ 순방ν–₯ μ›”λ“œ λͺ¨λΈλ§(FWM)κ³Ό 역동학 λͺ¨λΈλ§(IDM)을 λ²ˆκ°ˆμ•„ ν•™μŠ΅μ‹œν‚€λ©°, 각 λͺ¨λΈμ€ λ°˜λŒ€ λͺ¨λΈμ˜ 둜그 ν™•λ₯ μ„ 보상 μ‹ ν˜Έλ‘œ μ‚¬μš©ν•˜μ—¬ κ°•ν™” ν•™μŠ΅μœΌλ‘œ μ—…λ°μ΄νŠΈλ©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ•‘μ…˜ 정보 없이 μƒνƒœ μ •λ³΄λ§ŒμœΌλ‘œλ„ μœ μš©ν•œ μ›”λ“œ λͺ¨λΈμ„ ν•™μŠ΅ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
FWMκ³Ό IDM의 μƒν˜Έ 보완적인 ν•™μŠ΅ 방식을 톡해 λͺ¨λΈμ˜ 일관성과 μ„€λͺ…λ ₯을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ ν™˜κ²½(μ‹œκ°, ν…μŠ€νŠΈ)μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μœ μ˜λ―Έν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ ν™˜κ²½μ΄λ‚˜ 비정상적인 μƒνƒœ 전이에 λŒ€ν•œ λͺ¨λΈμ˜ 견고성 및 ν™•μž₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘