Sign In

DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zongyue Li, Xiao Han, Yusong Li, Niklas Strauss, Matthias Schubert

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅μ—μ„œ κΈ΄ μ‹œκ°„ μ§€ν‰μ˜ ν˜„μ‹€μ μΈ ꢀ적 생성을 μœ„ν•΄ ν™•μ‚° λͺ¨λΈ 기반 μ›”λ“œ λͺ¨λΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” DAWM은 ν˜„μž¬ μƒνƒœ, 행동, λͺ©ν‘œ μˆ˜μ΅μ„ 쑰건으둜 미래 μƒνƒœ-보상 ꢀ적을 μƒμ„±ν•˜λ©°, 효율적인 행동 좔둠을 μœ„ν•œ μ—­ 동학 λͺ¨λΈ(IDM)을 ν•¨κ»˜ μ‚¬μš©ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λ“ˆμ‹ 섀계λ₯Ό 톡해 ν‘œμ€€μ μΈ 1단계 TD ν•™μŠ΅ 기반 μ˜€ν”„λΌμΈ RL μ•Œκ³ λ¦¬μ¦˜κ³Όμ˜ ν˜Έν™˜μ„±μ„ λ†’μ—¬ 효과적이고 계산 효율적인 ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
DAWM은 ν™•μ‚° λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅μ—μ„œ μš”κ΅¬λ˜λŠ” μ™„μ „ν•œ ν•©μ„± μ „ν™˜(μƒνƒœ, 행동, 보상, λ‹€μŒ μƒνƒœ)을 μƒμ„±ν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 TD3BC, IQLκ³Ό 같은 보수적인 μ˜€ν”„λΌμΈ κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ˜ μ„±λŠ₯을 μœ μ˜λ―Έν•˜κ²Œ ν–₯μƒμ‹œν‚€λ©°, D4RL λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ ν™•μ‚° 기반 λͺ¨λΈ λŒ€λΉ„ μš°μˆ˜ν•œ κ²°κ³Όλ₯Ό λ³΄μž…λ‹ˆλ‹€.
β€’
DAWM의 λͺ¨λ“ˆμ‹ μ„€κ³„λŠ” ν›ˆλ ¨ λ³΅μž‘μ„±μ„ μ€„μ΄λ©΄μ„œλ„ 1단계 TD ν•™μŠ΅μ— μ ν•©ν•œ 데이터λ₯Ό μƒμ„±ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ˜ ν•œκ³„μ μ€ μ œμ•ˆλœ λͺ¨λΈμ΄ νŠΉμ • ν™˜κ²½μ΄λ‚˜ μž‘μ—…μ—μ„œ 항상 졜적의 μ„±λŠ₯을 보μž₯ν•˜μ§€ μ•Šμ„ 수 μžˆλ‹€λŠ” 점이며, ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ ν™˜κ²½κ³Ό λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 κ°œμ„ ν•˜λŠ” 것이 κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘