Sign In

Q-learning with Adjoint Matching

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Qiyang Li, Sergey Levine

πŸ’‘ κ°œμš”

이 논문은 연속 행동 κ°•ν™”ν•™μŠ΅μ—μ„œ ν™•μ‚° λ˜λŠ” 흐름 λ§€μΉ­ μ •μ±…μ˜ 효율적인 μ΅œμ ν™” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ TD 기반 κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μΈ Q-learning with Adjoint Matching (QAM)을 μ œμ•ˆν•©λ‹ˆλ‹€. QAM은 생성 λͺ¨λΈλ§μ—μ„œ μ œμ•ˆλœ 'adjoint matching' 기법을 ν™œμš©ν•˜μ—¬, λΆˆμ•ˆμ •ν•œ μ—­μ „νŒŒ 없이도 λΉ„νŽΈν–₯적이고 ν‘œν˜„λ ₯이 ν’λΆ€ν•œ 정책을 ν•™μŠ΅ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ λ°©λ²•λ‘ μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ , ν¬μ†Œ 보상 ν™˜κ²½μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
연속 행동 κ°•ν™”ν•™μŠ΅μ—μ„œ ν™•μ‚°/흐름 λ§€μΉ­ μ •μ±…μ˜ μ•ˆμ •μ μ΄κ³  효율적인 μ΅œμ ν™” κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
'Adjoint matching' 기법을 κ°•ν™”ν•™μŠ΅μ— μ„±κ³΅μ μœΌλ‘œ μ μš©ν•˜μ—¬, λΆˆμ•ˆμ •ν•œ μ—­μ „νŒŒ 없이도 λΉ„νŽΈν–₯적인 μ •μ±… ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
ν¬μ†Œ 보상 ν™˜κ²½μ—μ„œμ˜ μ˜€ν”„λΌμΈ 및 μ˜€ν”„λΌμΈ-투-온라인 κ°•ν™”ν•™μŠ΅μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
'Adjoint matching' κΈ°λ²•μ˜ 이둠적 이해 및 λ‹€λ₯Έ μœ ν˜•μ˜ μ •μ±…μ΄λ‚˜ ν™˜κ²½μœΌλ‘œμ˜ ν™•μž₯ κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘