Sign In

Delightful Distributed Policy Gradient

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ian Osband

πŸ’‘ κ°œμš”

λΆ„μ‚° κ°•ν™”ν•™μŠ΅ ν™˜κ²½μ—μ„œ λ°œμƒν•˜λŠ” ν•™μŠ΅ λ°μ΄ν„°μ˜ λΆ€μ •ν™•μ„±(stale, buggy, mismatched actors)으둜 μΈν•œ μ •μ±… ν•™μŠ΅μ˜ 어렀움을 ν•΄κ²°ν•˜λŠ” μƒˆλ‘œμš΄ 방법둠인 'Delightful Policy Gradient'(DG)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DGλŠ” λ°μ΄ν„°μ˜ λ†€λžŒ(surprisal)κ³Ό 이득(advantage)의 곱인 '기쁨'(delight)을 μ΄μš©ν•΄ μ—…λ°μ΄νŠΈλ₯Ό μ œμ–΄ν•¨μœΌλ‘œμ¨, ν•™μŠ΅μ— 뢀정적인 영ν–₯을 μ£ΌλŠ” 높은 λ†€λžŒμ˜ μ‹€νŒ¨ μ‚¬λ‘€λŠ” μ–΅μ œν•˜κ³ , ν˜„μž¬ 정책이 놓칠 수 μžˆλŠ” 높은 λ†€λžŒμ˜ 성곡 μ‚¬λ‘€λŠ” λ³΄μ‘΄ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λ°μ΄ν„°μ˜ μ΄μƒμΉ˜(outlier)에 κ°•κ±΄ν•˜λ©΄μ„œλ„ 효율적인 ν•™μŠ΅μ΄ κ°€λŠ₯함을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λΆ„μ‚° κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” λΆ€μ •ν™•ν•œ λ°μ΄ν„°λ‘œ μΈν•œ '뢀정적 ν•™μŠ΅' 문제λ₯Ό 효과적으둜 μ™„ν™”ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ μ—…λ°μ΄νŠΈ μ œμ–΄ λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ •μ±… 자체의 ν™•λ₯ λ§Œμ„ μ΄μš©ν•œ 필터링 방식이 ν”ν•œ μ‹€νŒ¨ 사둀λ₯Ό μ–΅μ œν•˜λ©΄μ„œλ„ ν”μΉ˜ μ•Šμ€ 성곡 사둀λ₯Ό ν•¨κ»˜ μ–΅μ œν•˜λŠ” ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ , 이득(advantage)의 λΆ€ν˜Έλ₯Ό ν™œμš©ν•˜μ—¬ 성곡과 μ‹€νŒ¨λ₯Ό κ΅¬λΆ„ν•˜λŠ” μ€‘μš”ν•œ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ‹€μ œ MNIST 데이터셋 및 λ³΅μž‘ν•œ μ‹œν€€μŠ€ νƒœμŠ€ν¬μ—μ„œμ˜ μ‹€ν—˜ κ²°κ³Ό, DGκ°€ μ˜€ν”„λΌμΈ μ •μ±… 보정 없이도 μ€‘μš”λ„ κ°€μ€‘μΉ˜ μ •μ±…(importance-weighted PG)보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, λ‹€μ–‘ν•œ 문제 상황이 λ³΅ν•©λ μˆ˜λ‘ κ·Έ μ„±λŠ₯ ν–₯상폭이 λ”μš± λ‘λ“œλŸ¬μ§μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ DG 방법둠이 λ‹€μ–‘ν•œ μœ ν˜•μ˜ 데이터 λΆ€μ •ν™•μ„±(staleness, actor bugs, reward corruption, rare discovery)에 λŒ€ν•΄ κ°•κ±΄ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ‚˜, μ‹€μ œ λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘