Sign In

Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification

Created by
  • Haebom
Category
Empty

μ €μž

Tianyi Wang, Long Li, Hongcan Guo, Yibiao Chen, Yixia Li, Yong Wang, Yun Chen, Guanhua Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” μˆœν™˜μ  곡간 μˆ˜μΆ•(Recursive Space Contraction, RSC) 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ Anchored Policy Optimization(APO) 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€. APOλŠ” 기쑴의 KL μ •κ·œν™”κ°€ μ •μ±…μ˜ λͺ¨λ“  μ˜μ—­μ„ λͺ¨λ°©ν•˜λ„둝 κ°•μ œν•˜μ—¬ λ°œμƒν•˜λŠ” 경직성을 κ·Ήλ³΅ν•˜κ³ , μ°Έμ‘° λͺ¨λΈμ˜ 신뒰도 높은 μ§€μ§€ μ˜μ—­(support)을 기반으둜 ν•˜λŠ” μ•ˆμ „ν•œ λ‹€ν˜•μ²΄(Safe Manifold)λ₯Ό μ •μ˜ν•˜μ—¬ νš¨μœ¨μ„±μ„ ν™•λ³΄ν•˜λ©΄μ„œλ„ 였λ₯˜ λ°œμƒ μ‹œ 볡원λ ₯을 톡해 λΆ•κ΄΄λ₯Ό λ°©μ§€ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 정확도-λ‹€μ–‘μ„± νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό ν•΄κ²°ν•˜κ³  Pass@1 μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚€λ©΄μ„œ Pass@K 닀양성을 νšŒλ³΅ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” 'μˆœν™˜μ  곡간 μˆ˜μΆ•'μ΄λΌλŠ” 근본적인 문제λ₯Ό μ‹λ³„ν•˜κ³ , 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ κ°œλ…μΈ 'μ§€μ§€ μ˜μ—­ 컀버리지' 기반의 μ •μ±… μ΅œμ ν™” 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ APOλŠ” κΈ°μ‘΄ KL μ •κ·œν™”μ˜ μ œμ•½μ„ λ„˜μ–΄μ„œ, 효율적인 탐색과 μ •ν™•ν•œ ν•™μŠ΅μ„ λ™μ‹œμ— λ‹¬μ„±ν•˜μ—¬ λ³΅μž‘ν•œ λ¬Έμ œμ—μ„œ μ„±λŠ₯ ν–₯상을 κΈ°λŒ€ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 이둠적 뢄석과 ν•¨κ»˜ μˆ˜ν•™μ  λ²€μΉ˜λ§ˆν¬μ—μ„œμ˜ μ‹€ν—˜μ„ 톡해 APO의 μœ νš¨μ„±μ„ μž…μ¦ν•˜μ˜€μœΌλ‚˜, μ‹€μ œ λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 좔가적인 이둠적 뢄석이 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘