haebom
Sign In
Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
Created by
Haebom
Category
Empty
μ μ
Tianyi Wang, Long Li, Hongcan Guo, Yibiao Chen, Yixia Li, Yong Wang, Yun Chen, Guanhua Chen
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅μμ λ°μνλ μνμ κ³΅κ° μμΆ(Recursive Space Contraction, RSC) λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν Anchored Policy Optimization(APO) λ°©λ²λ‘ μ μ μν©λλ€. APOλ κΈ°μ‘΄μ KL μ κ·νκ° μ μ± μ λͺ¨λ μμμ λͺ¨λ°©νλλ‘ κ°μ νμ¬ λ°μνλ κ²½μ§μ±μ 극볡νκ³ , μ°Έμ‘° λͺ¨λΈμ μ λ’°λ λμ μ§μ§ μμ(support)μ κΈ°λ°μΌλ‘ νλ μμ ν λ€ν체(Safe Manifold)λ₯Ό μ μνμ¬ ν¨μ¨μ±μ ν보νλ©΄μλ μ€λ₯ λ°μ μ 볡μλ ₯μ ν΅ν΄ λΆκ΄΄λ₯Ό λ°©μ§ν©λλ€. μ΄λ₯Ό ν΅ν΄ μ νλ-λ€μμ± νΈλ μ΄λμ€νλ₯Ό ν΄κ²°νκ³ Pass@1 μ±λ₯μ ν¬κ² ν₯μμν€λ©΄μ Pass@K λ€μμ±μ ν볡νλ μ±κ³Όλ₯Ό 보μμ΅λλ€.
π μμ¬μ λ° νκ³
β’
κ°ννμ΅μμ λ°μνλ 'μνμ κ³΅κ° μμΆ'μ΄λΌλ κ·Όλ³Έμ μΈ λ¬Έμ λ₯Ό μλ³νκ³ , μ΄λ₯Ό ν΄κ²°νκΈ° μν μλ‘μ΄ κ°λ μΈ 'μ§μ§ μμ 컀λ²λ¦¬μ§' κΈ°λ°μ μ μ± μ΅μ ν λ°©λ²μ μ μν©λλ€.
β’
μ μλ APOλ κΈ°μ‘΄ KL μ κ·νμ μ μ½μ λμ΄μ, ν¨μ¨μ μΈ νμκ³Ό μ νν νμ΅μ λμμ λ¬μ±νμ¬ λ³΅μ‘ν λ¬Έμ μμ μ±λ₯ ν₯μμ κΈ°λν μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ μ΄λ‘ μ λΆμκ³Ό ν¨κ» μνμ λ²€μΉλ§ν¬μμμ μ€νμ ν΅ν΄ APOμ μ ν¨μ±μ μ μ¦νμμΌλ, μ€μ 볡μ‘ν νκ²½μμμ μ μ© κ°λ₯μ± λ° μΆκ°μ μΈ μ΄λ‘ μ λΆμμ΄ μꡬλ©λλ€.
PDF 보기
Made with Slashpage