Sign In

Holder Policy Optimisation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ˜ ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯을 μ €ν•΄ν•˜λŠ” κ³ μ •λœ 토큰 μˆ˜μ€€ ν™•λ₯  집계 λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ H{o}lder 평균을 μ΄μš©ν•œ μΌλ°˜ν™”λœ μ •μ±… μ΅œμ ν™” ν”„λ ˆμž„μ›Œν¬μΈ H{o}lderPOλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. H{o}lderPOλŠ” H{o}lder ν‰κ· μ˜ λ§€κ°œλ³€μˆ˜ $p$λ₯Ό μ‘°μ ˆν•˜μ—¬ 경사도 집쀑과 λΆ„μ‚° μ œμ–΄ κ°„μ˜ κ· ν˜•μ„ λ™μ μœΌλ‘œ μ‘°μ ˆν•¨μœΌλ‘œμ¨ κΈ°μ‘΄ 방법둠보닀 μš°μˆ˜ν•œ μ•ˆμ •μ„±κ³Ό 수렴 μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
H{o}lder 평균을 ν™œμš©ν•œ μœ μ—°ν•œ 토큰 μˆ˜μ€€ ν™•λ₯  μ§‘κ³„λŠ” ν•™μŠ΅ μ•ˆμ •μ„±μ„ 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
동적 $p$ κ°’ μŠ€μΌ€μ€„λ§ μ•Œκ³ λ¦¬μ¦˜μ€ ν›ˆλ ¨ κ³Όμ • μ „λ°˜μ— 걸쳐 졜적의 μ„±λŠ₯을 μ΄λŒμ–΄λƒ…λ‹ˆλ‹€.
β€’
νŠΉμ • 집계 방식에 κ΅­ν•œλ˜μ§€ μ•Šκ³ , λ‹€μ–‘ν•œ ν•™μŠ΅ μ‹œλ‚˜λ¦¬μ˜€μ— 맞좰 μ΅œμ ν™”ν•  수 μžˆλŠ” μΌλ°˜ν™”λœ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
H{o}lder ν‰κ· μ˜ λ§€κ°œλ³€μˆ˜ $p$λ₯Ό λ™μ μœΌλ‘œ κ²°μ •ν•˜λŠ” 졜적의 μŠ€μΌ€μ€„λ§ μ „λž΅μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘