Sign In

P^2O: Joint Policy and Prompt Optimization

Created by
  • Haebom
Category
Empty

μ €μž

Xinyu Lu, Kaiqi Zhang, Jinglin Yang, Boxi Cao, Yaojie Lu, Hongyu Lin, Min He, Xianpei Han, Le Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ„ 톡해 LLM의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λ €λŠ” RLVR 방법둠이 μ–΄λ €μš΄ μƒ˜ν”Œμ—μ„œ λ°œμƒν•˜λŠ” μž₯점 λΆ•κ΄΄(advantage collapse) 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ P$^2$OλΌλŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. P$^2$OλŠ” μ •μ±… μ—…λ°μ΄νŠΈμ™€ ν”„λ‘¬ν”„νŠΈ μ§„ν™”λ₯Ό λ²ˆκ°ˆμ•„ μˆ˜ν–‰ν•˜λ©°, GEPA μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜μ—¬ ν•΄κ²°ν•˜κΈ° μ–΄λ €μš΄ λ¬Έμ œμ— λŒ€ν•œ 효과적인 μΆ”λ‘  ν”„λ‘¬ν”„νŠΈλ₯Ό λ°œκ²¬ν•©λ‹ˆλ‹€. μ»¨ν…μŠ€νŠΈ 증λ₯˜λ₯Ό 톡해 λͺ¨λΈμ€ ν”„λ‘¬ν”„νŠΈμ—μ„œ 얻은 이득을 직접 νŒŒλΌλ―Έν„°μ— λ‚΄μž¬ν™”ν•˜μ—¬ μΆ”λ‘  μ‹œ λ³„λ„μ˜ ν”„λ‘¬ν”„νŠΈ 없이도 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
P$^2$OλŠ” μ–΄λ €μš΄ μƒ˜ν”Œμ—μ„œλ„ μ€‘μš”ν•œ ν•™μŠ΅ μ‹ ν˜Έλ₯Ό λ³΅μ›ν•˜μ—¬ κΈ°μ‘΄ GRPO 및 더 큰 둀아웃 μ˜ˆμ‚° 기반의 λͺ¨λΈλ³΄λ‹€ 훨씬 λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 ν¬μ†Œ 보상 ν™˜κ²½μ—μ„œ ν‘œμ€€ νƒμƒ‰μ˜ ν•œκ³„λ₯Ό λ“œλŸ¬λ‚΄κ³ , μ§„ν™” μ•Œκ³ λ¦¬μ¦˜κ³Ό κ°•ν™”ν•™μŠ΅μ˜ 결합이 LLM 정렬에 λŒ€ν•œ μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
이산적 의미둠적 탐색과 연속적 νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈλ₯Ό ν†΅ν•©ν•œ P$^2$OλŠ” LLM 정렬을 μœ„ν•œ μžκ°€ κ°•ν™” νŒ¨λŸ¬λ‹€μž„μ„ κ΅¬μΆ•ν•˜λ©°, 9.5%κΉŒμ§€ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) GEPA μ•Œκ³ λ¦¬μ¦˜μ˜ μ—°μ‚° λ³΅μž‘μ„± 및 ν”„λ‘¬ν”„νŠΈ 탐색 κ³΅κ°„μ˜ 크기가 P$^2$O의 ν™•μž₯성에 영ν–₯을 λ―ΈμΉ  수 있으며, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘