Sign In

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ˜ κ°•ν™”ν•™μŠ΅ 기반 μΆ”λ‘  λŠ₯λ ₯ ν–₯상 μ‹œ λ°œμƒν•˜λŠ” 높은 계산 λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄, 논문은 곡유된 μ΅œμ ν™” 이λ ₯을 기반으둜 κ²½λŸ‰ 생성 λͺ¨λΈμ„ ν•™μŠ΅μ‹œμΌœ ν”„λ‘¬ν”„νŠΈ λ‚œμ΄λ„λ₯Ό μΆ”λ‘ ν•˜λŠ” μΌλ°˜ν™” κ°€λŠ₯ν•œ 예츑 ν”„λ‘¬ν”„νŠΈ 선택(GPS) 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. GPSλŠ” 쀑간 λ‚œμ΄λ„ μš°μ„ μˆœμœ„ν™”μ™€ 이λ ₯ 기반 λ‹€μ–‘μ„± 확보λ₯Ό 톡해 효율적인 ν”„λ‘¬ν”„νŠΈ 배치 선택을 μˆ˜ν–‰ν•˜λ©°, μ‹€ν—˜ κ²°κ³Ό ν•™μŠ΅ νš¨μœ¨μ„±, μ΅œμ’… μ„±λŠ₯, ν…ŒμŠ€νŠΈ μ‹œκ°„ νš¨μœ¨μ„± μΈ‘λ©΄μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ˜ κ°•ν™”ν•™μŠ΅ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ 획기적으둜 κ°œμ„ ν•  수 μžˆλŠ” μΌλ°˜ν™” κ°€λŠ₯ν•œ 예츑 ν”„λ‘¬ν”„νŠΈ 선택 기법을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν”„λ‘¬ν”„νŠΈλ³„ λͺ¨λΈ ꡬ좕 없이도 μΌλ°˜ν™” μ„±λŠ₯을 ν™•λ³΄ν•˜μ—¬, λ‹€μ–‘ν•œ μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 기법 λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±κ³Όλ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ GPS κΈ°λ²•μ˜ μΌλ°˜ν™” λŠ₯λ ₯이 μ‹€μ œ λ‹€μ–‘ν•œ 도메인과 μž‘μ—…μ— μ–Όλ§ˆλ‚˜ 효과적으둜 적용될 수 μžˆλŠ”μ§€ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘