Sign In

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Peng Cui, Boyao Yang, Jun Zhu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μˆ˜ν•™μ  μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•œ κ°•ν™” ν•™μŠ΅(RL) ν›„μ²˜λ¦¬ κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 계산 νš¨μœ¨μ„± 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λͺ¨λΈμ˜ ν•™μŠ΅ 경계선에 계산 μžμ›μ„ μ§‘μ€‘μ‹œν‚€λŠ” 'Learning-Zone Energy(LZE)'λΌλŠ” 온라인 데이터 선택 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. LZEλŠ” 초기 λ‚œμ΄λ„, κ²°κ³Ό λΆˆν™•μ‹€μ„±, μ§„ν–‰λ₯  λͺ¨λ©˜ν…€μ„ ν†΅ν•©ν•œ 'Learning-Zone Energy Score'λ₯Ό 톡해 효율적인 데이터 선별을 μˆ˜ν–‰ν•˜λ©°, 이λ₯Ό 톡해 κΈ°μ‘΄ 방식 λŒ€λΉ„ 훨씬 적은 λ°μ΄ν„°λ‘œλ„ μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RL ν›„μ²˜λ¦¬μ—μ„œ λ‚­λΉ„λ˜λŠ” 계산 μžμ›μ„ μ΅œμ†Œν™”ν•˜κ³  νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 데이터 선택 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ LZE ν”„λ ˆμž„μ›Œν¬λŠ” 이둠적 κ·Όκ±°λ₯Ό λ°”νƒ•μœΌλ‘œ ν•˜λ©°, μ‹€μ œ μ‹€ν—˜ κ²°κ³Όμ—μ„œ 적은 λ°μ΄ν„°λ‘œλ„ κΈ°μ‘΄ λͺ¨λΈ λŒ€λΉ„ μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ 초과 λ‹¬μ„±ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. 특히 뢄포 μ™Έ(out-of-distribution) μ„±λŠ₯ ν–₯상이 λ‘λ“œλŸ¬μ§‘λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ LZEλŠ” ν˜„μž¬κΉŒμ§€μ˜ μ‹€ν—˜ 결과에 κΈ°λ°˜ν•˜λ©°, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 λ³΅μž‘ν•œ μΆ”λ‘  νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 잠재적인 μΆ”κ°€ μ΅œμ ν™” λ°©μ•ˆμ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘