Sign In

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Weichen Yu, Xiaomin Li, Yizhou Zhao, Xiaoze Liu, Ruowang Zhang, Haixin Wang, Yinyi Luo, Chen Henry Wu, Gaurav Mittal, Matt Fredrikson, Yu Hu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 ν¬μ†Œν•œ 검증 λ³΄μƒμœΌλ‘œ 사후 ν›ˆλ ¨λ  λ•Œ λ°œμƒν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 닀쀑 둀아웃 온-ν΄λ¦¬μ‹œ 증λ₯˜(MOPD) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. MOPDλŠ” ν•™μƒμ˜ μ—¬λŸ¬ 둀아웃 그룹을 ν™œμš©ν•˜μ—¬ 성곡 및 μ‹€νŒ¨ 사둀λ₯Ό λͺ¨λ‘ κ³ λ €ν•œ ꡐ사 μ‹ ν˜Έλ₯Ό κ΅¬μ„±ν•˜λ©°, 이λ₯Ό 톡해 둀아웃 κ°„μ˜ 독립성을 μ œκ±°ν•˜κ³  더 ν’λΆ€ν•œ 지도 ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, MOPDλŠ” ν‘œμ€€ 온-ν΄λ¦¬μ‹œ 증λ₯˜λ³΄λ‹€ μΌκ΄€λ˜κ²Œ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μœΌλ©°, μ΄λŠ” μΈμŠ€ν„΄μŠ€λ³„ 적응적인 지도 ν•™μŠ΅μ΄ μ΄λ£¨μ–΄μ‘ŒμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œμ‚¬μ  1: LLM의 온-ν΄λ¦¬μ‹œ 증λ₯˜μ—μ„œ 학생이 μƒμ„±ν•œ λ‹€μ–‘ν•œ 둀아웃(성곡 및 μ‹€νŒ¨ 포함)은 λ‹¨μˆœνžˆ κ°œλ³„ μƒ˜ν”Œλ‘œ μ·¨κΈ‰λ˜κΈ°λ³΄λ‹€ μƒν˜Έ μ°Έμ‘°ν•˜μ—¬ 더 효과적인 ν•™μŠ΅ μ‹ ν˜Έλ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ‹œμ‚¬μ  2: 성곡적인 둀아웃은 μ˜¬λ°”λ₯Έ μΆ”λ‘  νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜λ„λ‘ 돕고, μ‹€νŒ¨ν•œ 둀아웃은 λ°œμƒ κ°€λŠ₯ν•œ 였λ₯˜λ₯Ό μ‹λ³„ν•˜μ—¬ ν”Όν•˜λ„λ‘ μ§€λ„ν•˜λŠ” 데 μœ μš©ν•˜λ©°, μ΄λŸ¬ν•œ ν˜Όν•©λœ μ»¨ν…μŠ€νŠΈκ°€ κ²€μ¦μž λ³΄μƒκ³Όμ˜ 더 λ‚˜μ€ 정렬을 μœ λ„ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ MOPD 방법이 λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 νƒœμŠ€ν¬μ— 걸쳐 μΌλ°˜ν™”λ  수 μžˆλŠ”μ§€μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•˜λ©°, ꡐ사 μ‹ ν˜Έ ꡬ성 λ°©μ‹μ˜ μ΅œμ ν™”λ₯Ό μœ„ν•œ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘