Sign In

AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhenlin Wei, Pu Jian, Yingzhuo Deng, Xiaohan Wang, Jiajun Chai, Zhexin Hu, Wei Lin, Shanbin Zhang, Guojun Yin

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λ³΅μž‘ν•œ μΆ”λ‘  λŠ₯λ ₯ ν–₯상은 검증 κ°€λŠ₯ν•œ 보상 기반 κ°•ν™” ν•™μŠ΅(RLVR)에 크게 μ˜μ‘΄ν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방법은 순차적 보상을 λͺ¨λ“  토큰에 κ· μΌν•˜κ²Œ μ μš©ν•˜μ—¬ 토큰별 기여도 할당에 병λͺ© ν˜„μƒμ΄ λ°œμƒν•©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 진단 μ‹ ν˜Έλ₯Ό μ••μΆ•ν•˜μ—¬ κ°„κ²°ν•œ νžŒνŠΈμ™€ λΉ„ν‰μœΌλ‘œ λ§Œλ“œλŠ” λΉ„λŒ€μΉ­ 메타-반영 자기 증λ₯˜(AMR-SD) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
토큰 μˆ˜μ€€μ˜ μ •ν™•ν•œ 기여도 할당을 κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬ LLM의 λ³΅μž‘ν•œ μΆ”λ‘  λŠ₯λ ₯을 효과적으둜 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
진단 μ‹ ν˜Έλ₯Ό μ••μΆ•ν•˜λŠ” λ°˜μ‚¬ 병λͺ© ν˜„μƒμ„ 톡해 직접적인 μ •λ‹΅ λ…ΈμΆœλ‘œ μΈν•œ 과적합 및 정보 λˆ„μˆ˜ 문제λ₯Ό μ™„ν™”ν•©λ‹ˆλ‹€.
β€’
κ³Όν•™, μˆ˜ν•™, 도ꡬ μ‚¬μš© λ“± λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 방법 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 μž…μ¦ν•˜λ©°, μž₯기적인 μ•ˆμ •μ„±μ„ ν™•λ³΄ν•˜κ³  ν›ˆλ ¨ ν›„λ°˜λΆ€ λΆ•κ΄΄λ₯Ό λ°©μ§€ν•©λ‹ˆλ‹€.
β€’
인과 정보 νšλ“(CIG)κ³Ό λΉ„λŒ€μΉ­ ReLU-게이트 μž„κ³„κ°’μ΄λΌλŠ” μƒˆλ‘œμš΄ λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν•˜μ—¬ μ œμ•ˆ λ°©λ²•μ˜ ν˜μ‹ μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 일반적인 적용 κ°€λŠ₯μ„± 및 λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜μ—μ„œμ˜ μ„±λŠ₯ 검증이 μΆ”κ°€μ μœΌλ‘œ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘