Sign In

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•œ κ°•ν™”ν•™μŠ΅(RLVR) λ°©λ²•λ‘ μ˜ ν•œκ³„μ μ„ μ§€μ ν•©λ‹ˆλ‹€. κΈ°μ‘΄ RLVR은 였λ₯˜μ˜ 원인을 νŒŒμ•…ν•˜κ³  κ²½ν—˜μ„ λ‚΄μž¬ν™”ν•˜λŠ” 메타 ν•™μŠ΅ 과정이 λΆ€μ‘±ν•˜μ—¬ μ„Έλ°€ν•œ μ‹ μš© ν• λ‹Ήκ³Ό μž¬μ‚¬μš© κ°€λŠ₯ν•œ 지식 ν˜•μ„±μ— μ œμ•½μ΄ μžˆλ‹€λŠ” 점을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, μ €μžλ“€μ€ κ³Όκ±° 였λ₯˜μ—μ„œ νŒŒμƒλœ μž¬μ‚¬μš© κ°€λŠ₯ν•œ 지식인 "메타 κ²½ν—˜"을 λͺ¨λΈμ˜ νŒŒλΌλ―Έν„° λ©”λͺ¨λ¦¬μ— ν†΅ν•©ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬μΈ Meta-Experience Learning (MEL)을 μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MEL은 LLM의 자기 검증 λŠ₯λ ₯을 ν™œμš©ν•˜μ—¬ μ˜¬λ°”λ₯Έ μΆ”λ‘  κ²½λ‘œμ™€ 였λ₯˜κ°€ λ°œμƒν•œ 경둜λ₯Ό λŒ€μ‘° λΆ„μ„ν•˜κ³ , 이λ₯Ό μΌλ°˜ν™” κ°€λŠ₯ν•œ 메타 κ²½ν—˜μœΌλ‘œ μš”μ•½ν•©λ‹ˆλ‹€.
β€’
μš”μ•½λœ 메타 κ²½ν—˜μ€ λͺ¨λΈμ˜ νŒŒλΌλ―Έν„° λ©”λͺ¨λ¦¬μ— ν†΅ν•©λ˜μ–΄, μ˜¬λ°”λ₯Έ μΆ”λ‘ κ³Ό 잘λͺ»λœ μΆ”λ‘  μ‚¬μ΄μ˜ 격차λ₯Ό ν•΄μ†Œν•˜κ³  효과적인 지식 μž¬μ‚¬μš©μ„ μ΄‰μ§„ν•©λ‹ˆλ‹€.
β€’
μ‹€ν—˜ κ²°κ³Ό, MEL은 λ‹€μ–‘ν•œ λͺ¨λΈ ν¬κΈ°μ—μ„œ μΌκ΄€μ μœΌλ‘œ 3.92%~4.73%의 Pass@1 μ„±λŠ₯ ν–₯상을 보여 LLM의 μΆ”λ‘  λŠ₯λ ₯을 크게 κ°œμ„ ν•¨μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” 메타 κ²½ν—˜μ„ ν•™μŠ΅ν•˜λŠ” κ³Όμ •μ—μ„œ λ°œμƒν•  수 μžˆλŠ” 좔가적인 λ³΅μž‘μ„±μ΄λ‚˜, λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ 였λ₯˜μ— λŒ€ν•œ 메타 κ²½ν—˜ ν•™μŠ΅μ˜ μΌλ°˜ν™” κ°€λŠ₯성을 νƒκ΅¬ν•˜λŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘