Sign In

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jianbo Lin, Xiaomin Yu, Yi Xin, Yifu Guo, Zhuosong Jiang, Zhongqi Yue, Weishi Wang, Heqing Zou, Chengwei Qin, Hui Xiong

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) 기반 μ—μ΄μ „νŠΈλŠ” 였λ₯˜λ₯Ό λ²”ν•˜μ§€λ§Œ, 비평(critique)을 톡해 μ˜¬λ°”λ₯Έ ν–‰λ™μœΌλ‘œ μœ λ„λ  수 μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 비평이 제거되면 λ™μΌν•œ 였λ₯˜λ₯Ό λ°˜λ³΅ν•˜λŠ” λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ„ μ‚¬μš©ν•˜μ—¬ 자기 비평을 λ‚΄λ©΄ν™”ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬μΈ ICRL을 μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 비평에 μ˜μ‘΄ν•˜μ§€ μ•Šκ³  슀슀둜 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” λŠ₯λ ₯을 ν•™μŠ΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
핡심 μ‹œμ‚¬μ  1: ICRL ν”„λ ˆμž„μ›Œν¬λŠ” λΉ„ν‰μœΌλ‘œλΆ€ν„°μ˜ 성곡을 μ†”λ²„μ˜ λ…μžμ μΈ λŠ₯λ ₯으둜 μ „ν™˜μ‹œμΌœ, 비평 제거 μ‹œμ—λ„ μ„±λŠ₯ μ €ν•˜λ₯Ό λ°©μ§€ν•©λ‹ˆλ‹€.
β€’
핡심 μ‹œμ‚¬μ  2: μ œμ•ˆλœ λ©”μ»€λ‹ˆμ¦˜(뢄포 보정 μž¬κ°€μ€‘μΉ˜ 및 역할별 κ·Έλ£Ή μ–΄λ“œλ°΄ν‹°μ§€ μΆ”μ •)을 톡해 μ†”λ²„λŠ” 비평에 μ˜μ‘΄ν•˜λŠ” λŒ€μ‹  자체적인 κ°œμ„ μ„ ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ 방법둠은 λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μœΌλ‚˜, 더 λ³΅μž‘ν•˜κ³  λ‹€μ–‘ν•œ μœ ν˜•μ˜ 였λ₯˜μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ ν–₯상 및 비평 생성 λͺ¨λΈμ˜ 좔가적인 κ°œμ„  κ°€λŠ₯성에 λŒ€ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘