Sign In

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Wanghan Xu, Yuhao Zhou, Hengyuan Zhao, Shuo Li, Dianzhi Yu, Zhenfei Yin, Yaowen Hu, Fengli Xu, Wanli Ouyang, Wenlong Zhang, Lei Bai

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 μ‚¬μš©μžμ˜ λΉ„νŒμ— 잘λͺ»λœ λ°©ν–₯으둜 μ „ν™˜λ˜λŠ” 문제, 즉 μ²˜μŒμ—λŠ” 정닡을 μ œμ‹œν–ˆμ§€λ§Œ λΉ„νŒ 이후 ν‹€λ¦° λ‹΅λ³€μœΌλ‘œ μ „ν™˜λ˜λŠ” ν˜„μƒμ— μ£Όλͺ©ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ΅œμ’… λ‹΅λ³€μ˜ μ •ν™•μ„±λ³΄λ‹€λŠ” ν„΄ κ°„μ˜ 정확도 μ „ν™˜μ„ 핡심 문제둜 μ„€μ •ν•˜κ³ , 이λ₯Ό ν•΄κ²°ν•˜λŠ” μ „ν™˜ 인식 κ°•ν™” ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬μΈ ReCrit을 μ œμ•ˆν•©λ‹ˆλ‹€. ReCrit은 효과적인 μˆ˜μ •κ³Ό λ§Ήλͺ©μ μΈ 좔쒅을 κ΅¬λΆ„ν•˜κ³ , 과학적 μΆ”λ‘ μ—μ„œ LLM의 신뒰성을 λ†’μ΄λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ „ν™˜ 인식 κ°•ν™” ν•™μŠ΅μ˜ μ€‘μš”μ„±: 과학적 μΆ”λ‘ μ—μ„œ LLM의 μ„±λŠ₯은 λ‹¨μˆœνžˆ μ΅œμ’… λ‹΅λ³€μ˜ μ •ν™•μ„±λΏλ§Œ μ•„λ‹ˆλΌ, μ‚¬μš©μžμ˜ λΉ„νŒμ— μ–Όλ§ˆλ‚˜ 잘 μ μ‘ν•˜κ³  정확도λ₯Ό μœ μ§€ν•˜λŠ”μ§€μ— λ‹¬λ €μžˆμŠ΅λ‹ˆλ‹€. ReCrit은 μ΄λŸ¬ν•œ μ „ν™˜ 과정을 λͺ…ν™•νžˆ μΈμ‹ν•˜κ³  ν•™μŠ΅ν•˜λŠ” κ²ƒμ˜ μ€‘μš”μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ§Ήλͺ©μ  μΆ”μ’…(Sycophancy) λ°©μ§€ 및 견고성 확보: ReCrit은 μœ μš©ν•œ μˆ˜μ •κ³Ό λ§Ήλͺ©μ μΈ 좔쒅을 κ΅¬λΆ„ν•˜μ—¬, LLM이 잘λͺ»λœ λΉ„νŒμ—λ„ 흔듀리지 μ•Šκ³  견고성을 μœ μ§€ν•˜λ„λ‘ λ•μŠ΅λ‹ˆλ‹€. μ΄λŠ” 과학적 μΆ”λ‘ μ˜ 신뒰도λ₯Ό λ†’μ΄λŠ” 데 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
μ‹€μš©μ μΈ μƒν˜Έμž‘μš© ν›ˆλ ¨: 동적 비동기 둀아웃과 꼬리 적응 μ™„λ£Œ 기법을 톡해 μƒν˜Έμž‘μš© ν›ˆλ ¨μ˜ νš¨μœ¨μ„±μ„ λ†’μ—¬, μ‹€μ œ 적용 κ°€λŠ₯성을 ν™•λŒ€ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
데이터 νš¨μœ¨μ„± 및 μΌλ°˜ν™”: ReCrit은 ν™”ν•™, 물리, 지ꡬ과학 λ“± λ‹€μ–‘ν•œ 과학적 μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ μ„±λŠ₯ ν–₯상을 보여, μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯성을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
πŸ‘