Sign In

Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

Created by
  • Haebom
Category
Empty

μ €μž

Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang, Tat-Seng Chua

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•΄ μ€‘μš”ν•œ 역할을 ν•˜λŠ” Chain-of-Thought(CoT) 좔둠을 효과적으둜 λ³΄μƒν•˜λŠ” λ°©λ²•λ‘ μ˜ 어렀움에 μ£Όλͺ©ν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방식은 μΈκ°„μ˜ λ§Žμ€ λ ˆμ΄λΈ”λ§ λ…Έλ ₯이 ν•„μš”ν•˜λ©°, κ³ μ •λœ 보상 λͺ¨λΈμ€ CoT λΆ„ν¬μ˜ λ³€ν™”λ‚˜ 보상 해킹에 μ·¨μ•½ν•˜λ‹€λŠ” 단점을 κ°€μ§‘λ‹ˆλ‹€. 이에 μ €μžλ“€μ€ μΈκ°„μ˜ 주석 없이도 슀슀둜 λ°œμ „ν•˜λŠ” 자율적인 CoT 보상 방식을 μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 기쑴의 κ²°κ³Ό 쀑심 κ°•ν™” ν•™μŠ΅ 기법을 λŠ₯κ°€ν•˜λŠ” μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인간 주석 없이도 CoT 좔둠을 효과적으둜 보상할 수 μžˆλŠ” 자율적인 방법둠(RLCER)을 μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
슀슀둜 μ œμ•ˆν•˜κ³  λ°œμ „ν•˜λŠ” 루브릭(rubrics)을 톡해 CoT 좔둠에 λŒ€ν•œ μ‹ λ’°ν•  수 μžˆλŠ” 지도 μ‹ ν˜Έλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 κ²°κ³Ό 쀑심 κ°•ν™” ν•™μŠ΅ 기법보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이며, ν”„λ‘¬ν”„νŠΈ 힌트둜 μ‚¬μš©λ  경우 μΆ”λ‘  μ‹œμ  μ„±λŠ₯도 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—°κ΅¬λŠ” CoT μΆ”λ‘ μ˜ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜κΈ° μœ„ν•œ 루브릭 생성 및 μ§„ν™” λ©”μ»€λ‹ˆμ¦˜μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€μ–‘ν•œ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ 적용 λ²”μœ„λ₯Ό μΆ”κ°€μ μœΌλ‘œ 탐색해야 ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘