Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

Created by

Haebom

저자

Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang, Tat-Seng Chua

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 중요한 역할을 하는 Chain-of-Thought(CoT) 추론을 효과적으로 보상하는 방법론의 어려움에 주목합니다. 기존 방식은 인간의 많은 레이블링 노력이 필요하며, 고정된 보상 모델은 CoT 분포의 변화나 보상 해킹에 취약하다는 단점을 가집니다. 이에 저자들은 인간의 주석 없이도 스스로 발전하는 자율적인 CoT 보상 방식을 제안하며, 이를 통해 기존의 결과 중심 강화 학습 기법을 능가하는 성능을 달성합니다.

🔑 시사점 및 한계

•

인간 주석 없이도 CoT 추론을 효과적으로 보상할 수 있는 자율적인 방법론(RLCER)을 제안합니다.

•

스스로 제안하고 발전하는 루브릭(rubrics)을 통해 CoT 추론에 대한 신뢰할 수 있는 지도 신호를 제공합니다.

•

제안된 방법론은 결과 중심 강화 학습 기법보다 우수한 성능을 보이며, 프롬프트 힌트로 사용될 경우 추론 시점 성능도 향상시킵니다.

•

현재 연구는 CoT 추론의 품질을 평가하기 위한 루브릭 생성 및 진화 메커니즘의 일반화 가능성 및 다양한 추론 작업에 대한 적용 범위를 추가적으로 탐색해야 할 필요가 있습니다.

PDF 보기

Made with Slashpage