Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing
Created by
Haebom
저자
Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li
개요
본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위한 새로운 선호도 학습 프레임워크인 RISE(eRror-Injected Self-Editing)를 제안합니다. 기존 연구들이 단계별 솔루션 쌍에 선호도 학습을 적용하는 방식과 달리, RISE는 추론 또는 계산 단계의 중요 토큰에 미리 정의된 미묘한 오류를 주입하여 오류 완화를 위한 어려운 쌍을 구성합니다. LLM 자체를 사용하여 솔루션의 소수 토큰을 편집하여 의도적인 미묘한 오류를 주입하고, 이렇게 자체 편집된 솔루션과 그에 해당하는 정답, 그리고 샘플링을 통해 얻은 정답과 오답 쌍을 함께 사용하여 미묘한 오류를 고려한 DPO 훈련을 수행합니다. Qwen2-7B-Instruct에 대한 선호도 학습 실험 결과, GSM8K에서 3.0%, MATH에서 7.9%의 향상을 보였으며, 오류 완화 효과는 수학적 추론뿐 아니라 논리적 추론 및 코드 생성에도 확장됨을 보였습니다.