Subtle Errors Matter: Preference Learning via Error-injected Self-editing
Created by
Haebom
Category
Empty
저자
Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li
개요
본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위한 새로운 선호도 학습 프레임워크인 RISE(eRror-Injected Self-Editing)를 제안합니다. 기존 방법들이 다양한 세분성의 샘플을 활용하여 추론 오류를 완화하는 데 초점을 맞춘 반면, RISE는 추론 또는 계산 단계의 중요한 토큰에 미묘하지만 중요한 오류를 의도적으로 주입하여 어려운 샘플 쌍을 생성합니다. LLM 자체를 사용하여 솔루션의 일부 토큰을 편집하여 미묘한 오류를 주입하고, 이렇게 생성된 자체 편집된 솔루션과 정답 솔루션 쌍, 그리고 샘플링을 통해 얻은 정답과 오답 솔루션 쌍을 함께 사용하여 미묘한 오류를 고려한 DPO 학습을 수행합니다. 실험 결과, Qwen2-7B-Instruct에 RISE를 적용하여 GSM8K에서 3.0%, MATH에서 7.9%의 성능 향상을 달성했습니다. 또한, 수학적 추론뿐만 아니라 논리적 추론 및 코드 생성에도 오류 완화 효과가 확장됨을 확인했습니다.
시사점, 한계점
•
시사점:
◦
LLM의 수학적 추론 능력 향상에 효과적인 새로운 선호도 학습 프레임워크 RISE 제시
◦
기존 방법보다 적은 샘플(4.5K)로도 상당한 성능 향상 달성
◦
수학적 추론 뿐 아니라 논리적 추론, 코드 생성에도 적용 가능성 확인
◦
미묘한 오류에 대한 집중적인 접근 방식을 통해 LLM의 성능 한계 돌파 가능성 제시
•
한계점:
◦
RISE의 성능 향상이 특정 LLM(Qwen2-7B-Instruct)과 데이터셋(GSM8K, MATH)에 국한될 가능성 존재