CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning

작성자

Haebom

카테고리

Empty

저자

Congmin Zheng, Jiachen Zhu, Jianghao Lin, Xinyi Dai, Weiwen Liu, Haoxuan Li, Yong Yu, Weinan Zhang, Mengyue Yang

💡 개요

본 논문은 대규모 언어 모델(LLM)의 다단계 수학 추론을 평가하고 안내하는 데 사용되는 과정 보상 모델(PRM)에서 발생하는 길이 편향 문제를 다룹니다. 제안된 CoLD 프레임워크는 명시적인 길이 페널티 조정, 학습된 편향 추정기, 그리고 길이 불변성을 강제하는 공동 훈련 전략을 통해 이 문제를 해결합니다. 이를 통해 논리적 타당성을 유지하면서도 더 간결하고 정확한 추론을 유도하고, 후속 강화 학습 성능을 향상시킵니다.

🔑 시사점 및 한계

•

PRM의 길이 편향 문제를 명확히 규명하고, 이를 해결하기 위한 통합적인 프레임워크 CoLD를 제시했습니다.

•

CoLD는 수학적 추론의 정확성과 간결성을 동시에 향상시키며, 후속 강화 학습 성능에서도 긍정적인 결과를 보여줍니다.

•

제안된 방법론의 일반화 능력을 입증하여 다양한 도메인에 적용 가능성을 제시합니다.

•

향후 연구에서는 CoLD의 길이 불변성 강제 메커니즘을 더욱 정교화하거나, 수학적 추론 외의 다른 복잡한 다단계 추론 문제로 확장하는 방안을 고려해볼 수 있습니다.

PDF 보기

Made with Slashpage