본 논문은 대규모 언어 모델(LLM)의 다단계 추론 평가 및 안내에 중추적인 역할을 하는 프로세스 보상 모델(PRM)의 길이 편향 문제를 다룹니다. 기존 PRM은 의미 내용과 논리적 타당성이 동일하더라도 더 긴 추론 단계에 더 높은 점수를 부여하는 경향이 있는 길이 편향 문제를 가지고 있습니다. 이는 보상 예측의 신뢰성을 저해하고 추론 과정에서 과도하게 장황한 결과물을 초래합니다. 이 문제를 해결하기 위해 본 논문은 세 가지 구성 요소(명시적 길이 패널티 조정, 허위 길이 관련 신호를 포착하도록 학습된 편향 추정기, 보상 예측에서 길이 불변성을 강화하는 공동 학습 전략)를 통해 길이 편향을 완화하는 통합 프레임워크인 CoLD(Counterfactually-Guided Length Debiasing)를 제안합니다. CoLD는 반사실적 추론에 기반하고 인과 그래프 분석을 통해 고안되었습니다. MATH500 및 GSM-Plus에 대한 광범위한 실험을 통해 CoLD가 보상-길이 상관관계를 일관되게 감소시키고, 단계 선택의 정확도를 향상시키며, 보다 간결하고 논리적으로 타당한 추론을 장려함을 보여줍니다. 이러한 결과는 PRM의 충실도와 강건성을 향상시키는 데 있어 CoLD의 효과와 실용성을 입증합니다.