Este artículo aborda el problema del sesgo de longitud del modelo de recompensa de proceso (PRM), que desempeña un papel fundamental en la evaluación y guía de inferencias de múltiples pasos en modelos de lenguaje a gran escala (LLM). Los PRM existentes sufren el problema del sesgo de longitud, que tiende a otorgar puntuaciones más altas a los pasos de inferencia más largos, incluso cuando su contenido semántico y validez lógica son los mismos. Esto reduce la fiabilidad de las predicciones de recompensa y conduce a resultados excesivamente verbosos en el proceso de inferencia. Para abordar este problema, este artículo propone la eliminación del sesgo de longitud guiada contrafácticamente (CoLD), un marco integrado que mitiga el sesgo de longitud mediante tres componentes: un ajuste explícito de la penalización de longitud, un estimador de sesgo entrenado para capturar señales falsas relacionadas con la longitud y una estrategia de aprendizaje conjunto que refuerza la invariancia de longitud en las predicciones de recompensa. CoLD se basa en la inferencia contrafáctica y está diseñado mediante el análisis de grafos causales. Mediante experimentos exhaustivos con MATH500 y GSM-Plus, demostramos que CoLD reduce consistentemente las correlaciones entre la longitud de la recompensa, mejora la precisión en la selección de pasos y fomenta inferencias más concisas y lógicamente sólidas. Estos resultados demuestran la eficacia y la viabilidad de CoLD para mejorar la fidelidad y la robustez de PRM.