[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CoLD: Dessesgo de longitud guiado contrafácticamente para modelos de recompensa de procesos

Created by
  • Haebom

Autor

Congmin Zheng, Jiachen Zhu, Jianghao Lin, Xinyi Dai, Yong Yu, Weinan Zhang, Mengyue Yang

Describir

Este artículo aborda el problema del sesgo de longitud del modelo de recompensa de proceso (PRM), que desempeña un papel fundamental en la evaluación y guía de inferencias de múltiples pasos en modelos de lenguaje a gran escala (LLM). Los PRM existentes sufren el problema del sesgo de longitud, que tiende a otorgar puntuaciones más altas a los pasos de inferencia más largos, incluso cuando su contenido semántico y validez lógica son los mismos. Esto reduce la fiabilidad de las predicciones de recompensa y conduce a resultados excesivamente verbosos en el proceso de inferencia. Para abordar este problema, este artículo propone la eliminación del sesgo de longitud guiada contrafácticamente (CoLD), un marco integrado que mitiga el sesgo de longitud mediante tres componentes: un ajuste explícito de la penalización de longitud, un estimador de sesgo entrenado para capturar señales falsas relacionadas con la longitud y una estrategia de aprendizaje conjunto que refuerza la invariancia de longitud en las predicciones de recompensa. CoLD se basa en la inferencia contrafáctica y está diseñado mediante el análisis de grafos causales. Mediante experimentos exhaustivos con MATH500 y GSM-Plus, demostramos que CoLD reduce consistentemente las correlaciones entre la longitud de la recompensa, mejora la precisión en la selección de pasos y fomenta inferencias más concisas y lógicamente sólidas. Estos resultados demuestran la eficacia y la viabilidad de CoLD para mejorar la fidelidad y la robustez de PRM.

Takeaways, Limitations

Takeaways:
Presentamos el marco CoLD que resuelve eficazmente el problema de sesgo de longitud de los PRM existentes.
Mejorar la confiabilidad de la predicción de recompensas y garantizar la simplicidad del proceso de inferencia a través de CoLD.
Se presenta un nuevo enfoque basado en el razonamiento contrafáctico y el análisis de grafos causales.
Validación experimental de la eficacia de CoLD en los conjuntos de datos MATH500 y GSM-Plus.
Limitations:
El rendimiento de CoLD puede variar según el conjunto de datos utilizado y el tipo de problema.
Se necesita más investigación sobre el rendimiento de generalización de CoLD.
Falta análisis del coste computacional y la complejidad del marco propuesto actualmente.
👍