Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los grandes errores del modelo lingüístico surgen de la alucinación de características críticas del problema

Created by
  • Haebom

Autor

Alex Heyman, Joel Zylberberg

Describir

Este artículo analiza las causas de errores de inferencia en Modelos de Lenguaje de Razonamiento Grande (RLLM) entrenados con la estrategia Cadena de Pensamiento (CoT). Aplicamos el problema de coloración de grafos, un problema de lógica de satisfacción de restricciones de complejidad variable, a los modelos o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview y Grok 3 Mini Beta. Observamos que un número significativo de errores en todos los modelos se debe a alucinaciones de aristas de grafos no especificadas explícitamente en la instrucción. Este fenómeno de alucinación persiste independientemente de la complejidad del problema y del marco semántico, y confirmamos que se generaliza a experimentos a pequeña escala sobre problemas de emparejamiento estable. Este estudio identifica un problema en el que los RLLM tergiversan las características del problema y propone una estrategia de diseño para mitigarlo.

Takeaways, Limitations

Takeaways: Hemos revelado que una parte significativa de los errores de inferencia en los RLLM se debe a la alucinación de información que contradice los datos de entrada. Esto tiene importantes implicaciones para el desarrollo y el uso de los RLLM. También sugiere la necesidad de explorar estrategias de diseño para abordar el problema de la representación de errores en las características del problema.
Limitations: Si bien se han extraído conclusiones generalizadas con base en resultados experimentales para problemas de coloración de grafos y emparejamiento estable, se requiere más investigación para determinar la generalización de estos resultados a otros tipos de problemas. Se carece de verificación empírica de la eficacia del diseño propuesto.
👍