Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CoreThink: una capa de razonamiento simbólico para razonar sobre tareas de horizonte largo con LLM

Created by
  • Haebom

Autor

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

Describir

CoreThink es una capa de inferencia de vanguardia basada en un novedoso método de inferencia denominado Simbólica General. Se diferencia de paradigmas de inferencia existentes, como el escalamiento en tiempo de prueba, el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo con recompensas verificables (RLVR). El Razonador Simbólico General (GSR) de CoreThink se estructura en torno a tres casos de uso clave: invocación de herramientas, generación de código y planificación, y demuestra un rendimiento excepcional en siete pruebas de referencia en cada dominio. En concreto, alcanzó puntuaciones de rendimiento de vanguardia (SOTA) del 66,66 % en Livecodebench v6, del 89 % en las Evaluaciones de Seguimiento de Instrucciones y del 24,4 % en ARC-AGI-2. Además, presentamos un IDE de codificación de agentes desarrollado con los principios de Simbólica General, que alcanza una precisión de vanguardia del 62,3 % en SWE-Bench Lite. Esta mejora del rendimiento se logró sin costes de ajuste fino ni entrenamiento. La capa de inferencia de CoreThink está diseñada para ofrecer mejoras de rendimiento puras, garantizando que la precisión de las tareas de inferencia del modelo nunca se degrade. Los autores argumentan que los métodos existentes, en última instancia, conducirán a una disminución del rendimiento de LLM, lo que requerirá el desarrollo de nuevas técnicas de inferencia. Este informe técnico detalla el enfoque de CoreThink a un alto nivel y la disponibilidad de los modelos de CoreThink para casos de uso intensivos en inferencia.

Takeaways, Limitations

Takeaways:
Presentamos CoreThink, un nuevo método de razonamiento basado en la simbología general.
Rendimiento excepcional en comparación con los métodos existentes (SFT, RLVR, etc.) (SOTA logrado en múltiples puntos de referencia, incluidos Livecodebench v6, Instruction-Following Evals, ARC-AGI-2, SWE-Bench Lite, etc.).
Logre mejoras en el rendimiento sin el costo de ajustes y capacitación.
Apertura de modelos para casos de uso con inferencia intensiva.
Sugiriendo la necesidad de nuevas técnicas de inferencia para mejorar el rendimiento del LLM.
Limitations:
Los detalles específicos del método de Simbología General presentado en este artículo no se describen en detalle.
Si bien mostró un excelente desempeño en varios puntos de referencia, su desempeño en algunos puntos de referencia fue relativamente bajo (por ejemplo, ARC-AGI-2 24,4%).
Se necesita más investigación sobre el rendimiento de generalización y la escalabilidad de General Symbolics.
Se necesita una mayor validación de las aplicaciones prácticas y limitaciones de CoreThink.
👍