[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Codificar o no codificar? Integración de herramientas adaptativas para modelos de lenguaje matemático mediante expectativa-maximización.

Created by
  • Haebom

Autor

Haozhe Wang, Long Li, Chao Qu, Fengming Zhu, Weidi Xu, Wei Chu, Fangzhen Lin

Describir

Este artículo se centra en los avances recientes en la resolución de problemas matemáticos mediante modelos de lenguaje (LM). En particular, señalamos las limitaciones de los marcos híbridos que integran la inferencia de CoT y la ejecución de código para aprovechar las fortalezas de cada uno. Abordamos el problema de que los marcos existentes se basan en instrucciones externas o plantillas fijas de integración de código y carecen de conciencia metacognitiva, es decir, la capacidad de evaluar dinámicamente las capacidades intrínsecas y decidir de forma autónoma cuándo y cómo integrar herramientas. Para abordar estas limitaciones, estudiamos la integración autónoma de código, que permite a los modelos adaptar sus estrategias de uso de herramientas a medida que sus capacidades de inferencia evolucionan durante el aprendizaje. Abordamos los problemas de eficiencia del aprendizaje por refuerzo (RL) y proponemos un nuevo marco de maximización de expectativas (EM) que combina la exploración estructurada (E-step) y la optimización de RL fuera de política (M-step). Este marco crea un ciclo de refuerzo mutuo entre las decisiones de uso de herramientas metacognitivas y la evolución de las capacidades. Los resultados experimentales muestran que el método propuesto logra resultados superiores mediante una exploración mejorada. En particular, el modelo 7B mostró un rendimiento mejorado de más del 11% en MATH500 y del 9,4% en AIME sin CoT tipo o1.

Takeaways, Limitations

Takeaways: Se presenta un nuevo marco EM para la integración autónoma de código, y se demuestra experimentalmente que supera las limitaciones de los enfoques existentes basados en aprendizaje por refuerzo y muestra un rendimiento mejorado. La eficiencia en la resolución de problemas matemáticos se ve mejorada mediante modelos de lenguaje con capacidades metacognitivas.
Limitations: Se requiere mayor investigación sobre la generalidad y escalabilidad del marco EM propuesto. Se debe verificar con mayor profundidad su aplicabilidad a diversos tipos de problemas y herramientas. La mejora actual del rendimiento se limita a conjuntos de datos específicos (MATH500, AIME), y se requiere mayor investigación sobre su generalización a otros dominios.
👍