Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Proof2Hybrid: Síntesis automática de referencias matemáticas para problemas centrados en la prueba

작성자
  • Haebom

Autor

Yebo Peng, Zixiang Liu, Yaoming Li, Zhizhuo Yang, Xinye Xu, Bowen Ye, Weijun Yuan, Zihan Wang, Tong Yang

Describir

Para abordar los desafíos de evaluar la capacidad matemática de los modelos lingüísticos a gran escala (LLM), este artículo propone el marco Proof2Hybrid, que genera automáticamente pruebas de referencia de alta calidad basadas en datos matemáticos de lenguaje natural. Mediante una hoja de ruta denominada Proof2X, transformamos las pruebas matemáticas en preguntas diversas y fácilmente verificables. En concreto, presentamos un novedoso formato híbrido de preguntas, "$m$ de $n$ preguntas de múltiples jueces", que son robustas a las conjeturas y a la coincidencia superficial de patrones. Evaluamos LLM de vanguardia utilizando el modelo de referencia AlgGeoTest (456 ítems) para geometría algebraica. Encontramos deficiencias significativas en la comprensión de la geometría algebraica por parte de los LLM, lo que demuestra que esta brecha podría utilizarse para medir con mayor precisión su capacidad matemática. Este estudio presenta nuevas posibilidades para la investigación en profundidad sobre la inteligencia matemática de los sistemas de IA.

Takeaways, Limitations

Takeaways:
Presentación de un marco automatizado (Proof2Hybrid) para evaluar la capacidad matemática en LLM.
Proponer un nuevo tipo de formato de preguntas ("$m$ de $n$ preguntas para múltiples jueces") que supere las limitaciones de los métodos existentes.
Ya está disponible un nuevo punto de referencia para geometría algebraica (AlgGeoTest).
Al revelar cuantitativamente las deficiencias de las capacidades matemáticas de LLM, sugerimos futuras direcciones de investigación.
Limitations:
Se necesita más investigación sobre la generalidad del marco Proof2Hybrid y su aplicabilidad a otros campos matemáticos.
El alcance del benchmark AlgGeoTest se limita a la geometría algebraica.
Se necesitan más investigaciones sobre los valores $m$ y $n$ óptimos para el formato de "$m$ de $n$ preguntas para múltiples jueces".
👍