Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Proof2Hybrid : synthèse automatique de référence mathématique pour les problèmes centrés sur la preuve

작성자
  • Haebom

Auteur

Yebo Peng, Zixiang Liu, Yaoming Li, Zhizhuo Yang, Xinye Xu, Bowen Ye, Weijun Yuan, Zihan Wang, Tong Yang

Contour

Pour relever les défis de l'évaluation des compétences mathématiques des modèles de langage à grande échelle (MLH), cet article propose le cadre Proof2Hybrid, qui génère automatiquement des benchmarks de haute qualité, basés sur la preuve, à partir de données mathématiques en langage naturel. Grâce à une feuille de route appelée Proof2X, nous transformons les preuves mathématiques en questions diversifiées et facilement vérifiables. Plus précisément, nous présentons un nouveau format de questions hybrides, les « questions à juge multiple $m$ sur $n$ », qui résistent aux conjectures et aux correspondances de motifs superficielles. Nous évaluons les LMH de pointe à l'aide du benchmark AlgGeoTest (456 items) pour la géométrie algébrique. Nous constatons des lacunes importantes dans la compréhension de la géométrie algébrique par les LMH, démontrant que cette lacune pourrait être exploitée pour mesurer plus précisément leurs compétences mathématiques. Cette étude ouvre de nouvelles perspectives pour une recherche approfondie sur l'intelligence mathématique des systèmes d'IA.

Takeaways, Limitations_

Takeaways:
Présentation d'un cadre automatisé (Proof2Hybrid) pour évaluer les capacités mathématiques en LLM.
Proposer un nouveau type de format de question (« $m$-sur-$n$ questions à juges multiples ») qui surmonte les limites des méthodes existantes.
Un nouveau benchmark pour la géométrie algébrique (AlgGeoTest) est disponible.
En révélant quantitativement les lacunes des capacités mathématiques des LLM, nous suggérons des orientations de recherche futures.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralité du cadre Proof2Hybrid et son applicabilité à d’autres domaines mathématiques.
La portée du benchmark AlgGeoTest est limitée à la géométrie algébrique.
Des recherches supplémentaires sont nécessaires sur les valeurs optimales $m$ et $n$ pour le format « $m$ sur $n$ questions à juges multiples ».
👍