Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Putnam-AXIOM : une référence fonctionnelle et statique pour mesurer le raisonnement mathématique de niveau supérieur dans les LLM

Created by
  • Haebom

Auteur

Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo

Contour

Cet article présente Putnam-AXIOM, un nouveau benchmark permettant d'évaluer la capacité de raisonnement mathématique des modèles de langage à grande échelle (MLL). Pour résoudre le problème de surapprentissage inhérent aux benchmarks existants, l'article présente Putnam-AXIOM Variations, un ensemble de 100 problèmes variants générés par la modification de variables et de constantes, basé sur 522 problèmes du prestigieux concours de mathématiques William Lowell Putnam. Putnam-AXIOM Variations atténue le surapprentissage en générant un nombre infini de nouveaux problèmes de difficulté similaire. Les résultats expérimentaux montrent que même le modèle le plus performant, o1-preview d'OpenAI, a atteint une précision de 41,9 % sur l'ensemble de problèmes initial, mais que sa précision a diminué de 19,6 % sur l'ensemble de variantes. Cela démontre la tendance des LLM à simplement mémoriser les problèmes et souligne la nécessité d'un benchmark dynamique. Outre la mesure de la précision, l'article présente la métrique Teacher-Forced Accuracy (TFA), qui évalue directement le processus de raisonnement. Les données et le code d'évaluation sont accessibles au public.

Takeaways, Limitations_

Takeaways:
Un nouveau benchmark, Putnam-AXIOM, est présenté pour résoudre le problème de surapprentissage des benchmarks existants.
Fournit des critères d'évaluation objectifs et rigoureux pour la capacité de raisonnement mathématique du LLM
Révéler la tendance à la mémorisation simple dans le LLM et souligner la nécessité d'une analyse comparative dynamique
La précision imposée par l'enseignant (TFA), une nouvelle mesure permettant d'évaluer les processus de raisonnement, est proposée.
Fournit une analyse approfondie de l’état actuel des capacités de raisonnement mathématique des modèles linguistiques à grande échelle.
Limitations:
Putnam-AXIOM se concentre sur les problèmes mathématiques avancés, son applicabilité à l’évaluation des capacités de raisonnement dans d’autres domaines peut donc être limitée.
Des recherches supplémentaires sont nécessaires pour déterminer la généralité et l’objectivité de l’indicateur TFA.
La possibilité de difficultés de généralisation en raison de la nature spécifique du problème de concurrence de Putnam.
👍