[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VAR-MATH : Sonder le véritable raisonnement mathématique dans les grands modèles de langage via des repères multi-instances symboliques

Created by
  • Haebom

Auteur

Jian Yao, Ran Cheng, Kay Chen Tan

Contour

Cet article identifie les problèmes rencontrés dans l'évaluation des performances des modèles de langage à grande échelle (MLH) qui améliorent les capacités de raisonnement mathématique grâce à l'apprentissage par renforcement (AR). Il propose un nouveau cadre d'évaluation, VAR-MATH, pour les résoudre. Les méthodes d'évaluation existantes présentent des problèmes de contamination et de fragilité des critères de référence. VAR-MATH les résout en imposant une inférence cohérente en transformant les problèmes numériques en modèles symboliques et en exigeant la résolution de plusieurs instances. Lorsque les critères de référence AMC23 et AIME24 sont transformés à l'aide de VAR-MATH, les performances des modèles entraînés par AR sont considérablement dégradées, ce qui suggère que les méthodes d'AR existantes reposent sur des heuristiques superficielles et ne parviennent pas à généraliser au-delà de formats numériques spécifiques.

Takeaways, Limitations

Takeaways:
Présenter clairement les limites de l’évaluation de la capacité de raisonnement mathématique des LLM existants basés sur l’apprentissage par renforcement.
Un nouveau cadre d’évaluation, VAR-MATH, est présenté pour traiter les problèmes de contamination des références et de vulnérabilité des évaluations.
VAR-MATH révèle que les modèles formés par RL reposent sur des heuristiques superficielles.
Souligne l’importance d’une évaluation plus rigoureuse et généralisée des capacités de raisonnement mathématique.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si VAR-MATH peut être appliqué à tous les types de problèmes de raisonnement mathématique.
La complexité et le coût du processus de transformation du problème pour l’application de VAR-MATH doivent être pris en compte.
Une analyse plus approfondie est nécessaire pour déterminer si la dégradation des performances des modèles évalués par VAR-MATH est uniquement due à des heuristiques superficielles.
👍