Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article aborde les problèmes de fiabilité (conception simpliste et contamination des données) des benchmarks mathématiques existants et propose RV-Bench, un nouveau benchmark permettant d'évaluer efficacement la capacité de raisonnement mathématique des modèles de langage à grande échelle (LLM). RV-Bench utilise une fonction pour générer des problèmes à variables aléatoires (RVQ), générant des problèmes « inédits » similaires aux problèmes existants, mais avec des combinaisons aléatoires de variables. Puisque les LLM doivent parfaitement comprendre les schémas inhérents aux problèmes pour répondre avec précision aux RVQ sur diverses combinaisons de variables, la précision et la robustesse de RV-Bench peuvent être utilisées pour évaluer la véritable capacité de raisonnement des LLM. Les résultats expérimentaux portant sur plus de 30 LLM et plus de 1 000 RVQ démontrent que les LLM présentent des déséquilibres de compétence entre les distributions de données visibles et invisibles, et que la généralisation de la compétence à des tâches de raisonnement mathématique similaires est limitée, bien que cela puisse être efficacement induit par l'échelonnement du temps de test.
Takeaways, Limitations
•
Takeaways:
◦
Présentation de RV-Bench, un nouveau benchmark qui surmonte les limites des benchmarks mathématiques existants.
◦
Le LLM peut évaluer la véritable capacité de raisonnement mathématique
◦
Révéler le déséquilibre des compétences et les limites de la capacité de généralisation en raison de la distribution des données du LLM
◦
Suggérant la possibilité d'améliorer les compétences grâce à l'échelonnement du temps de test
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires sur la polyvalence et l’évolutivité de RV-Bench.
◦
Une analyse plus détaillée des effets de l’échelle de temps des tests est nécessaire.
◦
La nécessité de vérifier la généralisabilité à divers types de problèmes de raisonnement mathématique.