Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Simulation de code comme proxy pour les tâches d'ordre élevé dans les grands modèles de langage

Created by
  • Haebom

Auteur

Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge

Contour

Cet article présente une étude sur l'utilisation de tâches d'inférence en langage naturel et de tâches d'inférence générées artificiellement pour évaluer la capacité d'inférence de modèles linguistiques à grande échelle (MLH). Les tâches d'inférence en langage naturel étant difficiles à générer manuellement, nous créons un jeu de données artificiel facile à générer à grande échelle en utilisant la structure de base de la programmation (par exemple, programmes linéaires, codes avec chemins critiques, instructions approximatives et redondantes, etc.). Nous évaluons la capacité des MLH en utilisant des jeux de données artificiels supplémentaires présentant des problèmes d'alignement et des opérations répétées, et montrons que même les MLH les plus puissants s'appuient fortement sur la mémoire et la reconnaissance de formes et présentent des processus d'inférence faibles. Cette étude contribue à tester artificiellement la capacité d'inférence des MLH de manière évolutive, en complément des tâches annotées manuellement.

Takeaways, Limitations_

Takeaways:
Une méthode permettant de générer des ensembles de données artificielles évolutifs pour évaluer la capacité d'inférence du LLM est présentée.
Présentation des résultats de l'évaluation de la capacité d'inférence des LLM à l'aide d'ensembles de données artificiels (même les LLM puissants présentent des faiblesses car ils s'appuient sur la mémoire et la reconnaissance de formes)
Proposer une méthode d'évaluation complète combinant des tâches d'inférence en langage naturel et des ensembles de données artificiels
Limitations:
Il est nécessaire de vérifier si les ensembles de données artificiels peuvent parfaitement remplacer les tâches réelles d'inférence en langage naturel.
Des analyses et des mesures d’amélioration supplémentaires sont nécessaires pour remédier aux vulnérabilités du processus de raisonnement du LLM.
Il est nécessaire de vérifier la généralisabilité à divers types de tâches de raisonnement.
👍