Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation de la gestion des dépendances à longue portée dans les LLM de génération de code

Created by
  • Haebom

Auteur

Yannick Assogba, Donghao Ren

Contour

Cet article analyse la capacité de plusieurs modèles de génération de code à gérer les dépendances à longue portée à l'aide de tâches de recherche de clés en plusieurs étapes, avec des fenêtres contextuelles pouvant atteindre 8 000 jetons. En utilisant des tâches de plus en plus difficiles, nous évaluons les performances des modèles de manière plus fine qu'un simple test de recherche d'aiguilles. En particulier, nous constatons que de nombreux modèles présentent des dégradations de performances allant jusqu'à deux ordres de grandeur lorsqu'une fonction fait référence à une autre fonction définie plus loin dans l'invite. Nous constatons également que les modèles utilisant des mécanismes d'attention par fenêtre glissante peinent à gérer les références plus éloignées qu'une seule fenêtre. Nous montrons que de simples modifications de l'invite à l'aide d'informations de graphe d'appels peuvent améliorer les performances de recherche en plusieurs étapes jusqu'à trois ordres de grandeur. Cette analyse souligne la nécessité d'une prise en compte plus approfondie des performances contextuelles des textes longs, au-delà de la recherche de faits uniques dans les documents.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode d’évaluation plus granulaire de la capacité à gérer les dépendances à longue distance.
Clarification des capacités __T4060__ du modèle de génération de code pour la gestion du contexte long (en particulier les limitations des références interfonctionnelles et des mécanismes d'attention des fenêtres coulissantes).
Suggérant la possibilité d’améliorer les performances en utilisant les informations du graphique d’appel.
Souligne la nécessité d’une évaluation approfondie des performances contextuelles au long cours, au-delà de la simple recherche de faits.
Limitations:
Limites sur le type et le nombre de modèles de génération de code utilisés dans l'analyse.
Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations de performances grâce à l’utilisation des informations du graphique d’appels sont applicables à tous les cas.
Manque d'analyse des performances pour les contextes supérieurs à 8 000 jetons.
👍