Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles de langage généralisent mal la longueur des options, les types de problèmes et les remplacements de noms non pertinents

Created by
  • Haebom

Auteur

Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang

Contour

Cet article propose un « test de stress de généralisation » pour évaluer la capacité de généralisation des modèles linguistiques à grande échelle (MLH). Nous évaluons cette capacité en appliquant des modifications mineures et contrôlées à la longueur des options, au type de question et aux substitutions de noms non pertinents. Les résultats expérimentaux révèlent que malgré des scores de référence élevés, les LH présentent une dégradation significative de la précision et des biais inattendus (par exemple, une préférence pour les réponses incorrectes plus longues) face à ces modifications mineures préservant le contenu. Par exemple, le score MMLU de Qwen 2,5 1,5B passe de 60 à 89 lorsque la longueur des options change, mais diminue de 89 à 36 lorsque la question reste inchangée. Même le GPT-4 subit une perte de précision de 25 points lorsque le type de question change, avec une diminution de 6 points pour les trois catégories de modifications. Cette analyse suggère que les LH s'appuient fortement sur des indices superficiels plutôt que de former des représentations solides et abstraites généralisables au format, aux variations lexicales et aux variations de contenu non pertinentes.

Takeaways, Limitations

Takeaways:
Cela montre que les scores de référence élevés du LLM ne reflètent peut-être pas la capacité réelle de généralisation.
Cela suggère que les LLM fonctionnent sur des indices superficiels et sont basés sur la correspondance de modèles plutôt que sur une véritable compréhension.
Nous présentons une nouvelle méthodologie, le « test de stress de généralisation », pour évaluer la capacité de généralisation des LLM.
Nous soulignons l’importance d’améliorer les compétences de généralisation dans le développement du LLM.
Limitations:
Des recherches supplémentaires sont nécessaires pour explorer la généralisabilité et l’évolutivité du « test de résistance généralisé » proposé.
Le type et l’intensité de la perturbation utilisée dans les tests peuvent être limités.
ÉTant donné que ces résultats concernent un LLM et un ensemble de données spécifiques, il convient d’être prudent avant de les généraliser à d’autres LLM ou ensembles de données.
👍