Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Compréhension de Potemkine dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan

Contour

Cet article interroge la validité des jeux de données de référence utilisés pour évaluer la performance des modèles linguistiques à grande échelle (MLL). Est-il justifié pour les LLM de déduire une compétence de leurs réponses aux questions de référence ? L'article présente un cadre formel pour répondre à cette question, soulignant que les mêmes critères de référence (par exemple, l'examen AP) sont utilisés pour les LLM et les humains. Cependant, cela implique que les critères de référence ne sont valables que si les LLM comprennent mal les concepts de la même manière que les humains. Dans le cas contraire, la réussite aux critères de référence ne démontre qu'une « compréhension Potemkinienne » (une compréhension superficielle). L'article présente deux procédures pour quantifier la présence de la compréhension Potemkinienne (l'une utilisant un critère de référence spécialement conçu, l'autre fournissant des bornes inférieures), et constate que la compréhension Potemkinienne est répandue dans tous les modèles, tâches et domaines. Il montre également que ces échecs ne sont pas de simples erreurs, mais reflètent des incohérences internes plus profondes dans les représentations conceptuelles.

Takeaways, Limitations

Takeaways: Démontre que la performance de référence du LLM ne suffit pas à évaluer la véritable compréhension. Présente clairement les limites de l'évaluation du LLM en révélant l'existence d'une compréhension de type Potemkine. Souligne le problème d'incohérence interne du LLM et suggère la nécessité d'une méthode d'évaluation plus approfondie des capacités de compréhension.
Limitations: Des recherches supplémentaires sont nécessaires sur la généralisabilité des deux procédures présentées. Manque de discussion sur les limites et les pistes d'amélioration de la méthode de quantification de la compréhension de Potemkin. Nécessité d'examiner la généralisabilité des résultats limités à des repères et domaines spécifiques.
👍