Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Compréhension de Potemkine dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan

Contour

Cet article interroge la validité des jeux de données de référence utilisés pour évaluer la performance des modèles linguistiques à grande échelle (MLH). Nous présentons un cadre formel permettant de déterminer si les LH peuvent légitimement déduire une compétence de leurs réponses aux questions de référence, et soulignons que les critères utilisés pour évaluer les humains sont également utilisés pour évaluer les LH. Cependant, cela implique que les critères ne sont des outils d'évaluation valides que si les LH comprennent mal les concepts de la même manière que les humains. Dans le cas contraire, la réussite aux tests de référence n'est qu'une « compréhension Potemkinienne » (une compréhension apparemment plausible), une illusion de compréhension créée par des réponses qui ne correspondent pas à la façon dont un humain interpréterait les concepts. Nous présentons deux procédures pour quantifier la présence de la compréhension Potemkinienne, à l'aide de critères spécifiquement conçus pour trois domaines et de procédures générales, et constatons que la compréhension Potemkinienne est répandue dans tous les modèles, tâches et domaines. Nous constatons également que les échecs reflètent des incohérences internes plus profondes dans la représentation des concepts, plutôt que de simples incompréhensions.

Takeaways, Limitations_

Takeaways : Clarifie les limites du référentiel utilisé pour évaluer la performance des LLM et offre une nouvelle perspective pour évaluer le véritable niveau de compréhension des LLM grâce au concept de « compréhension Potemkine ». Il présente une nouvelle méthode d'évaluation qui permet d'identifier les incohérences internes des LLM.
Limitations: Des recherches supplémentaires sont nécessaires sur la généralisabilité des deux procédures présentées. Une validation plus poussée de l'objectivité et de la fiabilité de la méthode de quantification de la compréhension de Potemkin est nécessaire. Des recherches supplémentaires sont nécessaires sur la généralisabilité des repères limités à trois domaines.
👍