Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà de la mémorisation : évaluation de la généralisation sémantique dans les grands modèles linguistiques à l'aide de constructions phrastiques

Created by
  • Haebom

Auteur

Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi

Contour

Cet article présente une évaluation diagnostique utilisant la grammaire de construction (CxG) pour relever les défis posés par l'utilisation de grands ensembles de données de pré-apprentissage : distinguer les compétences linguistiques bien représentées dans l'ensemble de données de pré-apprentissage et la généralisation à des exemples dynamiques et réels moins courants. La CxG fournit un cadre psycholinguistique pour tester la généralisation en reliant explicitement les formes syntaxiques à des significations abstraites et non lexicales. Nous construisons un nouvel ensemble de données d'évaluation d'inférence utilisant des structures de phrases anglaises, qui capitalise sur la capacité des locuteurs à s'abstraire d'exemples courants pour comprendre et générer des exemples créatifs. Cet ensemble de données répond à deux questions centrales : les modèles peuvent-ils « comprendre » le sens de phrases moins fréquemment représentées dans l'ensemble de données de pré-apprentissage, mais intuitives et facilement compréhensibles par les humains ? Ils peuvent-ils utiliser de manière appropriée le sens structurel lorsqu'on leur donne des structures syntaxiquement identiques mais sémantiquement différentes. Les modèles de pointe, dont GPT-o1, affichent des performances inférieures de plus de 40 % à la deuxième tâche, démontrant ainsi leur incapacité à généraliser des formes syntaxiquement identiques à des significations structurelles distinctes, comme le font les humains. Nous mettons à disposition du public le nouvel ensemble de données et les données expérimentales associées (y compris les invites et les réponses du modèle).

Takeaways, Limitations

Takeaways:
Fournit une compréhension plus approfondie de la capacité de généralisation des modèles linguistiques à grande échelle (LLM).
Nous présentons un nouveau cadre d’évaluation utilisant la grammaire de construction (CxG).
Nous mettons à disposition du public un nouvel ensemble de données qui démontre clairement les limites du LLM.
Il contribue à analyser l’impact des biais dans les données de pré-formation sur les performances du LLM.
Limitations:
L'ensemble de données d'évaluation se concentre uniquement sur les structures de phrases anglaises, ce qui peut limiter sa généralisabilité à d'autres langues ou structures.
En raison de sa forte dépendance au cadre CxG, son interprétation peut différer d’autres perspectives théoriques.
Les modèles évalués peuvent être limités. Des expériences supplémentaires avec un éventail plus large de modèles sont nécessaires.
👍