Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration de la robustesse des modèles linguistiques pour la réponse aux questions tabulaires via l'analyse de l'attention

Created by
  • Haebom

Auteur

Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao

Contour

Cet article s'appuie sur la constatation que les modèles linguistiques à grande échelle (MLH), qui ont démontré des performances exceptionnelles dans diverses tâches de compréhension de textes non structurés, peuvent également réaliser des tâches de compréhension tabulaire (structurées) sans entraînement spécifique. Nous avons testé les LHH sur divers domaines, notamment le WTQ basé sur Wikipédia, le TAT-QA financier et le SCITAB scientifique, sous diverses augmentations et perturbations. Nous avons étudié les effets de l'apprentissage en contexte (ICL), de la taille du modèle, du réglage directif et du biais de domaine sur la robustesse des réponses aux questions tabulaires (TQA). Si le réglage directif et des LHH plus grands et plus modernes permettent d'obtenir des performances TQA plus solides et plus robustes, des problèmes de contamination et de fiabilité des données subsistent, notamment en WTQ. Une analyse approfondie de l'attention a révélé une forte corrélation entre les changements de distribution de l'attention dus aux perturbations et la dégradation des performances, la sensibilité atteignant un pic dans les couches intermédiaires du modèle. Cela souligne la nécessité de développer des mécanismes d'auto-attention sensibles à la structure et des techniques de traitement adaptatives au domaine afin d'améliorer la transparence, la généralisation et la fiabilité en conditions réelles des LHH pour les données tabulaires.

Takeaways, Limitations

Takeaways:
Le réglage directif et les LLM plus grands et plus récents contribuent à améliorer les performances des réponses aux questions tabulaires (TQA) et à accroître la robustesse.
Nous révélons une forte corrélation entre les changements dans la distribution de l'attention dus aux perturbations et la dégradation des performances, la sensibilité la plus élevée se produisant dans les couches intermédiaires du modèle.
La nécessité de développer des mécanismes d’auto-attention conscients de la structure et des techniques de traitement adaptatives au domaine est présentée.
Limitations:
Des problèmes de contamination et de fiabilité des données existent encore dans certains ensembles de données, notamment WTQ.
La nécessité d’améliorer la fiabilité du LLM grâce à des méthodologies interprétables plus avancées est soulevée.
👍