Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mise à l'échelle de la vérité : le paradoxe de la confiance dans la vérification des faits par l'IA

Created by
  • Haebom

Auteur

Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi

Contour

Cet article évalue systématiquement neuf modèles linguistiques à grande échelle (MLH) existants à partir de 5 000 affirmations évaluées par 174 organisations expertes en vérification des faits dans 47 langues. Les LHH sont évalués selon diverses catégories (sources ouvertes/fermées, tailles variées, architectures variées et inférences). Pour tester la capacité de généralisation des modèles, nous utilisons quatre stratégies d'incitation qui reflètent les interactions entre les vérificateurs de faits citoyens et experts, ainsi que les affirmations générées ultérieurement aux données d'entraînement. Sur la base de plus de 240 000 annotations humaines, nous observons un phénomène similaire à l'« effet Danning-Kruger », où les modèles à petite échelle affichent une confiance élevée malgré une précision moindre, tandis que les modèles à grande échelle affichent une précision élevée mais une confiance moindre. Cela présente un risque de biais systématique dans la vérification de l'information, en particulier lorsque les modèles à petite échelle sont utilisés par des organisations aux ressources limitées. L'écart de performance est plus prononcé pour les affirmations rédigées dans des langues autres que l'anglais et provenant des pays du Sud, ce qui pourrait exacerber les inégalités d'information existantes. Ces résultats établissent une référence multilingue pour les recherches futures et fournissent une justification politique pour garantir un accès équitable à une vérification des faits fiable assistée par l’IA.

Takeaways, Limitations

Takeaways:
Fournit des repères multilingues sur les performances de vérification des faits dans divers LLM.
Nous révélons une corrélation entre une confiance élevée et une faible précision dans les modèles à petite échelle et une faible confiance et une grande précision dans les modèles à grande échelle.
Cela soulève la possibilité d’un biais systématique dans les efforts de vérification des faits par des agences sous-financées.
Souligne l’écart dans les performances de vérification des faits pour les pays du Sud et les langues autres que l’anglais.
Fournit une base pour l’élaboration de politiques visant à garantir un accès équitable à la vérification des faits assistée par l’IA.
Limitations:
Les 5 000 affirmations utilisées dans cette étude peuvent ne pas être entièrement représentatives de tous les types d’informations et de langage.
Il peut y avoir un manque d’analyse détaillée d’autres facteurs qui affectent les performances du LLM (par exemple, la qualité des données, la méthode de formation du modèle).
Il est nécessaire de suivre l’évolution des performances des LLM dans une perspective à long terme.
👍