Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les humains perçoivent des récits erronés à partir de textes de raisonnement de l'IA

Created by
  • Haebom

Auteur

Mosh Levy, Zohar Elyoseph, Yoav Goldberg

Contour

Les nouveaux modèles d'IA génèrent un texte d'inférence étape par étape avant de générer une réponse. Ce texte semble révéler le processus de calcul du modèle et est de plus en plus utilisé pour la transparence et l'interprétabilité. Cependant, il n'est pas certain que la manière dont les humains interprètent ce texte corresponde au processus de calcul réel du modèle. Cet article examine une condition nécessaire à cette réponse : la capacité des humains à discerner quelles étapes du texte d'inférence influencent causalement les étapes ultérieures. Nous avons évalué la performance humaine en formulant des questions basées sur des mesures contrefactuelles et avons constaté des différences significatives. La précision des participants n'était que de 29 %, légèrement supérieure au hasard (25 %), et même en évaluant les votes majoritaires sur des questions à fort consensus, la précision n'était que de 42 %. Ces résultats révèlent une différence fondamentale entre la manière dont les humains interprètent le texte d'inférence et la manière dont les modèles l'utilisent, ce qui soulève des questions sur son utilité comme simple outil d'interprétabilité. Nous soutenons que le texte d'inférence ne doit pas être tenu pour acquis, mais plutôt traité comme un artefact digne d'être étudié, et que la compréhension des manières inhumaines dont ces modèles utilisent le langage est une orientation de recherche cruciale.

Takeaways, Limitations

Takeaways: Nous avons révélé des écarts significatifs entre l'interprétation humaine du texte inféré et les processus informatiques réels des modèles d'IA. Cela suggère que la compréhension du texte inféré nécessite une compréhension plus approfondie de la façon dont le modèle utilise le langage, au-delà de la simple interprétation du texte inféré. Le texte inféré n'est pas un indicateur parfait des processus internes du modèle, et le développement de méthodologies d'interprétation supplémentaires est nécessaire.
Limitations: L'étude s'est limitée à un type spécifique de modèle d'IA et de texte d'inférence, et sa généralisabilité à d'autres types de modèles ou de textes est limitée. Les résultats peuvent être influencés par la taille de l'échantillon de participants et la structure des questions. Il est difficile d'exclure totalement les limites inhérentes au raisonnement humain.
👍