Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Invite guidée par la logique pour la réponse visuelle aux questions basées sur les connaissances

Created by
  • Haebom

Auteur

Zhongjian Hu, Peng Yang, Bing Li, Fengyuan Liu

Contour

Cet article explore l'utilisation de modèles de langage à grande échelle (MLH) dans la réponse visuelle aux questions (QV) basée sur les connaissances. Contrairement aux études précédentes qui induisent directement les LLM à prédire les réponses, cet article propose un nouveau cadre, le PLRH, qui exploite l'heuristique rationnelle, un processus de raisonnement intermédiaire. Le PLRH utilise des chaînes de pensée (CdP) pour guider les LLM dans la génération d'heuristiques rationnelles, qui sont ensuite utilisées pour prédire les réponses. Les résultats expérimentaux montrent que le PLRH surpasse les modèles de référence existants de respectivement 2,2 et 2,1 points, dans les tests OK-QV et A-OK-QV.

Takeaways, Limitations

Takeaways:
Démontre l’efficacité d’une approche qui utilise des processus de pensée intermédiaires pour maximiser le potentiel du LLM.
Nous démontrons la supériorité de PLRH, un nouveau cadre combinant CoT et heuristiques inférentielles dans le VQA basé sur les connaissances.
Permet d'améliorer les performances par rapport aux méthodes existantes sur les ensembles de données OK-VQA et A-OKVQA.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Il est nécessaire de vérifier si les améliorations de performances pour un ensemble de données spécifique peuvent être appliquées à d’autres ensembles de données.
Une analyse plus approfondie est nécessaire pour déterminer l’interprétabilité et la fiabilité du processus de génération heuristique.
👍