Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprivoiser l'indompté : récupération de connaissances et raisonnement basés sur des graphes pour les MLLM afin de conquérir l'inconnu

Created by
  • Haebom

Auteur

Bowen Wang, Zhouqiang Jiang, Yasuaki Susumu, Shotaro Miwa, Tianwei Chen, Yuta Nakashima

Contour

Dans cet article, nous nous intéressons au fait que les récents modèles linguistiques multimodaux à grande échelle (MLLM) échouent souvent par manque de connaissances pertinentes dans des tâches rares et spécifiques à un domaine. Nous construisons un graphe de connaissances multimodal (MH-MMKG) ciblant Monster Hunter: World comme banc d'essai en utilisant les capacités de reconnaissance visuelle de jeux. MH-MMKG contient diverses modalités et des relations d'entités complexes, et nous concevons un ensemble de questions difficiles basées sur celui-ci pour évaluer les capacités complexes de récupération et d'inférence de connaissances du modèle. De plus, nous proposons un moteur de recherche multi-agents pour permettre au modèle de récupérer de manière autonome les connaissances pertinentes sans formation supplémentaire. Les résultats expérimentaux démontrent que l'approche proposée améliore significativement les performances du MLLM, offrant une nouvelle perspective sur l'inférence augmentée de connaissances multimodales et jetant des bases solides pour les recherches futures.

Takeaways, Limitations

Takeaways:
Une méthode pour améliorer les performances des modèles de langage multimodaux à grande échelle (MLLM) à l'aide de graphes de connaissances multimodaux (MH-MMKG)
Vérification de la faisabilité de la récupération autonome de connaissances pertinentes via un moteur de recherche multi-agents
Proposer un nouveau banc d'essai et une nouvelle méthode d'évaluation pour évaluer les capacités cognitives des jeux
Une nouvelle perspective sur la recherche sur le raisonnement d'augmentation des connaissances multimodales
Limitations:
Résultats de recherche limités à un jeu spécifique appelé Monster Hunter: World
Des recherches supplémentaires sont nécessaires sur la généralisabilité du chercheur multi-agents proposé.
Il est nécessaire de vérifier l'évolutivité vers d'autres types de jeux ou de domaines
👍