[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ContextQFormer : une nouvelle méthode de modélisation contextuelle pour les conversations multimodales à plusieurs tours

Created by
  • Haebom

Auteur

Yiming Lei, Zhizheng Yang, Zeming Liu, Haitao Leng, Shaoguo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang

Contour

Cet article aborde le problème des faibles capacités d'interaction multi-tours des modèles open source existants, notamment dans les contextes longs, malgré leurs capacités de « zero-shot » et leurs puissantes capacités de compréhension d'images. Pour résoudre ces problèmes, nous proposons un module de modélisation contextuelle appelé ContextQFormer qui améliore la représentation des informations contextuelles, et annonçons la construction et la publication d'un nouvel ensemble de données, TMDialog, pour la recherche sur les dialogues multimodaux multi-tours. TMDialog prend en charge la recherche sur les dialogues multimodaux multi-tours, y compris les conversations plus longues que les ensembles de données existants. Lors d'expériences utilisant TMDialog, ContextQFormer affiche des performances 2 à 4 % supérieures à celles des modèles existants.

Takeaways, Limitations

Takeaways:
Un nouveau module de modélisation de contexte (ContextQFormer) est présenté pour contribuer à améliorer les performances des modèles de conversation multimodale multi-tours avec des contextes longs.
Nous espérons stimuler les recherches futures grâce à la publication d’un nouvel ensemble de données à grande échelle (TMDialog) pour la recherche sur le dialogue multimodal à plusieurs moments.
ContextQFormer montre une amélioration des performances par rapport aux modèles existants (2%-4%)
Limitations:
Manque d'informations détaillées sur la composition et la taille spécifiques de l'ensemble de données TMDialog, ainsi que sur la qualité des données.
Les améliorations de performances pour ContextQFormer peuvent être relativement faibles, 2 à 4 %
L’absence d’analyse comparative avec d’autres modèles de conversation multimodale nécessite une vérification supplémentaire de la généralisabilité.
👍