Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NLKI : un cadre d'intégration de connaissances en langage naturel léger pour améliorer les petits VLM dans les tâches VQA de bon sens

Created by
  • Haebom

Auteur

Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya

Contour

Cet article présente un cadre de bout en bout (NLKI) pour améliorer les performances des modèles de langage visuel à petite échelle (sVLM) dans la réponse visuelle aux questions de sens commun (VQA). NLKI fonctionne en récupérant des faits en langage naturel, en générant des explications en langage naturel à l'aide d'un LLM et en transmettant ces signaux au sVLM. En exploitant ColBERTv2 et des invites riches en entités pour la récupération des faits, les explications générées réduisent les hallucinations et améliorent la précision jusqu'à 7 %. De plus, grâce à un réglage plus fin à l'aide d'une fonction de perte robuste au bruit, nous obtenons une amélioration de la précision de 2,5 % sur l'ensemble de données CRIC et de 5,5 % sur l'ensemble de données AOKVQA, portant les performances de sVLM comme FLAVA au niveau de VLM de taille moyenne comme Qwen-2 VL-2B et SmolVLM-2.5B. Cette étude démontre que les connaissances de bon sens basées sur le LLM sont plus efficaces que la récupération de bases de connaissances de bon sens, que l'apprentissage sensible au bruit améliore la stabilité des petits modèles dans des situations d'augmentation de connaissances externes et que l'inférence de bon sens efficace en termes de paramètres est possible même dans des modèles avec 250 millions de paramètres.

Takeaways, Limitations_

Takeaways:
Nous présentons la possibilité d'améliorer les performances VQA de bon sens des petits modèles de langage visuel grâce à l'intégration des connaissances de bon sens basée sur LLM.
Nous démontrons que le réglage fin à l’aide d’une fonction de perte robuste au bruit est efficace pour améliorer les performances des petits modèles.
Nous démontrons que l’inférence de bon sens efficace en termes de paramètres est possible même dans les modèles comportant 250 millions de paramètres.
Nous suggérons que l’intégration des connaissances de bon sens à l’aide du LLM peut être plus efficace que la recherche dans des bases de connaissances de bon sens.
Limitations:
Il y a un problème de bruit d'étiquette dans l'ensemble de données utilisé, qui nécessite une analyse plus approfondie.
Une vérification supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Des expériences sont nécessaires sur différents types de sVLM et les différences de performances en fonction des caractéristiques du modèle sont analysées.
👍