Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diagnostic et atténuation des interférences de modalités dans les grands modèles linguistiques multimodaux

Created by
  • Haebom

Auteur

Rui Cai, Bangzheng Li, Xiaofei Wen, Muhao Chen, Zhe Zhao

Contour

Cet article aborde le problème des modèles linguistiques multimodaux à grande échelle (MLLM) qui peinent à distinguer les signaux pertinents et non pertinents pour la tâche, ce qui entraîne des erreurs dans des tâches telles que les questions-réponses visuelles (QV). Nous définissons cette limitation comme le « problème de compétence intermodale » et nous nous concentrons sur « l'interférence modale », un phénomène dans lequel des informations bruitées provenant de modalités non pertinentes dégradent les performances dans des tâches reposant sur une seule modalité, comme la classification d'images ou les questions-réponses textuelles pures. Dans cet article, nous concevons une expérience de diagnostic causal basée sur les perturbations pour mesurer quantitativement l'interférence modale et proposons un nouveau cadre pour affiner les MLLM à l'aide de stratégies d'augmentation de données et de régularisation de la cohérence basées sur les perturbations, incluant la perturbation heuristique et la perturbation antagoniste par descente de gradient projective (PGD). Nous validons l'efficacité de la méthode proposée par des expériences sur divers jeux de données de référence (tâches centrées sur l'image, centrées sur le texte et QV) et plusieurs familles de modèles.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour définir et quantifier clairement le problème de compétence intermodale des MLLM, en particulier le problème d'interférence modale.
Nous proposons un cadre de réglage fin efficace pour atténuer le problème d’interférence modale.
Nous démontrons expérimentalement que la méthode proposée améliore les performances sur divers ensembles de données et modèles de référence.
Nous démontrons qu’il est possible d’améliorer simultanément la capacité d’inférence unimodale et la performance des tâches multimodales.
Limitations:
L’efficacité de la méthode proposée peut être limitée à des ensembles de données et modèles de référence spécifiques.
D’autres expériences sur des tâches multimodales plus diverses et plus complexes sont nécessaires.
Les méthodes de formation contradictoires telles que le PGD peuvent être coûteuses en termes de calcul.
Des recherches supplémentaires sont nécessaires sur la généralité et les limites des stratégies de perturbation heuristiques.
👍