Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LMP-Cap : Génération de légendes de figures personnalisées avec des profils de figures multimodaux

Created by
  • Haebom

Auteur

Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang

Contour

Cet article souligne la nécessité de personnaliser les légendes de figures générées par l'IA afin qu'elles correspondent au style de l'auteur et à celui du domaine. Nous présentons LaMP-Cap, un jeu de données permettant de générer des légendes de figures personnalisées à l'aide de profils de figures multimodaux. LaMP-Cap fournit non seulement l'image de chaque figure, mais aussi jusqu'à trois profils (dont l'image, la légende et le paragraphe de citation de la figure) provenant d'autres figures du même document afin de caractériser leur contexte. Les résultats expérimentaux montrent que l'utilisation des informations de profil permet de générer des légendes plus proches de celles rédigées par l'auteur, et que les images des profils sont plus informatives que les paragraphes de citation des figures. Cela démontre les avantages des profils multimodaux.

Takeaways, Limitations_

Takeaways:
Nous démontrons empiriquement l’utilité de générer des légendes d’images personnalisées à l’aide de profils multimodaux (image, texte).
L'ensemble de données LaMP-Cap devrait apporter une contribution significative aux recherches futures sur la génération de légendes d'images personnalisées.
Nous avons constaté que les informations d’image dans un profil sont plus efficaces pour générer des légendes que les informations textuelles.
Limitations:
Un examen plus approfondi de la taille et de la diversité de l’ensemble de données LaMP-Cap est nécessaire.
L’ensemble de données doit être élargi pour refléter de manière plus complète les différents types d’illustrations et de styles d’auteur.
Il convient de prendre en compte la possibilité d’un surajustement à des domaines ou des styles d’auteur spécifiques.
👍