Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LaMP-Cap: Generación de títulos de figuras personalizados con perfiles de figuras multimodales

Created by
  • Haebom

Autor

Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang

Describir

Este artículo destaca la necesidad de personalizar los pies de figura generados por IA para que se ajusten al estilo del autor y al del campo. Presentamos LaMP-Cap, un conjunto de datos para generar pies de figura personalizados mediante perfiles multimodales. LaMP-Cap proporciona no solo la imagen de cada figura, sino también hasta tres perfiles (incluyendo la imagen, el pie de figura y el párrafo de cita) de otras figuras del mismo documento para caracterizar su contexto. Los resultados experimentales muestran que el uso de la información del perfil ayuda a generar pies de figura más similares a los escritos por el autor, y que las imágenes de los perfiles son más informativas que los párrafos de cita de la figura. Esto demuestra las ventajas de los perfiles multimodales.

Takeaways, Limitations

Takeaways:
Demostramos empíricamente la utilidad de generar títulos de imágenes personalizados utilizando perfiles multimodales (imagen, texto).
Se espera que el conjunto de datos LaMP-Cap haga una contribución significativa a futuras investigaciones sobre la generación de subtítulos de imágenes personalizados.
Descubrimos que la información de la imagen dentro de un perfil es más efectiva para generar subtítulos que la información de texto.
Limitations:
Es necesaria una revisión más profunda del tamaño y la diversidad del conjunto de datos LaMP-Cap.
Es necesario ampliar el conjunto de datos para reflejar de forma más completa los diferentes tipos de ilustraciones y estilos de autor.
Se debe considerar la posibilidad de sobreajuste a dominios específicos o estilos de autor.
👍