Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Método de muestreo de incrustación de imágenes para subtítulos diversos

Created by
  • Haebom

Autor

Sania Waheed, Na Min An

Describir

Este artículo presenta un nuevo marco que mejora el rendimiento de la generación de subtítulos de imágenes mediante el uso de VLM relativamente pequeños (p. ej., BLIP) en lugar de los Modelos de Visión-Lenguaje (VLM) de última generación, con un alto coste computacional. Para abordar el problema de que los VLM pequeños existentes se centran en descripciones de escenas de alta dimensión y pasan por alto los detalles, aprovechamos la segmentación estructurada para generar representaciones jerárquicas que capturan información semántica tanto global como local. Logramos consistencia, integridad semántica y diversidad entre subtítulos de imágenes comparables a las de modelos más grandes sin entrenamiento adicional. La evaluación en los conjuntos de datos MSCOCO, Flickr30k y Nocaps arrojó puntuaciones Div-2 de 0,735, 0,750 y 0,748, respectivamente, lo que demuestra una alta relevancia e integridad semántica con subtítulos generados por humanos.

Takeaways, Limitations

Takeaways:
Demostramos que la generación de subtítulos de imágenes de alto rendimiento es posible incluso en entornos con recursos computacionales limitados (por ejemplo, dispositivos móviles, tecnologías de asistencia).
Presentamos un método eficiente para mejorar significativamente el rendimiento de VLM pequeños sin entrenamiento adicional del modelo.
Demostramos que una técnica de generación de representación jerárquica mediante segmentación estructural es eficaz para aumentar la diversidad y la informatividad de los títulos de las imágenes.
Limitations:
El marco propuesto podría depender de un VLM pequeño específico (BLIP). El rendimiento de generalización a otros VLM pequeños requiere mayor investigación.
La precisión de la segmentación estructural puede afectar la calidad del subtítulo final. Mejorar el rendimiento de la segmentación puede contribuir a futuras mejoras.
Además de la puntuación Div-2 utilizada en este documento, puede ser necesario un análisis de desempeño multifacético agregando otras métricas de evaluación.
👍