Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Created by
  • Haebom

Autor

Si-Woo Kim, MinJu Jeon, Ye-Chan Kim, Soeun Lee, Taewhan Kim, Dong-Jin Kim

Describir

En este artículo, proponemos Sync, un marco de limpieza de conjuntos de datos sintéticos para el subtitulado de imágenes de cero disparos (ZIC). Los ZIC existentes utilizan conjuntos de datos sintéticos generados por modelos de conversión de texto a imagen (T2I) para reducir el costoso trabajo de anotación manual, pero las imágenes generadas por estos modelos suelen presentar inconsistencias semánticas con sus subtítulos. Las técnicas de limpieza de datos actuales se centran en la eliminación de textos con ruido de los datos rastreados en la web, lo cual no es adecuado para las características de los datos sintéticos (subtítulos bien formados, imágenes imprecisas). Sync reasigna los subtítulos a las imágenes que presentan la mayor coherencia semántica con los subtítulos del conjunto de imágenes existente. Primero, recupera múltiples imágenes candidatas para cada subtítulo y, a continuación, selecciona la imagen óptima comprobando si el subtítulo original puede recuperarse mediante la recuperación de imagen a texto, utilizando puntuaciones de alineación basadas en la consistencia circular. Los resultados experimentales muestran que Sync supera varios modelos y puntos de referencia ZIC (MS-COCO, Flickr30k, NoCaps) y logra resultados de última generación.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco de limpieza de datos, Sync, que aborda eficazmente el problema de inconsistencia semántica de los datos sintéticos.
A diferencia de las técnicas de filtrado o regeneración convencionales, mejoramos la calidad de los datos reasignando imágenes óptimas dentro del grupo de imágenes existente.
La eficacia de Sync se ha demostrado mediante mejoras de rendimiento y logros de última generación en una variedad de modelos y puntos de referencia ZIC.
Presenta nuevas posibilidades para el uso de datos sintéticos en el subtitulado de imágenes de disparo cero.
Limitations:
Las mejoras de rendimiento de Sync pueden limitarse a puntos de referencia y modelos específicos. Es necesario validar el rendimiento de la generalización en otros conjuntos de datos o modelos.
Las puntuaciones de alineación basadas en la consistencia circular pueden no ser siempre precisas para seleccionar la imagen óptima. Podrían requerirse técnicas de alineación más sofisticadas.
Debido a las limitaciones del propio modelo T2I, la calidad de las imágenes generadas aún podría afectar el rendimiento de SyncC. Podría ser necesario desarrollar un modelo de generación de imágenes de mayor calidad.
👍