Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Created by
  • Haebom

Autor

Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim

Describir

VolDoGer es un nuevo conjunto de datos para la generalización de dominios en tareas de lenguaje visual (generación de subtítulos de imágenes, respuesta visual a preguntas e implícito visual). Estudios previos sobre generalización de dominios en tareas de lenguaje visual se han visto limitados por la falta de conjuntos de datos adecuados. VolDoGer soluciona este problema utilizando técnicas de anotación de datos basadas en LLM y genera un conjunto de datos a gran escala. Se evaluaron diversos modelos (desde modelos optimizados hasta LLM multimodales de vanguardia) en VolDoGer para analizar su rendimiento de generalización de dominios.

Takeaways, Limitations

Takeaways:
Proporcionar un conjunto de datos estándar para estudiar la generalización del dominio de las tareas visuales-verbales.
Presentación de un método eficiente de construcción de conjuntos de datos utilizando la técnica de anotación de datos basada en LLM
Establecer una base para el análisis comparativo del rendimiento de generalización de dominio de varios modelos
Limitations:
Se necesita una validación adicional de la precisión y confiabilidad de la anotación de datos basada en LLM.
Se necesita un análisis adicional de la diversidad de dominios y la representatividad del conjunto de datos VolDoGer.
Existe la posibilidad de sesgo debido a la forma en que se creó el conjunto de datos, que depende de un LLM específico.
👍