Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Created by
  • Haebom

Autor

Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang

Describir

En este artículo, presentamos un estudio sobre VLM sin codificador que están reduciendo rápidamente la brecha de rendimiento con los modelos de visión-lenguaje (VLM) basados en codificador. Analizamos sistemáticamente la brecha de rendimiento entre los VLM convencionales basados en codificador y los VLM sin codificador utilizando codificadores de visión preentrenados, tokenizadores discretos y jerarquías visuales mínimas, y exploramos en profundidad las características de los VLM sin codificador. Gracias a esto, desarrollamos una estrategia eficiente comparable a la de los VLM basados en codificador y presentamos un VLM sin codificador mejorado, EVEv2.0. EVEv2.0 descompone y concatena jerárquicamente la información visual y lingüística para reducir la interferencia intermodal, y utiliza estrategias de entrenamiento para una optimización eficaz. Los resultados experimentales demuestran que EVEv2.0 presenta una excelente eficiencia de datos y potentes capacidades de inferencia visual.

Takeaways, Limitations

Takeaways:
Presentamos una estrategia eficiente para mejorar el rendimiento de los VLM sin codificador
Propuesta de estructura del modelo y estrategia de entrenamiento para reducir la interferencia intermodal
Desarrollo del modelo EVEv2.0 con excelente eficiencia de datos y capacidad de razonamiento visual
Ayuda a reducir la brecha de rendimiento con modelos basados en codificadores
Limitations:
No existe ninguna referencia específica a __T55271_____ en el modelo EVEv2.0 presentado en este documento.
Se necesita un análisis comparativo más profundo con otros VLM sin codificador de última generación.
Se necesita una evaluación adicional del desempeño de generalización en una variedad de tareas de visión y lenguaje.
👍