Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ver y luego contar: mejora de la extracción de información clave con la puesta a tierra de la visión

Created by
  • Haebom

Autor

Shuhang Liu, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Qing Wang, Jianshu Zhang, Chenyu Liu

Describir

Este artículo enfatiza la importancia de comprender documentos visualmente ricos (texto, diseños complejos e integración de imágenes) y señala las limitaciones de los métodos existentes de Extracción de Información Clave (KIE) (retraso debido a la dependencia del OCR, altos costos computacionales y errores). Para superar estas limitaciones, presentamos STNet, un novedoso modelo integral que extrae texto directamente de imágenes sin OCR. STNet utiliza tokens especiales para observar (ver) regiones de la imagen relevantes para una pregunta y, con base en estos, proporciona respuestas precisas y base visual (tell). Para mejorar el rendimiento del modelo, utilizamos GPT-4 para construir el conjunto de datos TVG (TableQA con Base Visual), que contiene pares de preguntas-respuestas (QA) basados ​​en texto y base visual precisa. Los resultados experimentales demuestran un rendimiento de vanguardia en conjuntos de datos disponibles públicamente como CORD, SROIE y DocVQA. El código también se hará público.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo enfoque KIE que rompe con la dependencia del OCR.
Mejorar la precisión al proporcionar evidencia visual en las respuestas a preguntas basadas en imágenes.
Creación y publicación de conjuntos de datos de alta calidad mediante GPT-4
Lograr el rendimiento de SOTA en varios conjuntos de datos públicos
Aumentar la reproducibilidad y escalabilidad de la investigación mediante la divulgación del código
Limitations:
Se necesita una mayor validación de la escala y el rendimiento de generalización del conjunto de datos TVG.
Es necesario evaluar el rendimiento de generalización del modelo para diseños complejos o varios tipos de imágenes.
Se necesita un análisis más profundo del costo computacional y la eficiencia de STNet.
👍