Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DOGR: Hacia una base y referencia visual versátil de documentos

Created by
  • Haebom

Autor

Yinan Zhou, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

Describir

Este artículo destaca el insuficiente desarrollo de las capacidades de fundamentación y referencia de los modelos lingüísticos multimodales a gran escala (MLLM) para lograr una comprensión detallada y una interacción flexible con el usuario en el ámbito de la comprensión visual de documentos. Para abordar este problema, proponemos el motor de datos de fundamentación y referencia de documentos (DOcument Grounding and Referring, DOGR-Engine). DOGR-Engine genera dos tipos de datos documentales de alta calidad y granularidad detallada: (1) datos de análisis multipartícula para mejorar la localización y el reconocimiento de texto, y (2) datos de ajuste de instrucciones para mejorar las capacidades de fundamentación y referencia de los MLLM en la conversación y la inferencia. Con base en estos datos, creamos DOGR-Bench, un banco de pruebas que abarca siete tareas de fundamentación y referencia en tres tipos de documentos (gráficos, pósteres y documentos PDF). Aprovechando los datos generados, desarrollamos DOGR, un modelo de referencia robusto que destaca en la localización y el reconocimiento de texto, fundamentando y referenciando con precisión información textual importante durante la conversación y la inferencia. DOGR lleva la comprensión de documentos a un nivel más detallado y posibilita paradigmas de interacción flexibles.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo motor de datos y un punto de referencia que contribuye a mejorar las capacidades de comprensión visual de documentos de modelos lingüísticos multimodales a gran escala.
Presentamos un nuevo modelo de base para la comprensión detallada de documentos.
Presentamos una técnica de localización y reconocimiento de texto con capacidades mejoradas de fundamentación y referencia.
Presenta un paradigma de interacción usuario-documento más flexible y eficiente.
Limitations:
Es necesaria una evaluación más profunda del rendimiento de generalización de DOGR-Engine y los modelos DOGR.
Se requiere una mayor validación de la escalabilidad en diferentes tipos y complejidades de documentos.
Los tipos de tareas que actualmente incluye el punto de referencia podrían ser limitados. Necesitamos ampliar su alcance añadiendo una mayor variedad de tareas.
👍