[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DOGR: Hacia una base y referencia visual versátil de documentos

Created by
  • Haebom

Autor

Yinan Zhou, Yuxin Chen, Haokun Lin, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

Describir

En este artículo, proponemos un motor de datos de base y referencia de documentos (DOGR-Engine) para mejorar las capacidades de base y referencia de los modelos lingüísticos multimodales a gran escala (MLLM), que aún están poco desarrollados debido a la falta de conjuntos de datos de granularidad fina y puntos de referencia exhaustivos en el campo de la comprensión visual de documentos. DOGR-Engine genera dos tipos de datos documentales de granularidad fina de alta calidad: datos de análisis multigrano para mejorar la localización y el reconocimiento de texto, y datos de ajuste de instrucciones para activar las capacidades de base y referencia de los MLLM en conversaciones e inferencias. Con los datos generados, construimos DOGR-Bench, un punto de referencia que abarca siete tareas de base y referencia en tres tipos de documentos (gráficos, pósteres y documentos PDF), y desarrollamos DOGR, un potente modelo de referencia que destaca en la localización y el reconocimiento de texto, y que fundamenta y referencia con precisión información textual importante durante conversaciones e inferencias. Como resultado, permite una comprensión de documentos más detallada y paradigmas de interacción flexibles.

Takeaways, Limitations

Takeaways:
Presentamos DOGR-Bench, un conjunto de datos granulares de alta calidad para la comprensión visual de documentos.
Desarrollo de DOGR-Engine que contribuye a mejorar las funciones de conexión a tierra y de referencia de MLLM.
Presentamos el modelo DOGR, que muestra un excelente desempeño tanto en localización y reconocimiento de texto como en funciones de conexión a tierra y referencia.
Sugiere posibilidades de paradigmas de interacción flexible y comprensión granular de documentos.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización de DOGR-Engine y los modelos DOGR.
Es necesario ampliar la diversidad de tipos de documentos y tareas incluidas en DOGR-Bench.
Es necesario evaluar el desempeño del modelo DOGR en aplicaciones del mundo real.
👍