Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Problema resuelto? Espacio de diseño de extracción de información para documentos con maquetación enriquecida mediante LLM.

Created by
  • Haebom

Autor

Gaye Colakoglu, G urkan Solmaz, Jonathan F urst

Describir

Este artículo define y explora un espacio de diseño para la extracción de información (IE) de documentos con un diseño enriquecido mediante un modelo de lenguaje a gran escala (LLM). Los tres desafíos principales de la IE con reconocimiento de diseño que utiliza LLM son la estructuración de datos, la interacción con el modelo y la mejora de la salida. Investigamos subproblemas y métodos para la representación de entrada, la fragmentación, la solicitud, la selección de LLM y los modelos multimodales. Utilizando LayIE-LLM, una novedosa suite de pruebas de IE con reconocimiento de diseño de código abierto, comparamos la efectividad de diversas opciones de diseño con modelos de IE optimizados existentes. Los resultados en dos conjuntos de datos de IE demuestran que los LLM requieren ajustar el flujo de trabajo de IE para lograr un rendimiento competitivo. Las configuraciones optimizadas encontradas con LayIE-LLM superan las configuraciones de referencia comunes utilizando el mismo LLM en 13,3 y 37,5 puntos F1, respectivamente. Desarrollamos un método asíncrono de un factor (OFAT) que se acerca al resultado óptimo, requiriendo una fracción (2,8 %) del esfuerzo computacional y con un rendimiento solo inferior al de la mejor búsqueda factorial completa en 0,8 y 1,8 puntos, respectivamente. En resumen, demostramos que un LLM de propósito general correctamente configurado iguala el rendimiento de los modelos especializados y ofrece una alternativa rentable y sin ajustes. El conjunto de pruebas está disponible en https://github.com/gayecolakoglu/LayIE-LLM .

Takeaways, Limitations

Takeaways:
Presentamos una metodología eficiente para la extracción de información de documentos con un diseño rico: LLM puede lograr un rendimiento similar o mejor que los modelos ajustados existentes.
Ofrecer una alternativa rentable: extraer información utilizando un LLM de propósito general sin realizar ajustes.
Se lanzó la suite de pruebas de código abierto LayIE-LLM: contribuya a la comparación del rendimiento y la investigación de varios LLM y metodologías.
Se presenta un método de búsqueda de parámetros eficaz (OFAT): aproximando el rendimiento óptimo mientras se reduce la complejidad computacional.
Limitations:
Limitaciones de los conjuntos de datos utilizados: Falta de validación de generalización utilizando solo dos conjuntos de datos.
Garantizando la optimalidad del método OFAT X: Hay una ligera degradación del rendimiento en comparación con la búsqueda factorial completa.
Dependencia del rendimiento del LLM: los resultados pueden cambiar a medida que mejora el rendimiento del LLM.
👍