Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Análisis automatizado de planos de ingeniería para la extracción de información estructurada mediante un transformador de comprensión de documentos optimizado

Created by
  • Haebom

Autor

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

Describir

Este artículo propone un novedoso marco híbrido de aprendizaje profundo para extraer con precisión información clave de dibujos de ingeniería 2D. Para abordar el problema de las técnicas convencionales de OCR que generan resultados no estructurados debido a diseños complejos y símbolos superpuestos, utilizamos un enfoque híbrido que integra un modelo de detección de cuadro delimitador orientado (OBB) y un modelo de análisis de documentos basado en transformadores (Donut). Utilizando YOLOv11, detectamos nueve categorías principales: GD&T, tolerancias generales, dimensiones, materiales, anotaciones, radios, rugosidad superficial, roscas y bloques de título, y ajustamos Donut para generar resultados JSON estructurados. Comparamos dos estrategias de ajuste: un modelo único para todas las categorías y un modelo específico para cada categoría. Observamos que el modelo único logra mayor precisión (94,77 % para GD&T), recuperación (100 % para la mayoría de las categorías), puntuación F1 (97,3 %) y reduce las alucinaciones (5,23 %) en todas las métricas de evaluación. El marco propuesto mejora la precisión, reduce el trabajo manual y admite una implementación escalable en industrias basadas en la precisión.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco basado en aprendizaje profundo para extraer de forma precisa y eficiente información clave de dibujos de ingeniería en 2D.
Precisión mejorada y esfuerzo manual reducido mediante la integración efectiva de la detección de OBB y los modelos de análisis de documentos basados ​​en Transformer.
Validación de la superioridad de una estrategia de ajuste fino basada en un solo modelo (alta precisión, recuperación, logro de puntuación F1 y reducción de alucinaciones)
Apoyando la implementación escalable en industrias basadas en la precisión
Limitations:
La evaluación del rendimiento del marco propuesto se basa en un conjunto de datos generado por el propio equipo de investigación. Es necesario verificar el rendimiento de la generalización en diversos tipos de dibujo y complejidades.
Se evaluó el desempeño de nueve categorías específicas, y su generalización a otros tipos de extracción de información requiere más estudios.
Depende de la versión específica de YOLOv11 y del modelo Donut, y el rendimiento puede variar al utilizar otros modelos.
Se requiere mayor validación y optimización para su aplicación en entornos industriales reales.
👍