Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Análisis automatizado de planos de ingeniería para la extracción de información estructurada mediante un transformador de comprensión de documentos optimizado

Created by
  • Haebom

Autor

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

Describir

Este artículo propone un novedoso marco híbrido de aprendizaje profundo para extraer con precisión información clave de dibujos de ingeniería 2D. Para abordar el problema de las técnicas convencionales de OCR que generan resultados no estructurados debido a diseños complejos y símbolos duplicados, integramos un modelo de detección de cuadro delimitador orientado (OBB) y un modelo de análisis de documentos basado en Transformer (Donut). Utilizando YOLOv11, detectamos nueve categorías principales: GD&T, tolerancias generales, dimensiones, materiales, anotaciones, radios, rugosidad superficial, roscas y bloques de título, y ajustamos Donut para generar resultados JSON estructurados. Un análisis comparativo del entrenamiento de un modelo único para todas las categorías frente al entrenamiento de un modelo específico de la categoría revela que el modelo único logra mayor precisión (94,77 % para GD&T), recuperación (principalmente 100 %), puntuación F1 (97,3 %) y reduce las alucinaciones (5,23 %) en todas las métricas de evaluación. Este marco mejora la precisión, reduce el esfuerzo manual y admite una implementación escalable en industrias de precisión crítica.

Takeaways, Limitations

Takeaways:
Presentamos un novedoso marco de aprendizaje profundo híbrido que mejora la precisión y la eficiencia de la extracción de información clave de los dibujos de ingeniería 2D.
Demostrar experimentalmente que un enfoque basado en un solo modelo supera a los modelos de múltiples categorías.
En industrias donde se requiere precisión, la extracción automatizada de información presenta el potencial de aumentar la productividad y reducir el error humano.
Salida JSON estructurada para facilitar el procesamiento posterior y la integración del sistema.
Limitations:
El rendimiento del marco propuesto puede depender del conjunto de datos propio utilizado. Es necesario verificar el rendimiento de la generalización en diversos estilos de dibujo y complejidades.
La tasa de alucinaciones del 5,23 % aún presenta margen de mejora. Se requiere un desarrollo de modelos más robustos y mecanismos adicionales de detección de errores.
Posible degradación del rendimiento de generalización debido al uso de conjuntos de datos limitados a tipos de dibujo o sectores específicos. Es necesario escalar a conjuntos de datos más grandes que incluyan una mayor variedad de tipos de dibujo.
👍