Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

Created by
  • Haebom

Auteur

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

Contour

Cet article propose un nouveau cadre hybride d'apprentissage profond permettant d'extraire avec précision les informations clés des dessins techniques 2D. Pour résoudre le problème des techniques OCR conventionnelles générant des résultats non structurés en raison de dispositions complexes et de symboles superposés, nous utilisons une approche hybride intégrant un modèle de détection de boîte englobante orientée (OBB) et un modèle d'analyse de documents basé sur un transformateur (Donut). Grâce à YOLOv11, nous détectons neuf catégories principales : GD&T, tolérances générales, dimensions, matériaux, annotations, rayons, rugosité de surface, filetages et cartouches, et affinons Donut pour générer une sortie JSON structurée. Nous comparons deux stratégies d'affinement : un modèle unique pour toutes les catégories et un modèle spécifique à chaque catégorie. Nous constatons que le modèle unique offre une précision supérieure (94,77 % pour GD&T), un rappel (100 % pour la plupart des catégories), un score F1 (97,3 %) et une réduction des hallucinations (5,23 %) pour toutes les mesures d'évaluation. Le cadre proposé améliore la précision, réduit le travail manuel et prend en charge un déploiement évolutif dans les industries basées sur la précision.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre basé sur l’apprentissage profond pour extraire avec précision et efficacité des informations clés à partir de dessins d’ingénierie 2D.
Précision améliorée et effort manuel réduit grâce à l'intégration efficace de la détection OBB et des modèles d'analyse de documents basés sur Transformer.
Validation de la supériorité d'une stratégie de réglage fin basée sur un modèle unique (haute précision, rappel, obtention du score F1 et réduction des hallucinations)
Soutenir un déploiement évolutif dans les industries de précision
Limitations:
L'évaluation des performances du cadre proposé s'appuie sur un ensemble de données construit par l'équipe de recherche elle-même. Les performances de généralisation sur différents types et niveaux de complexité de dessin doivent être vérifiées.
Les performances ont été évaluées pour neuf catégories spécifiques, et la généralisabilité à d’autres types d’extraction d’informations nécessite une étude plus approfondie.
Cela dépend de la version spécifique de YOLOv11 et du modèle Donut, et les performances peuvent varier lors de l'utilisation d'autres modèles.
Une validation et une optimisation supplémentaires sont nécessaires pour une application dans des environnements industriels réels.
👍