Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

Created by
  • Haebom

Auteur

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

Contour

Cet article propose un nouveau cadre hybride d'apprentissage profond permettant d'extraire avec précision les informations clés des dessins techniques 2D. Pour remédier au problème des techniques OCR conventionnelles générant des résultats non structurés en raison de dispositions complexes et de symboles dupliqués, nous intégrons un modèle de détection de boîte englobante orientée (OBB) et un modèle d'analyse de documents basé sur Transformer (Donut). Grâce à YOLOv11, nous détectons neuf catégories principales : GD&T, tolérances générales, dimensions, matériaux, annotations, rayons, rugosité de surface, filetages et cartouches, et affinons Donut pour générer une sortie JSON structurée. Une analyse comparative de l'apprentissage d'un modèle unique pour toutes les catégories par rapport à l'apprentissage d'un modèle spécifique à une catégorie révèle que le modèle unique atteint une précision supérieure (94,77 % pour GD&T), un rappel (presque 100 %), un score F1 (97,3 %) et une réduction des hallucinations (5,23 %) pour toutes les mesures d'évaluation. Ce cadre améliore la précision, réduit les efforts manuels et permet un déploiement évolutif dans les industries où la précision est essentielle.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre d’apprentissage profond hybride qui améliore la précision et l’efficacité de l’extraction d’informations clés à partir de dessins d’ingénierie 2D.
Démontrer expérimentalement qu’une approche basée sur un modèle unique surpasse les modèles multi-catégories.
Dans les secteurs où la précision est requise, l’extraction automatisée d’informations présente le potentiel d’augmenter la productivité et de réduire les erreurs humaines.
La sortie JSON structurée facilite le traitement ultérieur et l'intégration du système.
Limitations:
Les performances du cadre proposé peuvent dépendre de l'ensemble de données auto-construit utilisé. Les performances de généralisation à différents styles et complexités de dessin doivent être vérifiées.
Le taux d'hallucinations de 5,23 % laisse encore une marge d'amélioration. Des modèles plus robustes et des mécanismes de détection d'erreurs supplémentaires sont nécessaires.
Dégradation possible des performances de généralisation due à l'utilisation de jeux de données limités à des types de dessins ou à des secteurs spécifiques. Une adaptation à des jeux de données plus volumineux, incluant une plus grande variété de types de dessins, est nécessaire.
👍