Cet article propose un nouveau cadre hybride d'apprentissage profond permettant d'extraire avec précision les informations clés des dessins techniques 2D. Pour remédier au problème des techniques OCR conventionnelles générant des résultats non structurés en raison de dispositions complexes et de symboles dupliqués, nous intégrons un modèle de détection de boîte englobante orientée (OBB) et un modèle d'analyse de documents basé sur Transformer (Donut). Grâce à YOLOv11, nous détectons neuf catégories principales : GD&T, tolérances générales, dimensions, matériaux, annotations, rayons, rugosité de surface, filetages et cartouches, et affinons Donut pour générer une sortie JSON structurée. Une analyse comparative de l'apprentissage d'un modèle unique pour toutes les catégories par rapport à l'apprentissage d'un modèle spécifique à une catégorie révèle que le modèle unique atteint une précision supérieure (94,77 % pour GD&T), un rappel (presque 100 %), un score F1 (97,3 %) et une réduction des hallucinations (5,23 %) pour toutes les mesures d'évaluation. Ce cadre améliore la précision, réduit les efforts manuels et permet un déploiement évolutif dans les industries où la précision est essentielle.