Este artículo propone un novedoso marco híbrido de aprendizaje profundo para extraer con precisión información clave de dibujos de ingeniería 2D. Para abordar el problema de las técnicas convencionales de OCR que generan resultados no estructurados debido a diseños complejos y símbolos duplicados, integramos un modelo de detección de cuadro delimitador orientado (OBB) y un modelo de análisis de documentos basado en Transformer (Donut). Utilizando YOLOv11, detectamos nueve categorías principales: GD&T, tolerancias generales, dimensiones, materiales, anotaciones, radios, rugosidad superficial, roscas y bloques de título, y ajustamos Donut para generar resultados JSON estructurados. Un análisis comparativo del entrenamiento de un modelo único para todas las categorías frente al entrenamiento de un modelo específico de la categoría revela que el modelo único logra mayor precisión (94,77 % para GD&T), recuperación (principalmente 100 %), puntuación F1 (97,3 %) y reduce las alucinaciones (5,23 %) en todas las métricas de evaluación. Este marco mejora la precisión, reduce el esfuerzo manual y admite una implementación escalable en industrias de precisión crítica.