Este artículo propone un novedoso marco híbrido de aprendizaje profundo para extraer con precisión información clave de dibujos de ingeniería 2D. Para abordar el problema de las técnicas convencionales de OCR que generan resultados no estructurados debido a diseños complejos y símbolos superpuestos, utilizamos un enfoque híbrido que integra un modelo de detección de cuadro delimitador orientado (OBB) y un modelo de análisis de documentos basado en transformadores (Donut). Utilizando YOLOv11, detectamos nueve categorías principales: GD&T, tolerancias generales, dimensiones, materiales, anotaciones, radios, rugosidad superficial, roscas y bloques de título, y ajustamos Donut para generar resultados JSON estructurados. Comparamos dos estrategias de ajuste: un modelo único para todas las categorías y un modelo específico para cada categoría. Observamos que el modelo único logra mayor precisión (94,77 % para GD&T), recuperación (100 % para la mayoría de las categorías), puntuación F1 (97,3 %) y reduce las alucinaciones (5,23 %) en todas las métricas de evaluación. El marco propuesto mejora la precisión, reduce el trabajo manual y admite una implementación escalable en industrias basadas en la precisión.