Este artículo propone un conjunto de modelos de aprendizaje profundo basados en YOLO que aprovechan imágenes visibles y térmicas para la detección de defectos en componentes clave, como palas y torres de aerogeneradores. Este enfoque combina el modelo común YOLOv8 con un modelo específico para la temperatura e integra los resultados de la predicción mediante un sofisticado algoritmo de fusión de cuadros delimitadores. Los resultados experimentales demuestran que el método propuesto alcanza una precisión media (mAP@.5) de 0,93 y una puntuación F1 de 0,90, lo que mejora significativamente el rendimiento en comparación con un único modelo YOLOv8 (mAP@.5 de 0,91). Esto sugiere que el aprovechamiento de múltiples arquitecturas YOLO y la fusión de datos multiespectrales puede mejorar la fiabilidad de la detección de defectos visuales y térmicos.