Cet article propose un ensemble de modèles d'apprentissage profond basés sur YOLO qui exploitent les images visibles et thermiques pour la détection de défauts dans des composants clés tels que les pales et les mâts d'éoliennes. Cette approche combine le modèle YOLOv8 commun avec un modèle thermique spécifique et intègre les résultats de prédiction grâce à un algorithme sophistiqué de fusion par boîte englobante. Les résultats expérimentaux démontrent que la méthode proposée atteint une précision moyenne (mAP@0,5) de 0,93 et un score F1 de 0,90, améliorant significativement les performances par rapport à un modèle YOLOv8 unique (mAP@0,5 de 0,91). Cela suggère que l'exploitation de plusieurs architectures YOLO et de données multispectrales fusionnées peut améliorer la fiabilité de la détection des défauts visuels et thermiques.