Cet article propose IAD-R1, un nouveau cadre de post-apprentissage qui exploite le modèle vision-langage (VLM) pour résoudre le problème de la détection d'anomalies en milieu industriel. Pour pallier le manque de données sur les défauts, nous utilisons une stratégie d'apprentissage en deux étapes. La première étape, le réglage fin supervisé par activation de la perception (PA-SFT), utilise le jeu de données de haute qualité Expert-AD (Chain-of-Thought Data Set) pour améliorer la détection d'anomalies et établir des corrélations inférence-réponse. La deuxième étape, l'optimisation des politiques relatives des groupes de contrôle structurés (SC-GRPO), améliore encore la détection d'anomalies grâce à une fonction de récompense. Les résultats expérimentaux démontrent qu'IAD-R1 améliore les performances sur sept VLM, en particulier sur le jeu de données DAGM, avec une amélioration moyenne de la précision de 43,3 % par rapport au modèle de base. De plus, un modèle de 0,5 milliard de paramètres entraîné avec IAD-R1 surpasse les modèles commerciaux tels que GPT-4.1 et Claude-Sonnet-4 en configuration zéro-coup. Le code, l’ensemble de données et les pondérations du modèle sont accessibles au public.