Este artículo propone IAD-R1, un novedoso marco de post-entrenamiento que aprovecha el Modelo de Visión-Lenguaje (VLM) para abordar el problema de la detección de anomalías en entornos industriales. Para abordar la falta de datos de defectos, empleamos una estrategia de entrenamiento de dos etapas. La primera etapa, Ajuste Fino Supervisado por Activación de Percepción (PA-SFT), utiliza el conjunto de datos de Cadena de Pensamiento de alta calidad Expert-AD para mejorar la detección de anomalías y establecer correlaciones inferencia-respuesta. La segunda etapa, Optimización de Política Relativa de Grupo de Control Estructurado (SC-GRPO), mejora aún más la detección de anomalías mediante una función de recompensa. Los resultados experimentales demuestran que IAD-R1 mejora el rendimiento en siete VLM, particularmente en el conjunto de datos DAGM, logrando una mejora promedio de la precisión del 43.3% con respecto al modelo de referencia. Además, un modelo de parámetro 0.5B entrenado con IAD-R1 supera a modelos comerciales como GPT-4.1 y Claude-Sonnet-4 en entornos de disparo cero. El código, el conjunto de datos y los pesos del modelo están disponibles públicamente.