Bài báo này đề xuất IAD-R1, một khuôn khổ đào tạo sau mới tận dụng Mô hình Ngôn ngữ Thị giác (VLM) để giải quyết vấn đề phát hiện bất thường trong môi trường công nghiệp. Để giải quyết tình trạng thiếu dữ liệu lỗi, chúng tôi sử dụng chiến lược đào tạo hai giai đoạn. Giai đoạn đầu tiên, Điều chỉnh tinh chỉnh có giám sát kích hoạt nhận thức (PA-SFT), sử dụng bộ dữ liệu Chuỗi suy nghĩ chất lượng cao Expert-AD để tăng cường phát hiện bất thường và thiết lập mối tương quan suy luận-câu trả lời. Giai đoạn thứ hai, Tối ưu hóa chính sách tương đối nhóm kiểm soát có cấu trúc (SC-GRPO), tiếp tục tăng cường phát hiện bất thường thông qua hàm thưởng. Kết quả thử nghiệm chứng minh rằng IAD-R1 cải thiện hiệu suất trên bảy VLM, đặc biệt là trên bộ dữ liệu DAGM, đạt được mức cải thiện độ chính xác trung bình là 43,3% so với mô hình cơ sở. Hơn nữa, mô hình tham số 0,5B được đào tạo bằng IAD-R1 vượt trội hơn các mô hình thương mại như GPT-4.1 và Claude-Sonnet-4 trong cài đặt không có cú đánh nào. Mã, tập dữ liệu và trọng số mô hình đều được công khai.