Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IAD-R1: Refuerzo del razonamiento consistente en la detección de anomalías industriales

Created by
  • Haebom

Autor

Yanhui Li, Yunkang Cao, Chengliang Liu, Yuan Xiong, Xinghui Dong, Chao Huang

Describir

Este artículo propone IAD-R1, un novedoso marco de post-entrenamiento que aprovecha el Modelo de Visión-Lenguaje (VLM) para abordar el problema de la detección de anomalías en entornos industriales. Para abordar la falta de datos de defectos, empleamos una estrategia de entrenamiento de dos etapas. La primera etapa, Ajuste Fino Supervisado por Activación de Percepción (PA-SFT), utiliza el conjunto de datos de Cadena de Pensamiento de alta calidad Expert-AD para mejorar la detección de anomalías y establecer correlaciones inferencia-respuesta. La segunda etapa, Optimización de Política Relativa de Grupo de Control Estructurado (SC-GRPO), mejora aún más la detección de anomalías mediante una función de recompensa. Los resultados experimentales demuestran que IAD-R1 mejora el rendimiento en siete VLM, particularmente en el conjunto de datos DAGM, logrando una mejora promedio de la precisión del 43.3% con respecto al modelo de referencia. Además, un modelo de parámetro 0.5B entrenado con IAD-R1 supera a modelos comerciales como GPT-4.1 y Claude-Sonnet-4 en entornos de disparo cero. El código, el conjunto de datos y los pesos del modelo están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco de post-entrenamiento, IAD-R1, que mejora significativamente el rendimiento de detección de anomalías industriales basado en VLM.
Versatilidad aplicable a diversas arquitecturas VLM y tamaños de parámetros
Lograr un rendimiento que supere los modelos comerciales en entornos de cero disparos
Demostración de la eficacia de Expert-AD, un conjunto de datos de cadena de pensamiento de alta calidad
Aumente la reproducibilidad y escalabilidad de la investigación haciendo públicos el código, los conjuntos de datos y los pesos de los modelos.
Limitations:
Existe la posibilidad de que la mejora del rendimiento de IAD-R1 esté sesgada hacia un conjunto de datos específico (DAGM).
Necesidad de verificar el rendimiento de generalización para otras industrias o tipos de anomalías
Posible falta de descripción detallada del proceso de creación y calidad del conjunto de datos Expert-AD
Se necesita una explicación adicional con respecto al diseño de la función de recompensa de SC-GRPO.
👍