Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Detección automatizada de violaciones de atomicidad en sistemas a gran escala

Created by
  • Haebom

Autor

Hang He, Yixing Luo, Chengcheng Wan, Ting Su, Haiying Sun, Geguang Pu

Describir

En este artículo, proponemos Clover, un marco híbrido para detectar violaciones de atomicidad en programas controlados por interrupciones. Clover integra análisis estático y un agente de modelo de lenguaje a gran escala (LLM) para detectar violaciones de atomicidad donde el orden de ejecución de las operaciones en recursos compartidos se ve alterado por interrupciones asíncronas. El análisis estático extrae fragmentos de código críticos e información de la operación, un agente experto utiliza conocimiento específico del dominio para detectar violaciones de atomicidad y un agente juez las verifica. Los resultados de la evaluación en RaceBench 2.1, SV-COMP y RWIP muestran que Clover alcanza una precisión/recuperación del 92,3 %/86,6 %, lo que supone una mejora del 27,4 % al 118,2 % respecto a los enfoques existentes en términos de puntuación F1.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para el problema de detección de violaciones de atomicidad aprovechando agentes LLM.
Se ha demostrado que es eficaz para el análisis de programas reales al lograr una precisión y recuperación mejoradas en comparación con los métodos existentes.
Demostramos la utilidad de un enfoque híbrido de análisis estático y agentes LLM.
Limitations:
El rendimiento de un agente LLM puede depender del modelo utilizado y de los datos de entrenamiento.
Diseñar y desarrollar agentes expertos puede ser un desafío cuando se requieren conocimientos complejos y específicos del dominio.
Debido a las limitaciones en el conjunto de datos de evaluación, el rendimiento de generalización para varios programas del mundo real requiere una validación adicional.
👍