Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ETF: Un marco de rastreo de entidades para la detección de alucinaciones en el código Resumen

Created by
  • Haebom

Autor

Kishan Maharaj, Vitobha Munigala, Srikanth G. Tamilselvam, Príncipe Kumar, Sayandeep Sen, Palani Kodeswaran, Abhijit Mishra, Pushpak Bhattacharyya

Describir

Este artículo propone un nuevo conjunto de datos, CodeSumEval (aproximadamente 10 000 muestras), y un Marco de Seguimiento de Entidades (ETF) para abordar el problema de las alucinaciones que surge durante la resumición de código mediante modelos de lenguaje a gran escala (LLM). CodeSumEval es un conjunto de datos específico para detectar alucinaciones en resúmenes de código, mientras que el ETF identifica entidades de código mediante análisis estático de programas y las mapea y verifica según su propósito dentro de los resúmenes de código generados mediante LLM. Los resultados experimentales muestran que el ETF alcanza una puntuación F1 del 73 %, lo que demuestra su eficacia para evaluar la precisión de los resúmenes de código y localizar errores en ellos.

Takeaways, Limitations

Takeaways:
En el Resumen del código, presentamos un nuevo conjunto de datos y un marco para resolver el problema de las alucinaciones.
Se propone un nuevo enfoque que combina el análisis de programas estáticos y LLM.
Se ha demostrado experimentalmente la eficacia de los ETF mediante una alta puntuación F1 (73%).
Capacidad para evaluar la precisión de los resúmenes de código y localizar errores.
Limitations:
El tamaño del conjunto de datos CodeSumEval (10 000 muestras) puede ser relativamente pequeño.
El rendimiento de un ETF puede depender de un lenguaje de programación específico, un estilo de código o un LLM.
Puede haber limitaciones en la detección de todos los tipos de alucinaciones.
Se necesita una mayor validación del rendimiento de generalización en entornos del mundo real.
👍