[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La barrera del código: ¿Qué entienden realmente los LLM?

Created by
  • Haebom

Autor

Serge Lionel Nikiema, Jordan Samhi, Abdoul Kader Kabor e, Jacques Klein, Tegawend y F. Bissyand e

Describir

Este artículo presenta un novedoso método de evaluación que utiliza técnicas de ofuscación de código para evaluar la capacidad de comprensión semántica de los modelos de lenguaje a gran escala (LLM) para código. Utilizando un benchmark compuesto por 250 problemas de programación Java y sus soluciones generadas desde CodeNet, evaluamos la capacidad de 13 modelos específicos de código (p. ej., StarCoder2) y modelos de propósito general (p. ej., GPT-4o) para generar explicaciones precisas para código ofuscado y realizar tareas de desofuscación. Los resultados experimentales muestran que el rendimiento de los modelos se deteriora estadísticamente de forma significativa a medida que aumenta la complejidad de la ofuscación, y los modelos de propósito general muestran una robustez inesperadamente mayor que los modelos específicos de código. Si bien algunos modelos identifican con éxito las técnicas de ofuscación, presentan limitaciones en su capacidad para reconstruir la lógica subyacente del programa, lo que sugiere las limitaciones del mecanismo de representación semántica de los LLM. Este estudio proporciona una base empírica para el avance de la investigación en aplicaciones de análisis de código críticas para la seguridad, como la ingeniería inversa y el análisis de código adversarial.

Takeaways, Limitations

Takeaways:
Un nuevo marco de evaluación basado en ofuscación para evaluar la comprensibilidad del código
Criterios empíricos para la capacidad de comprensión semántica del código en LLM
Se descubre una resistencia a la ofuscación inesperadamente alta en LLM de propósito general
Contribuir al avance de la investigación en ingeniería inversa y análisis de código adversario.
Limitations:
La evaluación está limitada al código Java
Es necesario considerar la diversidad de técnicas de ofuscación.
Se necesitan más investigaciones para aclarar los límites de las capacidades de comprensión semántica del modelo.
Una desofuscación exitosa por sí sola puede no reflejar completamente el verdadero nivel de comprensión semántica.
👍