Este artículo presenta un novedoso método de evaluación que utiliza técnicas de ofuscación de código para evaluar la capacidad de comprensión semántica de los modelos de lenguaje a gran escala (LLM) para código. Utilizando un benchmark compuesto por 250 problemas de programación Java y sus soluciones generadas desde CodeNet, evaluamos la capacidad de 13 modelos específicos de código (p. ej., StarCoder2) y modelos de propósito general (p. ej., GPT-4o) para generar explicaciones precisas para código ofuscado y realizar tareas de desofuscación. Los resultados experimentales muestran que el rendimiento de los modelos se deteriora estadísticamente de forma significativa a medida que aumenta la complejidad de la ofuscación, y los modelos de propósito general muestran una robustez inesperadamente mayor que los modelos específicos de código. Si bien algunos modelos identifican con éxito las técnicas de ofuscación, presentan limitaciones en su capacidad para reconstruir la lógica subyacente del programa, lo que sugiere las limitaciones del mecanismo de representación semántica de los LLM. Este estudio proporciona una base empírica para el avance de la investigación en aplicaciones de análisis de código críticas para la seguridad, como la ingeniería inversa y el análisis de código adversarial.