본 논문은 대규모 언어 모델(LLM)의 코드에 대한 의미적 이해 능력을 평가하기 위해 코드 난독화 기법을 활용한 새로운 평가 방식을 제시합니다. CodeNet을 기반으로 생성된 250개의 Java 프로그래밍 문제와 해결책으로 구성된 벤치마크를 사용하여, 코드 특화 모델(StarCoder2 등)과 범용 모델(GPT-4o 등) 13개를 대상으로 난독화된 코드에 대한 정확한 설명 생성 및 난독화 해제 작업을 수행하는 능력을 평가했습니다. 실험 결과, 난독화 복잡도가 증가함에 따라 모델의 성능이 통계적으로 유의미하게 저하되었으며, 코드 특화 모델보다 범용 모델이 예상 외로 높은 견고성을 보였습니다. 일부 모델은 난독화 기법을 성공적으로 식별했지만, 기저 프로그램 로직을 재구성하는 능력에는 한계가 있음을 보여주어, LLM의 의미적 표현 메커니즘의 한계를 시사합니다. 본 연구는 리버스 엔지니어링 및 적대적 코드 분석과 같은 보안 중요 코드 분석 응용 프로그램의 연구 발전을 위한 경험적 기준을 마련합니다.