대규모 언어 모델(LLM)이 코드 추론에 능숙해짐에 따라, LLM이 프로그래밍 언어의 형식적 의미론에 기반하여 프로그램을 실행(즉, 인터프리터 역할)할 수 있는지에 대한 연구가 진행되었다. 명령형 언어 IMP(C의 하위 집합)를 사용하여, 소규모 단계 운영 의미론(SOS)과 재작성 기반 운영 의미론(K-semantics)으로 형식화된 의미론을 기반으로, LLM의 성능을 평가했다. Human-Written, LLM-Translated, Fuzzer-Generated의 세 가지 평가 세트를 사용했으며, 코드 복잡성 지표를 통해 난이도를 조절했다. 최종 상태 예측, 의미 규칙 예측, 실행 추적 예측의 세 가지 작업을 통해 모델을 평가했다. 표준 규칙의 체계적인 변형을 통해 얻은 두 가지 비표준 의미론을 사용하여 사전 훈련된 기억과 의미론적 능력을 구별했다.