随着大规模语言模型 (LLM) 在代码推理方面越来越熟练,研究的重点是 LLM 是否能够基于编程语言的形式语义执行程序(即充当解释器)。使用命令式语言 IMP(C 的一个子集),我们评估了基于小步操作语义 (SOS) 形式化语义和基于重写的操作语义 (K-semantics) 的 LLM 的性能。我们使用了三个评估集:人工编写、LLM 翻译和模糊器生成的,难度由代码复杂度指标控制。我们在三个任务上评估了这些模型:最终状态预测、语义规则预测和执行轨迹预测。我们使用了两种源自标准规则系统性修改的非标准语义来区分预训练记忆和语义能力。