每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

PLSemanticsBench:大型语言模型作为编程语言解释器

Created by
  • Haebom

作者

Aditya Thimmaiah、张继阳、Jayanth Srinivasa、Junyi Jessy Li、Milos Gligoric

基于LLM的编程语言解释器研究

大纲

随着大规模语言模型 (LLM) 在代码推理方面越来越熟练,研究的重点是 LLM 是否能够基于编程语言的形式语义执行程序(即充当解释器)。使用命令式语言 IMP(C 的一个子集),我们评估了基于小步操作语义 (SOS) 形式化语义和基于重写的操作语义 (K-semantics) 的 LLM 的性能。我们使用了三个评估集:人工编写、LLM 翻译和模糊器生成的,难度由代码复杂度指标控制。我们在三个任务上评估了这些模型:最终状态预测、语义规则预测和执行轨迹预测。我们使用了两种源自标准规则系统性修改的非标准语义来区分预训练记忆和语义能力。

Takeaways,Limitations

强代码/推理 LLM 在非标准语义下的性能下降,而其在标准语义下的性能则较高。
模型失败是有规律的。
大多数推理模型在处理嵌套循环深度为 5 或更多的非常复杂的程序这一粗略任务上表现非常出色。
提供形式语义对于简单程序很有帮助,但对于更复杂的程序通常会产生负面影响。
尽管 LLM 显示出作为编程语言解释器的潜力,但它缺乏强大的语义理解。
👍