每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RECODE-H:具有交互式人工反馈的研究代码开发基准

Created by
  • Haebom

作者

苗春雨、邹亨利鹏、李阳宁、陈彦凯、王一波、王芳馨、李一凡、杨宇成、何博伟、顾正耀、韩宇伟、何兰州、杨宇耀、刘雪、Irwin King、Philip S. Yu

大纲

虽然大规模语言模型 (LLM) 在支持科学研究方面展现出巨大潜力,但它们生成准确可执行代码的能力却十分有限。现有研究主要采用一次性设置,忽略了现实世界科研开发工作流程中迭代和反馈驱动的本质。为了弥补这一缺陷,我们提出了 RECODE-H 基准测试,其中包含 102 项来自研究论文和知识库的任务。该基准测试通过与 LLM 模拟的人工反馈进行多阶段交互来评估 LLM 代理。RECODE-H 融合了结构化指令、单元测试以及一个反映现实世界研究人员与代理协作的五级反馈层级结构。我们还提出了 ReCodeAgent 框架,该框架将反馈集成到迭代代码生成中。使用包括 GPT-5、Claude-Sonnet-4、DeepSeek-V3.1 和 Gemini 2.5 在内的领先 LLM 进行的实验结果表明,其性能显著提升,反馈更加丰富,同时也凸显了生成复杂研究代码所面临的持续挑战。 RECODE-H 为在科学研究实施中开发自适应、基于反馈的 LLM 代理奠定了基础。

Takeaways, Limitations

Takeaways:
RECODE-H 基准为评估基于 LLM 的代码生成代理的性能提供了一个新的框架。
ReCodeAgent 框架提出了一种通过反馈来提高 LLM 性能的方法。
我们通过对各种 LLM 模型的实验证明了反馈的有效性。
展示了法学硕士在科学研究代码生成领域的潜力。
Limitations:
生成复杂的研究代码仍然具有挑战性。
需要进一步研究来探索所提出框架的普遍性及其向其他科学领域的扩展。
需要进一步评估以考虑与实际研究环境的差异。
👍