虽然大规模语言模型 (LLM) 在支持科学研究方面展现出巨大潜力,但它们生成准确可执行代码的能力却十分有限。现有研究主要采用一次性设置,忽略了现实世界科研开发工作流程中迭代和反馈驱动的本质。为了弥补这一缺陷,我们提出了 RECODE-H 基准测试,其中包含 102 项来自研究论文和知识库的任务。该基准测试通过与 LLM 模拟的人工反馈进行多阶段交互来评估 LLM 代理。RECODE-H 融合了结构化指令、单元测试以及一个反映现实世界研究人员与代理协作的五级反馈层级结构。我们还提出了 ReCodeAgent 框架,该框架将反馈集成到迭代代码生成中。使用包括 GPT-5、Claude-Sonnet-4、DeepSeek-V3.1 和 Gemini 2.5 在内的领先 LLM 进行的实验结果表明,其性能显著提升,反馈更加丰富,同时也凸显了生成复杂研究代码所面临的持续挑战。 RECODE-H 为在科学研究实施中开发自适应、基于反馈的 LLM 代理奠定了基础。