每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

LexiCon:自然语言时间约束下的规划基准

Created by
  • Haebom

作者

Periklis Mantenoglou、Rishi Hazra、Pedro Zuidberg Dos Martires、Luc De Raedt

大纲

本文介绍了基于自然语言约束规划基准 LexiCon。LexiCon 评估了大规模语言模型 (LLM) 的规划能力。它为现有的规划环境添加了时间约束,并将其转化为自然语言问题。LexiCon 通过一个全新的环境生成器实现扩展,并旨在随着 LLM 规划能力的提升而增加问题难度。实验结果表明,包括 GPT-5、o3 和 R1 在内的最先进的 LLM 的性能会随着规划任务约束的增加而下降。

Takeaways,Limitations

Takeaways:
推出 LexiCon,这是评估 LLM 中约束规划能力的新基准。
LexiCon 可以评估 LLM 处理实际应用所需的安全相关约束的能力。
LexiCon 的可扩展性允许随着 LLM 趋势的发展进行持续评估。
实验结果证实了最新的LLM约束规划的性能下降,表明需要改进。
Limitations:
缺乏有关 LexiCon 中具体设置和约束类型的详细信息。
缺乏有关实验中使用的 LLM 模型的类型和详细设置的信息。
缺乏对约束强度与LLM性能下降之间关系的定量分析。
缺乏针对性能下降的具体原因分析和解决建议。
👍