每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

学习以恰到好处的方式做出决策:CMDP 的信息论语境总结

Created by
  • Haebom

作者

刘培东、林俊江、王少文、徐耀、李海清、谢旭豪、吴思怡、李浩

大纲

在上下文马尔可夫决策过程 (CMDP) 环境中,我们提出了一种信息论摘要方法,该方法利用大规模语言模型 (LLM) 将高维/非结构化上下文压缩为低维语义摘要。该方法通过减少冗余来增强状态,同时保留关键的决策线索。基于近似上下文充分性的概念,我们为 CMDP 提供了首创的遗憾界限和延迟熵权衡表征。该方法在各种基准测试中均优于现有方法,在提高奖励、成功率和样本效率的同时,降低了延迟和内存占用。

Takeaways,Limitations

Takeaways:
基于 LLM 的摘要为在内容丰富、资源受限的环境中进行高效决策提供了可扩展且可解释的解决方案。
我们为 CMDP 提供了第一个遗憾界限和延迟熵权衡特征。
在各种环境中证明了性能的改进。
Limitations:
Limitations,如论文中所述,并未直接呈现(仅限于所提供的信息)。
👍