每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

TAI3:测试代理在解释用户意图时的完整性

Created by
  • Haebom

作者

冯世伟、徐翔哲、陈轩、张开元、Syed Yusuf Ahmed、苏子安、郑明伟、张翔宇

大纲

虽然LLM代理越来越多地用于通过使用自然语言指令调用API来自动化实际任务,但它们经常会误解用户意图并执行与预期不同的操作。外部工具包的进步加剧了这个问题。传统的软件测试假设结构化输入,在处理自然语言歧义方面存在局限性。TAI3是一个以API为中心的压力测试框架,它系统地揭示了LLM代理中的意图完整性违规问题。它根据工具包文档生成真实的任务,并应用有针对性的突变来揭示代理错误,同时保留用户意图。为了指导测试,它提出了一种基于工具包API参数和等价类的自然语言任务语义划分方法,将其划分为有意义的类别。在每个分区中,使用一个轻量级预测器对种子任务进行转换和排序,该预测器可以估计导致代理错误的可能性。为了提高效率,TAI3维护了一个数据类型感知策略的内存,这些策略可以从过去的示例中发现并应用有效的突变模式。在 80 个工具包 API 的实验中,TAI3 在错误暴露率和查询效率方面均显著优于基线,有效发现了意图完整性违规。此外,TAI3 通过使用更小的 LLM 进行测试生成,可以泛化到更强大的目标模型,并能够适应跨领域不断发展的 API。

Takeaways, Limitations

Takeaways:
提出了一种用于解决 LLM 代理意图完整性问题的新型测试框架(TAI3)。
通过基于 API 的测试有效地发现真正的错误。
利用语义分割和数据类型感知策略记忆来提高测试效率。
适用于各种领域和模型,适应API的演进。
Limitations:
实验中使用的工具包 API 数量可能有限。
语义分割和轻量级预测器的性能限制。
数据类型识别策略记忆的学习和应用还有待进一步分析。
由于自然语言理解能力的局限性,可能会出现错误。
👍