虽然LLM代理越来越多地用于通过使用自然语言指令调用API来自动化实际任务,但它们经常会误解用户意图并执行与预期不同的操作。外部工具包的进步加剧了这个问题。传统的软件测试假设结构化输入,在处理自然语言歧义方面存在局限性。TAI3是一个以API为中心的压力测试框架,它系统地揭示了LLM代理中的意图完整性违规问题。它根据工具包文档生成真实的任务,并应用有针对性的突变来揭示代理错误,同时保留用户意图。为了指导测试,它提出了一种基于工具包API参数和等价类的自然语言任务语义划分方法,将其划分为有意义的类别。在每个分区中,使用一个轻量级预测器对种子任务进行转换和排序,该预测器可以估计导致代理错误的可能性。为了提高效率,TAI3维护了一个数据类型感知策略的内存,这些策略可以从过去的示例中发现并应用有效的突变模式。在 80 个工具包 API 的实验中,TAI3 在错误暴露率和查询效率方面均显著优于基线,有效发现了意图完整性违规。此外,TAI3 通过使用更小的 LLM 进行测试生成,可以泛化到更强大的目标模型,并能够适应跨领域不断发展的 API。