Sign In

ToolFuzz -- Automated Agent Tool Testing

Created by
  • Haebom
Category
Empty

저자

Ivan Milev, Mislav Balunovic, Maximilian Baader, Martin Vechev

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 실제 환경과 상호작용하기 위해 사용하는 도구 문서의 오류를 자동으로 찾는 새로운 방법인 ToolFuzz를 제시합니다. LLM 에이전트는 웹 검색이나 데이터베이스 API와 같은 도구를 사용하며, 이 도구의 설명이 불완전하거나 잘못되었을 경우 에이전트의 정확성에 심각한 영향을 미칩니다. 기존의 소프트웨어 테스트 방법은 자연어로 표현된 이러한 오류를 식별하는 데 어려움을 겪습니다. ToolFuzz는 도구 실행 오류를 유발하는 사용자 질의와 잘못된 에이전트 응답을 유발하는 사용자 질의라는 두 가지 유형의 오류를 찾도록 설계되었습니다. 다양한 자연어 입력을 생성하여 낮은 오탐율로 도구 설명 오류를 효과적으로 찾아냅니다. LangChain 도구 32개와 새로 만든 사용자 정의 도구 35개를 사용한 평가 결과, ToolFuzz가 기존 프롬프트 엔지니어링 방식보다 20배나 많은 오류 입력을 식별하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM 에이전트의 신뢰성을 높이기 위한 도구 문서 자동 테스트 방법을 최초로 제시.
ToolFuzz는 기존 방법보다 훨씬 많은 오류를 효과적으로 찾아냄으로써 LLM 에이전트 개발에 중요한 역할을 할 수 있음.
공개적으로 이용 가능한 많은 도구들이 불완전한 설명을 가지고 있음을 보여줌.
한계점:
ToolFuzz의 성능은 사용된 도구와 데이터셋에 따라 달라질 수 있음. 더 다양한 도구 및 데이터셋에 대한 추가적인 평가가 필요.
현재는 특정 유형의 오류(실행 오류 및 잘못된 응답)에 초점을 맞추고 있으므로, 다른 유형의 오류를 탐지하기 위한 추가적인 기능 개발이 필요할 수 있음.
프롬프트 엔지니어링 접근 방식과 비교했을 때, ToolFuzz의 계산 비용이 더 높을 수 있음.
👍