본 논문은 대규모 언어 모델(LLM) 에이전트가 실제 환경과 상호작용하기 위해 사용하는 도구 문서의 오류를 자동으로 찾는 새로운 방법인 ToolFuzz를 제시합니다. LLM 에이전트는 웹 검색이나 데이터베이스 API와 같은 도구를 사용하며, 이 도구의 설명이 불완전하거나 잘못되었을 경우 에이전트의 정확성에 심각한 영향을 미칩니다. 기존의 소프트웨어 테스트 방법은 자연어로 표현된 이러한 오류를 식별하는 데 어려움을 겪습니다. ToolFuzz는 도구 실행 오류를 유발하는 사용자 질의와 잘못된 에이전트 응답을 유발하는 사용자 질의라는 두 가지 유형의 오류를 찾도록 설계되었습니다. 다양한 자연어 입력을 생성하여 낮은 오탐율로 도구 설명 오류를 효과적으로 찾아냅니다. LangChain 도구 32개와 새로 만든 사용자 정의 도구 35개를 사용한 평가 결과, ToolFuzz가 기존 프롬프트 엔지니어링 방식보다 20배나 많은 오류 입력을 식별하는 것으로 나타났습니다.