본 논문은 대규모 언어 모델(LLM) 에이전트가 실제 환경과 상호 작용하기 위해 사용하는 툴 문서의 오류를 자동으로 검출하는 새로운 방법인 ToolFuzz를 제시합니다. LLM 에이전트는 웹 검색이나 데이터베이스 API와 같은 툴을 사용하며, 이 툴의 문서가 불완전하거나 잘못되었을 경우 에이전트의 정확도에 심각한 영향을 미칩니다. 기존의 소프트웨어 테스트 방법은 자연어로 작성된 툴 문서의 오류를 효과적으로 찾아내지 못합니다. ToolFuzz는 툴 실행 시 오류를 유발하는 사용자 질의와 잘못된 에이전트 응답을 유발하는 사용자 질의라는 두 가지 유형의 오류를 찾도록 설계되었습니다. 다양한 자연어 입력을 생성하여 낮은 오탐율로 툴 설명 오류를 효과적으로 발견하며, 두 가지 간단한 프롬프트 엔지니어링 기법과 함께 32개의 일반적인 LangChain 툴과 35개의 새로 만든 사용자 정의 툴 및 2개의 새로운 벤치마크에 대해 평가되었습니다. 평가 결과, ToolFuzz는 프롬프트 엔지니어링 기법보다 20배 많은 오류 입력을 식별하여 신뢰할 수 있는 AI 에이전트 구축에 중요한 구성 요소임을 보여줍니다.