본 논문은 대규모 언어 모델(LLM) 에이전트가 실제 환경과 상호 작용하기 위해 사용하는 도구 문서의 오류를 자동으로 검출하는 새로운 방법인 ToolFuzz를 제시합니다. LLM 에이전트는 웹 검색이나 데이터베이스 API와 같은 도구를 사용하며, 이 도구에 대한 문서의 완전성과 정확성은 에이전트의 정확도에 매우 중요합니다. 하지만 기존의 소프트웨어 테스트 방법은 자연어로 작성된 도구 문서의 오류를 효과적으로 찾아내지 못합니다. ToolFuzz는 도구 실행 시 오류를 유발하는 사용자 질의와 에이전트의 잘못된 응답을 유발하는 사용자 질의라는 두 가지 유형의 오류를 찾도록 설계되었습니다. 다양한 자연어 입력을 생성하여 높은 효율성과 낮은 오탐율로 도구 설명 오류를 발견하며, 두 가지 간단한 프롬프트 엔지니어링 기법도 함께 제시합니다. 32개의 일반적인 LangChain 도구와 35개의 새롭게 생성된 사용자 지정 도구, 그리고 2개의 새로운 벤치마크를 사용하여 세 가지 도구 테스트 방법을 평가한 결과, ToolFuzz가 프롬프트 엔지니어링 기법보다 20배 더 많은 오류 입력을 식별함을 보여줍니다.