본 논문은 대규모 언어 모델(LLM)을 다양한 도구와 결합하여 실제적인 과제를 해결하는 에이전트 역할을 수행할 수 있도록 하는 도구 학습(Tool Learning)에 초점을 맞추고 있습니다. 도구 사용 LLM의 제한된 컨텍스트 길이 문제를 해결하기 위해, 방대한 도구 집합에서 유용한 도구를 선택하는 데 정보 검색(IR) 모델을 활용하는 것이 중요한 초기 단계입니다. 하지만, 도구 검색 작업에서 IR 모델의 성능은 아직 충분히 탐구되지 않았고 불확실합니다. 대부분의 도구 사용 벤치마크는 각 작업에 대한 소량의 관련 도구를 수동으로 사전 주석 처리함으로써 이 단계를 단순화하는데, 이는 실제 시나리오와는 거리가 멉니다. 따라서 본 논문에서는 기존 데이터셋에서 수집한 7,600개의 다양한 검색 작업과 43,000개의 도구 코퍼스로 구성된 이종 도구 검색 벤치마크인 ToolRet을 제안합니다. 여섯 가지 유형의 모델을 ToolRet에서 벤치마킹한 결과, 놀랍게도 기존 IR 벤치마크에서 높은 성능을 보인 모델조차도 ToolRet에서는 성능이 저조했습니다. 이러한 낮은 검색 품질은 도구 사용 LLM의 작업 성공률을 저하시킵니다. 추가적으로, 본 논문은 20만 개 이상의 인스턴스를 포함하는 대규모 훈련 데이터셋을 제공하여 IR 모델의 도구 검색 능력을 크게 향상시킵니다.