본 논문은 대규모 언어 모델(LLM)을 다양한 도구와 결합하여 실제 작업을 해결하는 에이전트 역할을 하도록 하는 도구 학습에 대해 다룹니다. 도구 사용 LLM의 제한된 컨텍스트 길이 때문에 대규모 도구 집합에서 유용한 도구를 선택하기 위해 정보 검색(IR) 모델을 채택하는 것이 중요한 초기 단계입니다. 그러나 도구 검색 작업에서 IR 모델의 성능은 아직 충분히 탐구되지 않았고 불분명합니다. 대부분의 도구 사용 벤치마크는 각 작업에 대해 관련 도구의 작은 집합을 수동으로 사전 주석 처리하여 이 단계를 단순화하는데, 이는 실제 시나리오와는 거리가 멉니다. 본 논문에서는 기존 데이터셋에서 수집한 7.6k개의 다양한 검색 작업과 43k개의 도구 코퍼스로 구성된 이종 도구 검색 벤치마크인 ToolRet을 제안합니다. ToolRet에서 6가지 유형의 모델을 벤치마크합니다. 놀랍게도, 기존 IR 벤치마크에서 강력한 성능을 보이는 모델조차도 ToolRet에서는 성능이 저조합니다. 이러한 낮은 검색 품질은 도구 사용 LLM의 작업 성공률을 저하시킵니다. 한 단계 더 나아가, 20만 개가 넘는 인스턴스로 구성된 대규모 학습 데이터셋을 제공하여 IR 모델의 도구 검색 능력을 크게 향상시킵니다.
시사점, 한계점
•
시사점: 기존 IR 모델이 실제 도구 검색 작업에 적합하지 않다는 것을 밝히고, 대규모 도구 검색 벤치마크 ToolRet과 대규모 학습 데이터셋을 제공하여 도구 검색 성능 향상에 기여. 도구 사용 LLM의 성능 향상을 위한 중요한 기반 기술 제시.
•
한계점: ToolRet 벤치마크가 특정 데이터셋에 기반하여 구성되었으므로, 다른 도메인이나 도구 유형에 대한 일반화 성능은 추가 연구가 필요. 제공된 대규모 학습 데이터셋의 품질과 편향성에 대한 추가적인 분석 필요.