Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Created by
  • Haebom

저자

Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

개요

본 논문은 대규모 언어 모델(LLM)을 다양한 도구와 결합하여 실제적인 과제를 해결하는 에이전트 역할을 수행할 수 있도록 하는 도구 학습(Tool Learning)에 초점을 맞추고 있습니다. 도구 사용 LLM의 제한된 컨텍스트 길이 문제를 해결하기 위해, 방대한 도구 집합에서 유용한 도구를 선택하는 데 정보 검색(IR) 모델을 활용하는 것이 중요한 초기 단계입니다. 하지만, 도구 검색 작업에서 IR 모델의 성능은 아직 충분히 탐구되지 않았고 불확실합니다. 대부분의 도구 사용 벤치마크는 각 작업에 대한 소량의 관련 도구를 수동으로 사전 주석 처리함으로써 이 단계를 단순화하는데, 이는 실제 시나리오와는 거리가 멉니다. 따라서 본 논문에서는 기존 데이터셋에서 수집한 7,600개의 다양한 검색 작업과 43,000개의 도구 코퍼스로 구성된 이종 도구 검색 벤치마크인 ToolRet을 제안합니다. 여섯 가지 유형의 모델을 ToolRet에서 벤치마킹한 결과, 놀랍게도 기존 IR 벤치마크에서 높은 성능을 보인 모델조차도 ToolRet에서는 성능이 저조했습니다. 이러한 낮은 검색 품질은 도구 사용 LLM의 작업 성공률을 저하시킵니다. 추가적으로, 본 논문은 20만 개 이상의 인스턴스를 포함하는 대규모 훈련 데이터셋을 제공하여 IR 모델의 도구 검색 능력을 크게 향상시킵니다.

시사점, 한계점

시사점:
기존 IR 모델의 도구 검색 작업 성능 저조를 밝힘으로써, 도구 사용 LLM의 실제 적용을 위한 중요한 과제를 제시합니다.
대규모 도구 검색 벤치마크 ToolRet과 대규모 훈련 데이터셋을 제공하여 향후 연구의 발전에 기여합니다.
IR 모델의 도구 검색 능력 향상을 위한 효과적인 훈련 데이터셋의 중요성을 강조합니다.
한계점:
ToolRet 벤치마크에 사용된 도구와 작업의 다양성이 실제 세계의 모든 시나리오를 완벽하게 반영하지 못할 수 있습니다.
제시된 훈련 데이터셋의 규모가 크지만, 모든 유형의 도구와 작업을 완벽하게 커버하지 못할 가능성이 있습니다.
벤치마킹에 사용된 모델의 종류가 제한적일 수 있으며, 더욱 다양한 모델을 포함한 추가 연구가 필요합니다.
👍