본 논문은 41개의 주요 대규모 언어 모델(LLM)의 도구 학습 능력을 33개의 벤치마크를 재현하여 평가한 연구 결과를 제시합니다. ToLeaP라는 도구 학습 플랫폼을 구축하여 7개 벤치마크에 대한 원클릭 평가를 가능하게 했으며, 21개의 잠재적 훈련 데이터셋을 수집했습니다. 3,000개 이상의 실패 사례 분석을 통해 도구 학습의 네 가지 주요 과제를 확인했습니다. 이는 벤치마크의 한계로 인한 자율 학습, 일반화, 장기간 과제 해결 능력의 부족 및 간과를 포함합니다. 향후 발전을 위해 실제 환경 벤치마크 구축, 호환성 인식 자율 학습, 사고를 통한 근거 학습, 주요 단서 식별 및 상기 등의 방향을 제시하고, 예비 실험을 통해 그 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
41개의 LLM에 대한 도구 학습 능력의 종합적인 평가 및 분석 제공
◦
도구 학습의 주요 과제(벤치마크 한계, 자율 학습 부족, 일반화 부족, 장기 과제 해결 능력 부족)를 명확히 제시
◦
향후 연구를 위한 실제 환경 벤치마크 구축, 호환성 인식 자율 학습, 사고를 통한 근거 학습, 주요 단서 식별 및 상기 등의 유망한 방향 제시