ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset
Created by
Haebom
Category
Empty
저자
Chen Yang, Ran Le, Yun Xing, Zhenwei An, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang
개요
본 논문은 외부 도구를 사용하는 복잡한 실제 문제 해결을 위해 발전해 온 대규모 언어 모델(LLM) 에이전트의 발전을 다루고 있다. 특히, 고품질 궤적 부족이 LLM 에이전트의 발전을 저해하는 문제를 해결하기 위해, 2만 개 이상의 도구와 20만 개 이상의 증강된 오픈 소스 데이터 인스턴스를 사용하여 16만 개의 합성 데이터 인스턴스로 구성된 대규모 고품질 도구 에이전트 데이터셋인 ToolMind를 소개한다. 이 데이터셋은 파라미터 상관 관계를 기반으로 함수 그래프를 구성하고, 멀티 에이전트 프레임워크를 사용하여 실제적인 사용자-어시스턴트-도구 상호 작용을 시뮬레이션하여 생성되었다. 궤적 수준 검증 외에도, 턴 수준 필터링을 통해 오류나 최적화되지 않은 단계를 제거하여 고품질 추론 흔적만 유지함으로써 학습 중 오류 증폭을 완화하고 견고한 도구 사용 학습에 필수적인 자기 교정 추론 신호를 보존한다. ToolMind에 대해 미세 조정된 모델은 여러 벤치마크에서 기존 모델보다 유의미한 성능 향상을 보였다.
시사점, 한계점
•
시사점:
◦
대규모 고품질 ToolMind 데이터셋 구축을 통해 LLM 에이전트의 성능 향상에 기여.
◦
턴 수준 필터링을 통해 학습 중 오류 증폭을 완화하고 모델의 견고성을 높임.
◦
다양한 도구와 데이터셋을 활용하여 실제 환경에 가까운 데이터셋 구성.
◦
벤치마크에서 기존 모델 대비 유의미한 성능 향상을 보임.
•
한계점:
◦
논문에서 구체적인 한계점 언급은 없음. (하지만 논문 전체를 요약한 것이므로, 추가적인 한계점은 분석할 수 없음.)