Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset

Created by
  • Haebom
Category
Empty

저자

Chen Yang, Ran Le, Yun Xing, Zhenwei An, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang

개요

본 논문은 외부 도구를 사용하는 복잡한 실제 문제 해결을 위해 발전해 온 대규모 언어 모델(LLM) 에이전트의 발전을 다루고 있다. 특히, 고품질 궤적 부족이 LLM 에이전트의 발전을 저해하는 문제를 해결하기 위해, 2만 개 이상의 도구와 20만 개 이상의 증강된 오픈 소스 데이터 인스턴스를 사용하여 16만 개의 합성 데이터 인스턴스로 구성된 대규모 고품질 도구 에이전트 데이터셋인 ToolMind를 소개한다. 이 데이터셋은 파라미터 상관 관계를 기반으로 함수 그래프를 구성하고, 멀티 에이전트 프레임워크를 사용하여 실제적인 사용자-어시스턴트-도구 상호 작용을 시뮬레이션하여 생성되었다. 궤적 수준 검증 외에도, 턴 수준 필터링을 통해 오류나 최적화되지 않은 단계를 제거하여 고품질 추론 흔적만 유지함으로써 학습 중 오류 증폭을 완화하고 견고한 도구 사용 학습에 필수적인 자기 교정 추론 신호를 보존한다. ToolMind에 대해 미세 조정된 모델은 여러 벤치마크에서 기존 모델보다 유의미한 성능 향상을 보였다.

시사점, 한계점

시사점:
대규모 고품질 ToolMind 데이터셋 구축을 통해 LLM 에이전트의 성능 향상에 기여.
턴 수준 필터링을 통해 학습 중 오류 증폭을 완화하고 모델의 견고성을 높임.
다양한 도구와 데이터셋을 활용하여 실제 환경에 가까운 데이터셋 구성.
벤치마크에서 기존 모델 대비 유의미한 성능 향상을 보임.
한계점:
논문에서 구체적인 한계점 언급은 없음. (하지만 논문 전체를 요약한 것이므로, 추가적인 한계점은 분석할 수 없음.)
👍