Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Created by
  • Haebom
Category
Empty

저자

Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu

개요

대형 언어 모델(LLM)의 능력을 향상시키기 위해 외부 도구를 사용하는 것은 유망한 접근 방식입니다. 실제 시뮬레이션을 통해 도구 사용 데이터를 합성하는 것은 효과적인 방법이지만, 합성 데이터가 증가함에 따라 훈련 이득이 현저하게 감소하는 문제가 있습니다. 이는 모델이 복잡한 시나리오에서 추가적인 합성 데이터로부터 고급 도구 사용 능력을 얻는 데 어려움을 겪는다는 것을 의미합니다. 이러한 제한 사항은 응답의 파편화 결함(즉, 매개변수 오류)으로 나타나는 경향이 있습니다. 이러한 문제를 해결하기 위해, 몬테카를로 트리 탐색 경로 탐색을 통한 합성 데이터 응답 다양성 향상, 미세한 선호 쌍 구성을 통한 모델 결함 지적, 선호도 최적화 알고리즘을 통한 대상 개선을 포함하는 반복적 강화 미세 조정 전략을 제안합니다. 실험 결과, 제안하는 방법은 동일 크기의 기본 모델보다 13.11% 더 나은 성능을 달성했으며, 복잡한 시나리오에서 기준선보다 6.5% 향상된 성능을 보였고, 더 큰 오픈 소스 및 클로즈 소스 모델보다 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
합성 데이터를 활용한 LLM 도구 사용 능력 향상 가능성 제시
합성 데이터 증가에 따른 성능 저하 문제 해결을 위한 새로운 훈련 전략 제안
제안된 방법론이 기존 모델 및 다른 모델보다 우수한 성능을 보임
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음
👍