Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Created by
  • Haebom

저자

Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Bing Qin, Ting Liu

개요

본 논문은 대규모 언어 모델(LLM)의 능력 향상을 위해 외부 도구를 활용하는 방법에 대해 다룬다. 특히 복잡한 작업을 수행하기 위해 실제 세계 시뮬레이션을 통해 도구 사용 데이터를 합성하는 방법을 제안한다. 하지만 연구 결과, 합성 데이터가 증가함에 따라 학습 효과가 크게 감소하고, 복잡한 시나리오에서 고급 도구 사용 능력을 갖추지 못하는 문제점을 발견했다. 이러한 한계는 응답에서 파편 결함(매개변수 오류)으로 나타나는 것을 확인했다. 이를 해결하기 위해, Monte Carlo Tree Search를 이용한 경로 탐색을 통해 합성 데이터의 다양성을 높이고, 세분화된 선호도 쌍을 구성하여 모델의 결함을 반복적으로 파악한 후, 선호도 최적화 알고리즘을 통해 목표 지향적인 개선을 수행하는 반복적 강화 미세 조정 전략을 제시한다. 실험 결과, 제안된 방법은 동일 크기의 기본 모델보다 13.11% 향상된 성능을 달성했으며, 복잡한 시나리오에서는 기준 모델보다 6.5% 향상된 성능을 보였고, 더 큰 오픈소스 및 클로즈드소스 모델보다도 우수한 성능을 보였다.

시사점, 한계점

시사점:
LLM의 외부 도구 활용 능력 향상을 위한 효과적인 합성 데이터 생성 및 활용 전략 제시
합성 데이터 증가에 따른 학습 효과 감소 문제 해결을 위한 반복적 강화 미세 조정 전략 제시
제안된 방법이 기존 모델들보다 우수한 성능을 달성함을 실험적으로 검증
복잡한 시나리오에서도 성능 향상을 보임
한계점:
합성 데이터 증가에 따른 학습 효과 감소 현상의 원인에 대한 심층적인 분석 부족
제안된 방법의 일반화 가능성에 대한 추가적인 연구 필요
특정 도구 및 작업에 대한 성능 평가에 치우침, 다양한 도구 및 작업에 대한 확장성 검토 필요
👍