TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use
Created by
Haebom
저자
Junjie Ye, Yilong Wu, Sixian Li, Yuming Yang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, Zhengyin Du
개요
본 논문은 도구를 활용하여 환경과 상호작용하는 대규모 언어 모델(LLM)의 성능 향상을 다룹니다. 기존의 지도 학습 미세 조정(SFT) 방식은 대규모 데이터셋에 의존하여 작업 특징을 간과하는 한계가 있습니다. 이를 해결하기 위해, 연구진은 세 개의 기존 LLM을 분석하여 훈련 데이터가 도구 사용 행동을 방해하고, 토큰 중요도가 불균등하게 분포하며, 도구 호출 오류가 특정 범주에 집중됨을 밝혀냈습니다. 이러한 분석 결과를 바탕으로, 연구진은 작업 특징 기반 프레임워크인 TL-Training을 제안합니다. TL-Training은 최적이 아닌 훈련 데이터의 영향을 완화하고, SFT 중 중요 토큰을 우선시하기 위해 토큰 가중치를 동적으로 조정하며, 오류 범주에 맞춘 강화된 보상 메커니즘을 근접 정책 최적화를 통해 최적화합니다. CodeLLaMA-2-7B를 훈련하고 네 개의 오픈소스 테스트 세트로 평가한 결과, 제한된 훈련 데이터(1,217개)만으로도 오픈 및 클로즈 소스 LLM과 동등하거나 우수한 도구 사용 성능을 달성함을 보여줍니다. 또한, 잡음이 많은 환경에서의 강건성을 향상시키고 일반적인 작업 성능을 향상시켜 LLM의 도구 사용 훈련을 위한 확장 가능하고 효율적인 패러다임을 제공합니다. 코드와 데이터는 https://github.com/Junjie-Ye/TL-Training 에서 이용 가능합니다.