Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
Created by
Haebom
저자
Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang, Jiecao Chen
개요
본 논문은 대규모 언어 모델(LLM)의 효과적인 도구 사용을 위한 새로운 강화 학습(RL) 프레임워크를 제안합니다. 기존 RL 프레임워크의 한계점인 안정적인 훈련 환경 구축과 검증 가능한 보상 메커니즘 설계 문제를 해결하기 위해, 시나리오 분해, 문서 생성, 기능 통합, 복잡도 조절, 그리고 지역적 배포를 포함하는 자동화된 환경 구축 파이프라인을 제시합니다. 이 파이프라인은 외부 도구에 의존하지 않고도 상세하고 측정 가능한 피드백을 제공하는 고품질 훈련 환경을 생성합니다. 또한, 도구 사용의 정확성과 작업 실행의 완전성을 모두 평가하는 검증 가능한 보상 메커니즘을 도입하여 표준 RL 알고리즘과 원활하게 통합될 수 있도록 합니다. 다양한 규모의 LLM에 대한 실험 결과, 제안된 방법이 모델의 도구 사용 성능을 크게 향상시키면서 일반적인 기능에는 영향을 미치지 않음을 보여줍니다. 분석 결과, 이러한 성능 향상은 모델의 하위 계층 MLP 매개변수 업데이트에 의해 주도되는 향상된 맥락 이해와 추론 능력 때문임을 시사합니다.
시사점, 한계점
•
시사점:
◦
자동화된 환경 구축 파이프라인을 통해 안정적이고 효율적인 LLM 도구 사용 훈련 환경 구축 가능
◦
검증 가능한 보상 메커니즘을 통해 LLM의 도구 사용 성능 향상 및 훈련 효율 증대
◦
LLM의 맥락 이해 및 추론 능력 향상에 기여
◦
다양한 규모의 LLM과 추론 모드, 훈련 알고리즘에 적용 가능성 확인
•
한계점:
◦
제안된 파이프라인의 일반화 성능 및 다양한 도구 유형에 대한 적용성에 대한 추가 연구 필요