MENTOR: Reinforcement Learning via Flexible Teacher-Optimized Rewards for Tool-Use Distillation

작성자

Haebom

카테고리

Empty

저자

ChangSu Choi, Hoyun Song, Dongyeon Kim, WooHyeon Jung, Minkyung Cho, Sunjin Park, NohHyeob Bae, Seona Yu, KyungTae Lim

💡 개요

이 논문은 대규모 언어 모델(LLM)의 도구 사용 능력을 소규모 언어 모델(SLM)로 효율적으로 이전하는 것을 목표로 합니다. 기존의 지도 학습 방식은 데이터 편향으로 인해 새로운 상황에 대한 일반화 성능이 떨어진다는 한계가 있습니다. 이에 연구진은 유연하면서도 과정 중심적인 보상 구조를 가진 MENTOR라는 새로운 강화학습 방법을 제안하여, 엄격한 궤적 일치 대신 교사의 참조를 통해 도구 사용 행동을 안내함으로써 다운스트림 성능과 행동 일관성 사이의 균형을 맞춥니다.

🔑 시사점 및 한계

•

소규모 언어 모델의 도구 사용 능력 증진 및 실용성 향상

•

엄격한 궤적 복제보다 유연한 도구 사용 정렬이 적응력 있는 소형 모델 개발에 더 효과적임을 입증

•

검증 가능한 도구 사용 환경에서의 성능 향상 확인 (OOD 성능 개선)

•

제안된 방법론의 일반적인 적용 가능성과 복잡한 실제 환경에서의 성능 검증 필요

PDF 보기

Made with Slashpage