Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards

Created by
  • Haebom

저자

ChangSu Choi, Hoyun Song, Dongyeon Kim, WooHyeon Jung, Minkyung Cho, Sunjin Park, NohHyeob Bae, Seona Yu, KyungTae Lim

개요

본 논문은 대규모 언어 모델(LLM)의 도구 사용 능력을 작고 효율적인 소규모 언어 모델(SLM)에 이전하는 것을 목표로 한다. 지도 기반 미세 조정(SFT)의 일반화 부족과 희소 보상 환경에서의 강화 학습(RL)의 비효율성을 해결하기 위해, 본 논문은 RL과 교사 기반 증류를 결합한 MENTOR 프레임워크를 제안한다. MENTOR는 탐색을 통해 일반화 가능한 정책을 학습하는 RL 방식을 사용하며, 교사의 참조 궤적을 활용하여 세밀한 지침을 제공하는 밀집된 복합 교사 유도 보상을 구성한다.

시사점, 한계점

MENTOR는 SFT 및 표준 희소 보상 RL 기반에 비해 SLM의 교차 도메인 일반화 및 전략적 역량을 크게 향상시켰다.
MENTOR는 RL을 통해 일반화 가능한 정책을 학습하여 정적 궤적을 모방하는 SFT의 한계를 극복했다.
MENTOR는 교사 유도 보상을 통해 희소 보상으로 인한 비효율적인 탐색 문제를 해결했다.
본 논문에서는 구체적인 SLM 아키텍처, 도구, 또는 사용 환경에 대한 자세한 정보가 제공되지 않아, 특정 상황에서의 성능 예측에 한계가 있을 수 있다.
MENTOR의 계산 비용 및 복잡성에 대한 분석이 부족하여 실제 적용 가능성에 대한 추가 연구가 필요하다.
👍