Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Correction to Mastery: Reinforced Distillation of Large Language Model Agents

Created by
  • Haebom

저자

Yuanjie Lyu, Chengyu Wang, Jun Huang, Tong Xu

개요

SCoRe는 대형 언어 모델(LLM) 에이전트의 복잡한 작업 해결 능력을 향상시키기 위해 고안된 학생 중심 프레임워크입니다. 이 프레임워크는 학생 모델이 훈련 궤적을 생성하고, 교사 모델은 학생의 초기 오류만 수정합니다. 이를 통해 학생의 능력에 맞는 훈련 데이터를 생성하고 특정 약점을 노출시킵니다. SCoRe는 수정된 궤적에 대한 학생 모델의 미세 조정과, 초기 오류 이전의 검증된 접두사에서 시작하여 해당 단계에서 목표 보상을 할당하는 단기 강화 학습을 포함합니다. SCoRe를 통해 7B 파라미터 학생 모델이 72B 파라미터 교사 모델의 에이전트 성능과 동등한 수준을 달성했습니다.

시사점, 한계점

시사점:
대형 언어 모델 에이전트의 성능을 유지하면서 모델 크기를 줄이는 효율적인 방법 제시
학생 모델의 자율적인 문제 해결 능력 향상
훈련 안정성 향상
12개의 벤치마크에서 7B 모델이 72B 모델과 동등한 성능을 달성하여 우수한 성능 입증
한계점:
구체적인 한계점에 대한 정보는 논문 요약에서 명시되지 않음
👍