Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Don't Just Fine-tune the Agent, Tune the Environment

Created by
  • Haebom

저자

Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin

개요

대규모 언어 모델(LLM) 에이전트는 복잡한 다단계 도구 사용 작업에 대한 잠재력이 크지만, 고품질 훈련 데이터의 극심한 부족으로 인해 개발에 어려움을 겪고 있다. 합성 데이터에 대한 지도 미세 조정(SFT)은 과적합을 유발하고, 표준 강화 학습(RL)은 심각한 콜드 스타트 문제와 훈련 불안정성을 겪는다. 이러한 문제를 해결하기 위해, 본 논문은 사전 수집된 전문가 궤적에 의존하지 않고 문제 인스턴스로부터 직접 복잡한 동작을 학습할 수 있는 새로운 훈련 패러다임인 $\textbf{Environment Tuning}$을 소개한다. $\textbf{Environment Tuning}$은 구조화된 커리큘럼, 시정 피드백을 제공하는 실행 가능한 환경 보강, 안정적이고 효율적인 탐색을 보장하는 세분화된 진행 보상을 통해 이 학습 과정을 조율한다. Berkeley Function-Calling Leaderboard (BFCL) 벤치마크에서 400개의 문제 인스턴스만 사용하여, 제안된 방법은 강력한 기준선에 비해 경쟁력 있는 분포 내 성능을 달성할 뿐만 아니라, SFT 기반 접근 방식에서 흔히 발생하는 성능 붕괴를 극복하며, 우수한 분포 외 일반화를 보여준다. 본 연구는 정적 궤적에 대한 지도 미세 조정에서 동적 환경 기반 탐색으로의 패러다임 전환을 제시하여, 보다 강력하고 데이터 효율적인 에이전트 훈련의 길을 열었다.

시사점, 한계점

시사점:
고품질 훈련 데이터 부족 문제를 해결하기 위한 새로운 훈련 패러다임 제시
지도 학습 및 강화 학습의 한계를 극복하는 환경 기반 학습 방법론 제시
소량의 데이터로 경쟁력 있는 성능 및 일반화 능력 향상
데이터 효율적인 에이전트 훈련의 새로운 방향 제시
한계점:
논문에 명시된 한계점은 없음 (하지만, 논문이 제시되지 않은 시점에서, 추가적인 실험이나 다른 벤치마크에 대한 검증 부족 등은 잠재적인 한계점으로 볼 수 있음)
👍