Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Group-in-Group Policy Optimization for LLM Agent Training

Created by
  • Haebom

저자

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

개요

본 논문은 그룹 기반 강화 학습(RL)의 장점을 유지하면서 다중 턴 LLM 에이전트 훈련의 한계를 극복하기 위해 제안된 새로운 RL 알고리즘인 Group-in-Group Policy Optimization (GiGPO)를 소개한다. GiGPO는 에피소드 레벨의 매크로 상대적 이점과 단계 레벨의 마이크로 상대적 이점을 추정하는 2단계 구조를 통해 미세한 수준의 크레딧 할당을 수행한다. 이 알고리즘은 critic-free, 낮은 메모리 사용량, 안정적인 수렴의 장점을 가지며, ALFWorld, WebShop, 검색 증강 QA 작업과 같은 다양한 에이전트 벤치마크에서 GRPO보다 뛰어난 성능을 보였다.

시사점, 한계점

시사점:
GiGPO는 다중 턴 LLM 에이전트 훈련의 확장성을 개선하는 데 기여한다.
미세한 크레딧 할당을 통해 효율적인 학습을 가능하게 한다.
critic-free, 낮은 메모리 사용량, 안정적인 수렴과 같은 그룹 기반 RL의 장점을 유지한다.
ALFWorld 및 WebShop과 같은 다양한 벤치마크에서 기존 알고리즘보다 우수한 성능을 보인다.
동일한 GPU 메모리 사용량, 동일한 LLM 롤아웃, 추가적인 시간 비용 없이도 성능 향상을 달성한다.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍