[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Group-in-Group Policy Optimization for LLM Agent Training

Created by
  • Haebom

저자

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

개요

본 논문은 그룹 기반 강화학습(RL)의 장점을 유지하면서 장기간의 대규모 언어 모델(LLM) 에이전트 훈련의 확장성 문제를 해결하기 위해 새로운 알고리즘인 Group-in-Group Policy Optimization (GiGPO)를 제안합니다. GiGPO는 에피소드 단계와 단계 단계의 두 가지 수준에서 상대적 이점을 추정하는 계층적 구조를 도입하여 미세한 단계별 크레딧 할당을 달성합니다. 에피소드 단계에서는 완료된 궤적 그룹을 기반으로 거시적 상대적 이점을 계산하고, 단계 단계에서는 궤적 간 반복되는 환경 상태를 식별하여 단계별 그룹을 역으로 구성하는 앵커 상태 그룹화 메커니즘을 사용하여 미시적 상대적 이점을 추정합니다. ALFWorld와 WebShop이라는 두 가지 어려운 에이전트 벤치마크에서 Qwen2.5-1.5B-Instruct와 Qwen2.5-7B-Instruct를 사용하여 GiGPO를 평가한 결과, GRPO 기준보다 ALFWorld에서 12% 이상, WebShop에서 9% 이상의 성능 향상을 달성했습니다. 이는 추가적인 GPU 메모리 오버헤드나 LLM 롤아웃 없이, 또한 거의 추가적인 시간 비용 없이 달성된 결과입니다.

시사점, 한계점

시사점:
장기간 LLM 에이전트 훈련의 확장성 문제를 해결하는 새로운 효율적인 RL 알고리즘 GiGPO 제시.
기존 그룹 기반 RL의 장점(비평론자 없음, 낮은 메모리 사용량, 안정적인 수렴)을 유지하면서 미세한 단계별 크레딧 할당을 가능하게 함.
ALFWorld와 WebShop 벤치마크에서 기존 방법 대비 성능 향상을 실험적으로 입증.
추가적인 메모리나 시간 비용 없이 성능 향상을 달성.
한계점:
제안된 알고리즘의 일반화 성능에 대한 추가적인 연구 필요.
다양한 환경 및 LLM에 대한 추가적인 실험이 필요.
앵커 상태 그룹화 메커니즘의 최적화 및 개선 여지 존재.
특정 유형의 환경이나 작업에 편향될 가능성.
👍