Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RRO: LLM Agent Optimization Through Rising Reward Trajectories

Created by
  • Haebom

저자

Zilong Wang, Jingfeng Yang, Sreyashi Nag, Samarth Varshney, Xianfeng Tang, Haoming Jiang, Jingbo Shang, Sheikh Muhammad Sarwar

개요

본 논문은 복잡한 다단계 작업을 수행하는 에이전트로서의 대규모 언어 모델(LLM)의 어려움을 해결하기 위해, 강화 학습을 통해 추론 과정을 보정하는 기존 접근 방식의 한계를 극복하는 새로운 방법을 제시합니다. 기존의 Process Reward Models (PRMs)는 많은 후속 행동 후보를 가진 경우 훈련 데이터 획득에 많은 계산 비용이 소요되는 문제점이 있습니다. 본 논문에서는 연속적인 추론 단계에서의 상대적 보상 추세에 집중하여, Reward Rising Optimization (RRO)라는 새로운 방법을 제안합니다. RRO는 이전 반복에 비해 양의 보상 차이(보상 증가)를 보이는 단계를 식별할 때까지 점진적으로 프로세스 감독을 강화하며, 이를 통해 다음 행동 후보에 대한 탐색 공간을 동적으로 확장하고 고품질 데이터를 효율적으로 캡처합니다. WebShop 및 InterCode-SQL 벤치마크에서의 실험 결과를 통해 RRO가 훨씬 적은 탐색 비용으로 우수한 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
기존 PRM의 확장성 문제를 효과적으로 해결하는 새로운 방법(RRO)을 제시.
적은 탐색 비용으로 고품질 데이터를 효율적으로 수집.
WebShop 및 InterCode-SQL 벤치마크에서 우수한 성능을 입증.
LLM 기반 에이전트의 다단계 작업 수행 성능 향상에 기여.
한계점:
제안된 RRO의 일반화 성능에 대한 추가적인 연구 필요.
다양한 작업 및 벤치마크에 대한 추가적인 실험 필요.
RRO의 매개변수 최적화에 대한 추가적인 연구 필요.
👍