Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Created by
  • Haebom
Category
Empty

저자

Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen

개요

본 논문은 상호작용 환경에서 복잡한 작업을 해결하기 위해 점점 더 중요해지는 대규모 언어 모델(LLM) 에이전트에 대해 다룹니다. 기존 연구는 주로 강력한 전문가의 행동 복제를 통해 성능을 향상시키는 데 중점을 두었지만, 이러한 접근 방식은 오류로부터 복구할 수 없기 때문에 실제 응용 프로그램에서 종종 실패합니다. 단계별 비판 데이터를 수집하는 것은 어렵고 비용이 많이 들기 때문에 모델에 지능형 에이전트 기능을 부여하기 위해 자가 비판 데이터셋을 자동화하고 동적으로 구성하는 것이 중요합니다. 본 논문에서는 에이전트가 즉석에서 반성할 수 있도록 하는 반복적인 자기 훈련 프레임워크인 Agent-R을 제안합니다. 정확성에 따라 행동에 보상하거나 처벌하는 기존 방법과 달리, Agent-R은 MCTS를 활용하여 잘못된 궤적에서 올바른 궤적을 복구하는 훈련 데이터를 구성합니다. 에이전트 반성의 핵심 과제는 롤아웃이 끝날 때까지 기다리는 것이 아니라 시기적절한 수정이 필요하다는 것입니다. 이를 해결하기 위해 모델 기반 비판 구성 메커니즘을 도입합니다. 액터 모델은 실패한 궤적에서 첫 번째 오류 단계(현재 기능 내에서)를 식별합니다. 이를 시작점으로, 트리에서 동일한 부모 노드를 공유하는 인접한 정확한 경로와 이를 연결합니다. 이 전략을 통해 모델은 현재 정책에 따라 반성을 학습할 수 있으므로 학습 효율이 향상됩니다. 이 자기 개선 패러다임의 확장성을 더욱 탐구하기 위해 오류 수정 기능과 데이터셋 구성의 반복적인 개선을 조사합니다. 연구 결과에 따르면 Agent-R은 모델의 오류 복구 능력을 지속적으로 향상시키고 시기 적절한 오류 수정을 가능하게 합니다. 세 가지 상호작용 환경에 대한 실험을 통해 Agent-R이 루프를 피하면서 잘못된 행동을 수정하도록 에이전트를 효과적으로 장비하고 기준 방법보다 우수한 성능(+5.59%)을 달성한다는 것을 보여줍니다.

시사점, 한계점

시사점:
오류로부터 복구하는 LLM 에이전트의 능력을 향상시키는 새로운 자기 훈련 프레임워크 Agent-R 제시.
MCTS와 모델 기반 비판 구성 메커니즘을 활용하여 효율적인 자기 비판 데이터셋 생성.
시기 적절한 오류 수정을 가능하게 하여 루프를 방지하고 성능 향상(+5.59%).
반복적인 개선을 통한 오류 수정 기능 및 데이터셋 구성의 확장성 확인.
한계점:
Agent-R의 성능 향상이 특정 환경에 국한될 가능성.
MCTS의 계산 비용이 환경의 복잡성에 따라 증가할 수 있음.
모델 기반 비판 구성 메커니즘의 정확성이 모델의 성능에 의존적임.
다양한 유형의 오류에 대한 일반화 성능에 대한 추가적인 연구 필요.
👍