Contextual Experience Replay for Self-Improvement of Language Agents

Created by

Haebom

저자

Yitao Liu, Chenglei Si, Karthik Narasimhan, Shunyu Yao

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 웹 탐색과 같은 순차적 의사결정 과제에서 환경 특정 경험 없이 실패하는 경우가 많다는 문제점을 해결하기 위해, 훈련 없이도 언어 에이전트의 자기 개선을 가능하게 하는 맥락 경험 재생(CER) 프레임워크를 제안한다. CER은 과거 경험을 동적 메모리 버퍼에 축적하고 합성하여 환경 역학 및 일반적인 의사결정 패턴을 포함하는 경험을 새로운 과제에서 관련 지식을 검색하고 에이전트를 증강시켜 복잡한 환경에서의 적응력을 향상시킨다. WebArena와 VisualWebArena 벤치마크에서 평가한 결과, VisualWebArena에서 31.9%, WebArena에서 36.7%의 경쟁력 있는 성공률을 달성하여 GPT-4o 에이전트 기준선 대비 51.0%의 상대적 향상을 보였다. 효율성과 유효성을 증명하기 위한 종합적인 분석도 수행되었다.