RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Created by

Haebom

저자

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao

💡 개요

본 논문은 LLM 에이전트가 외부 보상만을 최적화하여 발생하는 탐색 부족 및 정책 수렴 문제를 해결하기 위해, 외부 보상과 함께 인간의 회고적 자기 개선에서 영감을 받은 새로운 온라인 RL 프레임워크인 RetroAgent를 제안합니다. RetroAgent는 현재까지의 시도와 비교하여 부분 목표 달성에 대한 수치적 피드백과, 이전 경험을 명시적으로 재사용하기 위한 언어적 피드백을 생성하는 회고적 자기 성찰 메커니즘을 활용합니다. 이를 통해 복잡한 대화형 환경에서 에이전트가 단순히 작업을 완료하는 것을 넘어 지속적으로 발전하도록 돕습니다.

🔑 시사점 및 한계

•

인간과 유사한 회고적 자기 개선 능력 부여: 에이전트가 단순히 외부 보상을 쫓는 것을 넘어, 자신의 과거 경험을 되돌아보고 학습하여 스스로 발전하는 능력을 갖추게 합니다.

•

탐색 효율성 및 일반화 성능 향상: 부분 목표 달성에 대한 내재적 피드백과 명시적인 경험 재사용을 통해 탐색 범위를 넓히고, 보지 못한 상황에서도 더 나은 성능을 발휘합니다.

•

데이터 효율성 및 명시적 경험 재사용: 학습 과정에서 얻은 중요한 교훈을 언어적 형태로 메모리 버퍼에 저장하고 이를 효과적으로 검색하여 활용함으로써, 데이터 효율성을 높이고 과거의 지식을 명시적으로 재활용합니다.

•

복잡한 환경에서의 SOTA 달성: ALFWorld, WebShop, Sokoban, MineSweeper 등 네 가지 도전적인 에이전트 작업에서 기존 최첨단 성능을 뛰어넘는 결과를 보여주었습니다.

•

SimUtil-UCB의 효과성: 내재적 경험을 효과적으로 활용하기 위한 새로운 검색 전략인 SimUtil-UCB가 관련성, 과거 효용성, 탐색 간의 균형을 성공적으로 맞추어 RetroAgent 성능 향상에 기여합니다.

•

한계점: 제안된 프레임워크의 복잡성으로 인해 실제 구현 및 확장 시 추가적인 연구가 필요할 수 있으며, 내재적 피드백 생성 및 언어 모델의 편향이 최종 성능에 영향을 미칠 가능성이 있습니다. 또한, 다양한 종류의 복잡한 작업에 대한 일반화 성능을 더욱 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage