본 논문은 LLM 에이전트가 외부 보상만을 최적화하여 발생하는 탐색 부족 및 정책 수렴 문제를 해결하기 위해, 외부 보상과 함께 인간의 회고적 자기 개선에서 영감을 받은 새로운 온라인 RL 프레임워크인 RetroAgent를 제안합니다. RetroAgent는 현재까지의 시도와 비교하여 부분 목표 달성에 대한 수치적 피드백과, 이전 경험을 명시적으로 재사용하기 위한 언어적 피드백을 생성하는 회고적 자기 성찰 메커니즘을 활용합니다. 이를 통해 복잡한 대화형 환경에서 에이전트가 단순히 작업을 완료하는 것을 넘어 지속적으로 발전하도록 돕습니다.