Honest Lying: Understanding Memory Confabulation in Reflexive Agents

작성자

Haebom

카테고리

Empty

저자

Prakhar Dixit, Sadia Kamal, Tim Oates

💡 개요

본 논문은 기억 보정(memory confabulation)이라는 새로운 실패 모드를 탐구하며, Reflexion 스타일의 에이전트가 자신의 실패를 정확히 진단한다는 암묵적 가정이 잘못되었음을 보여줍니다. 에이전트는 자신감 있지만 틀린 과제 해석을 기억으로 저장하고, 환경이 초기화되어도 계속 잘못된 행동을 반복합니다. 이를 분석하기 위해 반사 반복률(Reflection Repetition Rate, RRR)이라는 새로운 로그 기반 지표를 제안합니다.

🔑 시사점 및 한계

•

반사적 기억의 한계: Reflexion 스타일 에이전트의 자기 반성적 기억이 오히려 잘못된 믿음을 강화하여 오류 수정 능력을 저해할 수 있음을 시사합니다.

•

새로운 오류 탐지 지표: Reflection Repetition Rate (RRR)은 에이전트의 기억 보정 실패를 정량적으로 탐지하는 유용한 도구를 제공합니다.

•

해결 방안의 가능성: 개방형 자기 진단 대신 궤적 수준의 실패 신호를 프로그래밍 방식으로 추출하는 완화 전략이 에이전트의 성능을 크게 향상시킬 수 있음을 보여주었습니다.

•

제한된 환경: 본 연구에서 제시된 ALFWorld와 HumanEval 환경 외의 다양한 환경 및 복잡한 작업에 대한 에이전트의 기억 보정 문제와 완화 전략의 효과는 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage