본 논문은 로봇의 장기간 경험을 요약하고 질문에 답하는 능력, 즉 로봇 경험의 언어화에 초점을 맞추고 있습니다. 기존 연구들이 짧은 기간의 경험 데이터에 대해 규칙 기반 시스템이나 미세 조정된 심층 모델을 적용하여 일반화 및 전이성이 제한적인 문제를 가지고 있던 것과 달리, 본 연구는 사전 훈련된 거대 언어 모델을 활용하여 제로샷 또는 퓨샷 학습을 통해 로봇의 장기간 경험을 언어화합니다. 에피소딕 메모리(EM)에서 계층적 트리 구조를 도출하여 하위 레벨에는 원시적인 감각 및 고유 수용 데이터를, 상위 레벨에는 자연어 개념으로 추상화된 이벤트를 표현합니다. 사용자의 질문에 따라 거대 언어 모델을 에이전트로 활용하여 EM을 상호 작용적으로 탐색하고, 관련 정보를 찾기 위해 트리 노드를 동적으로 확장합니다. 이를 통해 수개월에 달하는 로봇 경험 데이터에도 계산 비용을 낮게 유지합니다. 시뮬레이션된 가정용 로봇 데이터, 인간 시점 영상, 실제 로봇 녹화 데이터를 사용하여 방법의 유연성과 확장성을 평가합니다.