본 논문은 기존의 계획자 중심 Embodied Question Answering (EQA) 프레임워크의 한계를 극복하기 위해 메모리 중심의 새로운 EQA 프레임워크인 MemoryEQA를 제안합니다. MemoryEQA는 다중 모드 계층적 메모리 메커니즘(전역 메모리와 지역 메모리로 구성)을 통해 언어적으로 강화된 장면 지도 및 과거 관찰 정보, 상태 정보를 저장하고, 이 정보를 다양한 모듈에 유연하게 제공하여 복잡한 작업(예: 여러 지역에 걸친 다중 목표)의 효율성과 정확성을 향상시킵니다. 대규모 다중 모달 언어 모델을 활용하여 메모리 정보를 다양한 모듈의 입력 형식으로 변환합니다. 다양한 지역에 걸쳐 여러 목표를 포함하는 1,587개의 질문-답변 쌍으로 구성된 새로운 MT-HM3D 데이터셋을 제작하여 EQA 모델의 메모리 능력을 평가하였으며, HM-EQA, MT-HM3D, OpenEQA 데이터셋에서 실험을 통해 MemoryEQA의 효과성을 검증했습니다. 특히 MT-HM3D 데이터셋에서 기준 모델 대비 19.8%의 성능 향상을 달성하여 복잡한 작업 해결에서 메모리 능력의 중요성을 강조했습니다.