본 논문은 챗봇의 실제 세계와 같은 인간과의 상호작용을 향상시키기 위해 시각 및 청각 정보를 모두 처리하는 다중 모달 대화 모델을 제안합니다. 기존 연구들이 시각 정보에 치중하고 청각 정보를 간과하며, 정적인 상호작용에 초점을 맞춘 것과 달리, 본 논문은 다중 사용자, 다중 세션 환경에서 시각 및 청각 정보를 자연스럽게 통합하는 데 중점을 둡니다. 이를 위해 새로운 다중 모달 대화 데이터셋인 $M^3C$를 소개하고, 다중 모달 메모리 검색 기능을 갖춘 새로운 다중 모달 대화 모델을 제안합니다. 제안된 모델은 $M^3C$ 데이터셋으로 학습되어 장기간에 걸친 복잡한 실제 세계와 같은 환경에서 다중 사용자와의 대화를 원활하게 수행하고, 시각 및 청각 입력을 효과적으로 처리하여 적절하게 응답하는 능력을 보여줍니다. 인간 평가 결과는 모델이 일관성 있고 역동적인 상호 작용을 유지하는 데 강점을 보임을 보여주며, 고급 다중 모달 대화 에이전트의 잠재력을 입증합니다.