본 논문은 대규모 언어 모델(LLM) 기반 챗봇이 대화 중 적절한 시점에 간결하고 시의적절한 반응을 생성하는 데 어려움을 겪는 문제를 해결하기 위해, 시각, 청각, 텍스트 정보를 통합하는 다중 모달 모델 MM-When2Speak을 제안합니다. 실제 대화 영상으로부터 구축한 새로운 다중 모달 데이터셋을 활용하여, 대화 상황에 따른 반응 유형 및 시점을 예측하는 모델을 학습시켰습니다. 실험 결과, MM-When2Speak은 기존의 단일 모달 및 LLM 기반 모델보다 최대 4배 향상된 응답 시점 정확도를 달성했습니다. 이는 시의적절하고 자연스러우며 매력적인 대화형 AI를 구현하기 위해 다중 모달 입력의 중요성을 강조합니다.