본 논문은 화자의 다중 모달 입력을 조건으로 동기화된 구두 및 비언어적 청취자 피드백을 온라인으로 생성하는 새로운 과제인 온라인 다중 모달 대화 반응 생성(OMCRG)을 제시합니다. OMCRG는 자연스러운 쌍방향 상호작용을 반영하며 생성된 오디오와 청취자의 얼굴 반응 간의 동기화를 달성하는 데 새로운 과제를 제시합니다. 이러한 과제를 해결하기 위해, 본 논문은 오디오 및 얼굴 반응을 연결하는 중간 모달리티로 텍스트를 도입합니다. 따라서 고품질 다중 모달 청취자 응답을 자동 회귀적으로 생성하는 다중 모달 대규모 언어 모델(MLLM)인 OmniResponse를 제안합니다. OmniResponse는 생성된 텍스트 토큰을 시간적으로 고정하는 Chrono-Text와 얼굴 반응과 동기화된 음성을 생성하는 제어 가능한 온라인 TTS 모듈인 TempoVoice라는 두 가지 새로운 구성 요소로 향상된 사전 훈련된 LLM을 활용합니다. 추가적인 OMCRG 연구를 지원하기 위해, 본 논문은 동기화된 분할 화면 비디오, 다채널 오디오, 전사 및 얼굴 행동 주석을 특징으로 하는 696개의 고품질 쌍방향 상호 작용으로 구성된 새로운 데이터셋인 ResponseNet을 제시합니다. ResponseNet에서 수행된 포괄적인 평가는 OmniResponse가 의미론적 음성 콘텐츠, 시청각 동기화 및 생성 품질 측면에서 기준 모델보다 성능이 훨씬 뛰어남을 보여줍니다.