본 논문은 대화형 AI의 몰입도를 높이기 위해 비언어적 신호(제스처, 표정, 몸짓)를 이해하고 생성하는 다중 모드 언어 모델 MARS를 제시한다. 기존의 대규모 언어 모델(LLM)이 비언어적 요소를 효과적으로 통합하지 못하는 한계를 극복하기 위해, 시간 정렬된 텍스트, 얼굴 표정, 몸짓이 주석된 비디오 데이터셋 VENUS를 구축하고, 이를 활용하여 텍스트와 벡터 양자화된 비언어적 표현을 결합하여 다중 모드 이해 및 생성을 수행하는 MARS 모델을 학습시켰다. VENUS 데이터셋의 분석을 통해 규모와 효과를 검증하고, MARS가 대화 입력에 따라 텍스트와 비언어적 언어를 성공적으로 생성함을 정량적, 정성적 결과로 보여준다.