본 논문은 AI와의 실시간 대화를 위한 새로운 패러다임인 AI 비디오 채팅을 제시합니다. MLLM(다중 모드 대규모 언어 모델)을 활용하여 인간과 AI 간의 직관적인 면대면 대화를 가능하게 하지만, MLLM 추론으로 인한 높은 지연 시간이 주요 과제입니다. 이를 해결하기 위해 네트워크 요구사항을 "비디오 시청"에서 "AI의 비디오 이해"로 전환하는 AI 중심의 실시간 통신 프레임워크인 Artic을 제안합니다. Artic은 채팅에 중요한 영역에만 대역폭을 할당하는 Context-Aware Video Streaming과 패킷 재전송을 방지하는 Loss-Resilient Adaptive Frame Rate 기법을 통해 지연 시간을 줄이고 비트 전송률을 획기적으로 감소시킵니다. 또한, 비디오 스트리밍 품질이 MLLM 정확도에 미치는 영향을 평가하기 위한 새로운 벤치마크 DeViBench를 구축했습니다. 마지막으로 AI 비디오 채팅에 대한 미해결 과제와 해결 방안을 논의합니다.