AV-Dialog은 잡음이 많은 다중 화자 환경에서 대화 모델의 성능 저하 문제를 해결하기 위해, 음성 및 시각적 단서를 모두 활용하는 최초의 멀티모달 대화 프레임워크입니다. 이 모델은 목표 화자 추적, 턴 테이킹 예측 및 일관된 응답 생성을 목표로 합니다. 음향 토큰화와 단일체, 합성 및 실제 오디오-비주얼 대화 데이터 세트에 대한 다중 작업, 다단계 훈련을 결합하여, AV-Dialog은 견고한 스트리밍 필사, 의미적으로 근거한 턴 경계 감지 및 정확한 응답을 달성하여 자연스러운 대화 흐름을 만듭니다.