UniTalk은 활성 화자 감지(Active Speaker Detection, ASD)를 위한 새로운 데이터셋으로, 모델의 일반화 성능 향상을 위해 어려운 상황들을 강조하여 설계되었습니다. 기존의 AVA 벤치마크와 달리, 다양하고 어려운 실제 환경(다양한 언어, 잡음이 많은 배경, 여러 명의 화자가 동시에 또는 중복되어 말하는 복잡한 장면 등)을 포함합니다. 44.5시간 이상의 비디오와 프레임 단위의 활성 화자 주석, 48,693명의 화자 ID를 포함하며, 실제 환경을 반영하는 다양한 비디오 유형을 포괄합니다. 기존 최첨단 모델들은 AVA에서는 거의 완벽한 점수를 달성하지만, UniTalk에서는 성능이 저조하여 현실적인 조건에서 ASD 작업이 아직 해결되지 않았음을 시사합니다. UniTalk으로 훈련된 모델은 Talkies, ASW와 같은 최신 "in-the-wild" 데이터셋과 AVA에 대한 일반화 성능이 더 우수합니다. 따라서 UniTalk은 다재다능하고 견고한 모델 개발 및 평가를 위한 귀중한 자원을 제공하는 새로운 ASD 벤치마크를 제시합니다.