OLKAVS (Open Large-scale Korean Audio-Visual Speech) 데이터셋은 공개된 영상 음성 데이터셋 중 가장 큰 규모(1,150시간, 1,107명의 한국어 화자)를 자랑하며, 스튜디오 환경에서 9가지 다른 시점과 다양한 잡음 상황을 포함하여 녹음되었습니다. 영상 음성 인식과 입술 읽기 두 가지 과제를 위한 사전 훈련된 기준 모델도 제공하며, 다중 모드 및 다중 시점 학습의 효과를 검증하기 위한 실험 결과도 포함합니다. 영어 중심의 기존 데이터셋의 한계를 극복하고 한국어 음성 인식, 화자 인식, 발음 수준 분류, 입술 움직임 분석 등 다양한 분야의 다중 모달 연구를 촉진할 것으로 기대됩니다.