L'ensemble de données Open Large-scale Korean Audio-Visual Speech (OLKAVS) présente le plus grand ensemble de données vidéo-audio accessible au public (1 150 heures de vidéo, 1 107 locuteurs coréens). Il a été enregistré en studio, couvrant neuf points de vue différents et diverses conditions de bruit. Il fournit également des modèles de base pré-entraînés pour la reconnaissance vocale vidéo et la lecture labiale, et inclut des résultats expérimentaux validant l'efficacité de l'apprentissage multimodal et multi-vues. Il devrait permettre de surmonter les limites des ensembles de données anglophones existants et de faciliter la recherche multimodale dans divers domaines, notamment la reconnaissance vocale coréenne, la reconnaissance des locuteurs, la classification des niveaux de prononciation et l'analyse des mouvements labiales.