El conjunto de datos OLKAVS (Open Large-scale Korean Audio-Visual Speech) cuenta con el mayor conjunto de datos de video y audio disponible públicamente (1150 horas de video, 1107 hablantes de coreano). Se grabó en un estudio, abarcando nueve perspectivas diferentes y diversas condiciones de ruido. También proporciona modelos de referencia preentrenados para tareas de reconocimiento de voz en video y lectura labial, e incluye resultados experimentales que validan la eficacia del aprendizaje multimodal y multivista. Se espera que supere las limitaciones de los conjuntos de datos existentes centrados en el inglés y facilite la investigación multimodal en diversos campos, como el reconocimiento de voz en coreano, el reconocimiento de hablantes, la clasificación del nivel de pronunciación y el análisis del movimiento labial.