OLKAVS(Open Large-scale Korean Audio-Visual Speech)データセットは、公開された映像音声データセットの中で最大の規模(1,150時間、1,107人の韓国語話者)を誇り、スタジオ環境で9つの異なる視点と様々なノイズ状況を含めて録音されました。ビデオ音声認識と唇の読み取りの2つの課題のための事前訓練された基準モデルも提供され、マルチモードとマルチポイント学習の効果を検証するための実験結果も含まれます。英語中心の既存のデータセットの限界を克服し、韓国語の音声認識、話者認識、発音レベルの分類、唇の動き分析など、さまざまな分野のマルチモーダル研究を促進することが期待されています。