ओपन लार्ज-स्केल कोरियन ऑडियो-विजुअल स्पीच (OLKAVS) डेटासेट सार्वजनिक रूप से उपलब्ध सबसे बड़ा वीडियो-ऑडियो डेटासेट (1,150 घंटे का वीडियो, 1,107 कोरियाई वक्ता) समेटे हुए है। इसे एक स्टूडियो वातावरण में रिकॉर्ड किया गया था, जिसमें नौ अलग-अलग दृष्टिकोण और विभिन्न शोर स्थितियों को शामिल किया गया था। यह वीडियो स्पीच रिकग्निशन और लिप रीडिंग दोनों कार्यों के लिए पूर्व-प्रशिक्षित बेसलाइन मॉडल भी प्रदान करता है, और इसमें मल्टीमॉडल और मल्टी-व्यू लर्निंग की प्रभावशीलता को प्रमाणित करने वाले प्रायोगिक परिणाम शामिल हैं। इससे मौजूदा अंग्रेजी-केंद्रित डेटासेट की सीमाओं को दूर करने और कोरियाई स्पीच रिकग्निशन, स्पीकर रिकग्निशन, उच्चारण स्तर वर्गीकरण और लिप मूवमेंट विश्लेषण सहित विविध क्षेत्रों में मल्टीमॉडल अनुसंधान को सुगम बनाने की उम्मीद है।