Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

OLKAVS : un ensemble de données vocales audiovisuelles coréennes ouvertes à grande échelle

Created by
  • Haebom

Auteur

Parc Jeongkyun, Jung-Wook Hwang, Kwanghee Choi, Seung-Hyun Lee, Jun Hwan Ahn, parc Rae-Hong, parc Hyung-Min

Contour

L'ensemble de données Open Large-scale Korean Audio-Visual Speech (OLKAVS) présente le plus grand ensemble de données vidéo-audio accessible au public (1 150 heures de vidéo, 1 107 locuteurs coréens). Il a été enregistré en studio, couvrant neuf points de vue différents et diverses conditions de bruit. Il fournit également des modèles de base pré-entraînés pour la reconnaissance vocale vidéo et la lecture labiale, et inclut des résultats expérimentaux validant l'efficacité de l'apprentissage multimodal et multi-vues. Il devrait permettre de surmonter les limites des ensembles de données anglophones existants et de faciliter la recherche multimodale dans divers domaines, notamment la reconnaissance vocale coréenne, la reconnaissance des locuteurs, la classification des niveaux de prononciation et l'analyse des mouvements labiales.

Takeaways, Limitations

Takeaways:
Fournir un ensemble de données audio-vidéo coréen à grande échelle pour faciliter la recherche multimodale en coréen.
En incluant différents points de vue (9 types) et situations de bruit, il est possible de refléter des environnements réels et de développer des modèles robustes.
Réduire les barrières à l’entrée dans la recherche en fournissant des modèles de référence pré-entraînés.
Proposer des pistes de recherche par la vérification de l’efficacité de l’apprentissage multimodal et multi-vues.
Limitations:
L'ensemble de données est volumineux, mais manque de descriptions spécifiques des aspects de la diversité (caractéristiques des locuteurs, contenu des énoncés, etc.).
Aucune mention claire de la dépendance du modèle prédictif lors de la construction de l'ensemble de données (des recherches supplémentaires sont nécessaires)
👍