Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

OLKAVS: Un conjunto de datos audiovisuales coreanos abiertos y a gran escala

Created by
  • Haebom

Autor

Parque Jeongkyun, Jung-Wook Hwang, Kwanghee Choi, Seung-Hyun Lee, Jun Hwan Ahn, Parque Rae-Hong, Parque Hyung-Min

Describir

El conjunto de datos OLKAVS (Open Large-scale Korean Audio-Visual Speech) cuenta con el mayor conjunto de datos de video y audio disponible públicamente (1150 horas de video, 1107 hablantes de coreano). Se grabó en un estudio, abarcando nueve perspectivas diferentes y diversas condiciones de ruido. También proporciona modelos de referencia preentrenados para tareas de reconocimiento de voz en video y lectura labial, e incluye resultados experimentales que validan la eficacia del aprendizaje multimodal y multivista. Se espera que supere las limitaciones de los conjuntos de datos existentes centrados en el inglés y facilite la investigación multimodal en diversos campos, como el reconocimiento de voz en coreano, el reconocimiento de hablantes, la clasificación del nivel de pronunciación y el análisis del movimiento labial.

Takeaways, Limitations

Takeaways:
Proporcionar un conjunto de datos de audio y vídeo coreano a gran escala para facilitar la investigación multimodal en coreano.
Al incluir varios puntos de vista (9 tipos) y situaciones de ruido, es posible reflejar entornos reales y desarrollar modelos robustos.
Reducir las barreras de entrada a la investigación proporcionando modelos de referencia previamente entrenados.
Sugerir direcciones de investigación a través de la verificación de la efectividad del aprendizaje multimodal y multivista.
Limitations:
El conjunto de datos es de gran tamaño, pero carece de descripciones específicas de aspectos de diversidad (características del hablante, contenido de los enunciados, etc.).
No se menciona claramente la dependencia del modelo predictivo durante la construcción del conjunto de datos (se requiere más investigación)
👍