Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PARCO: ASR contextual robusto aumentado con fonemas mediante desambiguación de entidades contrastivas

Created by
  • Haebom

Autor

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

Describir

Este artículo propone el Reconocimiento Automático de Voz (ASR) Robusto Contextual Aumentado por Fonemas mediante Desambiguación de Entidades Contrastivas (PARCO) para abordar los desafíos que enfrentan los sistemas de reconocimiento automático de voz (ASR), que tienen dificultades con entidades nombradas específicas de dominio, particularmente homónimos. PARCO integra codificación con reconocimiento de fonemas, desambiguación de entidades contrastivas, supervisión a nivel de entidad y filtrado jerárquico de entidades para mejorar la discriminación del habla, asegurar la detección completa de entidades y reducir los falsos positivos en condiciones de incertidumbre. Logra una tasa de error de caracteres (CER) del 4,22% en el conjunto de datos chino AISHELL-1 y una tasa de error de palabras (WER) del 11,14% en el conjunto de datos inglés DATA2 con 1000 distractores, superando significativamente los métodos existentes. También demuestra mejoras robustas en el rendimiento en conjuntos de datos específicos de dominio como THCHS-30 y LibriSpeech.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo modelo ASR que resuelve eficazmente el problema del homónimo utilizando información a nivel de fonema.
Mejoramos la precisión y la estabilidad del reconocimiento de objetos mediante el aprendizaje contrastivo y el filtrado jerárquico.
Hemos demostrado que nuestro método funciona mejor que los métodos existentes en varios conjuntos de datos.
Limitations:
Falta análisis de la complejidad computacional y del consumo de recursos del modelo propuesto.
Se necesita más investigación sobre el rendimiento de la generalización en diferentes idiomas y dominios.
Se necesita una evaluación más profunda de la robustez en entornos del mundo real.
👍