Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Desambiguación de la detección de signos mediante modelos lingüísticos amplios

Created by
  • Haebom

Autor

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

Describir

Este artículo se centra en la detección de señas, una tarea que identifica y localiza señas individuales en vídeos continuos de lengua de señas. Esta detección desempeña un papel crucial para abordar la grave escasez de datos en la traducción de lengua de señas y para escalar los esfuerzos de anotación de conjuntos de datos. Para abordar las limitaciones de los enfoques existentes, que incluyen la flexibilidad léxica limitada y la ambigüedad inherente de los flujos continuos de señas, presentamos un novedoso marco de trabajo sin entrenamiento que integra un modelo lingüístico a gran escala (LLM). Este marco extrae características espaciotemporales y manuales y las relaciona con un amplio diccionario de lengua de señas mediante distorsión temporal dinámica (DTW) y similitud de coseno. Proporciona una excelente flexibilidad léxica sin necesidad de reentrenar el modelo y utiliza el LLM para realizar la desambiguación de glosas sensible al contexto mediante la búsqueda de haces. Los resultados experimentales en conjuntos de datos de lengua de señas sintéticos y del mundo real demuestran una precisión y una fluidez oracional superiores en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Demostramos que LLM se puede utilizar para mejorar la precisión y la fluidez del descubrimiento del lenguaje de señas.
Un marco sin entrenamiento aumenta la flexibilidad del vocabulario y reduce la necesidad de volver a entrenar el modelo.
Maneje eficazmente una variedad de lenguajes de señas utilizando un amplio diccionario de lenguaje de señas.
Mejorar la precisión del reconocimiento del lenguaje de señas resolviendo la ambigüedad del glosario dependiendo del contexto.
Limitations:
Puede depender del rendimiento del LLM. Existe la posibilidad de que una disminución en el rendimiento del LLM afecte directamente el rendimiento del descubrimiento de la lengua de señas.
El rendimiento puede verse afectado por la calidad de un diccionario extenso de lengua de señas. La información incompleta o los errores en el diccionario pueden reducir la precisión.
Se necesita una mayor validación del rendimiento de generalización en diversas condiciones del mundo real (iluminación, fondo, etc.).
Puede haber un sesgo hacia ciertos idiomas o lenguajes de señas.
👍