Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Desambiguación de la detección de signos mediante modelos lingüísticos amplios

Created by
  • Haebom

Autor

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

Describir

Este artículo presenta un novedoso marco de identificación y detección de lenguas de señas sin entrenamiento que integra un modelo lingüístico a gran escala (LLM) para abordar la escasez de datos en la traducción de lenguas de señas. A diferencia de los enfoques existentes, este estudio extrae características globales espaciotemporales y de la forma de la mano y las compara con un diccionario de lenguas de señas a gran escala mediante distorsión temporal dinámica y similitud de coseno. El LLM realiza una interpretación léxica sensible al contexto mediante búsqueda de haz sin ajuste fino, mitigando el ruido y la ambigüedad derivados del proceso de coincidencia. Los resultados experimentales, utilizando conjuntos de datos de lenguas de señas sintéticas y reales, demuestran mejoras en la precisión y la fluidez de las oraciones en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Demostramos que LLM se puede utilizar para mejorar la precisión de la identificación del lenguaje de señas y la fluidez de las oraciones sin entrenamiento.
Mayor flexibilidad léxica mediante la correspondencia basada en diccionario.
Mitigue eficazmente el ruido y la ambigüedad mediante la interpretación léxica consciente del contexto.
Contribuye a agilizar la anotación de conjuntos de datos de lenguaje de señas a gran escala.
Limitations:
El rendimiento de LLM puede depender de la calidad y el tamaño del diccionario.
Se necesita una verificación de robustez adicional frente a las complejidades de los lenguajes de señas reales (por ejemplo, diferentes estilos de señas, ruido de fondo).
Puede depender de un LLM específico y el rendimiento puede variar al aplicar un LLM diferente.
El costo computacional del proceso de análisis léxico mediante búsqueda de haz puede ser alto.
👍