Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Desambiguación de la detección de signos mediante modelos lingüísticos amplios

Created by
  • Haebom

Autor

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

Describir

Este artículo presenta un nuevo marco para la detección de señas, que identifica y localiza señas individuales en vídeos continuos de lengua de señas para abordar la escasez de datos en la traducción de lengua de señas. Para abordar la flexibilidad léxica y la ambigüedad de los métodos existentes de detección de señas, proponemos un enfoque sin entrenamiento que integra un modelo lingüístico a gran escala (LLM). Extraemos características espaciotemporales y manuales y las comparamos con un amplio diccionario de lengua de señas mediante deformación temporal dinámica y semejanza de coseno. Posteriormente, aprovechamos el LLM para realizar una desambiguación léxica contextual mediante búsqueda de haz. Los resultados experimentales con conjuntos de datos de lengua de señas sintética y real demuestran una mayor precisión y fluidez oracional en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Demostramos que LLM se puede utilizar para mejorar la precisión y la fluidez de las oraciones en la detección de signos del lenguaje de señas.
Aumente la flexibilidad del vocabulario y reduzca la necesidad de volver a entrenar el modelo a través de un marco de aprendizaje libre.
Contribuir a resolver el problema de la escasez de datos mediante el uso eficaz de un diccionario de lenguaje de señas a gran escala.
Aprovechar las capacidades contextuales de LLM para mitigar la ambigüedad en el descubrimiento de signos en lenguaje de señas.
Limitations:
El rendimiento del método propuesto puede depender del rendimiento de LLM.
La calidad de un diccionario de lengua de señas grande puede tener un impacto significativo en los resultados.
Se necesita una mayor validación del rendimiento de generalización en entornos de video en lenguaje de señas complejos del mundo real.
Dependencia de conjuntos de datos restringidos a idiomas específicos o estilos de lenguaje de señas.
👍