Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Pueden los modelos de lenguaje visual comprender acciones imitadas?

Created by
  • Haebom

Autor

Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chávez, Jonathan May

Describir

Este artículo se centra en la mímica, un subconjunto de la comunicación no verbal (CNV), y propone MIME, una novedosa métrica de evaluación para mejorar la comprensión de la CNV de los modelos de lenguaje visual. MIME es un sistema de referencia de preguntas y respuestas basado en vídeo que incluye 86 movimientos de mímica. Evalúa la robustez de los modelos añadiendo diversas transformaciones y ruidos basados en datos de captura de movimiento. Los resultados experimentales muestran que los modelos de lenguaje visual existentes tienen un rendimiento significativamente inferior al de los humanos en MIME, lo que sugiere la necesidad de modelos con capacidades de comprensión de gestos humanos más robustas.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo estándar para evaluar la comprensión de la comunicación no verbal utilizando mímica (MIME).
Demuestra claramente la falta de comprensión de la comunicación no verbal en los modelos visuales-lingüísticos existentes y sugiere futuras direcciones de investigación.
Evaluar la robustez de los modelos, incluidas diversas deformaciones y ruido, basándose en datos de captura de movimiento.
Limitations:
MIME es un punto de referencia específico de MIME, que puede tener limitaciones en la comprensión general de NVC.
Se basa en datos de captura de movimiento y es posible que no refleje perfectamente diversas situaciones de NVC en el mundo real.
No se proporcionan los tipos de modelos de lenguaje visual utilizados para evaluar el rendimiento del modelo actual ni sus cifras de rendimiento específicas, lo que puede dificultar la generalización.
👍