Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Explorando la aplicación de la respuesta visual a preguntas (VQA) para el monitoreo de actividades en el aula

Created by
  • Haebom

Autor

Sinh Trong Vu, Hieu Trung Pham, Dung Manh Nguyen, Hieu Minh Hoang, Nhu Hoang Le, Thu Ha Pham, Tai Tan Mai

Describir

Este artículo investiga la aplicabilidad de los modelos de código abierto de vanguardia de Respuestas Visuales a Preguntas (VQA), como LLaMA2, LLaMA3, QWEN3 y NVILA, al análisis del comportamiento en el aula utilizando el conjunto de datos BAV-Classroom-VQA, generado a partir de vídeos de aulas reales de la Academia Bancaria de Vietnam. Mediante la evaluación comparativa del rendimiento de varios modelos VQA, evaluamos su precisión al responder preguntas visuales relacionadas con el comportamiento en el aula y demostramos su potencial para futuros sistemas de análisis e intervención en el aula.

Takeaways, Limitations

Takeaways:
Demostramos que el último modelo VQA se puede aplicar eficazmente al análisis del comportamiento de clases.
Establecer un nuevo estándar para la investigación del análisis del comportamiento en el aula con el conjunto de datos BAV-Classroom-VQA.
Presenta potencial para contribuir al desarrollo de futuros sistemas de análisis e intervención de clases.
Limitations:
Limitaciones en el tamaño y la diversidad del conjunto de datos utilizados en el estudio.
Resultados limitados a un entorno educativo específico (Vietnam Bank Academy).
Se necesita más investigación sobre el rendimiento de generalización del modelo y su aplicabilidad a diferentes tipos de clases.
Se necesitan más investigaciones sobre el sesgo del modelo y las consideraciones éticas.
👍