Este artículo investiga la aplicabilidad de los modelos de código abierto de vanguardia de Respuestas Visuales a Preguntas (VQA), como LLaMA2, LLaMA3, QWEN3 y NVILA, al análisis del comportamiento en el aula utilizando el conjunto de datos BAV-Classroom-VQA, generado a partir de vídeos de aulas reales de la Academia Bancaria de Vietnam. Mediante la evaluación comparativa del rendimiento de varios modelos VQA, evaluamos su precisión al responder preguntas visuales relacionadas con el comportamiento en el aula y demostramos su potencial para futuros sistemas de análisis e intervención en el aula.