Este artículo investiga la aplicabilidad de modelos de código abierto de vanguardia para preguntas visuales y respuestas (VQA), como LLaMA2, LLaMA3, QWEN3 y NVILA, al análisis del comportamiento en el aula utilizando el conjunto de datos BAV-Classroom-VQA, derivado de grabaciones de video de aulas reales de la Academia Bancaria de Vietnam. Este estudio presenta una metodología de recopilación y anotación de datos y evalúa el rendimiento de modelos VQA seleccionados, demostrando un rendimiento prometedor en preguntas visuales de comportamiento, lo que demuestra su potencial como futuros sistemas de análisis e intervención en el aula.