Cet article étudie l'applicabilité des modèles open source de questions-réponses visuelles (VQA) de pointe, notamment LLaMA2, LLaMA3, QWEN3 et NVILA, à l'analyse du comportement en classe à l'aide de l'ensemble de données BAV-Classroom-VQA, construit à partir de vidéos de cours réels de la Vietnam Banking Academy. En comparant les performances de différents modèles VQA, nous évaluons leur précision pour répondre aux questions visuelles liées au comportement en classe et démontrons leur potentiel pour les futurs systèmes d'analyse et d'intervention en classe.