Cet article examine l'applicabilité des modèles open source de questions-réponses visuelles (VQA) de pointe, tels que LLaMA2, LLaMA3, QWEN3 et NVILA, à l'analyse du comportement en classe à l'aide de l'ensemble de données BAV-Classroom-VQA, issu d'enregistrements vidéo de cours réels de la Vietnam Banking Academy. Cette étude présente la méthodologie de collecte et d'annotation des données et évalue les performances de certains modèles VQA, démontrant des performances prometteuses sur les questions visuelles comportementales, démontrant ainsi leur potentiel en tant que futurs systèmes d'analyse et d'intervention en classe.