Bài báo này nghiên cứu khả năng ứng dụng các mô hình trả lời câu hỏi trực quan (VQA) nguồn mở tiên tiến, chẳng hạn như LLaMA2, LLaMA3, QWEN3 và NVILA, vào phân tích hành vi lớp học bằng cách sử dụng bộ dữ liệu BAV-Classroom-VQA, được lấy từ các video ghi hình lớp học thực tế của Học viện Ngân hàng Việt Nam. Nghiên cứu này trình bày phương pháp thu thập và chú thích dữ liệu, đồng thời đánh giá hiệu suất của một số mô hình VQA được lựa chọn, chứng minh hiệu suất đầy hứa hẹn đối với các câu hỏi trực quan về hành vi, từ đó chứng minh tiềm năng của chúng như một hệ thống phân tích và can thiệp trong lớp học trong tương lai.