본 논문은 베트남 은행 아카데미의 실제 수업 영상을 기반으로 구축한 BAV-Classroom-VQA 데이터셋을 활용하여, LLaMA2, LLaMA3, QWEN3, NVILA 등 최신 오픈소스 Visual Question Answering (VQA) 모델의 수업 행동 분석 적용 가능성을 조사한 연구입니다. 다양한 VQA 모델의 성능을 벤치마킹하여 수업 행동 관련 시각적 질문에 대한 답변 정확도를 평가하고, 향후 수업 분석 및 개입 시스템에 대한 잠재력을 보여줍니다.