본 논문은 베트남 은행 아카데미의 실제 수업 영상 기록을 바탕으로 만들어진 BAV-Classroom-VQA 데이터셋을 활용하여, LLaMA2, LLaMA3, QWEN3, NVILA 등 최첨단 오픈소스 시각적 질문 답변(VQA) 모델들의 수업 행동 분석 적용 가능성을 조사한 연구입니다. 연구는 데이터 수집 및 주석 방법론을 제시하고, 선택된 VQA 모델들의 성능을 벤치마크하여 행동 관련 시각적 질문에 대한 유망한 성능 수준을 보여줌으로써 향후 수업 분석 및 개입 시스템에서의 잠재력을 입증합니다.