Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

Created by
  • Haebom

Auteur

Sinh Trong Vu, Hieu Trung Pham, Dung Manh Nguyen, Hieu Minh Hoang, Nhu Hoang Le, Thu Ha Pham, Tai Tan Mai

Contour

Cet article étudie l'applicabilité des modèles open source de questions-réponses visuelles (VQA) de pointe, notamment LLaMA2, LLaMA3, QWEN3 et NVILA, à l'analyse du comportement en classe à l'aide de l'ensemble de données BAV-Classroom-VQA, construit à partir de vidéos de cours réels de la Vietnam Banking Academy. En comparant les performances de différents modèles VQA, nous évaluons leur précision pour répondre aux questions visuelles liées au comportement en classe et démontrons leur potentiel pour les futurs systèmes d'analyse et d'intervention en classe.

Takeaways, Limitations_

Takeaways:
Nous démontrons que le dernier modèle VQA peut être appliqué efficacement à l’analyse du comportement des classes.
ÉTablir une nouvelle norme pour la recherche sur l'analyse du comportement en classe avec l'ensemble de données BAV-Classroom-VQA.
Présente un potentiel de contribution au développement de futurs systèmes d’analyse et d’intervention en classe.
Limitations:
Limitations de la taille et de la diversité de l’ensemble de données utilisé dans l’étude.
Résultats limités à un environnement éducatif spécifique (Vietnam Bank Academy).
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle et son applicabilité à différents types de classes.
Des recherches supplémentaires sont nécessaires sur les biais du modèle et les considérations éthiques.
👍