Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

OmniEval : une référence pour l'évaluation des modèles omnimodaux avec des entrées visuelles, auditives et textuelles

Created by
  • Haebom

Auteur

Yiman Zhang, Ziheng Luo, Qiangyu Yan, Wei He, Borui Jiang, Xinghao Chen, Kai Han

Contour

Dans cet article, nous présentons OmniEval, un nouveau benchmark pour l'évaluation des modèles multimodaux (visuel, auditif, texte). Contrairement aux benchmarks existants, OmniEval évalue les capacités de perception collaborative multimodale, notamment les tâches évaluant les interactions fortes entre audio et vidéo. Il comprend 810 vidéos synchronisées audio-vidéo (285 en chinois et 525 en anglais) et 2 617 paires questions-réponses (1 412 questions ouvertes et 1 205 questions à choix multiples). Il est subdivisé en trois types de tâches principales et 12 sous-tâches pour une évaluation complète. Nous introduisons notamment une nouvelle tâche d'ancrage, plus détaillée, qui identifie des parties spécifiques d'une vidéo. Nous présentons également des résultats expérimentaux utilisant plusieurs modèles multimodaux et démontrons l'utilité d'OmniEval comme plateforme d'évaluation de la capacité à construire et à comprendre la cohérence dans le contexte de toutes les modalités. Le code et les données sont disponibles à l'adresse https://omnieval-benchmark.github.io/ .

Takeaways, Limitations

Takeaways:
Nous présentons OmniEval, une nouvelle référence pour évaluer de manière exhaustive les capacités de perception collaborative des modèles multimodaux.
Une évaluation complète est possible, incluant plusieurs langues (chinois, anglais) et types de tâches (questions ouvertes, questions à choix multiples, Grounding).
Fournit une plate-forme standard pour comparer et améliorer les performances des modèles multimodaux.
Limitations:
Le nombre de vidéos et de langues incluses dans le benchmark actuel peut être limité (810 vidéos, limitées au chinois et à l'anglais)
Une validation supplémentaire est nécessaire pour déterminer si OmniEval est applicable à tous les types de modèles multimodaux.
Des discussions supplémentaires pourraient être nécessaires concernant l’objectivité et l’équité de la composition des tâches et des mesures d’évaluation de l’indice de référence.
👍