Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AHELM : une évaluation holistique des modèles de langage audio

Created by
  • Haebom

Auteur

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

Contour

AHELM est un nouveau benchmark pour l'évaluation exhaustive des modèles audio-langage (ALM). Pour pallier les lacunes des benchmarks existants (manque de standardisation, limitations des mesures et difficultés de comparaison des modèles), il intègre divers ensembles de données, dont deux nouveaux ensembles de données audio-texte synthétiques, PARADE et CoRe-Bench. Il mesure les performances des ALM sur dix dimensions essentielles : reconnaissance audio, connaissance, inférence, détection des émotions, biais, équité, multilinguisme, robustesse, toxicité et sécurité. Il utilise des invites standardisées, des paramètres d'inférence et des indicateurs d'évaluation pour garantir des comparaisons équitables entre les modèles. En évaluant 14 ALM à API ouverte et fermée et trois systèmes de référence simples, nous présentons des résultats montrant que Gemini 2.5 Pro se classe au premier rang sur cinq dimensions, mais présente une injustice de groupe pour les tâches de reconnaissance vocale automatique. Toutes les données sont accessibles au public à l' adresse https://crfm.stanford.edu/helm/audio/v1.0.0 .

Takeaways, Limitations

Takeaways:
Nous présentons AHELM, un benchmark standardisé pour l'évaluation ALM, pour permettre une comparaison équitable entre les modèles.
Mesurer la performance globale d'ALM en évaluant de manière exhaustive divers aspects (reconnaissance audio, inférence, biais, sécurité, etc.).
Proposer des orientations de développement ALM à travers la comparaison des performances entre les modèles existants et les systèmes de référence.
Nous prévoyons de mettre à jour continuellement AHELM pour ajouter de nouveaux ensembles de données et modèles.
Limitations:
Le nombre de modèles actuellement inclus dans le benchmark peut être limité.
Une validation supplémentaire est nécessaire sur l'échelle et les performances de généralisation des nouveaux ensembles de données (PARADE, CoRe-Bench).
Des analyses plus approfondies sont nécessaires pour interpréter les résultats de l’évaluation sous des aspects spécifiques.
👍