Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AHELM: Una evaluación holística de los modelos de audio-lenguaje

Created by
  • Haebom

Autor

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

Describir

AHELM es un nuevo punto de referencia para la evaluación integral de modelos de audio-lenguaje (ALM). Para abordar las deficiencias de los puntos de referencia existentes (falta de estandarización, limitaciones en los aspectos de medición y dificultades para comparar modelos), integra diversos conjuntos de datos, incluyendo dos nuevos conjuntos de datos sintéticos de audio a texto: PARADE y CoRe-Bench. Mide el rendimiento de los ALM en diez dimensiones críticas: reconocimiento de audio, conocimiento, inferencia, detección de emociones, sesgo, imparcialidad, multilingüismo, robustez, toxicidad y seguridad. Utiliza indicaciones estandarizadas, parámetros de inferencia y métricas de evaluación para garantizar comparaciones justas entre modelos. Al evaluar 14 ALM de ponderación abierta y API cerrada, y tres sistemas de referencia simples, presentamos resultados que muestran que Gemini 2.5 Pro obtiene la mejor puntuación en cinco dimensiones, pero exhibe inequidad de grupo en tareas de ASR. Todos los datos están disponibles públicamente en https://crfm.stanford.edu/helm/audio/v1.0.0 .

Takeaways, Limitations

Takeaways:
Presentamos AHELM, un punto de referencia estandarizado para la evaluación de ALM, para permitir una comparación justa entre modelos.
Mida el rendimiento general de ALM evaluando exhaustivamente varios aspectos (reconocimiento de audio, inferencia, sesgo, seguridad, etc.).
Sugerir direcciones de desarrollo de ALM a través de la comparación del desempeño entre modelos existentes y sistemas de referencia.
Planeamos actualizar continuamente AHELM para agregar nuevos conjuntos de datos y modelos.
Limitations:
El número de modelos incluidos actualmente en el benchmark puede ser limitado.
Se necesita una validación adicional sobre la escala y el rendimiento de generalización de nuevos conjuntos de datos (PARADE, CoRe-Bench).
Se necesita un análisis más profundo para interpretar los resultados de la evaluación en aspectos específicos.
👍