Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
AHELM: Una evaluación holística de los modelos de audio-lenguaje
Created by
Haebom
Autor
Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang
Describir
AHELM es un nuevo punto de referencia para la evaluación integral de modelos de audio-lenguaje (ALM). Para abordar las deficiencias de los puntos de referencia existentes (falta de estandarización, limitaciones en los aspectos de medición y dificultades para comparar modelos), integra diversos conjuntos de datos, incluyendo dos nuevos conjuntos de datos sintéticos de audio a texto: PARADE y CoRe-Bench. Mide el rendimiento de los ALM en diez dimensiones críticas: reconocimiento de audio, conocimiento, inferencia, detección de emociones, sesgo, imparcialidad, multilingüismo, robustez, toxicidad y seguridad. Utiliza indicaciones estandarizadas, parámetros de inferencia y métricas de evaluación para garantizar comparaciones justas entre modelos. Al evaluar 14 ALM de ponderación abierta y API cerrada, y tres sistemas de referencia simples, presentamos resultados que muestran que Gemini 2.5 Pro obtiene la mejor puntuación en cinco dimensiones, pero exhibe inequidad de grupo en tareas de ASR. Todos los datos están disponibles públicamente en https://crfm.stanford.edu/helm/audio/v1.0.0 .