Este artículo presenta AU-Harness, un marco de evaluación eficiente y completo para abordar los desafíos de la evaluación de modelos de lenguaje de audio a gran escala (LALM). Al abordar tres desafíos principales de los marcos existentes (velocidad de procesamiento lenta, indicaciones inconsistentes y alcance limitado de la tarea), AU-Harness acelera el modelo hasta en un 127 % mediante el procesamiento por lotes optimizado y la ejecución en paralelo, a la vez que proporciona un protocolo de indicaciones estandarizado y una configuración flexible. Además, introduce dos nuevas categorías de evaluación (LLM-Diarización Adaptativa para la comprensión temporal de audio y Razonamiento del Lenguaje Hablado para tareas cognitivas complejas basadas en audio) y las evalúa en más de 380 tareas. Esta evaluación revela las deficiencias de los LALM en la comprensión temporal y la comprensión compleja del lenguaje hablado, así como la falta de métodos de instrucción estandarizados. AU-Harness promueve el desarrollo sistemático de los LALM al proporcionar herramientas prácticas de evaluación y conocimiento sobre las limitaciones del modelo.