AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
Created by
Haebom
作者
Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
概要
本論文は、大規模オーディオ言語モデル(LALM)評価の難しさを解決するための効率的で包括的な評価フレームワークであるAU-Harnessを提示します。既存のフレームワークの低速処理速度、一貫性のないプロンプト、狭い作業範囲という3つの主な問題を解決するために、AU-Harnessは最適化されたバッチ処理と並列実行により速度を最大127%向上させ、標準化されたプロンプティングプロトコルと柔軟な構成を提供します。また、時間的オーディオ理解のためのLLM-Adaptive Diarizationと複雑なオーディオベース認知作業のためのSpoken Language Reasoningという2つの新しい評価カテゴリを導入し、380以上のタスクに対する評価を行い、LALMの時間的理解と複雑な口語理解能力の不足と指示方式の標準化不足を明らかにした。 AU-Harnessは、実用的な評価ツールとモデルの限界に関する洞察を提供し、LALMの体系的な開発を進めます。