यह शोधपत्र AU-Harness प्रस्तुत करता है, जो बड़े पैमाने के ऑडियो भाषा मॉडल (LALM) के मूल्यांकन की चुनौतियों का समाधान करने के लिए एक कुशल और व्यापक मूल्यांकन ढाँचा है। मौजूदा ढाँचों की तीन प्रमुख चुनौतियों—धीमी प्रसंस्करण गति, असंगत संकेतन, और संकीर्ण कार्य क्षेत्र—का समाधान करते हुए, AU-Harness अनुकूलित बैच प्रसंस्करण और समानांतर निष्पादन के माध्यम से मॉडल को 127% तक गति प्रदान करता है, साथ ही एक मानकीकृत संकेतन प्रोटोकॉल और लचीला विन्यास भी प्रदान करता है। इसके अलावा, यह दो नई मूल्यांकन श्रेणियों—समय-आधारित ऑडियो समझ के लिए LLM-अनुकूली दैनिकीकरण और जटिल ऑडियो-आधारित संज्ञानात्मक कार्यों के लिए मौखिक भाषा तर्क—का परिचय देता है और 380 से अधिक कार्यों पर उनका मूल्यांकन करता है। यह मूल्यांकन समय-आधारित समझ और जटिल मौखिक भाषा समझ में LALM की कमियों, साथ ही मानकीकृत निर्देशात्मक विधियों के अभाव को भी उजागर करता है। AU-Harness व्यावहारिक मूल्यांकन उपकरण और मॉडल की सीमाओं की अंतर्दृष्टि प्रदान करके LALM के व्यवस्थित विकास को आगे बढ़ाता है।