यह शोधपत्र इस बात पर प्रकाश डालता है कि बड़े पैमाने के ऑडियो भाषा मॉडल (LALMs) की निम्न-स्तरीय श्रवण क्षमताएँ, विशेष रूप से पिच और अवधि संसूचन, अभी भी कम समझी गई हैं। निम्न-स्तरीय श्रवण वास्तविक दुनिया के उन वितरित कार्यों के लिए अत्यंत महत्वपूर्ण है जिनमें सूक्ष्म ध्वनिक संकेतों के आधार पर अज्ञात ध्वनियों के बारे में अनुमान लगाने की आवश्यकता होती है। इस कमी को पूरा करने के लिए, हम वर्ल्ड-ऑफ-व्हेल बेंच (WoW-बेंच) प्रस्तुत करते हैं, जो समुद्री स्तनधारियों की ध्वनियों का उपयोग करके निम्न-स्तरीय श्रवण बोध का आकलन करता है। WoW-बेंच में एक संज्ञानात्मक बेंचमार्क शामिल है जो नवीन ध्वनियों को वर्गीकृत करता है और एक संज्ञानात्मक बेंचमार्क जो ब्लूम के वर्गीकरण से प्रेरित है, जो ध्वनि घटनाओं को याद रखने, समझने, लागू करने और उनका विश्लेषण करने की क्षमता का आकलन करता है। संज्ञानात्मक बेंचमार्क में ध्यान भटकाने वाले प्रश्न शामिल हैं जो यह आकलन करते हैं कि मॉडल सुनने के माध्यम से समस्याओं का समाधान करता है या अन्य अनुमानों पर निर्भर करता है। अत्याधुनिक LALMs का उपयोग करने वाले प्रायोगिक परिणाम मनुष्यों की तुलना में काफ़ी कम प्रदर्शन प्रदर्शित करते हैं, जो LALMs के लिए एक अधिक मज़बूत श्रवण आधार की आवश्यकता का सुझाव देते हैं।