Cet article souligne que les capacités auditives de bas niveau des modèles de langage audio à grande échelle (LALM), notamment la détection de la hauteur et de la durée, restent sous-explorées. L'audition de bas niveau est cruciale pour les tâches distribuées du monde réel qui nécessitent des inférences sur des sons inconnus à partir d'indices acoustiques subtils. Pour combler cette lacune, nous présentons le World-of-Whale Bench (WoW-Bench), qui évalue la perception auditive de bas niveau à l'aide des sons de mammifères marins. WoW-Bench se compose d'un benchmark cognitif qui classe les sons nouveaux et d'un benchmark cognitif inspiré de la taxonomie de Bloom qui évalue la capacité à mémoriser, comprendre, appliquer et analyser les événements sonores. Le benchmark cognitif comprend des questions de distraction permettant de déterminer si le modèle résout les problèmes par l'écoute ou s'il s'appuie sur d'autres heuristiques. Les résultats expérimentaux obtenus avec des LALM de pointe montrent des performances significativement inférieures à celles des humains, ce qui suggère la nécessité d'une base auditive plus solide pour les LALM.