Este artículo destaca que las capacidades auditivas de bajo nivel de los modelos de lenguaje de audio a gran escala (LALM), en particular la detección de tono y duración, siguen siendo poco exploradas. La audición de bajo nivel es crucial para tareas distribuidas del mundo real que requieren inferencias sobre sonidos desconocidos basadas en señales acústicas sutiles. Para abordar esta brecha, presentamos el World-of-Whale Bench (WoW-Bench), que evalúa la percepción auditiva de bajo nivel utilizando los sonidos de mamíferos marinos. WoW-Bench consiste en un punto de referencia cognitivo que clasifica sonidos nuevos y un punto de referencia cognitivo inspirado en la taxonomía de Bloom que evalúa la capacidad de recordar, comprender, aplicar y analizar eventos sonoros. El punto de referencia cognitivo incluye preguntas distractoras para evaluar si el modelo resuelve problemas a través de la escucha o se basa en otras heurísticas. Los resultados experimentales utilizando LALM de última generación demuestran un rendimiento significativamente menor que el de los humanos, lo que sugiere la necesidad de una base auditiva más sólida para los LALM.