本文探讨了大规模语音理解语言模型 (Speech-LLM) 无法理解语音的非语言层面,而这些层面对于社交和情商至关重要。为了解决这个问题,我们提出了 CP-Bench,这是一个评估语境副语言推理的基准测试,它将语言内容与情感、韵律等非语言线索相结合。CP-Bench 包含两个需要语言理解和共情理解的问答 (QA) 数据集。我们评估了最先进的 Speech-LLM,包括开源和闭源模型,并对各种问题类型进行了全面分析。对于排名靠前的两个模型,我们分析了温度调节的影响。我们的结果揭示了现有评估的局限性,并为构建更具情境感知和情商的语音响应型 LLM 提供了参考。