본 논문은 멀티모달 대규모 언어 모델(LLM)이 악보 읽기와 청취를 혼동하는 방식으로 "음악적 이해"를 주장하는 문제를 제기합니다. 최첨단 LLM 3종(Gemini 2.5 Pro, Gemini 2.5 Flash, Qwen2.5-Omni)을 싱코페이션 채점, 조옮김 감지, 코드 품질 식별 등 세 가지 핵심 음악 기술에 대해 벤치마킹합니다. 또한, (i) 지각적 한계(오디오 vs. MIDI 입력), (ii) 예시 노출(제로 샷 vs. 퓨 샷 조작), (iii) 추론 전략(Standalone, CoT, LogicLM) 등 세 가지 가변 요인을 분리하여 분석합니다. LogicLM을 음악에 맞게 적용하여 LLM과 기호 해결사를 결합한 구조적 추론을 수행합니다. 결과는 MIDI에서는 높은 정확도를 보이지만 오디오에서는 성능 저하가 나타나는 명확한 지각적 격차를 보여줍니다. 추론 및 퓨 샷 프롬프팅은 미미한 이점을 제공합니다. Gemini Pro는 대부분의 조건에서 가장 높은 성능을 보입니다. 전반적으로 현재 시스템은 기호(MIDI)에 대해서는 잘 추론하지만, 오디오에서는 아직 신뢰할 수 있게 "듣지" 못합니다.