Sign In

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

Created by
  • Haebom
Category
Empty

저자

Brandon James Carone, Iran R. Roman, Pablo Ripolles

Multimodal LLMs: Musical Understanding Beyond Score Reading

개요

본 논문은 멀티모달 대규모 언어 모델(LLM)이 악보 읽기와 청취를 혼동하는 방식으로 "음악적 이해"를 주장하는 문제를 제기합니다. 최첨단 LLM 3종(Gemini 2.5 Pro, Gemini 2.5 Flash, Qwen2.5-Omni)을 싱코페이션 채점, 조옮김 감지, 코드 품질 식별 등 세 가지 핵심 음악 기술에 대해 벤치마킹합니다. 또한, (i) 지각적 한계(오디오 vs. MIDI 입력), (ii) 예시 노출(제로 샷 vs. 퓨 샷 조작), (iii) 추론 전략(Standalone, CoT, LogicLM) 등 세 가지 가변 요인을 분리하여 분석합니다. LogicLM을 음악에 맞게 적용하여 LLM과 기호 해결사를 결합한 구조적 추론을 수행합니다. 결과는 MIDI에서는 높은 정확도를 보이지만 오디오에서는 성능 저하가 나타나는 명확한 지각적 격차를 보여줍니다. 추론 및 퓨 샷 프롬프팅은 미미한 이점을 제공합니다. Gemini Pro는 대부분의 조건에서 가장 높은 성능을 보입니다. 전반적으로 현재 시스템은 기호(MIDI)에 대해서는 잘 추론하지만, 오디오에서는 아직 신뢰할 수 있게 "듣지" 못합니다.

시사점, 한계점

시사점:
MIDI 데이터에 대한 높은 성능은 기호 기반 추론의 강점을 보여줍니다.
오디오 데이터에 대한 낮은 성능은 청각적 이해의 부족을 나타냅니다.
LogicLM의 적용은 구조적 추론 방식을 음악 분야에 적용할 수 있음을 보여줍니다.
Gemini Pro가 전반적으로 높은 성능을 보이며, 모델 간의 차이를 보여줍니다.
본 연구는 오디오 기반 음악 시스템 개발을 위한 명확한 지침을 제시합니다.
한계점:
오디오 데이터에 대한 성능 향상이 미흡합니다.
퓨 샷 프롬프팅 및 추론 전략이 제한적인 효과를 보입니다.
LogicLM의 오디오 데이터에 대한 강건성이 부족합니다.
단 세 가지 LLM 모델만을 평가 대상으로 하여 일반화의 한계가 있습니다.
세부적인 음악적 이해 능력 평가에 대한 추가 연구가 필요합니다.
👍