본 논문은 음악 정보 검색(MIR) 분야의 다양한 과제들을 다루는 포괄적인 음악 지시 따르기 벤치마크인 CMI-Bench를 제안합니다. 기존 벤치마크의 한계를 극복하기 위해, 기존의 다양한 MIR 주석들을 지시 따르기 형식으로 재해석하여 장르 분류, 감정 회귀, 감정 태깅, 악기 분류, 피치 추정, 조성 검출, 가사 전사, 멜로디 추출, 보컬 기법 인식, 악기 연주 기법 검출, 음악 태깅, 음악 캡션 생성, (다운)비트 추적 등 광범위한 작업을 포함합니다. CMI-Bench는 기존 최첨단 MIR 모델과의 직접적인 비교를 보장하기 위해 표준화된 평가 지표를 채택하며, LTU, Qwen-audio, SALMONN, MusiLingo 등 여러 오픈 소스 오디오-텍스트 LLM을 지원하는 평가 툴킷을 제공합니다. 실험 결과는 LLM과 지도 학습 모델 간의 성능 차이와 문화적, 시대적, 성별 편향을 보여주며, 현재 모델의 잠재력과 한계를 강조합니다.