BMMR은 대규모 다국어, 다모달, 다학문적 추론 데이터셋으로, 대규모 다모달 모델(LMM)의 개발 및 평가를 위한 110,000개의 대학 수준 질문을 포함합니다. 유네스코에서 정의한 300개의 과목을 다루며, 객관식, 빈칸 채우기, 주관식 등 다양한 형식의 질문과 책, 시험, 퀴즈 등 다양한 출처의 데이터로 구성됩니다. 인간 개입 기반의 확장 가능한 프레임워크를 통해 큐레이션 및 필터링되었으며, 각 인스턴스에는 고품질 추론 경로가 연결되어 있습니다. 데이터셋은 LMM의 지식과 추론 능력을 종합적으로 평가하기 위한 20,458개의 고품질 인스턴스로 구성된 BMMR-Eval과 추가 연구 및 개발을 지원하는 88,991개의 인스턴스로 구성된 BMMR-Train으로 나뉩니다. 정확하고 세분화된 추론 경로 평가를 위한 프로세스 기반 다학문 검증기(BMMR-Verifier)도 제안합니다. 24개 모델에 대한 실험 결과, 최첨단 모델조차 BMMR-Eval에서 상당한 개선 여지가 있음을 보여주었고, 추론 모델은 특정 과목에서만 LMM보다 성능이 우수하며, 오픈소스 모델은 독점 모델에 비해 성능이 떨어지지만 BMMR-Train으로 fine-tuning하면 성능 차이가 줄어드는 것을 확인했습니다. BMMR-Verifier를 사용한 추론 체인 분석 등 심층 연구를 통해 LMM이 다학문적 추론에서 현재 직면하는 과제를 밝혀냈습니다. 데이터셋은 공개될 예정입니다.