본 논문은 아랍어 방언에 대한 대규모 언어 모델(LLM)의 성능을 평가하기 위한 새로운 벤치마크인 DialectalArabicMMLU를 제시한다. 최근 개발된 아랍어 및 다국어 벤치마크는 현대 표준 아랍어(MSA)에 대한 LLM 평가를 발전시켰지만, 일상적인 의사 소통에서 널리 사용되는 방언은 여전히 과소 대표되고 있다. DialectalArabicMMLU는 3,000개의 객관식 질문-답변 쌍을 5개의 주요 방언(시리아, 이집트, 에미레이트, 사우디, 모로코)으로 수동 번역 및 적용하여 MMLU-Redux 프레임워크를 확장하여 32개의 학문 및 전문 분야에 걸쳐 총 15,000개의 QA 쌍을 생성한다(영어 및 MSA를 포함하면 22,000개의 QA 쌍). 이 벤치마크는 MSA를 넘어 LLM의 추론 및 이해를 체계적으로 평가할 수 있으며, 과제 기반 및 언어적 분석을 모두 지원한다. 19개의 오픈 웨이트 아랍어 및 다국어 LLM(1B-13B 파라미터)을 평가하고 방언 간의 상당한 성능 변화를 보고하여 방언 일반화의 지속적인 격차를 드러낸다. DialectalArabicMMLU는 아랍어 방언 이해를 측정하기 위한 최초의 통합, 수작업 리소스를 제공하여 보다 포괄적인 평가와 미래의 모델 개발을 촉진한다.