본 논문은 모바일 환경에 특화된 대규모 언어 모델(LLM) 성능 평가를 위한 새로운 벤치마크 데이터셋인 Mobile-MMLU를 제시한다. 기존 벤치마크들이 서버 및 데스크톱 환경에 초점을 맞춘 것과 달리, Mobile-MMLU는 모바일 사용자의 특징적인 상호작용 방식과 제한된 자원(저장 공간, 연산 능력)을 고려하여 설계되었다. 80개의 모바일 관련 분야에 걸쳐 16,186개의 질문으로 구성되며, 레시피 추천, 여행 계획 등 실제 모바일 사용 시나리오를 반영한 다지선다형 질문들로 이루어져 있다. 추가적으로, Mobile-MMLU-Pro라는 더욱 어려운 하위 데이터셋도 제공한다. Mobile-MMLU는 추론 지연 시간, 에너지 소비량, 메모리 사용량, 응답 품질 등 모바일 특유의 지표들을 중시하며, 개인정보 보호 및 사용자 맞춤형 적응성 평가도 포함한다. 이를 통해 모바일 최적화된 LLM 개발 및 비교를 위한 표준화된 프레임워크를 제공하고, 모바일 컴퓨팅 환경 내 생산성 및 의사결정 향상에 기여하고자 한다. 데이터셋과 코드는 GitHub에서 공개한다.