본 논문은 사우디아라비아의 다양한 아랍어 방언과 문화적 미묘함에 대한 거대 언어 모델(LLM)의 이해도를 평가하기 위해, Absher라는 포괄적인 벤치마크를 제시합니다. Absher는 의미, 참/거짓, 빈칸 채우기, 문맥적 사용, 문화적 해석, 위치 인식 등 6가지 범주에 걸쳐 18,000개 이상의 객관식 질문으로 구성되며, 사우디아라비아 여러 지역의 방언 단어, 구절, 속담으로부터 얻어진 데이터셋을 기반으로 합니다. 여러 최첨단 LLM을 평가하여, 특히 문화적 추론이나 문맥적 이해가 필요한 작업에서 상당한 성능 차이를 발견하였으며, 실제 아랍어 애플리케이션에서 LLM 성능을 향상시키기 위해서는 방언 인식 훈련과 문화적으로 일치하는 평가 방법론이 시급함을 강조합니다.