본 논문은 사우디아라비아의 다양한 문화적 맥락을 고려하여 대규모 언어 모델(LLM)의 문화적 역량을 평가하기 위한 새로운 벤치마크인 SaudiCulture를 제시합니다. SaudiCulture는 사우디아라비아의 5개 주요 지역(서부, 동부, 남부, 북부, 중부)을 포함하는 광범위한 질문 데이터셋으로, 음식, 의복, 오락, 축제, 공예 등 다양한 문화 영역을 다룹니다. 본 연구에서는 GPT-4, Llama 3.3, FANAR, Jais, AceGPT 등 5개의 LLM을 대상으로 SaudiCulture를 이용한 평가를 실시하여, 지역 특정 질문이나 다중 정답을 요구하는 질문에서 LLM의 성능 저하를 확인하였습니다. 이를 통해 LLM의 문화적 역량 향상을 위해 지역 특정 지식을 학습 데이터에 통합하는 것이 중요함을 강조합니다.