본 논문은 대규모 언어 모델(LLM)이 문화적 맥락과 방언을 포함하는 질문에 대해 언어별로 일관되지 않은 성능을 보이는 문제점을 해결하기 위한 연구를 제시한다. 구체적으로, (1) 현대 표준 아랍어(MSA) 객관식 질문(MCQ)을 영어 및 여러 아랍 방언으로 번역하고, (2) 이를 주관식 질문(OEQ)으로 변환하며, (3) 다양한 제로샷 및 미세 조정 LLM을 MCQ 및 OEQ 설정에서 벤치마킹하고, (4) 단계별 추론을 위해 Chain-of-Thought (CoT) 설명을 생성하여 모델을 미세 조정한다. 이 연구를 통해, 여러 언어 변형 간에 병렬 정렬된 QA가 포함된 최초의 데이터 세트를 개발하고, 개방형 및 폐쇄형 모델에 대한 광범위한 실험을 수행한다.