본 논문은 페르시아어 상식 추론을 위한 최초의 대규모 벤치마크인 PerCoR(Persian Commonsense Reasoning)을 소개합니다. PerCoR은 40개 이상의 뉴스, 문화 및 기타 웹 소스에서 가져온 106,000개의 객관식 문장 완성 문제로 구성됩니다. 저자들은 일관된 문장 완성 쌍을 생성하기 위해 새로운 결합 기반 분할 전략을 도입하고, 모델 혼란을 최대화하면서 정답 후보군에서 오답을 선택하는 생성 없는 적대적 필터링 방법인 DRESS-AF(Distractor Ranking via Embedding Similarity Scoring and Adversarial Filtering)를 제안합니다. PerCoR에서 인간 주석자는 89%의 점수를 얻었고, OpenAI-o3는 92.18%로 가장 높은 성능을 기록했으며, Claude-Sonnet-3.7(91.17%)이 그 뒤를 이었습니다. 가장 강력한 오픈 소스 모델인 DeepSeek-R1은 82.51%를 기록하여 데이터 세트의 난이도와 페르시아어 상식 추론의 성능 격차를 강조합니다. 또한 DRESS-AF가 영어 HellaSwag 벤치마크로 전송되어 인간의 해결 능력을 해치지 않으면서 난이도를 높이는 것을 보여줍니다.