Sign In

PerCoR: Evaluating Commonsense Reasoning in Persian via Multiple-Choice Sentence Completion

Created by
  • Haebom
Category
Empty

저자

Morteza Alikhani, Mohammadtaha Bagherifard, Erfan Zinvandi, Mehran Sarmadi

개요

본 논문은 페르시아어 상식 추론을 위한 최초의 대규모 벤치마크인 PerCoR(Persian Commonsense Reasoning)을 소개합니다. PerCoR은 40개 이상의 뉴스, 문화 및 기타 웹 소스에서 가져온 106,000개의 객관식 문장 완성 문제로 구성됩니다. 저자들은 일관된 문장 완성 쌍을 생성하기 위해 새로운 결합 기반 분할 전략을 도입하고, 모델 혼란을 최대화하면서 정답 후보군에서 오답을 선택하는 생성 없는 적대적 필터링 방법인 DRESS-AF(Distractor Ranking via Embedding Similarity Scoring and Adversarial Filtering)를 제안합니다. PerCoR에서 인간 주석자는 89%의 점수를 얻었고, OpenAI-o3는 92.18%로 가장 높은 성능을 기록했으며, Claude-Sonnet-3.7(91.17%)이 그 뒤를 이었습니다. 가장 강력한 오픈 소스 모델인 DeepSeek-R1은 82.51%를 기록하여 데이터 세트의 난이도와 페르시아어 상식 추론의 성능 격차를 강조합니다. 또한 DRESS-AF가 영어 HellaSwag 벤치마크로 전송되어 인간의 해결 능력을 해치지 않으면서 난이도를 높이는 것을 보여줍니다.

시사점, 한계점

시사점:
페르시아어 상식 추론을 위한 최초의 대규모 벤치마크 제공.
새로운 분할 전략(conjunction-based segmentation)을 통해 다양한 토픽과 구조를 가진 문장 완성 문제 생성.
생성 없는 적대적 필터링 방법인 DRESS-AF를 통해 고품질의 오답 생성.
PerCoR의 난이도를 평가하고 모델 성능 격차를 보여줌.
DRESS-AF의 영어 벤치마크 적용 가능성을 입증.
한계점:
논문 자체에서 구체적인 한계점을 직접적으로 언급하지 않음. (논문 요약 내용을 기반으로 유추)
오픈 소스 모델의 성능 향상 가능성.
다른 언어 또는 벤치마크에 DRESS-AF의 일반화 가능성 추가 연구 필요.
👍