Sign In

Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants

Created by
  • Haebom
Category
Empty

저자

Hunzalah Hassan Bhatti, Firoj Alam

개요

본 논문은 대규모 언어 모델(LLM)이 문화적 맥락과 방언을 포함하는 질문에 대해 언어별로 일관되지 않은 성능을 보이는 문제점을 해결하기 위한 연구를 제시한다. 구체적으로, (1) 현대 표준 아랍어(MSA) 객관식 질문(MCQ)을 영어 및 여러 아랍 방언으로 번역하고, (2) 이를 주관식 질문(OEQ)으로 변환하며, (3) 다양한 제로샷 및 미세 조정 LLM을 MCQ 및 OEQ 설정에서 벤치마킹하고, (4) 단계별 추론을 위해 Chain-of-Thought (CoT) 설명을 생성하여 모델을 미세 조정한다. 이 연구를 통해, 여러 언어 변형 간에 병렬 정렬된 QA가 포함된 최초의 데이터 세트를 개발하고, 개방형 및 폐쇄형 모델에 대한 광범위한 실험을 수행한다.

시사점, 한계점

아랍 방언에 대한 모델 성능 저하: 문화적, 방언적 지식 격차를 드러냄.
아랍 중심 모델의 성능: MCQ에서는 우수하나 OEQ에서는 어려움을 겪음.
CoT의 영향: 판단된 정확성은 향상되었지만, n-gram 기반 메트릭에서는 혼합된 결과를 보임.
공개 데이터 세트의 제공: 문화 및 언어 포괄적인 평가에 대한 추가 연구 지원.
👍