Sign In

MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark

Created by
  • Haebom
Category
Empty

저자

Shengkun Ma, Hao Peng, Lei Hou, Juanzi Li

개요

본 논문은 기존 기계 독해(MRC) 데이터셋의 한계를 극복하고, 다양한 독해 능력을 종합적으로 평가할 수 있는 새로운 벤치마크 MRCEval을 제시합니다. 먼저 독해에 필요한 핵심 능력을 분류하는 새로운 분류 체계를 제안하고, 이를 바탕으로 대규모 언어 모델(LLM)을 활용하여 2,100개 이상의 고품질 객관식 문제를 포함하는 MRCEval을 구축했습니다. MRCEval은 13가지 독해 기술을 포괄적으로 평가하도록 설계되었으며, 28개의 오픈소스 및 독점 모델에 대한 광범위한 평가를 통해 LLM 시대에도 MRC가 여전히 상당한 과제를 제시함을 보여줍니다.

시사점, 한계점

시사점:
기존 MRC 데이터셋의 한계를 극복하고, 종합적인 독해 능력 평가를 위한 새로운 벤치마크 MRCEval 제시.
LLM을 활용한 효율적인 데이터셋 구축 방법 제시.
13가지 독해 기술을 포괄적으로 평가하여 LLM의 독해 능력에 대한 심층적인 분석 가능.
다양한 모델의 성능 비교를 통해 향후 연구 방향 제시.
한계점:
MRCEval의 질문 생성 및 선별에 사용된 LLM의 편향성 및 한계가 결과에 영향을 미칠 수 있음.
현재 평가된 28개 모델 외 다른 모델들에 대한 일반화 가능성 검증 필요.
새로운 분류 체계의 객관성 및 포괄성에 대한 추가적인 검토 필요.
👍