본 논문은 기존 기계 독해(MRC) 데이터셋의 한계를 극복하고, 다양한 독해 능력을 종합적으로 평가할 수 있는 새로운 벤치마크 MRCEval을 제시합니다. 먼저 독해에 필요한 핵심 능력을 분류하는 새로운 분류 체계를 제안하고, 이를 바탕으로 대규모 언어 모델(LLM)을 활용하여 2,100개 이상의 고품질 객관식 문제를 포함하는 MRCEval을 구축했습니다. MRCEval은 13가지 독해 기술을 포괄적으로 평가하도록 설계되었으며, 28개의 오픈소스 및 독점 모델에 대한 광범위한 평가를 통해 LLM 시대에도 MRC가 여전히 상당한 과제를 제시함을 보여줍니다.