MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

작성자

Haebom

카테고리

Empty

저자

Qihao Zhao, Yangyu Huang, Tengchao Lv, Lei Cui, Qinzheng Sun, Shaoguang Mao, Xin Zhang, Ying Xin, Qiufeng Yin, Scarlett Li, Furu Wei

개요

본 논문은 대규모 언어 모델(LLM)의 상식, 이해력, 문제 해결 능력 평가에 널리 사용되는 다지선다형 문제(MCQ) 데이터셋인 MMLU의 오염 문제를 해결하기 위해 새로운 벤치마크인 MMLU-CF를 제안합니다. MMLU-CF는 의도적 및 비의도적 데이터 유출을 방지하여 LLM의 세계 지식 이해력을 재평가합니다. 비의도적 유출 방지를 위해 더 넓은 영역에서 데이터를 수집하고 세 가지의 오염 제거 규칙을 설계했습니다. 악의적인 유출 방지를 위해 유사한 난이도와 주제 분포를 가진 검증 및 테스트 세트로 벤치마크를 나누고, 테스트 세트는 비공개로 유지하여 신뢰할 수 있는 결과를 보장하며, 검증 세트는 공개하여 투명성을 높이고 독립적인 검증을 용이하게 합니다. 주요 LLM에 대한 평가 결과, 강력한 GPT-4o조차 테스트 세트에서 5-shot 점수 73.4%, 0-shot 점수 71.9%를 달성하는 데 그쳤으며, 이는 본 연구의 접근 방식이 보다 엄격하고 오염 없는 평가 기준을 만드는 데 효과적임을 보여줍니다. GitHub 저장소(https://github.com/microsoft/MMLU-CF)와 데이터셋(https://huggingface.co/datasets/microsoft/MMLU-CF)도 공개되었습니다.