본 논문은 대규모 언어 모델(LLM)의 상식, 이해력, 문제 해결 능력 평가에 널리 사용되는 다지선다형 문제(MCQ) 데이터셋인 MMLU의 오염 문제를 해결하기 위해 새로운 벤치마크인 MMLU-CF를 제안합니다. MMLU-CF는 의도적 및 비의도적 데이터 유출을 방지하여 LLM의 세계 지식 이해력을 재평가합니다. 비의도적 유출 방지를 위해 더 넓은 영역에서 데이터를 수집하고 세 가지의 오염 제거 규칙을 설계했습니다. 악의적인 유출 방지를 위해 유사한 난이도와 주제 분포를 가진 검증 및 테스트 세트로 벤치마크를 나누고, 테스트 세트는 비공개로 유지하여 신뢰할 수 있는 결과를 보장하며, 검증 세트는 공개하여 투명성을 높이고 독립적인 검증을 용이하게 합니다. 주요 LLM에 대한 평가 결과, 강력한 GPT-4o조차 테스트 세트에서 5-shot 점수 73.4%, 0-shot 점수 71.9%를 달성하는 데 그쳤으며, 이는 본 연구의 접근 방식이 보다 엄격하고 오염 없는 평가 기준을 만드는 데 효과적임을 보여줍니다. GitHub 저장소(https://github.com/microsoft/MMLU-CF)와 데이터셋(https://huggingface.co/datasets/microsoft/MMLU-CF)도 공개되었습니다.
시사점, 한계점
•
시사점:
◦
기존 MMLU 벤치마크의 데이터 오염 문제를 효과적으로 해결하는 새로운 벤치마크 MMLU-CF를 제시.
◦
MMLU-CF를 통해 LLM의 실제 성능을 더욱 정확하게 평가 가능.
◦
엄격한 평가 기준을 제공하여 LLM 개발의 질적 향상에 기여.
◦
검증 세트 공개를 통한 투명성 확보 및 독립적 검증 용이.
•
한계점:
◦
MMLU-CF가 모든 유형의 데이터 유출을 완벽하게 방지한다고 단정할 수 없음. 새로운 유형의 오염이 발생할 가능성 존재.
◦
테스트 세트의 비공개로 인해 모든 연구자들이 자유롭게 접근하여 평가할 수 없다는 점.
◦
MMLU-CF의 난이도와 주제 분포가 실제 세계 문제와 얼마나 잘 일치하는지에 대한 추가적인 검증 필요.