본 논문은 대규모 언어 모델(LLM) 평가에 널리 사용되는 객관식 문제(MCQ) 벤치마크의 신뢰성이 벤치마크 오염으로 훼손되는 문제를 다룬다. 연구는 오염을 학습의 고유한 측면으로 재구성하고, LLM 평가에서 진정한 능력 습득과 표면적인 암기의 구분을 시도한다. 다양한 암기 조건 하에서 모델 성능을 분석하여, LLM이 암기된 MCQ보다 암기되지 않은 MCQ에서 더 나쁜 성능을 보이는 역설적인 경향을 발견한다. 이는 암기 학습과 진정한 능력 학습이라는 두 가지 고유한 학습 현상의 공존을 시사한다. 이러한 현상을 분리하기 위해, 본 논문은 암기를 줄이면서 지식 평가는 유지하는 대안적인 삼위일체 형식으로 MCQ를 재구성하는 새로운 평가 프레임워크인 TrinEval을 제안한다. 실험을 통해 TrinEval의 재구성 효과를 검증하고, 일반적인 LLM이 평균 20.5%(MMLU 기준)의 지식 포인트를 암기한다는 것을 밝혀낸다.