본 논문은 대규모 언어 모델(LLM)이 다지선다형 문제에서 선택지 위치나 레이블의 고유한 편향을 악용하여 진정한 이해 없이 높은 점수를 얻을 수 있다는 문제를 다룹니다. 이를 해결하기 위해, 데이터셋에 독립적인 방식으로 선택 편향을 측정하고 완화하는 평가 프레임워크인 SCOPE를 제시합니다. SCOPE는 의미 없는 널 프롬프트를 반복적으로 사용하여 각 모델의 고유한 위치 편향 분포를 추정하고, 역 편향 분포에 따라 답변 슬롯을 재분배하여 우연히 정답을 선택할 확률(lucky-rate)을 동일하게 만듭니다. 또한, 의미적으로 유사한 오답이 정답과 인접하게 배치되는 것을 방지하여 표면적인 근접성 단서에 기반한 거의 맞는 추측을 차단합니다. 여러 벤치마크 실험에서 SCOPE는 기존의 편향 제거 방법보다 안정적인 성능 향상을 보였으며, 정답에 대한 더 명확한 신뢰도 분포를 보여주었습니다. 따라서 이 프레임워크는 LLM 평가의 공정성과 신뢰성을 향상시키는 새로운 표준을 제공합니다.