본 논문은 언어 모델(LM)의 불확실성 정량화(UQ) 평가에서의 편향 문제를 다룬다. 기존 UQ 평가는 AUROC와 같은 지표를 사용하여 UQ 방법(예: 음수 시퀀스 확률)과 정확성 함수(예: ROUGE-L) 간의 상관관계를 평가하지만, UQ 방법과 정확성 함수 모두 동일한 요소(예: 길이)에 의해 편향될 경우(상호 편향), 평가 결과가 왜곡될 수 있음을 보였다. 본 논문은 이러한 상호 편향이 AUROC 순위를 비확률적으로 왜곡하여 벤치마크의 무결성을 저해함을 이론적으로 증명하고, 4개의 데이터셋, 4개의 모델, 8개의 UQ 방법에 걸쳐 7개의 정확성 함수를 실험적으로 검증하여 이를 확인하였다. 특히, 정확성 함수의 길이 편향이 UQ 방법의 길이 편향과 상호 작용하여 UQ 평가를 왜곡하는 현상을 밝히고, LM-as-a-judge 방법이 길이 편향이 가장 적은 방법으로 나타났음을 제시한다.