본 논문은 다중 선택형 벤치마크를 사용한 언어 모델의 자연어 이해 능력 평가의 한계점을 지적하고, 이를 개선하기 위한 새로운 지표 ANPMI를 제안합니다. 기존의 $P(Choice|Prompt)$ 방식은 모델의 이해 능력뿐 아니라 특정 선택지에 대한 고유한 편향도 반영하여 정확한 평가를 어렵게 만든다는 문제점을 제기합니다. ANPMI는 Pointwise Mutual Information (PMI)를 $-\log P(Choice)$로 정규화하여, 프롬프트를 제대로 이해하지 않고 답을 맞히는 것을 어렵게 함으로써 모델의 자연어 이해 능력을 더 정확하게 평가할 수 있도록 설계되었습니다.