본 논문은 다지선다형 벤치마크에서 대규모 언어 모델(LLM)의 신뢰도를 향상시키는 Consistency-Rebalanced Accuracy(CoRA) 메트릭을 제시합니다. CoRA는 변경된 답안 선택지를 가진 인공적으로 생성된 질문을 활용하여 LLM의 응답 일관성을 탐구합니다. Bare-Minimum-Consistency Accuracy(BMCA)와 Consistency Index(CI)의 두 가지 중간 점수를 사용하여 LLM의 일관성 수준을 더 잘 반영하도록 다지선다형 질문 응답(MCQA) 점수를 조정합니다. 다양한 LLM을 사용하여 여러 벤치마크에서 평가를 수행하며, 높은 MCQA 점수를 보이는 LLM도 낮은 응답 일관성을 가질 수 있으며, CoRA가 일관성 없는 모델의 점수를 성공적으로 낮출 수 있음을 입증합니다.