본 논문은 LLM(대규모 언어 모델) 평가자로서의 LLM(LLM-as-a-Judge)의 새로운 패러다임에 대한 불확실성 문제를 다룹니다. 기존 연구가 주로 LLM 평가자의 정렬(alignment) 및 편향(bias)에 집중한 반면, 본 논문은 LLM 평가자의 안정성(stability), 즉 불확실성에 초점을 맞춥니다. 9개의 널리 사용되는 LLM 평가자를 대상으로 2가지 평가 설정에서 광범위한 실험을 수행하여 모델 기반 LLM 평가의 불확실성을 조사합니다. 모델 계열과 크기에 따라 LLM 평가자의 불확실성이 다르게 나타나는 것을 확인하고, 추론 또는 사후 학습 중 특수 프롬프팅 전략을 사용하면 평가 불확실성을 어느 정도 완화할 수 있음을 발견합니다. 또한, 불확실성을 활용하여 OOD(Out-Of-Distribution) 데이터에서 LLM의 신뢰성과 탐지 능력을 향상시키고, 사람이 주석을 단 미세 조정 세트를 사용하여 불확실성 인식 LLM 평가자 ConfiLM을 미세 조정합니다. 2024 올림픽에서 수동으로 설계된 테스트 세트에서 ConfiLM의 OOD 평가 능력을 평가한 결과, 미세 조정 단계에서 불확실성을 추가 정보로 통합하면 OOD 시나리오에서 모델의 평가 성능이 크게 향상됨을 보여줍니다. 코드와 데이터는 https://github.com/hasakiXie123/LLM-Evaluator-Uncertainty 에서 공개됩니다.