대규모 언어 모델(LLM)은 자연어 생성 작업을 평가하는 자동화된 지표로 널리 사용되지만, 문장의 타당성을 측정하는 LLM의 가능성(likelihood)은 단어 순서나 문장 구조와 같은 피상적인 차이로 인해 달라질 수 있습니다. 따라서 LLM을 평가에 사용할 경우 likelihood bias가 존재할 수 있는데, 이는 likelihood가 높은 문장은 과대평가하고 낮은 문장은 과소평가할 수 있음을 의미합니다. 본 논문에서는 LLM 기반 평가자에서 likelihood bias의 존재와 영향을 조사하고, 이를 완화하는 방법을 제안합니다. 제안된 방법은 highly biased instances를 in-context learning을 위한 few-shot 예제로 활용합니다. Data-to-text 및 문법 오류 수정 작업 평가 실험을 통해 여러 LLM에서 likelihood bias가 나타나는 것을 확인했습니다. 또한 제안된 방법이 이 bias를 성공적으로 완화하고, 평가 성능(사람 점수와의 상관관계)을 유의미하게 향상시켰습니다.