본 논문은 대규모 언어 모델(LLM)을 자동 평가자로 사용하여 생성된 콘텐츠의 안전성을 평가하는 신뢰성에 대한 연구이다. 11개의 다양한 LLM 평가 모델을 사용하여 자기 일관성, 인간 판단과의 일치성, 변명이나 장황한 표현과 같은 입력 인공물에 대한 민감성 세 가지 측면을 평가하였다. 연구 결과, LLM 평가자의 편향이 안전성 비교 평가의 타당성을 저해하고, 변명하는 언어 인공물만으로도 평가자의 선호도를 최대 98%까지 왜곡할 수 있음을 밝혔다. 더 큰 모델이 항상 더 강력한 것은 아니며, 작은 모델이 특정 인공물에 대해 더 높은 저항성을 보이는 경우도 있었다. 여러 모델의 결정을 집계하는 배심원 기반 평가를 통해 강력성과 인간 판단과의 일치성을 향상시킬 수 있지만, 인공물 민감성은 최고의 배심원 구성에서도 지속되었다. 따라서 신뢰할 수 있는 안전성 평가를 위해서는 다양하고 인공물에 강한 방법론이 시급하다.