본 연구는 대규모 언어 모델(LLM)을 자동 평가자로 활용하여 생성 콘텐츠의 안전성을 평가하는 신뢰성을 검증하는 연구입니다. 11개의 다양한 LLM 평가 모델을 사용하여 자기 일관성, 인간 판단과의 일치성, 변명이나 장황한 표현과 같은 입력 인공물에 대한 취약성 등 세 가지 핵심 측면을 평가했습니다. 연구 결과, LLM 평가자의 편향이 안전성 비교 평가의 타당성을 저해할 수 있음을 보여줍니다. 특히, 변명하는 언어 인공물만으로도 평가자의 선호도가 최대 98%까지 왜곡될 수 있습니다. 더 큰 모델이 항상 더 강력한 것은 아니며, 작은 모델이 특정 인공물에 대해 더 높은 저항성을 보이는 경우도 있습니다. LLM 평가자의 강건성 문제를 완화하기 위해 여러 모델의 결정을 집계하는 배심원 기반 평가를 조사했습니다. 이 방법은 강건성을 향상시키고 인간 판단과의 일치성을 높이지만, 최상의 배심원 구성에서도 인공물 민감성이 지속됩니다. 이러한 결과는 신뢰할 수 있는 안전성 평가를 위해 다양하고 인공물에 강한 방법론이 시급함을 강조합니다.