본 연구는 대규모 언어 모델(LLM)이 텍스트 품질 평가에 사용될 때 발생하는 체계적인 편향을 조사한다. ChatGPT, Gemini, Claude 세 가지 LLM을 대상으로, 모델 자체 평가 및 교차 평가에서 발생하는 편향을 실험했다. 각 모델이 작성한 블로그 게시물을 무속성, 실제 속성, 두 가지 허위 속성 조건에서 평가하였다. 평가 방법으로는 전체적인 선호도 투표와 응집성, 정보성, 간결성의 세 가지 차원에 대한 세분화된 품질 평점을 사용했다.