본 연구는 ChatGPT, Gemini, Claude 세 가지 대규모 언어 모델(LLM)을 사용하여 자체 및 상호 평가 시 편향성을 조사했습니다. 각 모델이 작성한 블로그 게시물을 네 가지 조건(레이블 없음, 참 레이블, 두 가지 거짓 레이블 시나리오) 하에서 세 모델이 전체 선호도 투표와 일관성, 정보성, 간결성에 대한 품질 평가를 통해 평가했습니다. 결과적으로 모델의 이름("Claude", "Gemini")이 평가 결과에 큰 영향을 미치는 것으로 나타났습니다. "Claude" 레이블은 점수를 높이고 "Gemini" 레이블은 점수를 낮추는 경향이 있었으며, 거짓 레이블은 순위를 역전시키기도 했습니다. 이는 모델의 정체성 인식이 고차원적 판단과 세부적인 품질 평가에 큰 영향을 미칠 수 있음을 보여줍니다.