본 논문은 생성형 거대 언어 모델(LLM)을 연구 및 응용 설정에서 데이터 라벨링에 사용하는 것에 대한 기존 연구를 바탕으로, 주관적인 어노테이션 작업에서 생성형 LLM의 응답에 존재하는 편향성을 평가합니다. 기존 연구는 다양한 응용 프로그램과 맥락에서 편향성을 조사했지만, 생성형 LLM의 주관적 어노테이션 작업에 대한 응답에서의 편향성에 초점을 맞춘 연구는 부족했습니다. 본 연구는 네 가지 데이터셋에 대한 네 가지 어노테이션 작업을 통해 LLM이 다양한 관점을 어떻게 나타내는지 평가하며, 인구통계학적 특징에 따라 어노테이터와의 체계적인 상당한 불일치를 보이지 않는다는 것을 보여줍니다. 대신, 여러 LLM이 동일한 데이터셋 내에서 동일한 인구통계학적 범주에 대해 동일한 방향으로 편향되는 경향이 있음을 발견했습니다. 또한, 라벨링 작업에 대한 인간 어노테이터 간의 불일치(항목 난이도 측정)가 LLM과 인간 어노테이터 간의 일치도를 예측하는 데 훨씬 더 중요한 요소임을 밝혔습니다. 마지막으로, 자동화된 데이터 어노테이션 작업에 LLM을 사용하는 연구자와 실무자를 위한 시사점을 논의합니다.