본 논문은 생성형 대규모 언어 모델(LLM)을 데이터 라벨링에 활용하는 연구에서, 기존 연구들이 LLM의 성능 우위를 강조하지만 LLM의 편향성 문제(특히 논쟁적인 주제에 대한 편향)를 간과하고 있음을 지적합니다. 연구진은 4개의 데이터셋에서 4가지 주석 작업을 통해 LLM이 민감한 주제에 대해 다양한 관점을 어떻게 나타내는지 평가했습니다. 그 결과, LLM의 주석이 특정 인구 통계 집단의 견해를 과소표현하는 것은 큰 문제가 아니며, 모델, 프롬프트, 그리고 인간 주석자 간의 의견 불일치가 LLM의 동의 여부를 더 잘 예측한다는 것을 발견했습니다. 따라서 LLM을 데이터 주석에 사용할 때 특정 그룹의 견해를 과소표현하는 것은 심각한 우려 사항이 아니라는 결론을 내립니다.