Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating how LLM annotations represent diverse views on contentious topics

Created by
  • Haebom

저자

Megan A. Brown, Shubham Atreja, Libby Hemphill, Patrick Y. Wu

개요

본 논문은 생성형 거대 언어 모델(LLM)을 연구 및 응용 설정에서 데이터 라벨링에 사용하는 것에 대한 기존 연구를 바탕으로, 주관적인 어노테이션 작업에서 생성형 LLM의 응답에 존재하는 편향성을 평가합니다. 기존 연구는 다양한 응용 프로그램과 맥락에서 편향성을 조사했지만, 생성형 LLM의 주관적 어노테이션 작업에 대한 응답에서의 편향성에 초점을 맞춘 연구는 부족했습니다. 본 연구는 네 가지 데이터셋에 대한 네 가지 어노테이션 작업을 통해 LLM이 다양한 관점을 어떻게 나타내는지 평가하며, 인구통계학적 특징에 따라 어노테이터와의 체계적인 상당한 불일치를 보이지 않는다는 것을 보여줍니다. 대신, 여러 LLM이 동일한 데이터셋 내에서 동일한 인구통계학적 범주에 대해 동일한 방향으로 편향되는 경향이 있음을 발견했습니다. 또한, 라벨링 작업에 대한 인간 어노테이터 간의 불일치(항목 난이도 측정)가 LLM과 인간 어노테이터 간의 일치도를 예측하는 데 훨씬 더 중요한 요소임을 밝혔습니다. 마지막으로, 자동화된 데이터 어노테이션 작업에 LLM을 사용하는 연구자와 실무자를 위한 시사점을 논의합니다.

시사점, 한계점

시사점:
LLM은 인구통계학적 특징에 따라 어노테이터와의 체계적인 불일치를 보이지 않지만, 동일한 방향으로 편향될 수 있음을 보여줍니다.
라벨링 작업의 난이도(항목 난이도)가 LLM과 인간 어노테이터 간의 일치도를 예측하는 데 중요한 요소임을 강조합니다.
공정성 평가는 문맥에 따라 이루어져야 하며, 모델 선택만으로는 편향 문제를 해결할 수 없다는 점을 시사합니다.
편향성 평가에 항목 난이도를 통합해야 함을 제시합니다.
한계점:
본 연구에서 사용된 데이터셋과 어노테이션 작업의 제한된 범위는 일반화 가능성에 영향을 미칠 수 있습니다.
다양한 LLM 아키텍처와 크기의 비교 분석이 부족합니다.
LLM의 편향성을 완화하기 위한 구체적인 방법론 제시가 부족합니다.
👍