Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets

Created by
  • Haebom

저자

Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

개요

온라인 플랫폼의 확산으로 인해 증가하는 증오 표현을 효과적으로 감지하기 위한 확장 가능한 시스템이 필요해졌습니다. 하지만 증오 표현 감지 시스템의 정확도는 인간에 의한 데이터 라벨링에 크게 의존하며, 이는 편향에 취약합니다. 본 연구는 기존 연구들이 다루지 못했던, 라벨러와 증오 표현의 대상의 특성 간 상호 작용에 초점을 맞춥니다. 라벨러와 대상 모두에 대한 풍부한 사회 인구 통계 정보가 포함된 방대한 데이터셋을 활용하여 인간의 편향이 대상의 속성과 어떻게 상호 작용하는지 밝혀냈습니다. 분석 결과 광범위한 편향이 존재함을 보여주며, 그 강도와 빈도를 정량적으로 기술하고 특징을 분석하여 현저한 차이를 드러냅니다. 또한, 인간의 편향과 페르소나 기반 대규모 언어 모델(LLM)의 편향을 비교 분석하여, 페르소나 기반 LLM도 편향을 보이지만 인간 라벨러와는 상당히 다르다는 것을 밝힙니다. 본 연구는 증오 표현 주석에서 인간의 편향에 대한 새로운 통찰과 AI 기반 증오 표현 감지 시스템 설계에 대한 새로운 시각을 제공합니다.

시사점, 한계점

시사점:
인간 라벨러의 사회 인구 통계적 특성과 증오 표현 대상의 특성 간 상호 작용에 따른 편향의 영향을 정량적으로 분석하고 특징을 규명했습니다.
인간 라벨러의 편향과 페르소나 기반 LLM의 편향을 비교 분석하여, 각각의 편향의 차이를 보여주었습니다.
AI 기반 증오 표현 감지 시스템 설계에 대한 새로운 시각을 제공합니다.
증오 표현 감지 시스템의 신뢰성 향상을 위한 새로운 방향을 제시합니다.
한계점:
사용된 데이터셋의 특성에 따라 결과의 일반화 가능성에 제한이 있을 수 있습니다.
분석에 사용된 편향의 종류 및 측정 방식에 대한 추가적인 검토가 필요할 수 있습니다.
페르소나 기반 LLM의 편향에 대한 추가적인 연구가 필요합니다.
👍