Sign In

The GUS Framework: Benchmarking Social Bias Classification with Discriminative (Encoder-Only) and Generative (Decoder-Only) Language Models

Created by
  • Haebom
Category
Empty

저자

Maximus Powers, Shaina Raza, Alex Chang, Umang Mavani, Harshitha Reddy Jonala, Ansh Tiwari, Hua Wei

개요

본 논문은 텍스트 내 사회적 편향 감지를 위한 새로운 프레임워크인 GUS(Generalizations, Unfairness, Stereotypes) 프레임워크를 제안합니다. 기존의 이분법적 분류 방식의 한계를 극복하기 위해, 일반화, 불공정성, 고정관념이라는 세 가지 언어적 구성 요소에 초점을 맞춰 보다 세분화된 접근 방식을 제시합니다. 반자동화 방식으로 생성된 종합적인 합성 데이터셋을 사용하여 다중 레이블 토큰 분류를 수행하며, 판별적 모델(인코더 전용)과 생성적 모델(자기회귀형 대규모 언어 모델)을 결합한 방법론을 제시합니다. 실험 결과, 인코더 전용 모델이 다양한 맥락에서 명시적 및 암시적 편향을 효과적으로 감지하며 기존 최첨단 방법보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
기존 이분법적 분류의 한계를 넘어서는, 보다 정교한 사회적 편향 감지 프레임워크(GUS) 제시.
인코더 전용 모델의 효과성을 실험적으로 입증, 다양한 활용 사례에 대한 모델 선택 가이드 제공.
명시적 및 암시적 편향 모두를 포착하는 효과적인 방법론 제시.
다양한 분야에서의 향후 연구 및 응용을 위한 새로운 방향 제시.
반자동화 데이터 생성 방식을 통해 윤리적 기준을 유지하는 데이터셋 구축.
한계점:
합성 데이터셋의 일반화 가능성에 대한 추가 검증 필요.
특정 언어 또는 문화적 맥락에 대한 편향성 존재 가능성.
실제 세계 데이터에 대한 성능 평가 필요.
모델의 해석 가능성에 대한 추가 연구 필요.
👍