Sign In

Implicit Bias in LLMs: A Survey

Created by
  • Haebom
Category
Empty

저자

Xinru Lin, Luyang Li

개요

본 논문은 대규모 언어 모델(LLMs)의 암묵적 편향에 대한 기존 연구를 종합적으로 검토한다. 개발자들이 설정한 안전장치에도 불구하고, LLMs는 암묵적 편향을 가질 수 있으며, 이는 인간의 암묵적 편향과 유사하다. 본 논문은 심리학적 개념, 이론 및 방법론을 LLMs에 적용하여 암묵적 편향 탐지 방법을 단어 연상, 과제 지향적 텍스트 생성, 의사결정 등 세 가지 주요 접근 방식으로 분류한다. 평가 지표는 단일 값 기반 및 비교 값 기반 지표로 나누고, 데이터셋은 마스크 토큰이 있는 문장과 완전한 문장으로 분류한다. LLMs의 암묵적 편향 완화 연구는 아직 제한적이지만, 기존 노력을 요약하고 미래 과제에 대한 통찰력을 제공한다. 연구자들을 위한 명확한 가이드 역할을 하고 이 분야의 탐구를 발전시키는 데 기여하고자 한다.

시사점, 한계점

시사점: LLMs의 암묵적 편향에 대한 체계적인 검토를 통해 연구 현황을 정리하고, 향후 연구 방향을 제시한다. 암묵적 편향 탐지 및 평가를 위한 다양한 방법론과 지표를 제시한다.
한계점: LLMs의 암묵적 편향 완화에 대한 연구가 아직 초기 단계이며, 제한적인 연구 결과만 제시한다. 암묵적 편향의 정의 및 측정에 대한 심리학적 접근 방식의 한계가 LLMs에 적용될 때 고려되어야 한다. 다양한 도메인과 응용 분야를 포괄하는 광범위한 데이터셋이 필요하다.
👍