Prompting Fairness: Integrating Causality to Debias Large Language Models
Created by
Haebom
Category
Empty
저자
Jingling Li, Zeyu Tang, Xiaoyu Liu, Peter Spirtes, Kun Zhang, Liu Leqi, Yang Liu
개요
본 논문은 대규모 언어 모델(LLM)이 생성하는 편향되고 차별적인 응답을 완화하기 위한 인과 관계 기반의 새로운 디바이싱 프레임워크를 제시합니다. 이 프레임워크는 사회적 정보가 LLM의 의사결정에 미치는 영향을 다양한 인과 경로를 통해 식별하는 새로운 관점을 제시하며, 이러한 인과적 통찰력을 활용하여 선택 메커니즘을 통한 원칙적인 프롬프트 전략을 제시합니다. 기존의 프롬프트 기반 디바이싱 기법들을 통합할 뿐만 아니라, 모델이 편향된 사회적 단서에 의존하는 대신 사실 기반 추론을 우선하도록 유도함으로써 편향을 줄이는 새로운 방향을 제시합니다. 다양한 도메인의 실제 데이터셋에 대한 광범위한 실험을 통해, 모델에 대한 블랙박스 접근만으로도 LLM 의사결정의 디바이싱에 효과적임을 입증합니다.