Sign In

DiffHeads: Differential Analysis and Inference-Time Masking of Bias Heads in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tingxu Han, Wei Song, Ziqi Ding, Ziming Li, Chunrong Fang, Yuekang Li, Dongfang Liu, Zhenyu Chen, Zhenting Wang

개요

LLM이 다양한 분야에서 불공정한 결정을 내리는 문제가 증가함에 따라, 본 논문은 LLM 불공정성에 대한 체계적인 조사를 수행하고, 경량화된 디바이어싱 프레임워크인 DiffHeads를 제안한다. Direct-Answer(DA) 프롬프팅이 Chain-of-Thought(CoT) 프롬프팅에 비해 편향된 출력을 유발하며, 토큰-헤드 기여도 점수를 통해 편향된 어텐션 헤드를 식별한다. DiffHeads는 DA와 CoT 사이의 차등 활성화 분석을 통해 편향된 헤드를 식별하고 선택적으로 마스킹하여 불공정성을 감소시킨다.

시사점, 한계점

시사점:
DA 프롬프팅이 LLM의 편향성을 증폭시키는 원인임을 밝힘.
어텐션 헤드의 활성화를 통해 편향 발생 메커니즘을 밝혀냄.
DiffHeads를 통해 모델 유틸리티 손상 없이 불공정성을 효과적으로 감소시킴.
한계점:
특정 프롬프팅 방식(DA, CoT)에 대한 의존성.
DiffHeads의 일반화 가능성 및 다른 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
모델 편향성의 근본적인 원인에 대한 더 깊은 이해 부족.
👍