Sign In

Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing

Created by
  • Haebom
Category
Empty

저자

Vishnu Asutosh Dasu, Md Rafi ur Rashid, Vipul Gupta, Saeid Tizpaz-Niari, Gang Tan

개요

본 논문은 대규모 언어 모델(LLM)의 사후 처리 편향 완화 방법으로 어텐션 헤드 가지치기를 탐구합니다. LLM은 방대한 인간 생성 콘텐츠 데이터셋을 통해 학습하여 사회적 편향을 내재화하므로, 훈련 데이터셋과 알고리즘을 수정하는 대신, 사전 훈련된 LLM에서 뉴런과 어텐션 헤드를 선택적으로 비활성화하는 사후 처리 기술을 통해 공정성을 개선하는 실행 가능한 접근 방식을 제시합니다. 계산 문제를 해결하기 위해, 랜덤화된 시뮬레이션된 어닐링을 통한 검색 기반 프로그램 복구 접근 방식을 탐구합니다. 어텐션 헤드 상태와 공정성/유틸리티 지표 간의 관계를 효율적으로 모델링하는 대리 딥 신경망을 개발하여, LLM 파라미터 공간을 직접 검색하는 대신 대리 모델을 통해 최적화하여 선택적 가지치기를 위한 최적의 어텐션 헤드 하위 집합을 효율적으로 식별합니다. Attention Pruning이라고 불리는 이 방법은 편향에 과도하게 기여하면서 전반적인 모델 유틸리티에 미치는 영향은 최소화하는 LLM 내 어텐션 헤드를 가지치기하는 공정성 인식 대리 시뮬레이션 어닐링 접근 방식입니다. 실험 결과, Attention Pruning은 성별 편향을 최대 40%까지 줄이며, 최첨단 편향 완화 전략보다 뛰어난 성능을 보입니다.

시사점, 한계점

시사점:
LLM의 편향 완화를 위한 효과적인 사후 처리 기법 제시
계산 효율성을 높이기 위해 대리 모델을 활용한 최적화 전략 제안
실험을 통해 기존 방법 대비 성능 향상 입증
한계점:
어텐션 헤드 가지치기가 모든 유형의 편향을 완화하는 데 효과적인지 추가 연구 필요
대리 모델의 정확도와 일반화 성능에 대한 의존성
다른 모델 구조 또는 데이터셋에 대한 일반화 가능성 추가 검증 필요
모델 유틸리티를 유지하면서 편향을 완화하는 최적의 균형점 탐색에 대한 추가 연구 필요
👍