본 논문은 대규모 언어 모델(LLM)의 사후 처리 편향 완화 방법으로 어텐션 헤드 가지치기를 탐구합니다. LLM은 방대한 인간 생성 콘텐츠 데이터셋을 통해 학습하여 사회적 편향을 내재화하므로, 훈련 데이터셋과 알고리즘을 수정하는 대신, 사전 훈련된 LLM에서 뉴런과 어텐션 헤드를 선택적으로 비활성화하는 사후 처리 기술을 통해 공정성을 개선하는 실행 가능한 접근 방식을 제시합니다. 계산 문제를 해결하기 위해, 랜덤화된 시뮬레이션된 어닐링을 통한 검색 기반 프로그램 복구 접근 방식을 탐구합니다. 어텐션 헤드 상태와 공정성/유틸리티 지표 간의 관계를 효율적으로 모델링하는 대리 딥 신경망을 개발하여, LLM 파라미터 공간을 직접 검색하는 대신 대리 모델을 통해 최적화하여 선택적 가지치기를 위한 최적의 어텐션 헤드 하위 집합을 효율적으로 식별합니다. Attention Pruning이라고 불리는 이 방법은 편향에 과도하게 기여하면서 전반적인 모델 유틸리티에 미치는 영향은 최소화하는 LLM 내 어텐션 헤드를 가지치기하는 공정성 인식 대리 시뮬레이션 어닐링 접근 방식입니다. 실험 결과, Attention Pruning은 성별 편향을 최대 40%까지 줄이며, 최첨단 편향 완화 전략보다 뛰어난 성능을 보입니다.