본 논문은 대규모 언어 모델(LLM)의 사후 처리 편향 완화 방법으로 어텐션 헤드 가지치기를 탐구합니다. LLM과 같은 최신 AI 시스템은 공정성 문제가 특히 중요한 민감한 사회적 맥락으로 확장되고 있습니다. LLM은 인간이 생성한 방대한 데이터셋으로 훈련되어 의사 결정 패턴을 개발하므로 사회적 편향을 자연스럽게 인코딩하고 영속화합니다. 훈련 데이터셋과 알고리즘을 수정하는 것은 비용이 많이 들고 상당한 자원이 필요하지만, 사전 훈련된 LLM에서 뉴런과 어텐션 헤드를 선택적으로 비활성화하는 것과 같은 사후 처리 기법은 공정성을 개선하는 실행 가능하고 효과적인 방법을 제공할 수 있습니다. 그러나 LLM의 방대한 매개변수 공간 내에서 최적의 매개변수 하위 집합을 식별하는 것은 조합적 과제를 제시하며, 모델 공정성과 유용성의 경계를 넘어 경쟁적인 목표를 효율적으로 균형을 맞추는 솔루션이 필요합니다. 본 논문에서는 무작위 시뮬레이티드 어닐링을 통한 탐색 기반 프로그램 복구 접근 방식을 탐구하여 이러한 계산상의 과제를 해결합니다. 수십억 개의 매개변수를 가진 LLM에서 금지적인 평가 비용을 고려하여 어텐션 헤드 상태(활성/비활성)와 해당 공정성/유용성 측정값 간의 관계를 효율적으로 모델링하는 대리 심층 신경망을 개발합니다. 이를 통해 대리 모델에 대한 최적화를 수행하고 LLM 매개변수 공간을 직접 검색하는 대신 어텐션 헤드의 최적 하위 집합을 효율적으로 식별할 수 있습니다. 본 논문에서는 편향에 불균형적으로 기여하면서 전체 모델 유용성에는 최소한의 영향을 미치는 LLM의 어텐션 헤드를 가지치는 공정성 인식 대리 시뮬레이티드 어닐링 접근 방식인 어텐션 가지치기를 소개합니다. 실험 결과, 어텐션 가지치기는 성별 편향을 최대 40%까지 줄이고 최첨단 편향 완화 전략보다 우수한 성능을 보입니다.