Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing

Created by
  • Haebom
Category
Empty

저자

Vishnu Asutosh Dasu, Md Rafi ur Rashid, Vipul Gupta, Saeid Tizpaz-Niari, Gang Tan

개요

본 논문은 대규모 언어 모델(LLM)의 사후 처리 편향 완화 방법으로 어텐션 헤드 가지치기를 탐구합니다. LLM과 같은 최신 AI 시스템은 공정성 문제가 특히 중요한 민감한 사회적 맥락으로 확장되고 있습니다. LLM은 인간이 생성한 방대한 데이터셋으로 훈련되어 의사 결정 패턴을 개발하므로 사회적 편향을 자연스럽게 인코딩하고 영속화합니다. 훈련 데이터셋과 알고리즘을 수정하는 것은 비용이 많이 들고 상당한 자원이 필요하지만, 사전 훈련된 LLM에서 뉴런과 어텐션 헤드를 선택적으로 비활성화하는 것과 같은 사후 처리 기법은 공정성을 개선하는 실행 가능하고 효과적인 방법을 제공할 수 있습니다. 그러나 LLM의 방대한 매개변수 공간 내에서 최적의 매개변수 하위 집합을 식별하는 것은 조합적 과제를 제시하며, 모델 공정성과 유용성의 경계를 넘어 경쟁적인 목표를 효율적으로 균형을 맞추는 솔루션이 필요합니다. 본 논문에서는 무작위 시뮬레이티드 어닐링을 통한 탐색 기반 프로그램 복구 접근 방식을 탐구하여 이러한 계산상의 과제를 해결합니다. 수십억 개의 매개변수를 가진 LLM에서 금지적인 평가 비용을 고려하여 어텐션 헤드 상태(활성/비활성)와 해당 공정성/유용성 측정값 간의 관계를 효율적으로 모델링하는 대리 심층 신경망을 개발합니다. 이를 통해 대리 모델에 대한 최적화를 수행하고 LLM 매개변수 공간을 직접 검색하는 대신 어텐션 헤드의 최적 하위 집합을 효율적으로 식별할 수 있습니다. 본 논문에서는 편향에 불균형적으로 기여하면서 전체 모델 유용성에는 최소한의 영향을 미치는 LLM의 어텐션 헤드를 가지치는 공정성 인식 대리 시뮬레이티드 어닐링 접근 방식인 어텐션 가지치기를 소개합니다. 실험 결과, 어텐션 가지치기는 성별 편향을 최대 40%까지 줄이고 최첨단 편향 완화 전략보다 우수한 성능을 보입니다.

시사점, 한계점

시사점:
대규모 언어 모델의 편향 완화를 위한 효율적인 사후 처리 방법 제시
어텐션 헤드 가지치기를 통해 성별 편향을 최대 40% 감소시키는 성과 달성
최첨단 편향 완화 전략 대비 우수한 성능 확인
대리 모델 활용을 통한 계산 비용 절감 및 효율적인 최적화 가능성 제시
한계점:
대리 모델의 정확도에 따라 성능이 영향을 받을 수 있음
다른 유형의 편향에 대한 일반화 성능 검증 필요
실제 LLM 적용 시 발생할 수 있는 추가적인 계산 비용 및 기술적 어려움에 대한 추가 연구 필요
가지치기된 어텐션 헤드의 선택 기준 및 과정에 대한 투명성 확보 필요
👍