Sign In

Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods

Created by
  • Haebom
Category
Empty

저자

Jiali Cheng, Chirag Agarwal, Hadi Amiri

개요

지식 증류(KD)가 모델 압축 및 모델 간 지식 전송에 효과적임에도 불구하고, 분포 외부 데이터에 대한 성능을 저하시키는 가짜 상관 관계에 대한 모델의 견고성에 미치는 영향은 충분히 연구되지 않았다. 본 연구는 자연어 추론(NLI) 및 이미지 분류 작업에서 교사 모델에서 학생 모델로 "디바이어싱" 기능의 이전성에 대한 지식 증류의 영향을 조사한다.

시사점, 한계점

전반적으로 모델의 디바이어싱 능력은 KD 후 약화된다.
디바이어스된 모델을 훈련하는 것은 교사 지식을 주입하는 것으로부터 이점을 얻지 못한다.
모델의 전반적인 견고성은 증류 후 안정적으로 유지될 수 있지만, 서로 다른 유형의 바이어스에 걸쳐 상당한 변동이 발생할 수 있다.
KD 후의 뚜렷한 동작을 유발하는 내부 어텐션 패턴 및 회로를 찾아낸다.
디바이어싱 방법의 증류 가능성을 향상시키기 위한 세 가지 효과적인 솔루션 제안: 고품질 데이터 개발, 반복적인 지식 증류 구현, 교사 모델에서 얻은 가중치로 학생 모델 초기화.
KD가 디바이어싱에 미치는 영향과 내부 메커니즘을 대규모로 연구한 최초의 연구이다.
👍