본 논문은 AI 시스템이 성별 편향을 포함한 사회적 편향을 자주 나타내고 증폭시켜 중요한 영역에서 해로운 결과를 초래한다는 문제를 다룹니다. 이 연구는 모델 기울기를 활용하여 성별 정보를 인코딩하는 단일 의미론적 특징 뉴런을 학습하는 새로운 인코더-디코더 접근 방식을 제시합니다. 본 논문에서는 제시된 방법이 다른 기능을 유지하면서 트랜스포머 기반 언어 모델의 편향을 제거하는 데 사용될 수 있음을 보여주고, 다양한 모델 아키텍처에서 접근 방식의 효과를 입증하며 더 넓은 응용 가능성을 강조합니다.