본 논문은 변압기 기반 언어 모델을 최적화하기 위해 모델 압축 기술과 새로운 대안적 어텐션 메커니즘인 억제기 어텐션(inhibitor attention)을 통합하는 방법을 탐구한다. 억제기 어텐션은 기존의 스케일드 점곱 어텐션의 행렬 곱셈과 소프트맥스 활성화 대신 맨하탄 거리와 ReLU 활성화를 사용하여 계산 및 에너지 절약 가능성을 제공한다. 논문에서는 억제기 메커니즘의 훈련 효율을 개선하기 위한 추가 조정을 제안하고 DistilBERT 아키텍처에서 성능을 평가한다. 지식 증류 실험 결과, 수정된 억제기 변압기 모델은 GLUE 및 감정 분석 작업을 포함한 표준 NLP 벤치마크에서 경쟁력 있는 성능을 달성할 수 있음을 보여준다.