본 논문은 딥러닝의 발전에 따라 대형 언어 모델이 수학 문제 해결과 같은 복잡한 추론 작업에서 강력한 성능을 보이지만, 높은 계산 및 저장 비용으로 인해 실제 배포에 어려움이 있다는 문제점을 해결하고자 한다. 이를 위해 동적 어텐션 헤드 가지치기와 지식 증류를 통합한 경량화 최적화 방법을 제안한다. 제안하는 방법은 가중치 정규화와 엔트로피를 결합하여 다중 헤드 어텐션 메커니즘에서 각 어텐션 헤드의 중요도를 동적으로 평가하고, 중복된 헤드를 실시간으로 가지치기하여 계산 오버헤드를 줄인다. 또한 성능 저하를 완화하기 위해 원본 모델에서 가지치기된 학생 모델로 정보를 전송하는 지식 증류를 활용한다. Math23k 및 ASDiv-A 데이터셋에 대한 실험 결과, 제안된 방법은 상당한 효율성 향상을 달성하면서 강력한 추론 성능을 유지함을 입증했다. 예를 들어, Math23k에서 30% 가지치기 비율로, 파라미터가 18.7% 감소하고, 추론 속도가 27.5% 향상되었으며, FLOPs가 19.3% 감소했고, 정확도는 0.7% (84.4%에서 83.7%로) 감소했다.