본 논문은 대규모 언어 모델(LLM)의 계산 및 메모리 요구량을 줄이기 위한 효율적인 구조적 가지치기 프레임워크인 SPAP(Structured Pruning via Alternating Optimization and Penalty Methods)를 제안합니다. SPAP는 혼합 정수 최적화 모델을 통해 가지치기 문제를 공식화하고, 가지치기 오류를 최소화하는 페널티 메서드를 사용하며, 효율적인 가중치 업데이트와 성능 복구를 위한 교대 최소화 알고리즘을 도입합니다. OPT, LLaMA-3/3.1/3.2, Qwen2.5 모델에 대한 광범위한 실험을 통해 기존 최첨단 방법보다 우수한 성능을 보이며, 30%의 스파스성에서 1.29배의 선형 추론 속도 향상과 비례적인 메모리 감소를 달성합니다.