본 논문은 자원 집약적인 트랜스포머 모델을 에지 디바이스에 효율적으로 배포하기 위한 크로스-스택 최적화 연구를 제시합니다. 특히, 구조적 가지치기(structured pruning)와 시스토릭 가속(systolic acceleration) 간의 상호 관계를 분석하여, 가지치기된 블록의 크기를 시스토릭 어레이 차원에 맞춤으로써 연산량과 에너지 소비를 줄이는 방법을 연구합니다. 음성 인식과 기계 번역을 트랜스포머 모델을 활용한 사례 연구로 삼아, 알고리즘 최적화, 시스템 시뮬레이션, 하드웨어 설계를 통합한 새로운 공동 설계 프레임워크를 제시하고, 스택 전반의 구성 선택이 성능 지표에 미치는 영향을 분석합니다. 실험 결과, 시스토릭 어레이 가속을 갖춘 시스템에서 구조적 가지치기를 통해 성능을 효과적으로 향상시키면서 높은 QoS 수준을 유지할 수 있음을 보여줍니다. LibriSpeech 데이터셋을 사용한 실험에서 최대 44%의 시스템 전반적인 속도 향상을 달성했으며, 단어 오류율은 1.4%만 저하되었습니다.