본 논문은 대규모 언어 모델(LLM)을 압축하기 위해 널리 사용되는 지식 증류 기법에 대해 다룹니다. 기존의 지식 증류는 Transformer 기반의 teacher 모델과 student 모델을 사용하지만, self-attention의 이차 복잡도 문제를 해결하기 위해, 본 논문에서는 structured state-space models (SSMs), linear attention, recurrent architectures 와 같은 subquadratic 모델들을 student 모델로 사용하여 Transformer teacher 모델의 지식을 증류하는 연구를 진행합니다. 여러 NLP 벤치마크를 사용하여 9가지 subquadratic student 구조에 대한 지식 전달의 효율성과 성능 간의 절충점을 평가하고, matrix mixing 및 query-key-value (QKV) 복사와 같은 초기화 전략의 영향을 분석합니다.