본 논문은 자원 제약 환경에서의 효율적인 추론을 위해 대규모 언어 모델(LLM)을 압축하는 기법들을 종합적으로 검토하는 설문 조사 논문입니다. 주요 세 가지 접근 방식인 지식 증류, 모델 양자화, 모델 가지치기를 자세히 살펴보고 각 기법의 기본 원리, 다양한 변형, 성공적인 응용 사례를 제시합니다. 전문가 혼합 및 조기 종료 전략과 같은 보완적인 기법들도 간략하게 논의하며, 마지막으로 에지 배포를 위해 LLM을 최적화하려는 연구자와 실무자 모두에게 귀중한 자료를 제공하고자 미래의 유망한 방향을 강조합니다.