On the Limits of Layer Pruning for Generative Reasoning in Large Language Models

Created by

Haebom

저자

Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross

💡 개요

본 논문은 대규모 언어 모델(LLM)에서 레이어 가지치기(layer pruning)를 통한 압축이 분류 작업에서는 효과적이지만, 산술 계산이나 괄호 생성과 같은 생성적 추론 작업에서는 성능 회복이 크게 제한됨을 보여줍니다. 제한된 자원 하에서 자체 생성 응답을 이용한 미니멀한 복구 전략을 시도했으나, 특히 추론 능력은 복구가 어렵다는 점을 입증했습니다.

🔑 시사점 및 한계

•

레이어 가지치기는 LLM 압축에 유용하나, 생성적 추론 능력 보존에는 한계가 명확합니다.

•

사전 학습 규모의 데이터나 컴퓨팅 자원 없이 후속 학습으로 추론 능력을 완전히 복구하는 것은 매우 어렵습니다.

•

단순히 깊이를 줄이는 것은 산술과 같은 단순한 추론 작업에서도 성능 저하를 야기하며, 이를 복구하는 데에도 한계가 있습니다.

•

후속 학습 제약 하에서 레이어 가지치기의 효과적인 적용 범위를 이해하고, 깊이 감소가 언제 효과적인지에 대한 실질적인 지침을 제공합니다.

PDF 보기

Made with Slashpage