# Junk DNA Hypothesis: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult" Downstream Tasks in LLMs

### 저자

Lu Yin, Ajay Jaiswal, Shiwei Liu, Souvik Kundu, Zhangyang Wang

### 💡 개요

본 연구는 거대 언어 모델(LLM)의 사전 학습된 가중치에 숨겨진 "정크 DNA" 가설을 제안합니다. 기존에는 사전 학습된 가중치에 상당한 중복성이 있어 성능 저하 없이 상당 부분을 제거할 수 있다고 믿어졌으나, 본 논문은 반대로 작은 크기의 가중치가 어려운 다운스트림 태스크 수행에 필수적인 지식을 인코딩하고 있음을 주장합니다. 이러한 작은 가중치를 제거할수록 태스크 난이도 스펙트럼에 걸쳐 성능 저하가 단조적으로 나타나며, 심지어 후속 학습에도 복구되지 않는 지식 손실을 초래함을 실험으로 입증합니다.

### 🔑 시사점 및 한계

- 사전 학습된 LLM에서 작은 크기의 가중치 역시 어려운 다운스트림 태스크 수행에 중요한 역할을 하므로, 단순히 크기가 작다는 이유로 무작정 제거하는 것은 성능 저하를 야기할 수 있습니다.

- 제안된 "정크 DNA" 가설은 태스크 난이도와 가중치 제거 간의 단조로운 관계를 통해 LLM의 지식 구조를 이해하는 새로운 관점을 제공합니다.

- 기존의 양자화와 같은 압축 기법과 달리, 가중치 크기 기반의 점진적인 제거는 태스크 난이도 정보를 더 명확하게 분리해내는 효과를 보입니다.

- 본 연구에서 제시된 가중치 제거 방식이 어려운 다운스트림 태스크에 미치는 복구 불가능한 손실에 대한 심층적인 분석 및 근본적인 원인 규명이 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2310.02277)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
