본 논문은 대규모 언어 모델의 계산 및 저장 용량 문제를 해결하기 위해 Transformer 기반 모델 내의 중복성을 조사하고, 성능을 유지하면서 효율성을 높이는 엔트로피 기반 가지치기 전략을 제안합니다. 숨겨진 표현의 엔트로피가 초기 블록에서는 감소하지만 대부분의 후속 블록에서는 점진적으로 증가하는 경향을 실험적으로 분석하여, 엔트로피가 계산 블록 내 정보 풍부함을 측정하는 보다 효과적인 지표임을 보여줍니다. 코사인 유사도와 달리 엔트로피는 불확실성과 정보 내용을 직접 정량화하여 가지치기를 위한 더 신뢰할 수 있는 기준을 제공합니다. 광범위한 실험을 통해 엔트로피 기반 가지치기 접근 방식이 코사인 유사도 기반 방법보다 모델 크기 감소에 있어 정확도를 유지하면서 우수함을 보여주어 효율적인 모델 배포를 위한 유망한 방향을 제시합니다.
시사점, 한계점
•
시사점:
◦
엔트로피 기반 가지치기 전략이 Transformer 기반 모델의 효율성을 향상시키는 효과적인 방법임을 제시합니다.
◦
코사인 유사도 기반 방법보다 우수한 성능을 보이며 모델 크기 감소와 정확도 유지를 동시에 달성할 수 있음을 보여줍니다.
◦
대규모 언어 모델의 실제 배포에 대한 중요한 시사점을 제공합니다.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가 연구가 필요합니다. 특정 모델 구조나 데이터셋에 과도하게 최적화되었을 가능성이 있습니다.
◦
엔트로피 기반 가지치기의 계산 비용에 대한 분석이 부족합니다. 가지치기 과정 자체가 상당한 계산 자원을 필요로 할 수 있습니다.