Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks

Created by
  • Haebom

저자

Xiang Meng, Mehdi Makni, Rahul Mazumder

개요

본 논문은 대규모 신경망의 계산 요구량을 줄이는 네트워크 가지치기 기법 중 N:M 희소성(매 M개의 연속된 가중치 중 N개만 유지)에 초점을 맞추고 있습니다. N:M 희소성은 압축된 모델 품질과 하드웨어 가속 간의 균형을 잘 맞추지만, 전방 패스 계산만 가속화하고 역전파 계산은 가속화하지 못하는 한계가 있습니다. 본 논문에서는 이러한 한계를 극복하기 위해 전치 가능한 N:M 희소 마스크를 효율적으로 생성하는 알고리즘을 제시합니다. 최적 수송 문제로 공식화하여 엔트로피 정규화와 Dykstra 알고리즘을 통해 해결하고, GPU 병렬 처리를 활용한 텐서 기반 구현으로 기존 방법 대비 최대 100배의 속도 향상을 달성했습니다. LLaMA3.2-8B 모델에 적용한 실험 결과, 전치 가능한 16:32 희소성을 적용했을 때 성능 저하가 거의 없고, 기존의 2:4 희소 모델보다 성능이 우수함을 보였습니다.

시사점, 한계점

시사점:
기존 방법의 한계를 극복하는, 대규모 모델(billion-parameter)에 적용 가능한 전치 가능한 N:M 희소 마스크 생성 알고리즘을 제시.
GPU 병렬 처리를 활용하여 기존 방법보다 최대 100배 빠른 속도로 마스크 생성.
임의의 N:M 값에 대해 전치 가능한 N:M 희소 모델을 생성할 수 있음.
LLaMA3.2-8B 모델 실험을 통해 제안된 방법의 실용성을 검증.
한계점:
제안된 알고리즘의 성능은 엔트로피 정규화 및 Dykstra 알고리즘의 성능에 의존적일 수 있음.
기존 N:M 가지치기 프레임워크(Wanda, SparseGPT, ALPS)와의 통합은 추가적인 연구가 필요할 수 있음.
다양한 모델 아키텍처와 N:M 값에 대한 추가적인 실험이 필요.
👍