Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NdLinear: Preserving Multi-Dimensional Structure for Parameter-Efficient Neural Networks

Created by
  • Haebom

저자

Alex Reneau, Jerry Yao-Chieh Hu, Zhongfang Zhuang, Ting-Chun Liu, Xiang He, Judah Goldfeder, Nadav Timor, Allen G Roush, Ravid Shwartz-Ziv

NdLinear: 차원 축소 없는 딥러닝 레이어

개요

$\mathit{NdLinear}$는 다차원 입력을 직접 처리하는 선형 레이어의 드롭인 대체재로, 입력 평탄화가 필요하지 않습니다. 각 차원을 따라 개별적으로 변환을 적용하여 네이티브 데이터 구조를 유지하면서 최소한의 메모리 오버헤드로 파라미터 수를 획기적으로 줄입니다. 구조화된 Tucker 분해를 통해 표현력을 유지하고 VC-dimension 스케일링을 보존함을 증명했습니다. 광범위한 실험을 통해 $\mathit{NdLinear}$이 상당한 파라미터 감소, 상당한 실행 시간 효율성 향상 및 최소한의 메모리 오버헤드를 달성할 수 있음을 입증했습니다. 예를 들어, $\mathit{NdLinear-LoRA}$는 언어 추론 작업에서 최대 9배 적은 파라미터를 사용하여 표준 LoRA와 일치하거나 능가합니다. CNN, RNN, Transformer, MLP에서 비전, 언어, 시계열 및 테이블 작업에 대한 실험을 통해 $\mathit{NdLinear}$의 효율성 향상을 지속적으로 보여주었습니다.

시사점, 한계점

시사점:
다차원 입력 데이터를 위한 효율적인 선형 레이어 구현
파라미터 수 감소 및 실행 시간 효율성 향상
다양한 신경망 아키텍처(CNN, RNN, Transformer, MLP)에서 적용 가능
$\mathit{NdLinear-LoRA}$를 통한 LoRA와 유사한 성능 달성
한계점:
얽힌 공간 상호 작용이 있는 작업에서는 제한적일 수 있음
👍