Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pay Attention to Small Weights

Created by
  • Haebom

저자

Chao Zhou, Tom Jacobs, Advait Gadhikar, Rebekka Burkholz

개요

대규모 사전 훈련된 신경망의 파인튜닝은 메모리 및 계산 비용 측면에서 자원 집약적입니다. 이를 완화하기 위해 모델 매개변수의 하위 집합에 대한 훈련을 제한하는 일반적인 접근 방식이 사용됩니다. 파인튜닝 과정에서 기울기와 가중치 간의 관계를 분석한 결과, 큰 기울기는 작은 크기의 가중치와 연관되어 있다는 것을 발견했습니다. 이러한 상관관계는 처음부터 훈련하는 경우보다 파인튜닝 설정에서 더 두드러집니다. 이러한 관찰에 동기를 부여받아, 파인튜닝 중에 작은 크기의 가중치만 동적으로 업데이트하는 NANOADAM을 제안합니다. NANOADAM은 기울기 계산 없이 매개변수 하위 집합을 결정할 수 있으며, 사전 훈련 중에 학습된 중요한 특징을 인코딩할 가능성이 높은 큰 크기의 가중치를 보존하여 치명적인 망각의 위험을 줄이고, 더 큰 학습률을 사용할 수 있게 하며, 실험에서 일관되게 더 나은 일반화 성능을 보입니다. NLP 및 비전 작업에 대해 이를 입증합니다.

시사점, 한계점

시사점:
NANOADAM은 기울기 계산 없이 매개변수 하위 집합을 결정합니다.
사전 훈련된 중요한 특징을 보존하여 치명적인 망각의 위험을 줄입니다.
더 큰 학습률 사용을 허용합니다.
NLP 및 비전 작업에서 더 나은 일반화 성능을 보입니다.
한계점:
해당 논문의 한계점에 대한 직접적인 언급은 없음.
👍