Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Created by
  • Haebom

저자

Natalie Abreu, Nikhil Vyas, Sham Kakade, Depen Morwani

개요

본 논문은 LLM 사전 훈련을 가속화하기 위한 두 번째 순서 구조를 활용하는 계산 효율적인 근사법에 대한 연구의 일환으로, 완전한 Gauss-Newton (GN) 전처리를 최대 1억 5천만 개의 매개변수를 가진 transformer 모델에 적용하여 반복 복잡성에 대한 실용적인 상한을 설정했습니다. 실험 결과, 완전 GN 업데이트는 SOAP 및 Muon과 같은 강력한 기준선에 비해 훈련 반복 횟수를 5.4배 줄이는 등 기존 최적화 도구보다 상당한 이점을 얻었습니다. 또한, 레이어 간 정보를 무시하는 정확한 레이어별 GN 전처리기가 전체 GN 방법의 성능에 거의 근접한다는 것을 발견했습니다.

시사점, 한계점

시사점:
GN 근사는 전처리에 매우 효과적이며, 이는 더 높은 차수의 손실 항이 수렴 속도에 중요하지 않을 수 있음을 시사합니다.
레이어별 헤시안 구조는 이러한 잠재적 이점의 대부분을 달성하기에 충분한 정보를 포함합니다.
현재의 근사 방법과 이상적인 레이어별 오라클 간에는 상당한 성능 격차가 존재합니다.
한계점:
논문에 명시된 한계점은 없음. (논문 요약에는 한계점에 대한 언급이 없음)
👍