본 논문은 LLM 사전 훈련을 가속화하기 위한 두 번째 순서 구조를 활용하는 계산 효율적인 근사법에 대한 연구의 일환으로, 완전한 Gauss-Newton (GN) 전처리를 최대 1억 5천만 개의 매개변수를 가진 transformer 모델에 적용하여 반복 복잡성에 대한 실용적인 상한을 설정했습니다. 실험 결과, 완전 GN 업데이트는 SOAP 및 Muon과 같은 강력한 기준선에 비해 훈련 반복 횟수를 5.4배 줄이는 등 기존 최적화 도구보다 상당한 이점을 얻었습니다. 또한, 레이어 간 정보를 무시하는 정확한 레이어별 GN 전처리기가 전체 GN 방법의 성능에 거의 근접한다는 것을 발견했습니다.