Don't be lazy: CompleteP enables compute-efficient deep transformers
Created by
Haebom
저자
Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness
개요
본 논문은 다양한 매개변수화(모델 및 최적화기 하이퍼파라미터 조정 규칙)를 사용할 때 LLM 훈련의 계산 효율성을 연구합니다. 일부 매개변수화는 모델 크기 변화에 따라 최적의 기본 하이퍼파라미터(예: 학습률)를 전달하지 못하여, 실무자는 모델을 확장할 때 이러한 하이퍼파라미터를 다시 조정하거나(비용이 많이 듬) 재조정이 불가능할 때 최적이 아닌 훈련을 수용해야 합니다. 하이퍼파라미터 전달을 달성하더라도, 계층이 선형화에 가까운 특징만 학습하는 지연 학습 체제에서 매개변수화가 여전히 존재할 수 있음을 보여주는 이론을 개발하여 깊이와 비선형성을 효과적으로 사용하지 못하게 합니다. 마지막으로, 모든 계층에서 깊이별 하이퍼파라미터 전달과 비지연 학습을 모두 달성하는 CompleteP라는 매개변수화를 식별하고 채택합니다. CompleteP는 더 넓은 범위의 모델 너비/깊이 비율이 계산 효율적이 되도록 하여 다양한 하드웨어 설정 및 운영 컨텍스트에 더 적합한 형태를 해제합니다. 또한 CompleteP는 이전 최첨단 기술보다 12-34%의 계산 효율성 향상을 가능하게 합니다.