Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Don't be lazy: CompleteP enables compute-efficient deep transformers

Created by
  • Haebom

저자

Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Li, Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness

개요

본 논문은 다양한 매개변수화(모델 및 최적화기 하이퍼파라미터 조정 규칙)를 사용할 때 LLM 훈련의 계산 효율성을 연구합니다. 일부 매개변수화는 모델 크기 변화에 따라 최적의 기본 하이퍼파라미터(예: 학습률)를 전달하지 못하여, 실무자는 모델을 확장할 때 이러한 하이퍼파라미터를 다시 조정하거나(비용이 많이 듬) 재조정이 불가능할 때 최적이 아닌 훈련을 수용해야 합니다. 하이퍼파라미터 전달을 달성하더라도, 계층이 선형화에 가까운 특징만 학습하는 지연 학습 체제에서 매개변수화가 여전히 존재할 수 있음을 보여주는 이론을 개발하여 깊이와 비선형성을 효과적으로 사용하지 못하게 합니다. 마지막으로, 모든 계층에서 깊이별 하이퍼파라미터 전달과 비지연 학습을 모두 달성하는 CompleteP라는 매개변수화를 식별하고 채택합니다. CompleteP는 더 넓은 범위의 모델 너비/깊이 비율이 계산 효율적이 되도록 하여 다양한 하드웨어 설정 및 운영 컨텍스트에 더 적합한 형태를 해제합니다. 또한 CompleteP는 이전 최첨단 기술보다 12-34%의 계산 효율성 향상을 가능하게 합니다.

시사점, 한계점

시사점:
LLM 훈련의 계산 효율성을 향상시키는 새로운 매개변수화 기법인 CompleteP 제시
CompleteP는 다양한 모델 크기와 하드웨어 설정에서 최적의 성능을 달성
기존 최첨단 기술 대비 12-34%의 계산 효율성 향상
모델 크기 변화에 따른 하이퍼파라미터 재조정 비용 절감
한계점:
CompleteP의 일반성 및 다른 LLM 아키텍처에 대한 적용성에 대한 추가 연구 필요
지연 학습 체제의 이론적 분석에 대한 추가 연구 필요
실제 대규모 LLM 훈련 환경에서의 성능 평가 필요
👍