Sign In

FedAdamW: A Communication-Efficient Optimizer with Convergence and Generalization Guarantees for Federated Large Models

Created by
  • Haebom
Category
Empty

저자

Junkang Liu, Fanhua Shang, Kewen Zhu, Hongying Liu, Yuanyuan Liu, Jin Liu

개요

본 논문은 대규모 모델 학습에 효과적인 옵티마이저인 AdamW를 연합 학습(Federated Learning, FL) 환경에 적용할 때 발생하는 문제점을 해결하기 위해 FedAdamW 알고리즘을 제안한다. FedAdamW는 데이터 이질성으로 인한 문제, 국소 과적합, 모멘트 추정치 재초기화 문제를 해결하기 위해 국소 보정 메커니즘과 분리된 가중치 감소를 활용한다. 또한, 두 번째 모멘트 추정치의 평균을 효율적으로 집계하여 분산을 줄이고 재초기화를 수행한다. 이론적으로, FedAdamW는 이질성 가정 없이 선형 속도 향상 수렴률을 달성함을 증명하며, PAC-Bayesian 일반화 분석을 통해 분리된 가중치 감소의 효과를 설명한다. 언어 및 비전 Transformer 모델에 대한 실험을 통해 FedAdamW의 효과를 검증하고, 기존 baseline 대비 통신 라운드를 줄이고 테스트 정확도를 향상시켰다.

시사점, 한계점

시사점:
연합 학습 환경에서 AdamW의 문제점을 해결하는 FedAdamW 알고리즘 제안
국소 보정 메커니즘 및 분리된 가중치 감소를 통한 국소 과적합 완화
두 번째 모멘트 추정치 평균 집계를 통한 분산 감소 및 재초기화 문제 해결
이질성 가정 없이 선형 속도 향상 수렴률 달성 증명
언어 및 비전 Transformer 모델에서 기존 baseline 대비 우수한 성능 입증
한계점:
구체적인 데이터셋, 모델 아키텍처, 하이퍼파라미터 설정에 대한 정보 부족
알고리즘의 복잡성 및 계산 비용에 대한 분석 부재
다른 연합 학습 알고리즘과의 비교 분석 부족
👍