Sign In

Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

Created by
  • Haebom
Category
Empty

저자

Yongqiang Yao, Jingru Tan, Kaihuan Liang, Feizhao Zhang, Yazhe Niu, Jiahao Hu, Ruihao Gong, Dahua Lin, Ningyi Xu

개요

본 논문은 긴 문맥을 처리하는 대규모 언어 모델(LLM)의 훈련 과정에서 발생하는 워크로드 불균형 문제를 해결하기 위해 계층적 균형 패킹(HBP) 기법을 제안한다. 기존 연구들이 주로 데이터 패킹에 초점을 맞춘 반면, HBP는 불균형적인 어텐션 연산과 낭비되는 통신 오버헤드까지 고려하여 다중 레벨의 데이터 패킹 그룹을 구성하고, 각 그룹에 최적의 설정(순차적 병렬 처리 정도, 그래디언트 체크포인팅 등)을 적용한다. 또한, 다중 레벨 그룹의 데이터를 효과적으로 활용하기 위해 커리큘럼 학습, 적응형 순차적 병렬 처리, 안정적인 손실 함수를 포함하는 동적 훈련 파이프라인을 설계한다. 실험 결과, 다양한 데이터셋과 오픈소스 모델에서 훈련 시간을 상당히 단축하면서 성능을 유지하는 것을 보여주며, 특히 DeepSeek-V2(236B) MOE 모델의 경우 훈련 속도를 2.4배 향상시켰다.

시사점, 한계점

시사점:
긴 문맥 LLM 훈련의 워크로드 불균형 문제를 효과적으로 해결하는 새로운 방법 제시
다중 레벨 데이터 패킹과 동적 훈련 파이프라인을 통해 훈련 시간을 획기적으로 단축
대규모 모델(DeepSeek-V2)에서의 실질적인 성능 향상을 검증
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 모델 아키텍처와 데이터셋에 대한 광범위한 실험이 필요
HBP의 하이퍼파라미터 최적화에 대한 상세한 설명 부족
👍