InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models
Created by
Haebom
저자
Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Hongxia Yang
FP8 훈련 레시피 소개
개요
대규모 언어 모델(LLM) 훈련의 막대한 계산 비용은 혁신에 큰 장벽이 된다. FP8 훈련은 상당한 이론적 효율성 향상을 제공하는 유망한 솔루션이지만, 포괄적인 오픈 소스 훈련 레시피의 부재로 인해 광범위한 채택이 저해되었다. 본 논문은 지속적인 사전 훈련과 지도 미세 조정을 원활하게 통합하는 종단 간 FP8 훈련 레시피를 소개한다. 미세 입자, 하이브리드 세분성 양자화 전략을 사용하여 수치적 충실도를 유지하면서 계산 효율성을 극대화한다. 1600억 토큰 코퍼스에서 모델의 지속적인 사전 훈련을 포함한 광범위한 실험을 통해, 본 레시피는 매우 안정적일 뿐만 아니라 본질적으로 손실이 없음을 입증했다. 다양한 추론 벤치마크에서 BF16 기반선과 동등한 성능을 달성했다. 최대 22%의 훈련 시간 단축, 14%의 최대 메모리 사용량 감소, 19%의 처리량 증가를 포함하여 상당한 효율성 향상을 통해 이를 달성했다.