Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

Created by
  • Haebom

저자

Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Hongxia Yang

FP8 훈련 레시피 소개

개요

대규모 언어 모델(LLM) 훈련의 막대한 계산 비용은 혁신에 큰 장벽이 된다. FP8 훈련은 상당한 이론적 효율성 향상을 제공하는 유망한 솔루션이지만, 포괄적인 오픈 소스 훈련 레시피의 부재로 인해 광범위한 채택이 저해되었다. 본 논문은 지속적인 사전 훈련과 지도 미세 조정을 원활하게 통합하는 종단 간 FP8 훈련 레시피를 소개한다. 미세 입자, 하이브리드 세분성 양자화 전략을 사용하여 수치적 충실도를 유지하면서 계산 효율성을 극대화한다. 1600억 토큰 코퍼스에서 모델의 지속적인 사전 훈련을 포함한 광범위한 실험을 통해, 본 레시피는 매우 안정적일 뿐만 아니라 본질적으로 손실이 없음을 입증했다. 다양한 추론 벤치마크에서 BF16 기반선과 동등한 성능을 달성했다. 최대 22%의 훈련 시간 단축, 14%의 최대 메모리 사용량 감소, 19%의 처리량 증가를 포함하여 상당한 효율성 향상을 통해 이를 달성했다.

시사점, 한계점

FP8을 BF16의 실용적이고 강력한 대안으로 제시
훈련 시간 최대 22% 감소, 메모리 사용량 14% 감소, 처리량 19% 증가
오픈 소스 코드 공개 예정
논문에서 구체적인 한계점은 언급되지 않음
👍