Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

Created by
  • Haebom

저자

Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Yuan Xie, Hongxia Yang

개요

대규모 언어 모델(LLM) 훈련의 높은 계산 비용 문제를 해결하기 위해, FP8 훈련의 효율성을 극대화하는 개방형 훈련 레시피를 제시한다. 지속적인 사전 훈련과 지도 미세 조정을 통합하고, 세밀한 하이브리드 정밀도 양자화 전략을 사용하여 수치적 정확성을 유지하면서 계산 효율성을 극대화한다. 1600억 토큰 코퍼스에 대한 모델의 지속적인 사전 훈련을 포함한 광범위한 실험을 통해, 제안하는 레시피가 안정적이며 손실이 거의 없고, BF16 기반 모델과 동등한 성능을 달성함을 입증했다. 최대 22% 훈련 시간 감소, 14% 최대 메모리 사용량 감소, 19% 처리량 증가와 같은 상당한 효율성 향상을 보였다.

시사점, 한계점

시사점:
FP8 훈련을 통해 대규모 언어 모델 훈련의 효율성을 향상시키는 실질적인 방법을 제시함.
BF16 기반 모델과 동등한 성능을 유지하면서 훈련 시간, 메모리 사용량, 처리량 측면에서 상당한 개선을 이룸.
오픈 소스 코드를 공개하여 대규모 모델 훈련의 접근성을 높임.
한계점:
논문에서 구체적인 모델 아키텍처나 훈련 세부 사항에 대한 설명은 제한적일 수 있음.
FP8 훈련의 장점을 모든 모델이나 데이터셋에 일반화할 수 있는지 추가적인 연구가 필요함.
FP8 훈련을 위한 하드웨어 및 소프트웨어 지원에 대한 의존성이 존재할 수 있음.
👍