TrainVerify：基于等效性的分布式 LLM 训练验证

作者

Haebom

类别

Empty

저자

Yunchi Lu, Youshan Miao, Cheng Tan, Peng Huang, Yi Zhu, Xian Zhang, Fan Yang

개요

본 논문은 대규모 언어 모델(LLM)의 분산 학습 과정에서 발생할 수 있는 막대한 비용과 잠재적인 오류를 해결하기 위해 TrainVerify 시스템을 제안합니다. TrainVerify는 모델의 논리적 사양을 기준으로 분산 병렬 실행 계획의 수학적 동등성을 공식적으로 검증합니다. LLM의 규모가 매우 크고 복잡하기 때문에 직접적인 검증이 어렵다는 점을 고려하여, TrainVerify는 형태 축소 기법과 단계별 병렬 검증 알고리즘을 도입하여 복잡성을 크게 줄이면서 공식적인 정확성을 유지합니다. Llama3 (405B)와 DeepSeek-V3 (671B)의 학습 계획 검증에 성공적으로 적용된 사례를 제시합니다.