haebom
Sign In
TrainMover: An Interruption-Resilient Runtime for ML Training
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
ChonLam Lao, Jiaqi Gao, Jiamin Cao, Zhipeng Zhang, Pengcheng Zhang, Jiangfei Duan, Zhilong Zheng, Yu Guan, Yichi Xu, Yong Li, Zhengping Qian, Aditya Akella, Minlan Yu, Ennan Zhai, Dennis Cai, Jingren Zhou
π‘ κ°μ
λκ·λͺ¨ λ¨Έμ λ¬λ νλ ¨ μμ μ νλμ¨μ΄ λ° μννΈμ¨μ΄ μ΄μ, μ₯μ , κ΄λ¦¬ μ΄λ²€νΈ λ±μΌλ‘ μΈν΄ μμ£Ό μ€λ¨λ©λλ€. κΈ°μ‘΄μ 체ν¬ν¬μΈνΈ-μ¬μμ λλ λ°νμ μ¬κ΅¬μ± λ°©μμ κΈ΄ λ€μ΄νμκ³Ό μ±λ₯ μ νλ₯Ό μΌκΈ°ν©λλ€. λ³Έ λ Όλ¬Έμ νλ ₯μ λ° λκΈ° λ¨Έμ μ νμ©νμ¬ μ€λ¨ μ λ€μ΄νμμ μ΅μννκ³ λ©λͺ¨λ¦¬ μ€λ²ν€λλ₯Ό μμ λ 볡μλ ₯ μλ LLM νλ ¨ λ°νμμΈ TrainMoverλ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
TrainMoverλ λ λ¨κ³, λΈν κΈ°λ° ν΅μ κ·Έλ£Ή μ€μ , ν΅μ μλ μλλ°μ€ μλ°μ , λͺ¨λ μν μμ μ€ν¨ λ³΅κ΅¬κ° κ°λ₯ν μΌλ°μ μΈ λκΈ° λ¨Έμ μ€κ³λ₯Ό ν΅ν΄ μ€λ¨μ λν 볡μλ ₯μ λμ λλ€.
β’
1024-GPU κ·λͺ¨μμ λ€μν μ€λ¨ μ μ½ 20μ΄μ λ€μ΄νμμ μΌκ΄λκ² λ¬μ±νλ©°, 64K-GPU κ·λͺ¨μμ μ£ΌλΉ 140λ§ GPU μκ°μ μ μ½ν κ²μΌλ‘ μμλ©λλ€.
β’
μ μλ λ°νμμ μΌλ°ν κ°λ₯μ± λ° λ€μν LLM μν€ν μ² λ° νλ ¨ μλ리μ€μ λν μ±λ₯ μν₯μ μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage