Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training
Created by
Haebom
저자
Mingyu Liang, Hiwot Tadese Kassa, Wenyin Fu, Brian Coutinho, Louis Feng, Christina Delimitrou
개요
Lumos는 대규모 언어 모델(LLM) 훈련의 성능 모델링 및 추정을 위한 추적 기반 도구 키트입니다. 복잡한 모델 실행, 배포 시스템 및 다양한 구성 가능한 전략으로 인해 분산 환경에서 LLM을 훈련하는 것은 상당한 어려움을 제시합니다. Lumos는 최신 LLM의 실행 동작을 정확하게 포착하고 예측하도록 설계되었습니다. 최대 512개의 NVIDIA H100 GPU를 사용하는 프로덕션 ML 클러스터에서 다양한 GPT-3 변형을 사용하여 Lumos를 평가한 결과, 평균 오차 3.3%로 실행 시간을 재현하고 다른 실행 시간 세부 정보를 다양한 모델 및 구성에 걸쳐 제공할 수 있음을 보여줍니다. 또한 기존 추적에서 새로운 설정에 대한 성능을 추정하는 기능을 검증하여 모델 및 배포 구성의 효율적인 탐색을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
대규모 LLM 훈련의 성능을 정확하게 예측하는 Lumos 도구 키트를 제시.
◦
다양한 모델과 구성에 대한 실행 시간을 3.3%의 평균 오차로 재현 가능.
◦
기존 추적 데이터를 활용하여 새로운 설정에 대한 성능을 효율적으로 예측 가능.
◦
모델 및 배포 구성의 효율적인 탐색 가능.
•
한계점:
◦
현재 GPT-3 변형에 대한 평가 결과만 제시되어 다른 LLM 아키텍처에 대한 일반화 가능성은 추가 연구 필요.