본 논문은 대규모 기초 모델(LFMs) 학습을 위한 산업 수준의 분산 데이터 로딩 아키텍처인 Omniload를 제시합니다. 기존의 데이터 병렬 방식 데이터 로더는 여러 데이터 소스를 처리할 때 작업 불균형과 중복된 메모리 사용이라는 문제점을 가지는데, Omniload는 역할 기반의 분산 전처리, 중앙 집중식 데이터 플레인, 다단계 자동 분할 및 확장 메커니즘, 그리고 차등 체크포인팅을 활용한 섀도우 로더를 통해 이러한 문제를 해결합니다. 결과적으로, 수천 개의 GPU를 사용하는 프로덕션 클러스터에서 최대 4.5배의 학습 처리량 향상과 13.5배의 CPU 메모리 사용량 감소를 달성했습니다.
시사점, 한계점
•
시사점:
◦
대규모 기초 모델 학습의 효율성을 크게 향상시킬 수 있는 새로운 분산 데이터 로딩 아키텍처를 제시합니다.