본 논문은 대규모 기초 모델(LFMs) 학습을 위한 산업 수준의 분산 데이터 로딩 아키텍처인 OVERLORD를 제안합니다. 기존의 데이터 병렬 방식은 어텐션 연산의 이차적 계산 복잡도로 인한 작업 부하 불균형과 다양한 데이터 소스 통합의 어려움이라는 두 가지 주요 문제점을 가지고 있습니다. OVERLORD는 중앙 집중식 데이터 플레인, 역할 기반의 분산 전처리, 그리고 차등 체크포인팅을 활용한 섀도우 로더를 통해 이러한 문제를 해결합니다. 중앙 집중식 데이터 플레인은 긴/짧은 컨텍스트, 다중 모달, 커리큘럼 학습과 같은 유연한 데이터 조정 전략을 가능하게 하고, 역할 기반의 분산 전처리는 이기종적이고 변화하는 소스 전처리 비용에 대해 자동 확장 기능을 제공합니다. 섀도우 로더는 중단 없는 장애 복구를 지원합니다.
시사점, 한계점
•
시사점:
◦
대규모 기초 모델 학습의 효율성을 크게 향상시킬 수 있음 (4.5배의 end-to-end 학습 처리량 향상).
◦
CPU 메모리 사용량을 최소 3.6배 감소시킴.
◦
다양한 데이터 소스와 학습 전략(예: 커리큘럼 학습)을 효율적으로 통합할 수 있음.
◦
장애 복구 기능을 통해 학습 중단을 방지함.
•
한계점:
◦
후속 실험에서 추가적인 메모리 사용량 감소 결과가 제시될 예정이나, 현재는 부분적인 결과만 제시됨.
◦
OVERLORD 아키텍처의 구현 복잡도에 대한 논의가 부족함.
◦
다양한 데이터 소스의 특성과 OVERLORD의 성능 간의 상관관계에 대한 자세한 분석이 필요함.