본 논문은 장문 맥락 지도 학습 미세 조정(Long-SFT)에서의 훈련 효율 향상을 위한 새로운 데이터 스케줄링 기법인 Skrull을 제안한다. 기존의 Long-SFT는 장문과 단문 데이터의 혼합으로 인해 훈련 효율이 저하되는 문제점을 가지는데, Skrull은 장문과 단문 시퀀스의 계산 요구량을 동적으로 조절하여 이 문제를 해결한다. 스케줄링 과정을 공동 최적화 문제로 공식화하고, 경량화된 알고리즘을 통해 거의 제로 비용의 온라인 스케줄링을 달성한다. DeepSpeed 기반으로 구현된 Skrull은 실제 Long-SFT 시나리오에서 DeepSpeed 대비 평균 3.76배(최대 7.54배)의 성능 향상을 보였다.
시사점, 한계점
•
시사점:
◦
장문 맥락 지도 학습 미세 조정(Long-SFT)의 훈련 효율을 획기적으로 개선하는 새로운 데이터 스케줄링 기법 Skrull 제시.
◦
장문과 단문 시퀀스의 계산 요구량 불균형 문제를 효과적으로 해결.
◦
경량화된 알고리즘을 통해 온라인 스케줄링의 오버헤드 최소화.
◦
실제 Long-SFT 시나리오에서 DeepSpeed 대비 상당한 성능 향상 확인.
•
한계점:
◦
Skrull의 성능 향상은 DeepSpeed와의 비교를 기반으로 하며, 다른 분산 훈련 시스템과의 비교 결과는 제시되지 않음.