Transformer 기반 대규모 언어 모델(LLM) 훈련에 사용되는 가변 길이 동적 시퀀스에 대한 기존의 정적 병렬 전략은 짧은 시퀀스에서는 통신 병렬화가 취소되고 긴 시퀀스에서는 메모리 부족 문제가 발생합니다. 이를 해결하기 위해, ParaDySe라는 동적 시퀀스에 대한 새로운 적응형 병렬 전략 전환 프레임워크를 제안합니다. ParaDySe는 즉각적인 입력 시퀀스에 따라 최적의 전략을 실시간으로 채택할 수 있습니다. 병렬 전략을 위한 모듈식 함수 라이브러리를 통합된 텐서 레이아웃 사양으로 구현하고, 하이브리드 방식으로 시퀀스 인식 메모리 및 시간 비용 모델을 구축합니다. 비용 모델을 기반으로, ParaDySe는 효율적인 휴리스틱 알고리즘을 통해 동적 시퀀스에 대한 최적의 레이어별 전략을 선택합니다. 이러한 기술을 통합하여 ParaDySe는 잘 설계된 함수 라이브러리를 통해 최적의 전략을 원활하게 전환합니다. 최대 624K의 시퀀스 길이를 가진 데이터 세트에서 대표적인 LLM에 대한 실험 결과, ParaDySe가 긴 시퀀스 최적화를 기존 프레임워크와 체계적으로 통합하여 OOM 및 CPC 병목 현상을 해결함을 보여줍니다.