Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer

Created by
  • Haebom
Category
Empty

저자

Zhixin Ou, Peng Liang, Jianchen Han, Baihui Liu, Linbo Qiao

개요

Transformer 기반 대규모 언어 모델(LLM) 훈련에 사용되는 가변 길이 동적 시퀀스에 대한 기존의 정적 병렬 전략은 짧은 시퀀스에서는 통신 병렬화가 취소되고 긴 시퀀스에서는 메모리 부족 문제가 발생합니다. 이를 해결하기 위해, ParaDySe라는 동적 시퀀스에 대한 새로운 적응형 병렬 전략 전환 프레임워크를 제안합니다. ParaDySe는 즉각적인 입력 시퀀스에 따라 최적의 전략을 실시간으로 채택할 수 있습니다. 병렬 전략을 위한 모듈식 함수 라이브러리를 통합된 텐서 레이아웃 사양으로 구현하고, 하이브리드 방식으로 시퀀스 인식 메모리 및 시간 비용 모델을 구축합니다. 비용 모델을 기반으로, ParaDySe는 효율적인 휴리스틱 알고리즘을 통해 동적 시퀀스에 대한 최적의 레이어별 전략을 선택합니다. 이러한 기술을 통합하여 ParaDySe는 잘 설계된 함수 라이브러리를 통해 최적의 전략을 원활하게 전환합니다. 최대 624K의 시퀀스 길이를 가진 데이터 세트에서 대표적인 LLM에 대한 실험 결과, ParaDySe가 긴 시퀀스 최적화를 기존 프레임워크와 체계적으로 통합하여 OOM 및 CPC 병목 현상을 해결함을 보여줍니다.

시사점, 한계점

시사점:
동적 시퀀스 기반 LLM 훈련의 메모리 부족(OOM) 및 통신 병렬화 취소(CPC) 문제를 해결.
입력 시퀀스 길이에 따라 최적의 병렬 전략을 동적으로 선택.
최적화된 병렬 전략을 위한 모듈식 함수 라이브러리 및 비용 모델을 구축하여 효율성 향상.
긴 시퀀스 길이 데이터셋에서 기존 프레임워크 대비 성능 향상 입증.
한계점:
본 논문에서 구체적인 병렬 전략 구현 세부 사항이나 선택 알고리즘의 복잡성에 대한 정보 부족.
특정 LLM 및 데이터셋에 대한 실험 결과에 의존적일 수 있으며, 다른 모델 및 데이터셋에 대한 일반화 가능성 추가 검토 필요.
ParaDySe 프레임워크 구축 및 유지에 필요한 추가적인 오버헤드 및 복잡성 고려 필요.
👍