Sign In

Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale

Created by
  • Haebom
Category
Empty

저자

Jerome Ku, Eric Nguyen, David W. Romero, Garyk Brixi, Brandon Yang, Anton Vorontsov, Ali Taghibakhshi, Amy X. Lu, Dave P. Burke, Greg Brockman, Stefano Massaroli, Christopher Re, Patrick D. Hsu, Brian L. Hie, Stefano Ermon, Michael Poli

개요

본 논문은 두 가지 관찰 결과를 바탕으로 설계된 새로운 합성곱 다중-하이브리드 아키텍처를 제시합니다. 첫째, 하이브리드 모델의 연산자는 입력에 의존적인 합성곱과 어텐션을 사용하여 상호 보완적인 성능을 제공함으로써 문맥 내 재현, 다중 토큰 재현, 압축과 같은 토큰 조작 작업에 맞춤화될 수 있습니다. 둘째, 합성곱 연산자와 하드웨어 인식 알고리즘의 공동 설계는 기존의 대안 아키텍처가 Transformer를 능가하는 데 어려움을 겪는 영역에서 효율성 향상을 가능하게 합니다. 400억 매개변수 규모에서, 제안된 아키텍처는 최적화된 Transformer보다 1.2배에서 2.9배 빠르게, 이전 세대 하이브리드 모델보다 1.1배에서 1.4배 빠르게 학습됩니다. H100 GPU와 모델 너비 4096을 사용하여, 제안된 다중-하이브리드 StripedHyena 2 아키텍처의 개별 연산자는 선형 어텐션과 상태 공간 모델보다 2배의 처리량 향상을 달성합니다. Evo 2 계열 모델에서 보여지듯이, 다중-하이브리드 아키텍처는 바이트 토큰화된 데이터에 대한 시퀀스 모델링에 탁월합니다. 본 논문에서는 아키텍처 설계, 텐서 코어를 위한 겹침-추가 블록화된 커널, 그리고 전용 전부-전부 및 점-대-점 문맥 병렬화 전략을 포함한 이러한 결과를 가능하게 하는 기반을 논의합니다.

시사점, 한계점

시사점:
합성곱 연산자와 어텐션 메커니즘의 결합을 통해 Transformer보다 빠르고 효율적인 대규모 언어 모델 학습이 가능함을 보여줌.
하드웨어 인식 알고리즘 설계를 통해 GPU 활용도를 극대화하여 학습 속도를 향상시킴.
바이트 토큰화된 데이터에 대한 시퀀스 모델링에서 우수한 성능을 보임.
StripedHyena 2 아키텍처의 개별 연산자는 기존 모델보다 2배 향상된 처리량을 제공함.
한계점:
본 논문에서 제시된 아키텍처의 일반화 성능 및 다양한 작업에 대한 적용 가능성에 대한 추가적인 연구가 필요함.
특정 하드웨어 환경(H100 GPU)에 최적화된 설계이므로 다른 하드웨어 플랫폼에서의 성능은 보장되지 않음.
400억 매개변수 규모에 국한된 실험 결과이므로, 다른 규모의 모델에 대한 성능 평가가 필요함.
👍