MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections
Created by
Haebom
저자
Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan
개요
본 논문은 Transformer의 잔차 연결(residual connection) 한계를 극복하고 계층 간 정보 흐름을 향상시키는 간단하면서도 효과적인 방법인 MUltiway Dynamic Dense (MUDD) 연결을 제안합니다. 기존의 정적이고 공유된 연결 가중치를 사용하는 밀집 연결 방식과 달리, MUDD는 각 시퀀스 위치와 Transformer 블록의 각 분리된 입력 스트림(쿼리, 키, 값 또는 잔차)에 따라 동적으로 연결 가중치를 생성합니다. MUDD 연결은 어떤 Transformer 아키텍처에도 통합되어 MUDDFormer를 만들 수 있습니다. 광범위한 실험 결과, MUDDFormer는 다양한 모델 아키텍처와 규모에서 언어 모델링에서 Transformer를 크게 능가하며, 1.8배에서 2.4배의 계산량으로 훈련된 Transformer의 성능을 달성합니다. 특히, MUDDPythia-2.8B는 사전 훈련 ppl 및 다운스트림 작업에서 Pythia-6.9B와 일치하며, 5-shot 설정에서는 Pythia-12B와 경쟁하며, 매개변수는 0.23%만, 계산량은 0.4%만 증가시킵니다. JAX와 PyTorch 코드 및 사전 훈련된 모델은 https://github.com/Caiyun-AI/MUDDFormer 에서 이용 가능합니다.