Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Created by
  • Haebom

저자

Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan

개요

본 논문은 Transformer의 잔차 연결(residual connection) 한계를 극복하고 계층 간 정보 흐름을 향상시키는 간단하면서도 효과적인 방법인 MUltiway Dynamic Dense (MUDD) 연결을 제안합니다. 기존의 정적이고 공유된 연결 가중치를 사용하는 밀집 연결 방식과 달리, MUDD는 각 시퀀스 위치와 Transformer 블록의 각 분리된 입력 스트림(쿼리, 키, 값 또는 잔차)에 따라 동적으로 연결 가중치를 생성합니다. MUDD 연결은 어떤 Transformer 아키텍처에도 통합되어 MUDDFormer를 만들 수 있습니다. 광범위한 실험 결과, MUDDFormer는 다양한 모델 아키텍처와 규모에서 언어 모델링에서 Transformer를 크게 능가하며, 1.8배에서 2.4배의 계산량으로 훈련된 Transformer의 성능을 달성합니다. 특히, MUDDPythia-2.8B는 사전 훈련 ppl 및 다운스트림 작업에서 Pythia-6.9B와 일치하며, 5-shot 설정에서는 Pythia-12B와 경쟁하며, 매개변수는 0.23%만, 계산량은 0.4%만 증가시킵니다. JAX와 PyTorch 코드 및 사전 훈련된 모델은 https://github.com/Caiyun-AI/MUDDFormer 에서 이용 가능합니다.

시사점, 한계점

시사점:
Transformer의 성능을 향상시키는 새로운 방법인 MUDD 연결 제안.
기존 Transformer보다 적은 계산량으로 동등하거나 더 나은 성능 달성. (1.8X-2.4X compute 감소)
소량의 매개변수 추가로 큰 성능 향상 (MUDDPythia-2.8B vs Pythia-6.9B, 12B)
다양한 Transformer 아키텍처와 규모에서 적용 가능.
JAX와 PyTorch 코드 및 사전 훈련된 모델 공개.
한계점:
MUDD 연결의 동적 가중치 생성이 계산 비용에 미치는 영향에 대한 자세한 분석 부족.
다른 언어 모델링 작업이나 다른 유형의 데이터에 대한 일반화 성능에 대한 추가 연구 필요.
극도로 큰 모델에 대한 확장성에 대한 추가적인 평가 필요.
👍