Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone

Created by
  • Haebom
Category
Empty

저자

Vaibhav Singh, Oleksiy Ostapenko, Pierre-Andre Noel, Torsten Scholak

개요

확산 기반 언어 모델은 오토 회귀 생성의 대안으로 부상했지만, Transformer 백본에 의존하여 추론 효율성이 제한된다. 본 연구에서는 양방향 Mamba 백본을 기반으로 한 마스크된 확산 언어 모델인 DiffuApriel을 소개한다. DiffuApriel은 확산 목표와 선형 시간 시퀀스 모델링을 결합한다. DiffuApriel은 Transformer 기반 확산 모델의 성능에 필적하며 13억 모델로 긴 시퀀스에 대해 최대 4.4배 더 높은 추론 처리량을 달성한다. 또한, 주의 및 mamba 레이어를 인터리빙하는 하이브리드 변형인 DiffuApriel-H를 제안하여 최대 2.6배의 처리량 향상과 균형 잡힌 글로벌 및 로컬 컨텍스트 모델링을 제공한다. 결과적으로 양방향 상태 공간 아키텍처는 마스크된 확산 LM에서 강력한 노이즈 제거기로 작용하며, 더 빠르고 메모리 효율적인 텍스트 생성을 위한 실용적이고 확장 가능한 기반을 제공한다.

시사점, 한계점

DiffuApriel은 Transformer 기반 확산 모델과 유사한 성능을 보이면서, Mamba 백본을 사용하여 추론 처리량을 향상시킴.
DiffuApriel-H는 주의 및 mamba 레이어를 결합하여 처리량과 컨텍스트 모델링의 균형을 맞춤.
양방향 상태 공간 아키텍처가 확산 LM에서 효과적인 노이즈 제거기임을 입증.
구체적인 한계점은 논문에 명시되지 않음.
👍