Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone

Created by
  • Haebom
Category
Empty

저자

Vaibhav Singh, Oleksiy Ostapenko, Pierre-Andre Noel, Torsten Scholak

개요

확산 기반 언어 모델은 오토 회귀 생성의 대안으로 등장했지만, Transformer 백본 사용으로 인해 이차적인 어텐션과 KV 캐시 오버헤드로 인해 추론 효율성이 제한된다. 본 연구에서는 양방향 Mamba 백본을 기반으로 확산 목표를 선형 시간 시퀀스 모델링과 결합한 마스크된 확산 언어 모델인 DiffuApriel을 소개한다. DiffuApriel은 13억 모델로 긴 시퀀스에 대해 Transformer 기반 확산 모델과 동일한 성능을 보이면서 최대 4.4배 더 높은 추론 처리량을 달성한다. 또한, 어텐션과 Mamba 레이어를 교대로 사용하는 하이브리드 변형 DiffuApriel-H를 제안하여 글로벌 및 로컬 컨텍스트 모델링의 균형을 유지하면서 최대 2.6배의 처리량 향상을 제공한다. 본 결과는 양방향 상태 공간 아키텍처가 마스크된 확산 LM에서 강력한 제너레이터 역할을 하며, 더 빠르고 메모리 효율적인 텍스트 생성을 위한 실용적이고 확장 가능한 기반을 제공함을 보여준다.

시사점, 한계점

DiffuApriel은 Transformer 기반 확산 모델과 동등한 성능을 유지하면서 더 높은 추론 처리량을 달성한다.
DiffuApriel-H는 어텐션과 Mamba 레이어를 결합하여 처리량 향상과 컨텍스트 모델링의 균형을 제공한다.
양방향 상태 공간 아키텍처가 마스크된 확산 LM에서 효과적인 제너레이터로 작용함을 입증한다.
구체적인 성능 수치(예: 4.4x, 2.6x)는 모델 크기, 시퀀스 길이 등 특정 조건에 따라 달라질 수 있다.
연구의 범위는 텍스트 생성에 국한되며, 다른 모달리티로의 확장 가능성은 추가 연구가 필요하다.
👍