Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Created by
  • Haebom

저자

Shuang Cheng, Yihan Bian, Dawei Liu, Yuhua Jiang, Yihao Liu, Linfeng Zhang, Wenhai Wang, Qipeng Guo, Kai Chen, Biqing Qi, Bowen Zhou

SDAR: Synergistic Diffusion-Autoregression for Scalable, High-Throughput Reasoning

개요

SDAR은 자기 회귀 모델의 훈련 효율성과 확산 모델의 병렬 추론 능력을 통합하는 시너지 확산-자동 회귀 패러다임입니다. SDAR은 고비용의 종단 간 확산 훈련 대신, 잘 훈련된 자기 회귀(AR) 모델을 간단하고 데이터 효율적인 적응을 통해 블록 단위 확산 모델로 변환합니다. 추론 중 SDAR은 전역적 일관성을 위해 블록 간에 자기 회귀적으로 시퀀스를 생성하는 동시에 각 블록 내의 모든 토큰을 이산 확산 프로세스를 통해 병렬로 디코딩합니다. AR 모델은 마스크된 확산 모델보다 훨씬 더 계산 효율적이며, 이를 기반으로 SDAR은 AR 수준의 성능을 유지하면서 병렬 생성을 가능하게 하는 효율적인 AR-to-diffusion 변환을 최소한의 비용으로 달성합니다. 대규모 모델 연구를 통해 SDAR은 블록 크기 및 디코딩 임계값에 대한 강력한 견고성을 보여주며, 정확도 손실 없이 더 큰 속도 향상을 제공합니다. 또한 SDAR은 향상된 추론 능력과 도메인 적응성을 보여줍니다. 30B MoE 모델은 GPQA 및 ChemBench와 같은 까다로운 과학적 추론 벤치마크에서 AR 모델보다 우수하며, 다수결 투표 및 pass@k와 같은 테스트 시간 스케일링 방법으로 추가 개선을 얻습니다.

시사점, 한계점

자기 회귀 모델의 효율성과 확산 모델의 병렬 추론 능력 결합
간단한 AR-to-diffusion 변환으로 계산 효율성 유지
블록 크기 및 디코딩 임계값에 대한 강력한 견고성
향상된 추론 능력과 도메인 적응성
30B MoE 모델은 과학적 추론 벤치마크에서 우수
확산 모델과 AR 모델의 성능 격차에 대한 추가 연구 필요
변환 및 적응 과정의 세부 사항 및 일반화에 대한 추가 검토 필요
👍