SDAR: Synergistic Diffusion-Autoregression for Scalable, High-Throughput Reasoning
개요
SDAR은 자기 회귀 모델의 훈련 효율성과 확산 모델의 병렬 추론 능력을 통합하는 시너지 확산-자동 회귀 패러다임입니다. SDAR은 고비용의 종단 간 확산 훈련 대신, 잘 훈련된 자기 회귀(AR) 모델을 간단하고 데이터 효율적인 적응을 통해 블록 단위 확산 모델로 변환합니다. 추론 중 SDAR은 전역적 일관성을 위해 블록 간에 자기 회귀적으로 시퀀스를 생성하는 동시에 각 블록 내의 모든 토큰을 이산 확산 프로세스를 통해 병렬로 디코딩합니다. AR 모델은 마스크된 확산 모델보다 훨씬 더 계산 효율적이며, 이를 기반으로 SDAR은 AR 수준의 성능을 유지하면서 병렬 생성을 가능하게 하는 효율적인 AR-to-diffusion 변환을 최소한의 비용으로 달성합니다. 대규모 모델 연구를 통해 SDAR은 블록 크기 및 디코딩 임계값에 대한 강력한 견고성을 보여주며, 정확도 손실 없이 더 큰 속도 향상을 제공합니다. 또한 SDAR은 향상된 추론 능력과 도메인 적응성을 보여줍니다. 30B MoE 모델은 GPQA 및 ChemBench와 같은 까다로운 과학적 추론 벤치마크에서 AR 모델보다 우수하며, 다수결 투표 및 pass@k와 같은 테스트 시간 스케일링 방법으로 추가 개선을 얻습니다.