Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov
개요
TiDAR는 확산 모델의 빠른 병렬 생성과 자기 회귀(AR) 모델의 높은 품질을 결합한 시퀀스 레벨 하이브리드 아키텍처입니다. TiDAR는 단일 순방향 패스 내에서 확산 방식을 사용하여 토큰을 초안(Thinking)하고, 자기 회귀 방식을 사용하여 최종 출력을 샘플링(Talking)합니다. 이 아키텍처는 특수 설계된 구조화된 어텐션 마스크를 사용하여 초안 작성 및 검증 능력을 균형 있게 유지하며, 서비스 환경에 적합하도록 설계되었습니다. 1.5B 및 8B 규모에서 다양한 모델과 비교 평가한 결과, TiDAR는 추론 처리량에서 사양적 디코딩을 능가하고 효율성과 품질 면에서 Dream 및 Llada와 같은 확산 모델을 능가했습니다. 특히 TiDAR는 AR 모델과의 품질 격차를 좁히면서 초당 토큰 수를 4.71배에서 5.91배 더 많이 처리하는 최초의 아키텍처입니다.
시사점, 한계점
•
시사점:
◦
확산 모델과 자기 회귀 모델의 장점을 결합하여 높은 처리량과 AR 모델 수준의 품질을 달성했습니다.