Discrete Diffusion in Large Language and Multimodal Models: A Survey
Created by
Haebom
저자
Runpeng Yu, Qi Li, Xinchao Wang
개요
본 논문은 이산 확산 언어 모델(dLLM)과 이산 확산 다중 모달 언어 모델(dMLLM)에 대한 체계적인 조사를 제공합니다. 자기회귀(AR) 모델과 달리, dLLM과 dMLLM은 전 주의(full attention)와 잡음 제거 기반 생성 전략을 사용하는 다중 토큰 병렬 디코딩 패러다임을 채택합니다. 이 패러다임은 자연스럽게 병렬 생성, 세분화된 출력 제어 및 동적 인식을 가능하게 합니다. 이러한 기능들은 이전에는 AR 모델로 달성하기 어려웠습니다. 많은 산업 규모의 독점 d(M)LLM과 다수의 오픈소스 학술 d(M)LLM이 자기회귀 모델과 비교할 만한 성능을 보여주면서 추론 속도를 최대 10배까지 향상시켰습니다. 이러한 발전은 이산 확산 모델을 기존 자기회귀 접근 방식에 기반한 지능에 대한 유망한 대안으로 자리매김하게 합니다. 본 논문에서는 dLLM과 dMLLM 분야의 연구에 대한 포괄적인 개요를 제시합니다. dLLM과 dMLLM의 역사적 발전을 추적하고, 기본 수학적 프레임워크를 공식화하며, 대표적인 모델을 분류합니다. 또한 학습 및 추론을 위한 핵심 기술을 분석하고, 언어, 비전-언어 및 생물학적 영역 등에서의 새로운 응용 프로그램을 요약합니다. 마지막으로 연구 및 배포를 위한 미래 방향에 대해 논의합니다. 관련 논문은 https://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLM 에서 확인할 수 있습니다.