Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Discrete Diffusion in Large Language and Multimodal Models: A Survey

Created by
  • Haebom

저자

Runpeng Yu, Qi Li, Xinchao Wang

개요

본 논문은 이산 확산 언어 모델(dLLM)과 이산 확산 다중 모달 언어 모델(dMLLM)에 대한 체계적인 조사를 제공합니다. 자기회귀(AR) 모델과 달리, dLLM과 dMLLM은 전 주의(full attention)와 잡음 제거 기반 생성 전략을 사용하는 다중 토큰 병렬 디코딩 패러다임을 채택합니다. 이 패러다임은 자연스럽게 병렬 생성, 세분화된 출력 제어 및 동적 인식을 가능하게 합니다. 이러한 기능들은 이전에는 AR 모델로 달성하기 어려웠습니다. 많은 산업 규모의 독점 d(M)LLM과 다수의 오픈소스 학술 d(M)LLM이 자기회귀 모델과 비교할 만한 성능을 보여주면서 추론 속도를 최대 10배까지 향상시켰습니다. 이러한 발전은 이산 확산 모델을 기존 자기회귀 접근 방식에 기반한 지능에 대한 유망한 대안으로 자리매김하게 합니다. 본 논문에서는 dLLM과 dMLLM 분야의 연구에 대한 포괄적인 개요를 제시합니다. dLLM과 dMLLM의 역사적 발전을 추적하고, 기본 수학적 프레임워크를 공식화하며, 대표적인 모델을 분류합니다. 또한 학습 및 추론을 위한 핵심 기술을 분석하고, 언어, 비전-언어 및 생물학적 영역 등에서의 새로운 응용 프로그램을 요약합니다. 마지막으로 연구 및 배포를 위한 미래 방향에 대해 논의합니다. 관련 논문은 https://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLM 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
이산 확산 모델이 자기회귀 모델에 비해 추론 속도가 최대 10배까지 향상될 수 있음을 보여줌.
병렬 생성, 세분화된 출력 제어, 동적 인식 등 자기회귀 모델에서는 달성하기 어려운 기능들을 제공함.
다양한 분야 (언어, 비전-언어, 생물학 등) 에서의 응용 가능성을 제시함.
dLLM과 dMLLM에 대한 체계적인 조사 및 분류를 제공함.
한계점:
논문에서 구체적인 한계점이나 제약 사항에 대한 언급이 부족함.
제시된 모델들의 성능 비교에 대한 자세한 분석이 부족할 수 있음.
향후 연구 방향에 대한 논의가 더 구체적일 수 있음.
👍