Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Discrete Diffusion in Large Language and Multimodal Models: A Survey

Created by
  • Haebom

저자

Runpeng Yu, Qi Li, Xinchao Wang

개요

본 논문은 이산 확산 언어 모델(dLLM)과 이산 확산 다중 모달 언어 모델(dMLLM)에 대한 체계적인 조사를 제공합니다. 자동회귀(AR) 모델과 달리, dLLM과 dMLLM은 전체 어텐션과 잡음 제거 기반 생성 전략을 사용하는 다중 토큰 병렬 디코딩 패러다임을 채택합니다. 이 패러다임은 자연스럽게 병렬 생성, 세분화된 출력 제어 및 동적이고 응답 인식적인 인식을 가능하게 합니다. 이러한 기능들은 이전에는 AR 모델로 달성하기 어려웠습니다. 최근 많은 산업 규모의 독점 d(M)LLM과 다수의 오픈소스 학술 d(M)LLM이 자동회귀 모델과 비슷한 성능을 보이면서 추론 속도를 최대 10배까지 향상시켰습니다. dLLM과 dMLLM의 발전은 자동회귀 LLMs 및 MLLMs의 발전과 이산 확산의 수학적 모델의 발전이라는 두 가지 영역의 진보에 크게 힘입었습니다. 본 논문에서는 dLLM 및 dMLLM 분야의 연구에 대한 포괄적인 개요를 제시하며, dLLM 및 dMLLM의 역사적 발전을 추적하고, 기본 수학적 프레임워크를 공식화하고, 대표적인 모델을 분류합니다. 또한 훈련 및 추론을 위한 주요 기술을 분석하고, 언어, 비전-언어 및 생물학적 영역에서 나타나는 응용 프로그램을 요약합니다. 마지막으로 미래 연구 및 배포 방향에 대해 논의합니다.

시사점, 한계점

시사점:
dLLM과 dMLLM이 AR 모델에 비해 병렬 생성, 세분화된 출력 제어, 동적 응답 인식 등의 장점을 제공하며, 최대 10배의 추론 속도 향상을 달성할 수 있음을 보여줍니다.
자동회귀 모델의 발전과 이산 확산 모델의 발전이 dLLM과 dMLLM의 발전을 촉진했음을 밝힙니다.
다양한 응용 분야(언어, 비전-언어, 생물학)에서 dLLM과 dMLLM의 활용 가능성을 제시합니다.
dLLM과 dMLLM 분야의 연구 동향 및 미래 방향에 대한 통찰력을 제공합니다.
한계점:
본 논문은 주로 기존 연구에 대한 조사에 집중하며, 새로운 모델이나 실험 결과를 제시하지는 않습니다.
dLLM과 dMLLM의 한계점이나 단점에 대한 심층적인 논의가 부족할 수 있습니다. (예: 메모리 사용량, 특정 작업에 대한 성능 제약 등)
제공된 GitHub 링크의 논문 모음집의 질과 완성도에 대한 평가가 필요합니다.
👍