Sign In

Encoder-Decoder Diffusion Language Models for Efficient Training and Inference

Created by
  • Haebom
Category
Empty

저자

Marianne Arriola, Yair Schiff, Hao Phung, Aaron Gokaslan, Volodymyr Kuleshov

개요

본 논문은 오토 리gressive 방식보다 빠른 추론을 가능하게 하는 이산 확산 모델을 소개합니다. 기존 확산 모델은 디코더 전용 아키텍처를 사용하여 모든 디노이징 단계에서 전체 네트워크를 호출해야 하며 높은 계산 비용이 발생했습니다. 본 연구는 이산 확산 모델이 깨끗한 토큰 표현과 손상된 토큰 디노이징, 두 가지 유형의 계산을 수행한다는 점에 착안하여 각 작업에 별도의 모듈을 사용하는 인코더-디코더 아키텍처를 제안합니다. 이 아키텍처는 깨끗한 토큰을 표현하는 인코더와 잡음이 있는 시퀀스를 반복적으로 개선하는 경량 디코더로 구성됩니다. 또한 블록 확산 모델의 빠른 학습을 가능하게 하며, 요약, 번역, 수학적 추론 과제에서 생성 품질과 추론 처리량 간의 우수한 균형을 달성하는 Efficient Encoder-Decoder Diffusion (E2D2) 프레임워크를 소개합니다.

시사점, 한계점

시사점:
인코더-디코더 아키텍처를 활용하여 이산 확산 모델의 추론 속도를 향상시킴.
블록 확산 모델의 학습 속도를 개선하여 품질 향상에 기여.
요약, 번역, 수학적 추론 등 다양한 과제에서 우수한 성능을 보임.
E2D2 프레임워크는 효율적인 훈련 및 샘플링 알고리즘을 제공.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (논문 내용을 요약한 것이므로, 한계점은 논문을 직접 확인해야 함.)
👍