[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diffusion Beats Autoregressive in Data-Constrained Settings

Created by
  • Haebom

저자

Mihir Prabhudesai, Menging Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

개요

자기회귀(AR) 모델은 오랫동안 대규모 언어 모델 분야를 지배해 왔지만, 최근 확산 기반 언어 모델이 유망한 대안으로 떠올랐습니다. 본 논문에서는 데이터가 제한된 환경에서 마스크된 확산 모델을 체계적으로 연구하여, 컴퓨팅 자원은 풍부하지만 데이터가 부족한 경우 확산 모델이 자기회귀 모델보다 훨씬 우수한 성능을 보임을 발견했습니다. 확산 모델은 데이터를 반복적으로 사용하여 검증 손실을 줄이고 하류 작업에서 우수한 성능을 달성합니다. 이러한 장점은 암시적 데이터 증강으로 해석될 수 있는데, 마스크된 확산은 자기회귀 모델의 고정된 왼쪽에서 오른쪽으로의 인수분해와 달리 다양한 토큰 순서 및 예측 작업에 대한 모델 노출을 제공하기 때문입니다. 본 논문에서는 확산 모델에 대한 새로운 스케일링 법칙을 발견하고 확산이 자기회귀 모델을 능가하기 시작하는 임계 컴퓨팅 한계에 대한 폐쇄형 표현식을 도출했습니다. 이러한 결과는 데이터가 아닌 컴퓨팅 자원이 병목 현상일 때 확산 모델이 표준 자기회귀 패러다임에 대한 매력적인 대안임을 시사합니다.

시사점, 한계점

시사점: 데이터가 부족한 상황에서 컴퓨팅 자원이 풍부할 경우, 확산 모델이 자기회귀 모델보다 우수한 성능을 보인다는 것을 실험적으로 입증했습니다. 확산 모델의 암시적 데이터 증강 효과를 밝혔으며, 새로운 스케일링 법칙과 임계 컴퓨팅 한계를 제시했습니다. 데이터 제약 환경에서 확산 모델의 활용 가능성을 제시합니다.
한계점: 본 연구는 특정 데이터 제약 환경에 국한된 결과이며, 다른 데이터셋이나 작업에 대한 일반화 가능성은 추가 연구가 필요합니다. 제시된 폐쇄형 표현식의 정확성 및 일반성에 대한 추가 검증이 필요할 수 있습니다. 마스크된 확산 모델의 특정 구현 방식에 대한 의존성이 있을 수 있습니다.
👍