Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients

Created by
  • Haebom
Category
Empty

저자

He-Yen Hsieh, Hong Wang, H. T. Kung

개요

확산 기반 대형 언어 모델(dLLM)은 반복적인 디노이징을 통해 토큰 생성을 개선하지만, 모든 단계가 완료되기 전에 답변이 안정화되는 경우가 많습니다. 본 논문은 훈련 시의 추론에 비해 충분한 추론 안정성이 감지되면 디노이징을 적응적으로 중단하는 추론 시간 기준인 EDIT (Early Diffusion Inference Termination)를 제안합니다. EDIT는 토큰 활성화와, 지도 학습 미세 조정 (SFT) 동안 포착된 AdamW-집계 LoRA 업데이트에서 파생된 추론 맵 간의 정렬을 모니터링합니다. 훈련 중 최적화 역학은 이전 방법에서 일반적으로 모델 출시 시 폐기되는 매개변수 중요성에 대한 풍부한 메타데이터를 생성합니다. 우리는 이 정보를 학습된 추론 경로의 압축된 표현으로 보존합니다. 추론 중에는 정렬 점수가 현재 디노이징 단계에서 이미 unmasked된 토큰에 대한 분포로 변환되고, 연속 단계 간의 KL 발산이 일치하는 unmasked (visible) 토큰에 대해 임계값 이하로 떨어지면 수렴이 감지됩니다. 추론 벤치마크 전반에서 EDIT는 정확성을 유지하거나 대부분의 설정에서 개선하면서 확산 단계를 11.8%에서 68.3%까지 줄이며, 약 0.02%의 저장 공간 오버헤드(8GB 모델의 32개 블록 전체 QKV 모듈에 대해 약 1.5-2MB)가 발생합니다. 훈련-경사 역학을 활용함으로써 본 연구는 dLLM 추론 시간 및 비용을 줄이기 위한 새로운 연구 방향을 제시합니다.

시사점, 한계점

시사점:
dLLM 추론 시간을 줄이는 새로운 방법론 제시 (EDIT).
훈련 중 생성된 정보를 활용하여 추론 효율성을 향상.
추론 정확성을 유지하거나 향상시키면서 확산 단계 감소.
낮은 저장 공간 오버헤드.
한계점:
구체적인 벤치마크 결과 및 설정에 대한 추가 정보 부족.
다른 모델 또는 데이터셋에서의 일반화 가능성 추가 연구 필요.
LoRA 업데이트 및 AdamW 집계에 대한 상세 내용 부족.
👍