Sign In

Targeted Remasking: Replacing Token Editing with Token-to-Mask Refinement in Discrete Diffusion Language Models

Author
  • Haebom
Category
Empty

저자

Lin Yao

💡 개요

이 논문은 이산 확산 언어 모델의 텍스트 생성 속도를 높이기 위해 제안된 토큰-투-토큰(T2T) 편집 방식의 근본적인 한계를 지적합니다. 이를 해결하기 위해, 오류로 의심되는 토큰을 다시 마스크 상태로 되돌려 확산 과정이 더 깨끗한 맥락에서 재예측하도록 하는 훈련-프리 방식인 토큰-투-마스크(T2M) 리마스킹을 제안합니다. T2M은 확률 기반, 트리거 미러링, 시간 차이 기반의 세 가지 오류 탐지 전략과 함께 사용되어, 생성 맥락을 정화하고 시스템적 추론 오류를 모델의 네이티브 마스크 노이즈 타입으로 되돌립니다.

🔑 시사점 및 한계

T2M 리마스킹은 T2T 편집 방식의 오류 감지 및 예측 결합, 생성 맥락 오염, 훈련-추론 노이즈 불일치 문제를 효과적으로 해결합니다.
제안된 T2M 방식은 다양한 벤치마크에서 특히 수학과 같은 정밀한 토큰 레벨 출력이 요구되는 작업에서 성능 향상을 가져오며, 마지막 단계의 토큰 손상으로 인한 오류를 상당 부분 복구합니다.
T2M은 훈련-프리 및 드롭-인 대체 기능으로 기존 확산 언어 모델에 쉽게 통합될 수 있습니다.
제안된 오류 탐지 전략들의 성능 및 조합 최적화에 대한 추가 연구가 필요할 수 있습니다.
👍