Targeted Remasking: Replacing Token Editing with Token-to-Mask Refinement in Discrete Diffusion Language Models

Author

Haebom

저자

Lin Yao

💡 개요

이 논문은 이산 확산 언어 모델의 텍스트 생성 속도를 높이기 위해 제안된 토큰-투-토큰(T2T) 편집 방식의 근본적인 한계를 지적합니다. 이를 해결하기 위해, 오류로 의심되는 토큰을 다시 마스크 상태로 되돌려 확산 과정이 더 깨끗한 맥락에서 재예측하도록 하는 훈련-프리 방식인 토큰-투-마스크(T2M) 리마스킹을 제안합니다. T2M은 확률 기반, 트리거 미러링, 시간 차이 기반의 세 가지 오류 탐지 전략과 함께 사용되어, 생성 맥락을 정화하고 시스템적 추론 오류를 모델의 네이티브 마스크 노이즈 타입으로 되돌립니다.

🔑 시사점 및 한계

•

T2M 리마스킹은 T2T 편집 방식의 오류 감지 및 예측 결합, 생성 맥락 오염, 훈련-추론 노이즈 불일치 문제를 효과적으로 해결합니다.

•

제안된 T2M 방식은 다양한 벤치마크에서 특히 수학과 같은 정밀한 토큰 레벨 출력이 요구되는 작업에서 성능 향상을 가져오며, 마지막 단계의 토큰 손상으로 인한 오류를 상당 부분 복구합니다.

•

T2M은 훈련-프리 및 드롭-인 대체 기능으로 기존 확산 언어 모델에 쉽게 통합될 수 있습니다.

•

제안된 오류 탐지 전략들의 성능 및 조합 최적화에 대한 추가 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage