본 논문은 이산 확산 언어 모델의 숨겨진 베이지안 코어를 밝힙니다. 순방향 마스킹 분포 하에서 예상되는 잡음 제거기 출력이 깨끗한 토큰에 대한 정확한 사후 확률을 복구한다는 것을 보여줍니다. 최소한의 가정 하에, K개의 독립적인 손상에 대한 몬테 카를로 주변화는 O(1/sqrt(K))의 속도로 이 사후 확률에 수렴하여 일관성과 유한 표본 오차 경계에 대한 간단한 증명을 제공합니다. 이러한 통찰력을 바탕으로, 추가적인 훈련 비용 없이 사후 확률 인식 토큰 확률과 불확실성 추정치를 얻기 위해 K개의 마스크 및 잡음 제거 패스를 평균화하는 경량 추론 시간 앙상블을 소개합니다. WikiText-2에서 제안된 방법은 K=8일 때 8.8의 테스트 퍼플렉서티를 달성하는 반면, 비슷한 크기의 모델인 GPT-2 Small은 20.3의 퍼플렉서티를 보입니다. 코드는 https://github.com/mercury0100/bayesradd 에서 확인할 수 있습니다.