점수 기반 확산 모델은 사실적인 이미지, 오디오 및 비디오 데이터 생성에서 놀라운 성능을 달성했습니다. 하지만 이러한 모델은 놀라운 디테일로 고품질 샘플을 생성하는 동시에, 왜곡된 손가락이나 의미 없는 환각 텍스트와 같은 비현실적인 인공물을 생성하는 경우가 많습니다. 본 논문은 확산 모델이 개별 기호는 정확하게 생성하지만 비논리적인 방식으로 조합하는 텍스트 환각에 초점을 맞춥니다. 실험적 조사를 통해 이러한 현상이 네트워크의 지역적 생성 편향 때문이라는 것을 일관되게 관찰했습니다. 탈잡음 네트워크는 데이터 분포의 서로 다른 차원이 거의 쌍으로 독립적인 경우 특히, 고도로 상관된 지역 영역에 크게 의존하는 출력을 생성하는 경향이 있습니다. 이러한 동작은 전역 분포를 각 기호에 대한 별도의 독립적인 분포로 분해하는 생성 프로세스를 유도하여 궁극적으로 기본적인 문법을 포함한 전역 구조를 포착하지 못하게 합니다. 흥미롭게도 이러한 편향은 전역 의존성을 모델링할 구조를 가진 MLP 및 트랜스포머를 포함한 다양한 탈잡음 네트워크 아키텍처에서 지속됩니다. 이러한 결과는 탈잡음 모델의 암묵적인 편향으로 인한 결과로 텍스트를 넘어 다른 유형의 환각을 이해하는 데 대한 통찰력을 제공합니다. 또한 초입방체에서 패리티 포인트를 학습하는 2층 MLP를 포함하는 특정 사례에 대한 훈련 역학을 이론적으로 분석하여 그 기본 메커니즘을 설명합니다.