Sign In

Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias

Created by
  • Haebom
Category
Empty

저자

Rui Lu, Runzhe Wang, Kaifeng Lyu, Xitai Jiang, Gao Huang, Mengdi Wang

개요

점수 기반 확산 모델은 사실적인 이미지, 오디오 및 비디오 데이터 생성에서 놀라운 성능을 달성했습니다. 하지만 이러한 모델은 놀라운 디테일로 고품질 샘플을 생성하는 동시에, 왜곡된 손가락이나 의미 없는 환각 텍스트와 같은 비현실적인 인공물을 생성하는 경우가 많습니다. 본 논문은 확산 모델이 개별 기호는 정확하게 생성하지만 비논리적인 방식으로 조합하는 텍스트 환각에 초점을 맞춥니다. 실험적 조사를 통해 이러한 현상이 네트워크의 지역적 생성 편향 때문이라는 것을 일관되게 관찰했습니다. 탈잡음 네트워크는 데이터 분포의 서로 다른 차원이 거의 쌍으로 독립적인 경우 특히, 고도로 상관된 지역 영역에 크게 의존하는 출력을 생성하는 경향이 있습니다. 이러한 동작은 전역 분포를 각 기호에 대한 별도의 독립적인 분포로 분해하는 생성 프로세스를 유도하여 궁극적으로 기본적인 문법을 포함한 전역 구조를 포착하지 못하게 합니다. 흥미롭게도 이러한 편향은 전역 의존성을 모델링할 구조를 가진 MLP 및 트랜스포머를 포함한 다양한 탈잡음 네트워크 아키텍처에서 지속됩니다. 이러한 결과는 탈잡음 모델의 암묵적인 편향으로 인한 결과로 텍스트를 넘어 다른 유형의 환각을 이해하는 데 대한 통찰력을 제공합니다. 또한 초입방체에서 패리티 포인트를 학습하는 2층 MLP를 포함하는 특정 사례에 대한 훈련 역학을 이론적으로 분석하여 그 기본 메커니즘을 설명합니다.

시사점, 한계점

시사점: 텍스트 환각과 같은 확산 모델의 비현실적인 인공물 생성 원인을 지역적 생성 편향으로 규명함. 다양한 네트워크 아키텍처에서 이러한 편향이 지속됨을 확인하고, 이를 이론적으로 뒷받침하는 분석 제공. 텍스트를 넘어 다른 유형의 환각 이해에 대한 통찰력 제공.
한계점: 2층 MLP에 대한 이론적 분석은 특정 사례에 국한되어 있으며, 더 복잡한 모델에 대한 일반화 가능성은 제한적임. 지역적 생성 편향을 해결하기 위한 구체적인 방법론 제시는 부족함. 실험적 조사는 특정 유형의 데이터 및 모델에 국한되어 다른 상황에서의 일반화 가능성 검증이 필요함.
👍