Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow

작성자

Haebom

카테고리

Empty

저자

Bowen Zheng, Yihong Luo, Tianyang Hu

💡 개요

본 논문은 이미지 토크나이저 학습 시 복원 성능과 사전 모델(prior model) 학습 간의 불일치 문제를 해결하고자 합니다. 이를 위해 삼각 정보 일관성(Tripartite Variational Consistency, TVC) 분석을 통해 기존의 이단계 학습 방식이 사전 모델과의 일관성을 간과함을 지적하고, 토크나이저 학습 단계에 사전 모델과의 분포 일치 신호를 추가하는 새로운 방법론을 제안합니다. 제안된 wAR-Tok는 Wasserstein 그래디언트 흐름을 이용한 토큰 수준의 대조 학습을 통해 사전 모델의 예측 정확도를 높여 이미지 생성 성능을 개선합니다.

🔑 시사점 및 한계

•

이미지 토크나이저와 사전 모델 간의 효과적인 연계 학습의 중요성: 기존의 분리된 학습 방식은 토크나이저가 사전 모델의 특성을 고려하지 않아 생성 성능 저하를 야기할 수 있음을 명확히 했습니다.

•

Wasserstein 그래디언트 흐름을 활용한 분포 일치 학습: 복잡한 분포 간의 유사도를 학습하는 데 효과적인 Wasserstein 그래디언트 흐름을 토크나이저 학습에 성공적으로 적용했습니다.

•

기존 AR 모델과의 호환성: 제안된 방법은 역전파 없이 순방향 연산만을 사용하므로, 기존의 학습된 AR 모델을 그대로 활용할 수 있다는 장점이 있습니다.

•

대규모 고해상도 이미지 데이터셋에서의 성능 검증 필요: CIFAR-10, ImageNet에서의 결과는 고무적이나, 더욱 복잡하고 고차원적인 데이터셋에서의 확장성 및 성능 검증이 추가적으로 필요합니다.

PDF 보기

Made with Slashpage