Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis
Created by
Haebom
Category
Empty
저자
Kai Qiu, Xiang Li, Jason Kuen, Hao Chen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides
개요
본 논문은 기존 이미지 생성 방식에서 사용되는 고정된 이미지 토크나이저의 한계점을 분석하고, 생성 품질과 토크나이저 성능 간의 불일치 문제를 해결하기 위한 새로운 토크나이저 훈련 기법을 제시합니다. 기존 평가 지표(rFID)가 토크나이저 성능과 생성 품질(gFID) 간의 상관관계를 정확하게 평가하지 못하는 문제를 지적하며, 잠재 공간에서의 샘플링 노이즈를 모방하는 잠재 변동(latent perturbation) 기법을 제안합니다. 이를 통해 토크나이저 성능과 생성 품질 간의 상관관계를 성공적으로 평가하는 새로운 지표 pFID와 플러그 앤 플레이 방식의 토크나이저 훈련 기법을 제시합니다. 11개의 고급 이산 이미지 토크나이저와 2개의 자기회귀 생성 모델을 사용한 광범위한 실험을 통해 제안된 방법의 효과를 검증하고, 제안된 방법으로 훈련된 토크나이저가 ~400M 크기의 생성 모델에서 CFG 사용 시 1.60 gFID, CFG 미사용 시 3.45 gFID의 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존 이미지 토크나이저 평가 지표의 한계를 극복하고, 토크나이저 성능과 생성 품질 간의 상관관계를 개선하는 새로운 평가 지표 pFID를 제시합니다.
◦
플러그 앤 플레이 방식의 새로운 토크나이저 훈련 기법을 제안하여, 토크나이저의 강건성을 향상시키고 생성 품질 및 수렴 속도를 높입니다.
◦
잠재 변동 기법을 통해 생성 과정에서 발생하는 예상치 못한 토큰 샘플링을 효과적으로 처리합니다.
•
한계점:
◦
제안된 방법의 효과는 특정 생성 모델과 토크나이저에 대해 검증되었으며, 다른 모델이나 토크나이저에 대한 일반화 가능성은 추가 연구가 필요합니다.
◦
잠재 변동 기법의 파라미터 설정에 대한 최적화 연구가 추가적으로 필요할 수 있습니다.
◦
~400M 크기의 생성 모델을 기준으로 실험을 진행하였으므로, 다른 크기의 모델에 대한 성능 분석이 추가적으로 필요합니다.