CLIP을 이용한 디코더 없이 이미지 합성이 가능함을 보이는 연구입니다. 주파수 인식 암묵적 신경 표현을 최적화하여 계층별 주파수 분할을 통해 거친 것에서 세부적인 것으로 생성을 유도합니다. 역 매핑 안정화를 위해 적대적 강건성 초기화, 지역 텍스트 및 이미지 임베딩 정렬을 위한 경량 직교 프로크루스테스 투영, 자연 이미지 통계에 출력을 고정하는 혼합 손실을 도입했습니다. CLIP의 가중치를 변경하지 않고 텍스트-이미지 생성, 스타일 전이, 이미지 재구성과 같은 기능을 가능하게 합니다. 이는 판별 모델이 숨겨진 생성 잠재력을 가지고 있음을 시사합니다.