CLIP을 이용한 디코더 없이 이미지 합성이 가능하다는 연구 결과를 제시합니다. 주파수 인식 암시적 신경 표현을 최적화하여 계층 간 주파수를 계층화함으로써 거친 것에서 세밀한 것으로 이미지 생성을 유도합니다. 역 매핑을 안정화하기 위해 적대적 강건한 초기화, 지역 텍스트와 이미지 임베딩을 정렬하는 경량 직교 프로크루스테스 투영, 그리고 자연 이미지 통계에 출력을 고정하는 혼합 손실을 도입합니다. CLIP의 가중치를 변경하지 않고도 텍스트-이미지 생성, 스타일 전이, 이미지 재구성과 같은 기능을 구현합니다. 이는 판별 모델이 숨겨진 생성 잠재력을 가지고 있음을 시사합니다.