본 연구는 텍스트-이미지 생성 모델에서 텍스트 임베딩을 시각적 표현으로 변환하는 사전 학습된 확산 사전 네트워크의 필요성에 의문을 제기합니다. 대신, 훈련이 필요 없는 Optimization-based Visual Inversion (OVI)를 사용하여 무작위 가짜 토큰에서 잠재 시각적 표현을 초기화하고 텍스트 프롬프트 임베딩과의 코사인 유사성을 최대화하도록 반복적으로 최적화합니다. 또한, 현실적인 이미지 분포를 향해 OVI 최적화 과정을 정규화하기 위해 Mahalanobis 기반 손실과 Nearest-Neighbor 손실을 제안합니다. 실험 결과는 OVI가 전통적인 사전의 대안으로 사용될 수 있음을 보여주며, 기존 평가 벤치마크의 문제점을 지적합니다. 특히, 제안된 Nearest-Neighbor 기반 OVI는 데이터 효율적인 최첨단 사전과 동등하거나 더 높은 정량적 점수를 달성했습니다.