본 논문은 프롬프트 조건부 생성 모델링 분야에서 널리 사용되는 확산 모델의 단점을 개선하고자, 후방 이산화를 기반으로 하는 새로운 텍스트-이미지(T2I) 확산 모델인 ProxT2I를 개발했습니다. ProxT2I는 점수 함수 대신 학습된 조건부 근사 연산자를 활용하며, 강화 학습과 정책 최적화를 통해 특정 작업에 맞는 샘플러를 최적화합니다. 또한, 1500만 개의 고품질 인간 이미지와 상세 캡션을 포함하는 대규모 공개 소스 데이터 세트 LAION-Face-T2I-15M을 개발하여 학습 및 평가에 사용했습니다. ProxT2I는 점수 기반 모델에 비해 샘플링 효율성과 인간 선호도 정렬을 향상시키고, 더 적은 컴퓨팅 자원과 작은 모델 크기로 기존 최첨단 및 오픈 소스 T2I 모델과 동등한 성능을 달성하여 가볍지만 효율적인 텍스트-이미지 생성 솔루션을 제공합니다.