Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion

Created by
  • Haebom
Category
Empty

저자

Zhenghan Fang, Jian Zheng, Qiaozi Gao, Xiaofeng Gao, Jeremias Sulam

ProxT2I: Backward Discretization for Efficient Text-to-Image Generation

개요

본 논문은 프롬프트 조건부 생성 모델링 분야에서 널리 사용되는 확산 모델의 단점을 개선하고자, 후방 이산화를 기반으로 하는 새로운 텍스트-이미지(T2I) 확산 모델인 ProxT2I를 개발했습니다. ProxT2I는 점수 함수 대신 학습된 조건부 근사 연산자를 활용하며, 강화 학습과 정책 최적화를 통해 특정 작업에 맞는 샘플러를 최적화합니다. 또한, 1500만 개의 고품질 인간 이미지와 상세 캡션을 포함하는 대규모 공개 소스 데이터 세트 LAION-Face-T2I-15M을 개발하여 학습 및 평가에 사용했습니다. ProxT2I는 점수 기반 모델에 비해 샘플링 효율성과 인간 선호도 정렬을 향상시키고, 더 적은 컴퓨팅 자원과 작은 모델 크기로 기존 최첨단 및 오픈 소스 T2I 모델과 동등한 성능을 달성하여 가볍지만 효율적인 텍스트-이미지 생성 솔루션을 제공합니다.

시사점, 한계점

시사점:
후방 이산화를 기반으로 하는 새로운 T2I 모델 ProxT2I 개발.
학습된 조건부 근사 연산자 활용 및 강화 학습 기반 샘플러 최적화.
대규모 공개 소스 데이터 세트 LAION-Face-T2I-15M 개발.
기존 모델 대비 향상된 샘플링 효율성 및 인간 선호도 정렬.
낮은 컴퓨팅 자원 및 모델 크기로 동등한 성능 달성.
한계점:
논문 내에서 구체적인 한계점 언급 없음. (Abstract에서 확인되지 않음)
👍