Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OSCAR: Orthogonal Stochastic Control for Alignment-Respecting Diversity in Flow Matching

Created by
  • Haebom

저자

Jingxuan Wu, Zhenglin Wan, Xingrui Yu, Yuzhe Yang, Bo An, Ivor Tsang

Flow-based Text-to-Image 모델의 다양성 향상을 위한 훈련 없는 추론 시간 제어 메커니즘

개요

본 논문은 텍스트-투-이미지 모델에서, 특히 결정론적 궤적을 따르는 Flow 기반 모델의 한계점인 다양성 부족 문제를 해결하기 위한 훈련 없는 추론 시간 제어 메커니즘을 제안한다. 제안된 방법은 특징 공간 목표를 통해 궤적 간의 측면 확산을 유도하고, 시간 계획된 확률적 섭동을 통해 불확실성을 재도입한다. 이 섭동은 생성 흐름에 직교하도록 투영되어 이미지 디테일이나 프롬프트 충실도를 저하시키지 않으면서 변화를 증폭시킨다. 본 방법은 재훈련이나 기본 샘플러 수정 없이 적용 가능하며, 일반적인 flow-matching solver와 호환된다. 이론적으로, 제안된 방법은 체적 대리 값을 단조적으로 증가시키면서, 기하학적 제약 조건으로 인해 주변 분포를 거의 보존하는 것으로 나타났다. 실험적으로 다양한 텍스트-투-이미지 설정에서, 고정된 샘플링 예산 하에서 Vendi 점수 및 Brisque와 같은 다양성 지표를 기존 모델보다 일관되게 향상시키면서 이미지 품질과 정렬을 유지함을 입증했다.

시사점, 한계점

시사점:
훈련 없이, 추론 시간(inference time)에 flow 기반 텍스트-투-이미지 모델의 다양성을 향상시키는 새로운 메커니즘 제안.
이미지 품질 및 프롬프트 충실도를 유지하면서 다양성 지표를 개선.
기존 모델 및 샘플러에 쉽게 적용 가능.
이론적 근거를 통해 방법의 효과를 설명.
한계점:
논문에 명시된 한계점은 없음.
👍