# Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset

### 저자

Jakub W\k{a}sala, Bart{\l}omiej Wrzalski, Kornelia Noculak, Yuliia Tarasenko, Oliwer Krupa, Jan Kocon, Grzegorz Chodak

### 개요

본 연구는 확산 모델을 이용한 이미지 생성에서 비용 대비 품질 비율을 향상시키는 새로운 방법을 제시합니다.  경량화된 모델(예: FLUX.1-schnell)과 기준 모델(예: FLUX.1-dev) 간의 차이가 일관되고, 따라서 인물 사진 생성과 같은 특정 영역 내에서 학습 가능하다는 가설을 세웁니다.  합성 쌍 데이터셋을 생성하고 빠른 이미지-투-이미지 변환 헤드를 훈련시킵니다. 저품질 및 고품질 합성 이미지 두 세트를 사용하여, 모델은 경량화된 생성기(예: FLUX.1-schnell)의 출력을 연산 비용이 더 높은 기준 모델(예: FLUX.1-dev) 수준과 비슷하게 개선하도록 훈련됩니다.  결과는 경량화된 대규모 생성 모델과 향상 계층을 결합한 파이프라인이 기준 버전과 유사한 사실적인 인물 사진을 제공하며, FLUX.1-dev에 비해 최대 82%의 연산 비용 감소를 달성함을 보여줍니다. 본 연구는 대규모 이미지 생성을 포함하는 AI 솔루션의 효율성을 향상시킬 가능성을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 대규모 이미지 생성 모델의 경량화 버전을 사용하여 연산 비용을 크게 줄이면서도 비슷한 품질의 이미지를 생성할 수 있는 새로운 방법을 제시합니다.

    - 이미지-투-이미지 변환 헤드를 통해 경량화 모델의 출력을 고품질로 개선하는 효과적인 방법을 제시합니다.

    - 대규모 AI 모델의 효율성을 향상시키는 데 기여할 수 있습니다.

- **한계점:**

    - 현재는 인물 사진 생성에만 집중되어 있으며, 다른 영역으로의 일반화 가능성은 추가 연구가 필요합니다.

    - 합성 데이터셋을 사용하였으므로, 실제 데이터셋에 대한 성능은 추가 검증이 필요합니다.

    - 특정 모델 (FLUX) 에 대한 의존성이 존재합니다. 다른 모델에 대한 적용 가능성은 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2505.02255)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).