Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset
Created by
Haebom
저자
Jakub Wasala, Bartlomiej Wrzalski, Kornelia Noculak, Yuliia Tarasenko, Oliwer Krupa, Jan Kocon, Grzegorz Chodak
개요
본 연구는 확산 모델을 이용한 이미지 생성에서 비용 대비 품질 비율을 높이는 새로운 방법을 제시합니다. 경량화된 모델(예: FLUX.1-schnell)과 기준 모델(예: FLUX.1-dev) 간의 차이가 일관되고, 따라서 인물 사진 생성과 같은 특정 영역 내에서 학습 가능하다는 가설을 세웠습니다. 합성 쌍 데이터셋을 생성하고 빠른 이미지-이미지 변환 헤드를 학습시켰습니다. 저품질 및 고품질의 두 가지 합성 이미지 세트를 사용하여, 경량화된 생성기(예: FLUX.1-schnell)의 출력을 계산 비용이 더 많이 드는 기준 모델(예: FLUX.1-dev) 수준으로 개선하도록 모델을 학습시켰습니다. 결과적으로, 경량화된 대규모 생성 모델과 향상 레이어를 결합한 파이프라인은 기준 버전과 유사한 사실적인 인물 사진을 제공하며, FLUX.1-dev에 비해 최대 82%의 계산 비용 감소를 달성했습니다. 이 연구는 대규모 이미지 생성을 포함하는 AI 솔루션의 효율성을 향상시킬 수 있는 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 이미지 생성 모델의 계산 비용을 크게 줄이면서 유사한 수준의 이미지 품질을 유지할 수 있는 새로운 방법을 제시합니다.
◦
경량화된 모델과 기준 모델 간의 차이를 학습하여 이미지 품질을 향상시키는 접근 방식의 효과성을 입증합니다.
◦
다양한 AI 애플리케이션에서 대규모 이미지 생성의 효율성을 향상시킬 수 있는 잠재력을 보여줍니다.
•
한계점:
◦
현재는 인물 사진 생성에만 초점을 맞추고 있으며, 다른 영역으로의 일반화 가능성에 대한 추가 연구가 필요합니다.
◦
합성 데이터셋을 사용했기 때문에, 실제 데이터에 대한 일반화 성능을 평가하는 추가 연구가 필요합니다.