본 논문은 텍스트-이미지 생성에서 확산 모델의 효율성을 높이기 위한 Time Prediction Diffusion Model (TPDM)을 제안합니다. 기존 확산 모델들은 모든 프롬프트에 대해 미리 정해진 잡음 제거 일정(denoising schedule)을 사용하는 반면, TPDM은 Time Prediction Module (TPM)을 활용하여 각 잡음 제거 단계에서 다음 잡음 레벨을 예측합니다. 강화 학습을 통해 최적의 잡음 제거 일정을 학습하는 TPM은 이미지 품질을 높이고 잡음 제거 단계 수를 줄여 효율성을 향상시킵니다. 실험 결과, Stable Diffusion 3 Medium 아키텍처를 기반으로 TPDM은 기존 모델보다 약 50% 적은 잡음 제거 단계로 더 높은 미적 점수(5.44)와 사용자 선호도 점수(29.59)를 달성했습니다.
시사점, 한계점
•
시사점:
◦
텍스트-이미지 생성에서 확산 모델의 효율성을 크게 향상시킬 수 있음.
◦
적응적인 잡음 제거 일정을 통해 이미지 품질과 생성 속도를 동시에 개선할 수 있음.
◦
강화 학습 기반의 TPM은 다양한 확산 모델에 적용 가능한 plug-and-play 모듈임.
•
한계점:
◦
TPM의 학습에 강화 학습이 필요하여 계산 비용이 증가할 수 있음.
◦
제시된 실험 결과가 특정 아키텍처(Stable Diffusion 3 Medium)에 국한되어 일반화 가능성에 대한 추가 연구가 필요함.
◦
TPM의 성능은 강화 학습의 보상 함수 설계에 크게 의존하므로, 보상 함수의 최적화가 중요함.