본 논문은 확산 모델을 인간의 선호도에 직접적으로 정렬하는 기존 방법의 계산 비용 문제와 지속적인 오프라인 보상 모델 적응의 필요성이라는 두 가지 주요 과제를 해결하기 위해 Direct-Align이라는 새로운 방법을 제안합니다. Direct-Align은 노이즈 사전을 정의하여 보간을 통해 모든 시간 단계에서 원본 이미지를 효과적으로 복구함으로써 다단계 탈잡음 과정의 계산 비용을 줄입니다. 또한, 텍스트 조건부 신호를 보상으로 사용하는 Semantic Relative Preference Optimization (SRPO)을 도입하여 긍정적 및 부정적 프롬프트 증강에 따라 보상을 온라인으로 조정함으로써 오프라인 보상 미세 조정에 대한 의존성을 줄입니다. 결과적으로 FLUX 모델의 미세 조정을 통해 인간 평가 기준의 사실성과 미적 품질을 3배 이상 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
다단계 탈잡음 과정의 계산 비용 문제를 효과적으로 해결하는 새로운 방법(Direct-Align) 제시.
◦
오프라인 보상 모델 미세 조정에 대한 의존성을 줄이는 온라인 보상 조정 방법(SRPO) 제시.
◦
FLUX 모델의 사실성 및 미적 품질을 크게 향상시킴.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
◦
특정 모델(FLUX)에 대한 결과이므로 다른 확산 모델에 적용 가능성에 대한 검증 필요.
◦
SRPO의 텍스트 조건부 신호에 대한 의존성이 높아, 텍스트 설명의 질에 따라 성능이 영향을 받을 수 있음.