Sign In

Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning

Created by
  • Haebom
Category
Empty

저자

Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji

개요

본 논문은 Stable Diffusion(SD)의 미세 조정을 통한 제어 가능한 이미지 생성을 개선하기 위해, 인간 피드백으로부터의 강화 학습 방법을 제시합니다. 기존 방법들이 사전 정의된 보상 함수나 대규모 데이터셋 기반의 사전 훈련된 보상 모델에 의존하는 것과 달리, HERO는 모델 학습 중 실시간으로 수집된 인간 피드백을 활용합니다. HERO는 인간 피드백을 포착하고 미세 조정을 위한 정보가 풍부한 학습 신호를 제공하는 '피드백 정렬 표현 학습(Feedback-Aligned Representation Learning)'과 SD의 개선된 초기 샘플로부터 이미지를 생성하여 평가자의 의도에 더 빠르게 수렴하도록 하는 '피드백 유도 이미지 생성(Feedback-Guided Image Generation)'이라는 두 가지 주요 메커니즘을 특징으로 합니다. 실험 결과, HERO는 기존 최고 성능 방법보다 4배 더 효율적인 온라인 피드백을 통해 신체 부위 이상 수정을 수행하고, 단 0.5K의 온라인 피드백만으로 추론, 계산, 개인화, NSFW 콘텐츠 감소와 같은 작업을 효과적으로 처리할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
제한된 인간 피드백으로도 효과적인 Stable Diffusion 미세 조정이 가능함을 보여줌.
실시간 피드백을 활용하여 모델 학습의 효율성을 크게 향상시킴 (기존 대비 4배 효율 증가).
다양한 작업 (신체 부위 이상 수정, 추론, 계산, 개인화, NSFW 콘텐츠 감소 등)에 적용 가능성을 입증.
대규모 데이터셋 수집 없이도 고품질 이미지 생성 모델을 학습할 수 있는 가능성 제시.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
다양한 종류의 인간 피드백에 대한 로버스트성 평가가 부족.
온라인 피드백 수집 과정의 비용 및 시간 효율성에 대한 심층적인 분석 필요.
특정 작업에 대한 성능 평가에 치우쳐, 다른 작업으로의 일반화 가능성에 대한 추가 연구가 필요.
👍