본 논문은 Stable Diffusion(SD)의 미세 조정을 통한 제어 가능한 이미지 생성을 개선하기 위해, 인간 피드백으로부터의 강화 학습 방법을 제시합니다. 기존 방법들이 사전 정의된 보상 함수나 대규모 데이터셋 기반의 사전 훈련된 보상 모델에 의존하는 것과 달리, HERO는 모델 학습 중 실시간으로 수집된 인간 피드백을 활용합니다. HERO는 인간 피드백을 포착하고 미세 조정을 위한 정보가 풍부한 학습 신호를 제공하는 '피드백 정렬 표현 학습(Feedback-Aligned Representation Learning)'과 SD의 개선된 초기 샘플로부터 이미지를 생성하여 평가자의 의도에 더 빠르게 수렴하도록 하는 '피드백 유도 이미지 생성(Feedback-Guided Image Generation)'이라는 두 가지 주요 메커니즘을 특징으로 합니다. 실험 결과, HERO는 기존 최고 성능 방법보다 4배 더 효율적인 온라인 피드백을 통해 신체 부위 이상 수정을 수행하고, 단 0.5K의 온라인 피드백만으로 추론, 계산, 개인화, NSFW 콘텐츠 감소와 같은 작업을 효과적으로 처리할 수 있음을 보여줍니다.