Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning

Created by
  • Haebom
Category
Empty

저자

Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji

개요

HERO는 안정적 확산(SD) 미세 조정을 통한 제어 가능한 생성을 향상시키기 위해 인간 피드백으로부터의 온라인 강화 학습 프레임워크입니다. 기존 방법들이 사전 정의된 보상 함수나 대규모 데이터셋에 기반한 사전 훈련된 보상 모델에 의존하는 것과 달리, HERO는 모델 학습 중 실시간으로 수집된 인간 피드백을 활용합니다. 핵심 메커니즘으로 피드백 정렬 표현 학습(온라인 훈련 방법으로 인간 피드백을 포착하고 미세 조정을 위한 정보 학습 신호 제공)과 피드백 유도 이미지 생성(SD의 개선된 초기화 샘플로부터 이미지 생성, 평가자 의도에 대한 더 빠른 수렴 가능)을 사용합니다. 신체 부위 이상 수정 작업에서 기존 최고 방법보다 4배 더 효율적인 온라인 피드백을 보였으며, 추론, 계산, 개인화, NSFW 콘텐츠 감소 등의 작업도 0.5K의 온라인 피드백만으로 효과적으로 처리할 수 있음을 실험을 통해 보여줍니다.

시사점, 한계점

시사점:
온라인 인간 피드백을 효율적으로 활용하여 안정적 확산 모델의 제어 가능성 및 정확도를 향상시키는 새로운 프레임워크 제시.
기존 방법보다 훨씬 적은 인간 피드백으로 다양한 작업 수행 가능 (예: 신체 부위 이상 수정, 추론, 계산, 개인화, NSFW 콘텐츠 감소).
피드백 정렬 표현 학습 및 피드백 유도 이미지 생성 메커니즘을 통해 빠른 수렴 및 효율적인 학습 달성.
공개된 코드와 프로젝트 페이지를 통해 접근성 향상.
한계점:
온라인 피드백에 대한 의존도가 높아, 피드백의 질에 따라 성능이 크게 영향받을 수 있음.
다양한 작업에 대한 일반화 성능에 대한 추가적인 연구 필요.
제공된 온라인 피드백의 양이 제한적이라 대규모 데이터셋에 대한 일반화 성능 검증이 부족할 수 있음.
인간 피드백 수집 과정의 비용 및 시간 소모에 대한 고려 필요.
👍