Sign In

ROCM: RLHF on consistency models

Created by
  • Haebom
Category
Empty

저자

Shivanshu Shekhar, Tong Zhang

개요

확산 모델은 이미지, 오디오, 비디오 합성과 같은 연속 영역에서 생성 모델링에 혁신을 가져왔지만, 반복적인 샘플링 과정으로 인해 생성 속도가 느리고 훈련이 비효율적입니다. 특히 인간 피드백으로부터 강화 학습(RLHF)을 통합할 경우 희소 보상과 긴 시간 지평선으로 인해 이러한 문제가 더욱 악화됩니다. 본 논문에서는 일관성 모델에 RLHF를 적용하기 위한 직접 보상 최적화 프레임워크를 제안합니다. 분포 규제를 통합하여 훈련 안정성을 높이고 보상 해킹을 방지하며, 다양한 f-다이버전스를 규제 전략으로 활용하여 보상 극대화와 모델 일관성 간의 균형을 맞춥니다. 정책 경사 방법과 달리 1차 경사를 활용하여 효율성을 높이고 하이퍼파라미터 튜닝에 대한 민감도를 낮춥니다. 실험 결과, 다양한 자동 평가 지표와 인간 평가에서 정책 경사 기반 RLHF 방법과 비교하여 경쟁력 있는 또는 우수한 성능을 달성함을 보여줍니다. 또한, 다양한 규제 기법이 모델 일반화 향상 및 과적합 방지에 미치는 영향을 분석합니다.

시사점, 한계점

시사점:
RLHF를 일관성 모델에 효율적으로 적용하는 직접 보상 최적화 프레임워크 제시
분포 규제를 통한 훈련 안정성 향상 및 보상 해킹 방지
정책 경사 방법보다 효율적이고 하이퍼파라미터 튜닝에 덜 민감
자동 평가 지표 및 인간 평가에서 경쟁력 있는 또는 우수한 성능 달성
다양한 규제 기법의 효과 분석을 통해 모델 일반화 및 과적합 방지에 대한 통찰력 제공
한계점:
제시된 프레임워크의 일반화 성능에 대한 추가적인 연구 필요
다양한 유형의 일관성 모델 및 RLHF 설정에 대한 적용성 평가 필요
특정 규제 기법의 선택에 대한 최적화 방안 연구 필요
👍