Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models

Created by

Haebom

저자

Yankai Yang, Yancheng Long, Hongyang Wei, Wei Chen, Tianke Zhang, Kaiyu Jiang, Haonan Fan, Changyi Liu, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang

💡 개요

기존 보상 모델은 복잡한 시각적 편집 작업에서 전역적 의미론적 일관성과 암묵적인 논리적 제약을 포착하는 데 어려움이 있었습니다. 본 논문은 이를 해결하기 위해 선호도 학습과 언어 모델링을 공유 비전-언어 백본에서 공동으로 최적화하는 Joint Reward Modeling (JRM)을 제안합니다. JRM은 생성 모델의 의미론적 및 추론 능력을 효율적인 판별적 표현으로 내재화하여 빠르고 정확한 평가를 가능하게 합니다.

🔑 시사점 및 한계

•

JRM은 효율성과 의미론적 이해라는 두 가지 측면을 모두 개선하여 시각적 보상 모델링 분야에서 상당한 발전을 이루었습니다.

•

공동 학습 방식은 특히 복잡한 시각적 편집과 같이 추론 능력이 중요한 작업에서 기존 접근 방식의 한계를 효과적으로 극복합니다.

•

이 연구는 downstream 온라인 강화 학습의 안정성과 성능을 크게 향상시켜 실제 적용 가능성을 보여줍니다.

•

JRM이 학습하는 내부 추론 과정의 해석 가능성이나 일반화 능력에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage