Listener-Rewarded Thinking in VLMs for Image Preferences

Created by

Haebom

저자

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets

💡 개요

이 논문은 텍스트-이미지 생성 모델이 인간의 의도에 부합하도록 하기 위해 시각적 선호도를 학습하는 보상 모델의 일반화 성능 부족 문제를 해결하고자 합니다. 기존 강화학습 방법론(GRPO)에서 발견된 추론 과정에서의 오류를 개선하기 위해, '리스너'라고 불리는 독립적인 비전-언어 모델이 추론 과정을 재평가하여 보상 신호를 조정하는 새로운 리스너 강화 학습 프레임워크를 제안합니다. 이 방법은 추론의 정확성뿐만 아니라 독립적인 모델에게 설득력 있는 설명을 생성하도록 장려하며, 이미지 선호도 벤치마크 및 대규모 인간 선호도 데이터셋에서 뛰어난 성능 향상을 보여주었습니다.

🔑 시사점 및 한계

•

데이터 효율적인 학습: 리스너 기반 보상 방식은 복잡한 주석 파이프라인 없이도 데이터 효율적으로 비전-언어 모델을 미묘한 인간 선호도에 맞출 수 있는 확장 가능한 경로를 제공합니다.

•

추론 정확도 및 설명의 신뢰성 향상: 모델이 단순히 올바르게 응답하는 것을 넘어, 독립적인 모델이 설득력 있다고 판단할 수 있는 설명을 생성하도록 유도하여 추론의 정확성과 신뢰도를 높입니다.

•

한계점: 리스너 모델 자체의 성능이나 편향이 최종 보상 모델에 영향을 미칠 수 있으며, 리스너 모델의 재평가 과정이 계산적으로 더 많은 자원을 요구할 수 있습니다.

PDF 보기

Made with Slashpage