Sign In

SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner

Created by
  • Haebom
Category
Empty

저자

Kejia Chen, Jiawen Zhang, Jiacong Hu, Jiazhen Yang, Jian Lou, Zunlei Feng, Mingli Song

개요

본 논문은 대규모 시각 언어 모델(LVLM)의 신뢰성을 보장하기 위한 기존의 선호도 정렬 방식의 한계점(제한된 다양성과 높은 인건비)을 해결하기 위해, 자기 지도 학습 기반의 새로운 선호도 정렬 프레임워크인 SHAPE를 제시합니다. SHAPE는 기존의 풍부한 감독 학습 텍스트-이미지 쌍을 활용하여 인간의 선호도 주석 없이도 효과적이고 저렴하게 LVLM의 정렬 성능을 향상시킵니다. 이를 위해, 시각적 증강을 통해 생성된 여러 이미지와 요약된 텍스트를 '이기는 응답'으로, 원본 텍스트를 '지는 응답'으로 설정하여 선호도 삼중항을 생성합니다. 12개의 다양한 벤치마크와 모델 아키텍처(LLaVA, DeepSeek-VL 등)에서의 실험 결과, SHAPE는 기존 방식 대비 MMVet에서 +11.3%, MMBench에서 +1.4%, POPE에서 +8.0%의 성능 향상을 보였으며, 시각적 세부 사항에 대한 주의력 향상과 인간의 선호도와의 정렬 개선을 보여주었습니다.

시사점, 한계점

시사점:
기존의 고비용, 저다양성 문제를 해결하는 효과적이고 저렴한 LVLM 선호도 정렬 방법 제시.
자기 지도 학습을 통해 모델의 반복적인 자기 개선 가능.
다양한 벤치마크와 모델에서의 성능 향상을 실험적으로 검증.
시각적 세부 사항에 대한 주의력 향상 및 인간 선호도와의 정렬 개선 확인.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 시각적 데이터에 대한 성능 평가 추가 필요.
자기 지도 학습 과정에서 발생할 수 있는 편향 문제에 대한 고려 필요.
👍