본 논문은 대규모 시각 언어 모델(LVLM)의 신뢰성을 보장하기 위한 기존의 선호도 정렬 방식의 한계점(제한된 다양성과 높은 인건비)을 해결하기 위해, 자기 지도 학습 기반의 새로운 선호도 정렬 프레임워크인 SHAPE를 제시합니다. SHAPE는 기존의 풍부한 감독 학습 텍스트-이미지 쌍을 활용하여 인간의 선호도 주석 없이도 효과적이고 저렴하게 LVLM의 정렬 성능을 향상시킵니다. 이를 위해, 시각적 증강을 통해 생성된 여러 이미지와 요약된 텍스트를 '이기는 응답'으로, 원본 텍스트를 '지는 응답'으로 설정하여 선호도 삼중항을 생성합니다. 12개의 다양한 벤치마크와 모델 아키텍처(LLaVA, DeepSeek-VL 등)에서의 실험 결과, SHAPE는 기존 방식 대비 MMVet에서 +11.3%, MMBench에서 +1.4%, POPE에서 +8.0%의 성능 향상을 보였으며, 시각적 세부 사항에 대한 주의력 향상과 인간의 선호도와의 정렬 개선을 보여주었습니다.