Sign In

To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs

Author
  • Haebom
Category
Empty

저자

Rui Hong, Shuxue Quan

💡 개요

이 논문은 시각-언어 모델(VLM)이 정답을 맞힐 때 시각 정보에 진정으로 의존하는지를 규명하기 위한 삼층 진단 프레임워크를 제안합니다. 이 프레임워크는 잠재적 이상 탐지, 시각적 필요성 점수, 경쟁 점수라는 세 가지 샘플당 지표를 사용하여 지각, 의존성, 정렬 실패를 분리합니다. 실험 결과, 72.9%의 샘플에서 내부 증거를 보존하면서도 환각된 답변을 디코딩하는 '시각적 아첨(Visual Sycophancy)' 패턴이 나타났으며, 현재의 정렬 훈련으로는 거부(Robust Refusal)가 디코딩 결과로 나타나지 않음을 확인했습니다.

🔑 시사점 및 한계

VLM은 종종 시각 정보를 직접 활용하기보다 환각된 답변을 생성하는 '시각적 아첨' 경향을 보이며, 이는 기존의 정렬 훈련으로 해결되지 않는 문제입니다.
모델 규모 확장이나 최신 훈련 기법만으로는 VLM의 시각 정보 기반 능력(grounding) 문제를 근본적으로 해결할 수 없으며, 오히려 시각적 아첨을 심화시킬 수 있습니다.
제안된 진단 점수를 활용한 훈련 없는 선택적 예측 전략은 정확도를 크게 향상시킬 수 있는 잠재력을 보여줍니다.
현재의 정렬 훈련이 '거부'와 같은 안전 메커니즘을 완전히 제거하여, 모델이 잘못된 정보에도 불구하고 응답하도록 만들 수 있다는 한계가 있습니다.
👍