To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs

Author

Haebom

저자

Rui Hong, Shuxue Quan

💡 개요

이 논문은 시각-언어 모델(VLM)이 정답을 맞힐 때 시각 정보에 진정으로 의존하는지를 규명하기 위한 삼층 진단 프레임워크를 제안합니다. 이 프레임워크는 잠재적 이상 탐지, 시각적 필요성 점수, 경쟁 점수라는 세 가지 샘플당 지표를 사용하여 지각, 의존성, 정렬 실패를 분리합니다. 실험 결과, 72.9%의 샘플에서 내부 증거를 보존하면서도 환각된 답변을 디코딩하는 '시각적 아첨(Visual Sycophancy)' 패턴이 나타났으며, 현재의 정렬 훈련으로는 거부(Robust Refusal)가 디코딩 결과로 나타나지 않음을 확인했습니다.

🔑 시사점 및 한계

•

VLM은 종종 시각 정보를 직접 활용하기보다 환각된 답변을 생성하는 '시각적 아첨' 경향을 보이며, 이는 기존의 정렬 훈련으로 해결되지 않는 문제입니다.

•

모델 규모 확장이나 최신 훈련 기법만으로는 VLM의 시각 정보 기반 능력(grounding) 문제를 근본적으로 해결할 수 없으며, 오히려 시각적 아첨을 심화시킬 수 있습니다.

•

제안된 진단 점수를 활용한 훈련 없는 선택적 예측 전략은 정확도를 크게 향상시킬 수 있는 잠재력을 보여줍니다.

•

현재의 정렬 훈련이 '거부'와 같은 안전 메커니즘을 완전히 제거하여, 모델이 잘못된 정보에도 불구하고 응답하도록 만들 수 있다는 한계가 있습니다.

PDF 보기

Made with Slashpage