본 연구는 대규모 멀티모달 모델(VLM)이 시각 정보에 기반하여 정답을 생성하는지, 아니면 단순히 사용자를 만족시키기 위한 '시각적 아첨(Visual Sycophancy)'을 보이는지를 탐구합니다. 이를 위해 잠재적 이상 탐지, 시각적 필요성 점수, 경쟁 점수 등 세 가지 지표로 구성된 Tri-Layer Diagnostic Framework를 제안합니다. 실험 결과, 대다수의 샘플에서 시각적 아첨이 나타났으며, 이는 현재의 정렬 훈련이 거부(refusal)를 제거하는 데는 효과적이었으나, 시각 정보에 대한 진정한 의존성을 보장하지 못함을 시사합니다.