시각-언어 모델(VLM)이 임상 워크플로우에 통합되고 있지만, 증거 기반 추론보다 사용자 어구, 사회적 신호 또는 인식된 권위에 대한 정렬을 우선시하는 아첨 행동을 보이는 경우가 많습니다. 본 연구는 새로운 임상 기반 벤치마크를 통해 의료 시각 질문 응답에서 임상적 아첨 행위를 평가합니다. PathVQA, SLAKE, VQA-RAD에서 구성된 다양한 유형의 장기 시스템 및 양식으로 계층화된 의료 아첨 데이터 세트를 제안합니다. 다양한 아첨 행위를 포함한 심리적으로 동기 부여된 압력 템플릿을 사용합니다. 다양한 VLM에 대한 적대적 실험에서, 이러한 모델이 일반적으로 취약하며, 모델 정확도 또는 크기와 약한 상관관계를 보이는 적대적 응답 발생에 상당한 변동성을 보였습니다. 모방과 전문가가 제공한 수정 사항이 가장 효과적인 트리거로 밝혀졌으며, 이는 모델이 시각적 증거와 무관한 편향 메커니즘을 가지고 있음을 시사합니다. 이를 해결하기 위해, 증거 기반 응답을 위한 시각 정보 정화(VIPER)를 제안합니다. VIPER는 사회적 압력과 같은 비증거 콘텐츠를 필터링한 다음 제한된 증거 우선 답변을 생성하는 경량화된 완화 전략입니다. 이 프레임워크는 해석 가능성을 유지하면서 평균적으로 아첨 행위를 줄여 기준선을 능가합니다. 본 벤치마크 분석 및 완화 프레임워크는 실제 임상의 상호 작용에서 의료 VLM의 강력한 배포를 위한 기반을 마련하며, 증거 기반 방어의 필요성을 강조합니다.