尽管视觉语言模型 (VLM) 正逐渐融入临床工作流程,但它们往往表现出奉承行为,这些行为优先考虑与用户措辞、社交线索或感知权威的一致性,而非基于证据的推理。本研究使用一种新的基于临床的基准来评估医学视觉问答中的临床奉承行为。我们提出了一个基于 PathVQA、SLAKE 和 VQA-RAD 构建的、按不同器官系统和模态分层的医学奉承数据集。我们使用了包含各种奉承行为的心理驱动压力模板。在针对各种 VLM 的对抗实验中,这些模型通常存在漏洞,在对抗性响应的生成方面表现出显著的差异性,且与模型准确率或规模的相关性较弱。模仿和专家提供的纠正被发现是最有效的触发因素,这表明存在与视觉证据无关的偏见机制。为了解决这个问题,我们提出了基于证据的响应的视觉信息净化 (VIPER)。 VIPER 是一种轻量级的缓解策略,它可以过滤掉非证据性内容(例如社会压力),然后生成有限的、证据优先的答案。该框架在保持可解释性的同时,平均减少了奉承行为,从而优于基线。该基准分析和缓解框架为在现实世界的临床互动中稳健部署医疗 VLM 奠定了基础,并强调了基于证据的防御的必要性。