Dans cet article, nous présentons un nouvel ensemble de données de référence, le Visual Emergency Recognition Dataset (VERI), afin d'évaluer la fiabilité des modèles vision-langage (VLM) dans des scénarios de la vie quotidienne critiques pour la sécurité. VERI contient 200 images, chacune étant associée à une image visuellement similaire mais sûre. Nous évaluons 14 VLM (avec des paramètres allant de 2B à 124B) à l'aide d'un protocole d'évaluation en deux étapes (identification des dangers et intervention d'urgence) couvrant les urgences médicales, les accidents et les catastrophes naturelles. Nous constatons que si les modèles identifient avec précision les véritables urgences (taux de réussite de 70 à 100 %), ils présentent également un taux élevé de faux positifs, ce qui constitue un « problème de surréaction ». Le taux de classification erronée de scénarios sûrs comme scénarios dangereux varie de 31 à 96 %, et 10 scénarios sûrs sont systématiquement mal classés par tous les modèles, quelle que soit leur taille. Ce biais de « meilleure sécurité » est principalement dû à une surinterprétation de la situation (erreur de 88 à 93 %), ce qui soulève des inquiétudes quant à la fiabilité des VLM dans les applications critiques pour la sécurité. En conclusion, cette étude souligne la nécessité de stratégies pour améliorer l'inférence de situation dans les situations visuelles ambiguës.