Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mieux vaut prévenir que guérir ? Problème de réaction excessive des modèles de langage visuel dans la reconnaissance visuelle des urgences.

Created by
  • Haebom

Auteur

Dasol Choi, Seunghyun Lee, Youngsook Song

Contour

Dans cet article, nous présentons un nouvel ensemble de données de référence, le Visual Emergency Recognition Dataset (VERI), afin d'évaluer la fiabilité des modèles vision-langage (VLM) dans des scénarios de la vie quotidienne critiques pour la sécurité. VERI contient 200 images, chacune étant associée à une image visuellement similaire mais sûre. Nous évaluons 14 VLM (avec des paramètres allant de 2B à 124B) à l'aide d'un protocole d'évaluation en deux étapes (identification des dangers et intervention d'urgence) couvrant les urgences médicales, les accidents et les catastrophes naturelles. Nous constatons que si les modèles identifient avec précision les véritables urgences (taux de réussite de 70 à 100 %), ils présentent également un taux élevé de faux positifs, ce qui constitue un « problème de surréaction ». Le taux de classification erronée de scénarios sûrs comme scénarios dangereux varie de 31 à 96 %, et 10 scénarios sûrs sont systématiquement mal classés par tous les modèles, quelle que soit leur taille. Ce biais de « meilleure sécurité » est principalement dû à une surinterprétation de la situation (erreur de 88 à 93 %), ce qui soulève des inquiétudes quant à la fiabilité des VLM dans les applications critiques pour la sécurité. En conclusion, cette étude souligne la nécessité de stratégies pour améliorer l'inférence de situation dans les situations visuelles ambiguës.

Takeaways, Limitations

Takeaways:
Cela met en évidence les graves problèmes de fiabilité des VLM dans les applications critiques pour la sécurité.
Identifier le « problème de surréaction » des VLM et leur tendance à surinterpréter les situations.
Souligne l’importance d’améliorer les capacités de raisonnement situationnel dans des situations visuelles ambiguës.
Nous démontrons que l’ensemble de données VERI est un outil efficace pour diagnostiquer les performances du VLM.
Limitations:
L'ensemble de données VERI est relativement petit (200 images).
Les types de VLM utilisés dans l’évaluation peuvent être limités.
Il se peut qu’il y ait un manque d’analyse approfondie des causes profondes du « problème de réaction excessive ».
👍