ConceptLens est un cadre général qui identifie les causes profondes des menaces pesant sur la fiabilité (intégrité, confidentialité, robustesse et biais) des systèmes d'IA en analysant les changements de concepts à l'aide de modèles multimodaux pré-entraînés. Il offre des fonctionnalités telles que la détection des attaques par empoisonnement de données existantes, la découverte de vulnérabilités par injection de biais, telles que la génération de publicités dissimulées par des changements de concepts malveillants, l'identification des risques pour la confidentialité dans des échantillons non modifiés mais à haut risque et leur filtrage avant l'entraînement, et la mise en évidence des faiblesses des modèles dues à des données d'entraînement incomplètes ou déséquilibrées. Il identifie également les concepts sur lesquels les modèles s'appuient excessivement, identifie les concepts trompeurs et explique l'impact négatif de la perturbation de concepts clés sur le modèle. De plus, il révèle des biais sociaux dans le contenu généré et met en évidence les déséquilibres liés au contexte social. Étonnamment, il montre que des données d'entraînement et d'inférence sûres peuvent être facilement exploitées involontairement, compromettant ainsi l'alignement de la sécurité. Cette recherche fournit des informations exploitables pour renforcer la confiance dans les systèmes d'IA, accélérer l'adoption et favoriser l'innovation.