ConceptLens là một khuôn khổ chung xác định nguyên nhân gốc rễ của các mối đe dọa về độ tin cậy (tính toàn vẹn, quyền riêng tư, tính mạnh mẽ và sự thiên vị) trong các hệ thống AI bằng cách phân tích các thay đổi khái niệm bằng các mô hình đa phương thức được đào tạo trước. Nó cung cấp các khả năng như phát hiện các cuộc tấn công đầu độc dữ liệu hiện có, phát hiện các lỗ hổng tiêm nhiễm thiên vị như tạo quảng cáo bí mật thông qua các thay đổi khái niệm độc hại, xác định rủi ro quyền riêng tư trong các mẫu chưa sửa đổi nhưng có rủi ro cao và lọc chúng trước khi đào tạo, đồng thời cung cấp thông tin chi tiết về điểm yếu của mô hình do dữ liệu đào tạo không đầy đủ hoặc mất cân bằng. Nó cũng xác định các khái niệm mà các mô hình phụ thuộc quá mức ở cấp độ mô hình, xác định các khái niệm gây hiểu lầm và giải thích tác động tiêu cực của sự gián đoạn khái niệm chính đối với mô hình. Hơn nữa, nó tiết lộ sự thiên vị xã hội trong nội dung được tạo ra và cho thấy sự mất cân bằng dựa trên bối cảnh xã hội. Đáng ngạc nhiên, nó cho thấy dữ liệu đào tạo và suy luận an toàn có thể dễ dàng bị khai thác một cách vô ý, do đó làm suy yếu sự liên kết an toàn. Nghiên cứu này cung cấp những hiểu biết có thể hành động để tăng cường niềm tin vào các hệ thống AI, đẩy nhanh việc áp dụng và thúc đẩy đổi mới.