ConceptLens는 사전 훈련된 다중 모달 모델을 활용하여 개념 변화(Concept Shift)를 분석함으로써 AI 시스템의 신뢰성 위협(무결성, 프라이버시, 강건성, 편향)의 근본 원인을 식별하는 일반적인 프레임워크입니다. Vanilla 데이터 포이즈닝 공격 탐지, 악의적인 개념 변화를 통한 은밀한 광고 생성과 같은 편향 주입 취약성 탐지, 변경되지 않았지만 위험이 높은 샘플의 프라이버시 위험 식별 및 필터링, 불완전하거나 불균형적인 훈련 데이터로 인한 모델 약점에 대한 통찰력 제공, 모델의 과도한 의존 개념 식별 및 오해의 소지가 있는 개념 식별, 주요 개념의 방해가 모델에 미치는 부정적 영향 설명, 생성 콘텐츠의 사회적 편향 밝힘 등의 기능을 제공합니다. 또한 안전한 훈련 및 추론 데이터가 의도치 않게 쉽게 악용될 수 있음을 보여주어 안전 정렬(safety alignment)을 저해할 수 있음을 밝힙니다. 궁극적으로 AI 시스템에 대한 신뢰를 높여 채택을 가속화하고 혁신을 촉진하는 데 기여합니다.