딥러닝 모델의 해석 가능성 문제를 해결하기 위해, 모델의 예측 방식을 설명하는 대신 데이터 자체를 이해하는 새로운 접근 방식을 제안합니다. 언어를 활용하여 데이터를 설명하는 텍스트 설명을 생성하는 파이프라인을 구축하고, 외부 지식 기반을 통합합니다. 생성된 설명의 관련성을 높이기 위해 영향력 추정 및 CLIP 점수를 활용하며, 교차 모달 전이 가능성 현상을 기반으로 한 새로운 벤치마크 작업(cross-modal transfer classification)을 제시합니다. 제로샷 설정 실험에서 제안된 텍스트 설명이 다른 기준선 설명보다 효과적임을 보였고, 이미지 데이터만으로 훈련된 모델의 성능을 향상시켰습니다. GPT-4o를 사용한 평가를 통해 결과를 검증했습니다.