본 논문은 Vision Transformer(ViT)에서 심볼릭 규칙을 추출하는 새로운 프레임워크를 제안합니다. Sparse Autoencoders(SAEs)에서 영감을 받은 sparse concept layer를 도입하여 어텐션 가중치가 적용된 패치 표현을 사용하여 개념을 분리하고 이진화된 표현을 학습합니다. L1 sparsity, entropy minimization, 그리고 supervised contrastive loss를 활용하여 해석 가능성을 높이고, 이진화된 개념 활성화는 FOLD-SE-M 알고리즘을 통해 논리 프로그램 형태의 규칙 집합으로 변환됩니다. 기존 ViT보다 5.14% 향상된 분류 정확도를 달성하며, 추출된 규칙 집합은 단순한 사후 분석 결과가 아닌 sparse concept representation을 직접 활용하는 논리 기반 의사결정 계층으로 작동합니다. 본 연구는 sparse 심볼릭 표현을 사용하여 ViT에서 실행 가능한 논리 프로그램을 추출한 최초의 연구이며, transformer 기반 비전 모델과 심볼릭 논리 프로그래밍 간의 격차를 해소하여 해석 가능하고 검증 가능한 신경 심볼 AI 발전에 기여합니다.