Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers

Created by
  • Haebom

저자

Parth Padalkar, Gopal Gupta

개요

본 논문은 Vision Transformer(ViT)에서 심볼릭 규칙을 추출하는 새로운 프레임워크를 제안합니다. Sparse Autoencoders(SAEs)에서 영감을 받은 sparse concept layer를 도입하여 어텐션 가중치가 적용된 패치 표현을 사용하여 개념을 분리하고 이진화된 표현을 학습합니다. L1 sparsity, entropy minimization, 그리고 supervised contrastive loss를 활용하여 해석 가능성을 높이고, 이진화된 개념 활성화는 FOLD-SE-M 알고리즘을 통해 논리 프로그램 형태의 규칙 집합으로 변환됩니다. 기존 ViT보다 5.14% 향상된 분류 정확도를 달성하며, 추출된 규칙 집합은 단순한 사후 분석 결과가 아닌 sparse concept representation을 직접 활용하는 논리 기반 의사결정 계층으로 작동합니다. 본 연구는 sparse 심볼릭 표현을 사용하여 ViT에서 실행 가능한 논리 프로그램을 추출한 최초의 연구이며, transformer 기반 비전 모델과 심볼릭 논리 프로그래밍 간의 격차를 해소하여 해석 가능하고 검증 가능한 신경 심볼 AI 발전에 기여합니다.

시사점, 한계점

시사점:
ViT에서 심볼릭 규칙 추출을 위한 새로운 프레임워크 제시
기존 ViT 대비 향상된 분류 정확도 달성 (5.14%)
추출된 규칙 집합은 실행 가능한 논리 프로그램으로, 직접적인 의사결정에 활용 가능
transformer 기반 모델의 해석 가능성 향상 및 신경 심볼 AI 발전에 기여
sparse 심볼릭 표현을 이용한 ViT의 심볼릭 규칙 추출에 대한 최초 연구
한계점:
제안된 프레임워크의 일반화 성능 및 다양한 데이터셋에 대한 적용성 평가 필요
추출된 규칙의 완전성과 정확성에 대한 추가적인 분석 필요
FOLD-SE-M 알고리즘의 한계점이 본 프레임워크의 성능에 미치는 영향 분석 필요
더욱 복잡한 비전 문제에 대한 적용 가능성 검증 필요
👍