Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Black-Box to White-Box: Control-Theoretic Neural Network Interpretability

Created by
  • Haebom
Category
Empty

저자

Jihoon Moon

개요

본 연구는 딥 뉴럴 네트워크를 해석하기 위해 제어 이론적 프레임워크를 제안한다. 훈련된 신경망을 비선형 상태 공간 시스템으로 취급하고, 국부 선형화, 제어성 및 관측성 Gramian, Hankel 특이값을 사용하여 내부 계산을 분석한다. 각 입력에 대해 네트워크를 해당 은닉 활성화 패턴 주변으로 선형화하고, 은닉 뉴런 활성화로 구성된 상태 공간 모델을 구성한다. 제어성과 관측성 Gramian을 계산하고, Hankel 특이값과 연관된 모드를 산출하여, 뉴런 및 경로의 중요성을 평가한다. SwiGLU 네트워크와 GELU 네트워크를 포함한 간단한 피드포워드 네트워크에서 프레임워크를 적용하여, 활성화 포화가 제어성을 감소시키고 지배적인 Hankel 특이값을 축소시키는 것을 확인했다.

시사점, 한계점

딥 뉴럴 네트워크의 내부 작동 방식을 분석하기 위한 새로운 제어 이론 기반 프레임워크 제공
뉴런 및 경로의 중요성을 정량적으로 평가하는 방법론 제시
활성화 포화와 같은 요인이 네트워크의 동적 특성에 미치는 영향을 파악
모델 가지치기 또는 제약 조건 적용을 위한 통찰력 제공
단순한 피드포워드 네트워크에 대한 실험만 수행
복잡한 아키텍처 및 실제 데이터에 대한 적용 가능성 추가 연구 필요
제안된 방법의 계산 복잡성 고려
👍