DINOv2는 객체, 장면, 동작을 인식하는 데 널리 사용되지만, 그것이 무엇을 인식하는지에 대한 본질은 아직 알려지지 않았습니다. 이 논문은 선형 표현 가설(LRH)을 채택하여 자기 연관 인코더(SAE)를 사용하고, 32,000개의 유닛 사전을 생성하여 해석 가능성의 핵심으로 삼습니다. 연구는 세 부분으로 진행됩니다. 첫째, 서로 다른 다운스트림 작업이 학습된 사전으로부터 개념을 어떻게 활용하는지 분석하여 기능적 전문화를 밝혀냅니다. 분류는 대상 객체를 제외한 모든 곳에서 활성화되는 "기타" 개념을 활용하여 학습된 부정을 구현하고, 분할은 일관된 하위 공간을 형성하는 경계 감지기에 의존하며, 깊이 추정은 시각 신경 과학 원리에 맞는 세 가지 뚜렷한 단일 시점 깊이 단서를 사용합니다. 둘째, SAE에 의해 학습된 개념의 기하학적 구조와 통계를 분석합니다. 표현이 엄격한 희소성보다는 부분적으로 밀집되어 있으며, 사전이 최대 직교 이상에서 더 큰 일관성을 향해 진화함을 발견했습니다. 이미지 내에서 토큰은 위치를 제거한 후에도 지속되는 저차원, 국소적으로 연결된 집합을 차지합니다. 이는 표현이 선형 희소성 이상으로 조직되었음을 시사합니다. 셋째, 이러한 관찰을 종합하여 아키타입(예: 동물 중의 토끼, 색깔 중의 갈색, 질감 중의 푹신함)의 볼록 혼합을 결합하여 토큰이 형성된다는 정제된 관점을 제안합니다. 이러한 구조는 Gardenfors의 개념 공간과, 다중 헤드 어텐션이 볼록 혼합의 합을 생성하여 아키타입으로 경계가 정해진 영역을 정의하는 모델의 메커니즘에 기반합니다. 민코프스키 표현 가설(MRH)을 제시하고, 시각 변환기 표현을 해석하기 위한 경험적 특징과 의미를 검토합니다.