본 논문은 AI 시스템의 임베딩과 내부 표현을 인간이 이해할 수 있는 개념으로 매핑하는 기계적 해석성에 대한 연구를 다룬다. 특히, 선형 표현 가설(neural representations are sparse linear combinations of 'almost-orthogonal' direction vectors)에 초점을 맞춰, 특징의 존재 여부뿐 아니라 연속적이고 다차원적인 값까지도 인코딩할 수 있는 특징의 완전한 모델을 제시한다. 본 논문은 특징이 다양체(manifold)로 표현될 수 있는 이유와 방법을 설명하고, 표현 공간의 코사인 유사도가 특징의 고유 기하학을 최단 경로를 통해 인코딩할 수 있음을 보여줌으로써, 표현 공간의 거리와 개념 공간의 관련성을 연결하는 방법에 대한 질문에 답한다. 이론의 중요한 가정과 예측은 대규모 언어 모델의 텍스트 임베딩과 토큰 활성화에 대해 검증된다.