본 논문은 여러 개의 오픈-웨이트 대규모 언어 모델(LLM)의 추론 연산을 모델 가중치를 수정하거나 출력 예측을 변경하지 않고도 정확하게 동등한 선형 시스템에 매핑할 수 있음을 보여줍니다. 국소적 또는 조각별 선형성을 나타내는 이미지 확산 모델의 기술을 확장하여, 다음 토큰 예측에 대한 주어진 입력 시퀀스와 관련된 기울기 계산을 전략적으로 변경하여 모델의 야코비안이 선형 시스템으로 정확하게 순방향 예측을 재현하도록 합니다. Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral 및 OLMo 2(최대 Llama 3.3 70B Q4까지)를 포함한 여러 모델에서 이 접근 방식을 실증하고, 분리된 야코비안의 특이값 분해를 통해 이러한 LLM이 가장 가능성이 높은 출력 토큰과 관련된 개념을 디코딩하는 많은 가장 큰 특이 벡터가 존재하는 매우 저차원 부분 공간에서 작동함을 보여줍니다. 이 접근 방식을 통해 각 연속 레이어(및 해당 어텐션 및 MLP 구성 요소)의 작동을 거의 정확한 선형 시스템으로 검사하고 의미 개념의 출현을 관찰할 수도 있습니다. 본 논문은 표현력과 전역 비선형성에도 불구하고 현대 LLM은 내부 표현에 대한 통찰력을 제공하고 다음 토큰 예측 과정에서 해석 가능한 의미 구조를 드러내는 거의 정확한 국소 선형 분해를 통해 해석될 수 있음을 보여줍니다.