본 논문은 대규모 신경망의 활성화 공간을 중심으로 이루어져 온 기계적 해석 가능성 연구의 한계를 극복하고자, 새로운 분해 방법인 Local Loss Landscape Decomposition (L3D)을 제시합니다. L3D는 저차원 부분 네트워크 집합을 식별하는데, 이는 매개변수 공간에서 특정 방향을 나타내며, 이들 부분 집합은 임의의 샘플 출력과 기준 출력 벡터 간 손실 기울기를 재구성할 수 있습니다. 잘 정의된 부분 네트워크를 가진 일련의 점진적으로 어려운 장난감 모델을 통해 L3D가 해당 부분 네트워크를 거의 완벽하게 복구할 수 있음을 보여줍니다. 또한, 주어진 부분 네트워크 방향으로 모델을 변경하는 것이 관련 샘플의 하위 집합에만 영향을 미치는 정도를 조사합니다. 마지막으로, 실제 transformer 모델과 합성곱 신경망에 L3D를 적용하여 매개변수 공간에서 해석 가능하고 관련성 있는 회로를 식별할 수 있는 잠재력을 보여줍니다.