본 논문은 대규모 언어 모델(LLM)의 내부 표현을 이해하고 해석하는 어려움을 해결하기 위해 Superscopes 기법을 제안합니다. Superscopes는 MLP 출력과 은닉 상태에서 중첩된 특징들을 체계적으로 증폭한 후 새로운 프롬프트에 패치하여 모델이 스스로 내부 표현을 설명하도록 유도하는 Patchscopes 기법을 개선한 것입니다. "특징은 방향이다"라는 관점과 확산 모델의 CFG(Classifier-Free Guidance) 접근 방식에서 영감을 얻어, 약하지만 의미 있는 특징을 증폭함으로써 기존 방법으로는 설명할 수 없었던 내부 표현의 해석을 가능하게 합니다. 추가적인 훈련 없이 LLM이 맥락을 구축하고 복잡한 개념을 표현하는 방식에 대한 새로운 통찰력을 제공하여 기계적 해석 가능성을 향상시킵니다.