본 논문은 언어 모델이 문맥과 사전 지식 간의 균형을 어떻게 맞추는지, 특히 문맥에 대한 민감도를 조절하는 메커니즘을 탐구한다. 제어 가능한 문맥 민감도를 위한 과제를 설계하여(예: "파리는 영국에 있다"라는 문맥과 "파리는 어디에 있나요?"라는 질문), 모델이 문맥 또는 사전 지식을 사용하도록 지시하고 정확도를 평가한다. Llama-3.1, Mistral-v0.3, Gemma-2 모델을 이 과제로 미세 조정한 결과, 높은 정확도(85-95%)를 달성했으며, 선형 시간 알고리즘을 사용하여 문맥 민감도에 중요한 계층을 분석했다. 그 결과, 각 모델의 단일 계층에서 문맥 또는 사전 지식을 따르는지를 나타내는 1차원 부분 공간을 발견했다. 흥미롭게도, 이 부분 공간은 미세 조정된 모델뿐만 아니라 미세 조정되지 않은 지시 및 기본 모델에서도 효과적인 조절 장치로 작용하며, 모델의 성능과 이 부분 공간에서 문맥 일치 및 무시 응답의 분리 정도 간의 강한 상관관계를 확인했다. 이는 모델이 문맥과 사전 지식 중 선택하는 방식을 단일 부분 공간이 촉진한다는 것을 시사하며, 이러한 행동을 제어하는 간단한 기본 메커니즘을 암시한다.