본 논문은 대규모 언어 모델(LLM)의 과도한 자신감(overconfidence) 문제를 기계적 해석 가능성(mechanistic interpretability) 관점에서 조사한 연구이다. 인간이 주석한 단정성(assertiveness) 데이터셋으로 미세 조정된 오픈소스 Llama 3.2 모델을 사용하여, 모든 계층의 잔차 활성화(residual activations)를 추출하고 유사성 측정을 통해 단정적인 표현을 국지화하였다. 분석 결과, 단정성 대조에 가장 민감한 계층을 식별하고, 높은 단정성 표현이 감정적 및 논리적 클러스터라는 두 개의 직교하는 하위 구성 요소로 분해되는 것을 밝혔다. 이는 심리학의 이중 경로 정교화 가능성 모델(Elaboration Likelihood Model)과 유사하다. 이러한 하위 구성 요소에서 파생된 조향 벡터(steering vectors)는 뚜렷한 인과적 효과를 보이는데, 감정적 벡터는 예측 정확도에 광범위하게 영향을 미치는 반면, 논리적 벡터는 더 국지적인 영향을 미친다. 이러한 결과는 LLM의 단정성의 다중 구성 요소 구조에 대한 기계적 증거를 제공하며, 과도한 자신감 행동을 완화하기 위한 방안을 제시한다.