본 논문은 GPT-2 계열의 대규모 언어 모델(LLM)이 다중 선택형 질문(MCQ)에서 첫 번째 선택지 'A'를 선호하는 고착 편향(anchored bias)을 보이는 현상을 다룬다. 연구진은 기계적 해석 가능성 접근 방식을 활용하여 GPT-2 모델 내에서 이러한 편향에 책임이 있는 다층 퍼셉트론(MLP) 계층과 어텐션 헤드를 식별했다. "logit lens" 방법을 사용하여 편향에 기여하는 특정 값 벡터를 추적하고 수정함으로써, MLP 내 벡터를 업데이트하고 어텐션 패턴을 재보정하여 첫 번째 선택지 'A'에 대한 선호도를 중화시켰다. 이러한 개입은 편향을 완화할 뿐만 아니라 다양한 데이터 세트에서 GPT-2 계열의 MCQ 예측 정확도를 전반적으로 향상시켰다. 본 연구는 GPT-2 모델의 MCQ 실패 사례에서 고착 편향에 대한 최초의 포괄적인 기계적 분석을 제시하며, GPT-2 모델의 견고성과 MCQ 정확도를 크게 향상시키는 표적 최소 개입 전략을 소개한다.