본 논문은 다양한 형태의 다중 선택 질문 답변(MCQA)에서 성공적인 Transformer 언어 모델의 성능을 분석합니다. 어휘 투영 및 활성 패치 방법을 사용하여 정답 예측에 관련된 정보를 인코딩하는 주요 은닉 상태를 국지화하고, 특정 답변 기호의 예측이 중간 레이어, 특히 다중 헤드 자기 주의 메커니즘에 인과적으로 기인함을 발견했습니다. 후속 레이어는 어휘 공간에서 예측된 답변 기호의 확률을 증가시키며, 이 확률 증가는 고유한 역할을 가진 희소한 주의 헤드 집합과 관련이 있음을 보여줍니다. 또한 서로 다른 모델이 대체 기호에 적응하는 방식의 차이를 밝히고, 합성 작업을 통해 모델 오류의 원인을 분리하여 모델이 형식화된 MCQA를 학습했는지 확인하고, 답변 선택 토큰 간의 로짓 차이가 훈련 과정에서 계속 증가함을 보여줍니다.