본 논문은 Transformer 모델이 잠재적인 2단계 질문(예: "Bob의 어머니의 상사는 누구인가?")에 대해 일관되지 않게 답하는 이유를 연구합니다. 단순 사실 암기에서 Transformer의 지식 용량에 대한 이전 연구에 착안하여, 2단계 질문과 답변 데이터셋에 대한 학습 능력이 모델 크기에 따라 어떻게 확장되는지 조사합니다. 연구 결과, 잠재적인 2단계 질문 풀이에는 각 사실을 두 번 학습해야 함을 시사하며, 사고의 연쇄(chain of thought)를 사용하는 2단계 질문 풀이는 이러한 제약을 받지 않음을 보여줍니다. 또한, 적절한 데이터셋 매개변수를 통해 작은 모델이 함수 합성을 통해 답하는 것보다 각 질문에 대한 답을 독립적으로 암기하는 방식에 "갇히게" 할 수 있음을 보여줍니다. 결론적으로 용량 확장 측정이 기존의 해석 가능성 방법을 보완할 수 있음을 제시하지만, 이를 위한 어려움도 존재함을 밝힙니다.