본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 성능 향상과 매개변수 크기 증가의 관계에 대한 메커니즘적 해석을 제공합니다. 기존 연구들은 매개변수 크기 확장 법칙을 통해 성능 향상을 보여주었지만, 내부 메커니즘과의 관계는 불명확했습니다. 본 연구는 잔차 스트림 내의 각 계층을 편향-다양성 분해를 통해 이론적으로 분석하여, 계층의 출력 오차(편향)와 계층 간 출력 차이(다양성)를 분리합니다. 분석 결과, 개별 계층의 출력이 정답에 가까우면서 서로 다양할 때 성능이 향상됨을 보였습니다. 특히 개별 계층의 출력이 정답과 멀리 떨어져 있을 때 다양성이 중요해짐을 밝혔습니다. 정보이론적 다양성을 도입하여, 계층 추가가 성능 향상에 기여하는 것은 계층들이 다양하게 동작할 때이며, 계층 수 증가에 따른 성능 향상은 매개변수 크기 확장 법칙이 예측하는 로그 수렴과 유사하게 감소하는 수확체감(submodularity)을 보임을 밝혔습니다. 다양한 LLM과 의미 이해 작업에 대한 실험을 통해 이론적 발견을 실증적으로 확인했습니다.