본 논문은 Transformer 모델의 성능 향상과 파라미터 크기의 관계, 특히 레이어 수 증가에 따른 성능 변화를 이론적 및 실험적으로 분석합니다. 기존의 파라미터 스케일링 법칙 연구에서 파라미터 크기 증가가 성능 향상에 기여하는 것을 보여주었지만, 내부 메커니즘과의 관계는 불명확했습니다. 본 논문은 잔차 스트림 내 레이어를 bias-diversity decomposition을 통해 분석하여, 각 레이어의 출력 오차(bias)와 레이어 간 출력 차이(diversity)를 분리하여 분석합니다. 그 결과, 개별 레이어의 예측이 정답에 가까우면서(낮은 bias) 동시에 레이어 간 출력이 다양할 때(높은 diversity) 성능이 향상됨을 밝힙니다. 특히 bias가 클 때 diversity가 중요해짐을 보이며, 정보이론적 관점에서 diversity를 정의하여 레이어 추가가 성능 향상에 기여하는 것은 레이어 간의 다양성 때문임을 보여줍니다. 또한 레이어 수 증가에 따른 성능 향상은 submodularity를 보이며, 추가되는 레이어 수가 증가할수록 한계효용이 감소하는 것을 확인하여 파라미터 스케일링 법칙의 로그 수렴 예측과 일치함을 보입니다. 다양한 LLM과 의미 이해 작업에 대한 실험을 통해 이론적 발견을 실증적으로 확인합니다.