본 논문은 추론 모델 훈련 중 발생하는 실패 모드를 연구하며, 생성물의 다양성이 감소하여 테스트 시 성능 저하를 유발하는 현상을 분석한다. 특히, 지도 학습 미세 조정(SFT) 동안 Pass@1은 향상되지만 Pass@k는 급격히 저하되는 문제점을 발견했다. WiSE-FT (최신 SFT 체크포인트와 초기 체크포인트의 가중치 보간)라는 간단한 기법을 통해 Pass@k를 거의 완전히 회복시키고 Pass@1 또한 개선할 수 있음을 입증했다. WiSE-FT는 테스트 시 더 나은 성능 향상(Best@k, 다수결 투표)을 보이며, 강화 학습을 통해 추가로 조정 시 적은 양의 데이터로도 우수한 결과를 달성했다. 또한, WiSE-FT는 온도 조절과 같은 다양성 유도 디코딩 전략만으로는 얻을 수 없는 부가적인 성능 향상을 제공한다. Pass@k의 바이어스와 분산의 관계를 공식화하고, WiSE-FT가 바이어스와 분산을 동시에 줄일 수 있는 반면 온도 조절은 본질적으로 바이어스와 분산 사이의 상쇄 관계를 갖는다는 것을 밝혀냈다.