대규모 언어 모델(LLM)의 미세 조정은 추론 능력을 향상시키기 위한 것이지만, 본 논문에서는 역설적으로 모델이 훈련 중 이전에 정답을 맞혔던 문제를 푸는 방법을 잊어버리는 현상을 발견했습니다. 이 현상을 시간적 망각(temporal forgetting)이라고 명명하고, 모델 크기, 미세 조정 방법(강화 학습 및 지도 학습 미세 조정 모두), 여러 추론 벤치마크에 걸쳐 널리 퍼져 있음을 보여줍니다. 이러한 간극을 해결하기 위해 본 논문에서는 훈련 과정에서 여러 체크포인트의 출력을 가져오는 간단한 디코딩 전략인 시간적 샘플링(Temporal Sampling)을 제안합니다. 이 방법은 재훈련이나 앙상블 없이 잊혀진 해결책을 복구하고, 추론 성능을 크게 향상시키며(Pass@k에서 4~19점 향상), 여러 벤치마크에서 Majority@k를 지속적으로 향상시킵니다. 또한, 체크포인트에서 어댑터 가중치만 저장하여 유사한 이점을 최소한의 저장 비용으로 달성함을 보여주는 LoRA 적용 모델로 방법을 확장합니다. 시간적 샘플링은 훈련에 내재된 시간적 다양성을 활용하여 숨겨진 추론 능력을 드러내고 LLM을 평가하는 방식을 재고하는 실용적이고 계산 효율적인 방법을 제공합니다.