본 논문은 OpenAI의 o1 시리즈와 같이 추론 시 계산 자원 할당을 조정하는 테스트 시간 스케일링(test-time scaling)을 사용하는 대규모 언어 모델(LLM)의 추론 능력 향상에 대해 연구합니다. QwQ, Deepseek-R1 (R1), LIMO 등 후속 모델들도 유사한 발전을 보이지만, 이러한 모델들이 실제로 테스트 시간 스케일링 기능을 갖추고 있는지에 대한 연구는 부족했습니다. 본 연구는 이러한 o1 유사 모델의 더 긴 사고 과정(CoTs)이 정확도를 일관되게 향상시키지 않으며, 오히려 정답보다 오답의 CoT가 더 긴 경우가 많다는 것을 발견했습니다. 이는 모델의 자기 수정 능력과 밀접한 관련이 있으며, 더 긴 CoT에는 자기 수정이 많아 성능 저하로 이어지는 경향이 있습니다. 또한 QwQ, R1, LIMO에 대한 순차적 및 병렬 스케일링 전략을 비교하여 병렬 스케일링이 더 나은 적용 범위와 확장성을 제공함을 확인했습니다. 이러한 통찰력을 바탕으로, 병렬 스케일링 전략과 CoT 길이 특성을 결합하여 기존의 다수결 투표 방식보다 모델의 테스트 시간 스케일링을 크게 향상시키는 Shortest Majority Vote 방법을 제안합니다.