본 연구는 LLM의 추론 능력을 향상시키기 위한 새로운 추론 시점 데이터 증강 전략인 Prompting Test-Time Scaling (P-TTS)을 제안합니다. P-TTS는 단 90개의 수동으로 선택된 추론 인스턴스를 활용하여, 시험 시간에 체계적인 지시 프롬프트 강도를 통해 예시 증강을 다양하게 변화시킵니다. Qwen-2.5 모델을 P-TTS 데이터로 미세 조정하여 AIME2024 & 25, MATH500, GPQA-Diamond와 같은 다양한 수학적 추론 벤치마크에서 기존의 경쟁 모델보다 우수한 성능을 보였습니다. 또한, P-TTS는 Gaokao, Kaoyan, OlympiadBench, AMC23, GradeSchoolMath, Minerva의 도메인 외부 추론 벤치마크에서도 제로샷 일반화 정확도를 향상시켰습니다.