본 논문은 Test-Time Scaling (TTS) 전략이 안전성 측면에서 취약점을 가질 수 있음을 밝힌다. TTS는 다양한 후보 응답을 생성하고 그 중 최적의 결과를 선택하여 LLM의 추론 능력을 향상시키지만, 후보 응답의 다양성이 제한될 경우 안전하지 않은 결과를 생성할 가능성이 높아진다. 연구는 RefDiv라는 진단적 공격을 통해 이러한 취약점을 확인하고, 다양한 오픈소스 및 폐쇄형 모델에서 일관된 결과를 도출했다. 또한, 기존 안전성 가드레일이 RefDiv 공격에 취약함을 보였다.