본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상을 위해, 기존의 고정된 인지 구조 대신, 과제에 적합한 인지 전략을 선택하는 메타사고(meta-thoughts) 기반의 테스트 시간 스케일링 프레임워크인 METASCALE을 제시합니다. METASCALE은 후보 메타사고 풀을 초기화하고, 상한 신뢰 구간 선택을 사용하는 다중 팔 밴딧 알고리즘과 보상 모델을 통해 반복적으로 메타사고를 선택하고 평가합니다. 또한, 유전 알고리즘을 사용하여 높은 보상을 받는 메타사고를 진화시켜 전략 풀을 시간에 따라 개선하고 확장합니다. 추론 시 메타사고를 동적으로 제안하고 최적화함으로써 다양한 과제에 대한 정확성과 일반화 성능을 향상시킵니다. 실험 결과, METASCALE은 기존 추론 방식보다 우수한 성능을 보이며, GPT-4o의 Arena-Hard에서 11%의 승률 향상을 달성하고, 스타일 제어 하에서 o1-mini를 0.9% 상회합니다. 특히, METASCALE은 샘플링 예산 증가에 따라 더 효과적으로 확장되고, 더 구조적이며 전문가 수준의 응답을 생성합니다.