본 논문은 복잡한 추론 과제에서 언어 모델 성능을 향상시키기 위해 매개변수 확장 대신 추론 시간 확장을 제안합니다. 기존 방법들이 고정된 계산 예산 하에서 강력한 성능 향상을 보여주었지만, 추론 중에 그 예산을 최적으로 활용하는 데는 초점이 부족했습니다. 이 연구는 A* 탐색 알고리즘을 기반으로 하는 탐색 기반 추론 시간 전략인 A*-디코딩을 제시합니다. A*-디코딩은 생성 중에 고품질 추론 경로를 우선 순위화하여 고정된 계산 예산을 최적으로 활용합니다. 언어 모델 디코딩을 부분 해결책의 상태 공간에서 구조화된 탐색으로 구성하고, 외부 프로세스 감독 신호에 의해 안내되는 유망한 연속을 식별하기 위해 A* 전이 모델을 적용합니다. 실험 결과, A*-디코딩은 동등한 계산 예산 하에서 최대 3배 적은 토큰과 30% 적은 PRM 패스를 사용하면서 Best-of-N 및 입자 필터링과 같은 강력한 추론 확장 기준의 성능 수준에 도달합니다. MATH500 및 AIME 2024 벤치마크에서 A*-디코딩을 통해 Llama-3.2-1B-Instruct는 70배 더 큰 Llama-3.1-70B-Instruct의 성능과 일치하고, Qwen3-1.7B는 o1 수준의 추론 정확도에 도달합니다. 이러한 결과는 구조화된 탐색의 힘을 강조하며, 무차별적 샘플링 또는 규모 중심적 이득에 대한 대안을 제공합니다. 본 연구는 신중한 추론 시간 전략이 SLM에서 추론을 향상시키는 방법을 보여주며, 보다 효율적이고 확장 가능한 언어 모델 배포의 미래 발전을 가리킵니다.