본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 새로운 프레임워크인 SOLAR(Scalable Optimization of Large-scale Architecture for Reasoning)을 제안한다. SOLAR은 복잡한 추론 작업을 위해 다양한 추론 토폴로지를 동적으로 최적화하는 방법을 제시하며, 이는 기존의 Chain-of-Thought(CoT) 접근 방식의 한계를 극복하기 위한 시도이다. 핵심적으로, 토폴로지 주석 생성(TAG) 시스템을 통해 데이터셋 생성 및 분할을 자동화하고, 보상 기반의 토폴로지 스케일링을 통해 훈련 및 추론 스케일링을 조정하여 LLM이 작업에 맞는 적응적인 추론을 수행하도록 한다. 또한, 다중 작업 토폴로지 보상 모델(M-TRM)을 제안하여 단일 작업 토폴로지 보상 모델(S-TRM)의 한계를 극복하고 효율성과 정확도를 향상시킨다. MATH와 GSM8K 데이터셋에서 상당한 성능 향상(최대 10.02% 향상)과 응답 길이 감소를 달성하였다.