본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 추론 시간 계산을 늘리는 최근 연구 동향을 바탕으로, 반복적 샘플링의 한계를 극복하는 새로운 추론 시간 프레임워크인 적응형 분기 몬테카를로 트리 탐색(AB-MCTS)을 제안합니다. AB-MCTS는 외부 피드백 신호를 기반으로 새로운 후보 응답을 확장하거나 기존 응답을 재방문하는 것을 동적으로 결정하여 반복적 샘플링을 다중 턴 탐색 및 활용으로 일반화합니다. 복잡한 코딩 및 엔지니어링 작업에 대한 실험 결과, AB-MCTS는 반복적 샘플링 및 표준 MCTS보다 성능이 우수함을 보여주며, LLM의 응답 다양성과 다중 턴 솔루션 개선을 결합하는 것이 효과적인 추론 시간 확장에 중요함을 강조합니다.