본 논문은 추론 시간 계산량 증가가 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있다는 최근 연구 결과를 바탕으로, 반복 샘플링의 단점을 보완하기 위해 외부 피드백을 활용하는 새로운 추론 시간 프레임워크인 Adaptive Branching Monte Carlo Tree Search (AB-MCTS)를 제안한다. AB-MCTS는 탐색 및 활용을 통해 후보 응답을 확장하거나 기존 응답을 재방문하며 동적으로 결정한다. 복잡한 코딩 및 엔지니어링 작업에 대한 실험 결과, AB-MCTS는 반복 샘플링 및 표준 MCTS보다 우수한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
LLM의 응답 다양성과 다중 턴 솔루션 개선을 결합하여 효과적인 추론 시간 확장을 가능하게 함.