본 논문은 대규모 언어 모델(LLM)의 복잡한 문제 해결 과정에서 발생하는 계산 비용 증가 및 오류 전파 문제를 해결하기 위해 Meta-Reasoner 프레임워크를 제시한다. Meta-Reasoner는 인간의 메타인지 및 이중 과정 이론에서 영감을 얻어, 고차원적인 안내와 단계별 생성을 분리하여 LLM이 '어떻게 생각할지'에 대해 생각하도록 함으로써 추론 시간 추론을 동적으로 최적화한다. 문맥적 다중 무장 밴딧을 사용하여 추론 진행 상황을 반복적으로 평가하고 최적의 전략(예: 되돌아가기, 모호성 명확히 하기, 처음부터 다시 시작하기 또는 대안 제시하기)을 선택하며, 가장 유망한 경로에 계산 자원을 재할당한다. 수학적 추론 및 퍼즐에 대한 평가를 통해 동적 추론 체인이 LLM 추론 과정의 고유한 문제를 극복하고 광범위한 응용 분야에서 확장 가능하고 적응 가능한 솔루션을 제공할 수 있는 잠재력을 보여준다.