본 논문은 대규모 언어 모델(LLM)의 복잡한 작업 해결 과정에서 발생하는 장황한 추론 체인과 그로 인한 높은 계산 비용 및 오류 전파 문제를 해결하기 위해 Meta-Reasoner 프레임워크를 제시합니다. Meta-Reasoner는 인간의 메타인지와 이중 과정 이론에서 영감을 받아, 고차원적인 안내와 단계별 생성을 분리하여 추론 과정을 동적으로 최적화합니다. 문맥적 다중 무장 밴딧을 사용하여 추론 진행 상황을 반복적으로 평가하고 최적의 전략(예: 되돌아가기, 모호성 해소, 처음부터 다시 시작, 대안 제시)을 선택하며, 가장 유망한 경로에 계산 자원을 재할당합니다. 수학적 추론 및 퍼즐에 대한 평가 결과, 동적 추론 체인이 LLM 추론 과정의 고질적인 문제를 극복하고 다양한 응용 분야에서 확장 가능하고 적응력 있는 솔루션을 제공할 가능성을 보여줍니다.