본 논문은 대규모 언어 모델(LLM)의 다단계 추론에서 다양한 해결책을 생성하는 능력을 향상시키는 새로운 방법인 Flow of Reasoning (FoR)을 제안합니다. 기존의 방법들이 주로 추론 정확도에만 초점을 맞춘 것과 달리, FoR은 제한된 데이터로 추론의 질과 다양성을 모두 향상시키는 것을 목표로 합니다. FoR은 다단계 LLM 추론을 DAG 구조의 추론 그래프 상의 마르코프 흐름으로 공식화하고, GFlowNet 기법을 적용하여 목표 문제의 보상에 비례하는 확률로 다양한 경로를 샘플링하도록 LLM을 미세 조정합니다. BlocksWorld, Game24, Rubik's Cube, 1D-ARC, GSM8k, ProntoQA 등 다양한 추론 과제에서 기존 방법들을 능가하는 성능을 보였습니다.