본 논문은 대규모 언어 모델(LLM)을 이용한 워크플로우 최적화의 한계점인 제한적인 추론 능력, 높은 계산 비용, 많은 자원 요구량을 해결하기 위해, 토론(Debate) 메커니즘과 반성(Reflexion)을 통합한 DebFlow 프레임워크를 제안합니다. HotpotQA, MATH, ALFWorld 등 6개의 벤치마크 데이터셋에서 평가한 결과, 최신 기준 모델보다 평균 3% 향상된 성능을 달성하였으며, 학습 과정에서 자원 소비량을 37% 감소시켰습니다. 추가적으로 진행된 ablation study를 통해 토론 요소 제거 시 4%의 성능 저하, 반성 요소 제거 시 2%의 성능 저하를 확인하여 토론 메커니즘의 중요성을 강조했습니다.