QualityFlow는 프로그램 합성을 위한 동적인 에이전트 워크플로우입니다. 프로그래밍 문제에 대한 영어 설명과 단위 테스트 집합이 주어지면, 모델은 문제를 해결하고 테스트를 통과하는 정확한 프로그램을 합성하는 것을 목표로 합니다. QualityFlow는 코드 생성, 테스트, 자가 디버깅 등 소프트웨어 개발팀과 유사한 대규모 언어 모델(LLM) 에이전트를 포함합니다. 합성된 프로그램의 실행이 단위 테스트를 준수하는지 명시적으로 "상상"하는 LLM 품질 검사기를 제안합니다. 품질 검사는 최종 답변 제출, 문제 진술 명확화, 이전 워크플로우 단계 되돌리기 등의 작업을 포함하여 워크플로우를 동적으로 제어합니다. 실험 결과, 품질 검사기는 정확한 프로그램을 정확하게 수용하고, 잘못된 합성 테스트를 완화하며, 잠재적인 워크플로우 편차를 방지할 수 있음을 보여줍니다. QualityFlow는 MBPP, HumanEval, 그리고 더 엄격한 평가인 MBPP-EvalPlus와 HumanEval-EvalPlus의 네 가지 프로그램 합성 벤치마크에서 최첨단 결과를 달성합니다.