본 논문은 다중 모델 워크플로우를 사용하여 합성 선호도 최적화(PO) 데이터셋을 생성하는 새로운 방법론을 제시합니다. LLM을 이용하여 기존 인간 평가자의 역할을 자동화함으로써 데이터셋 생성 프로세스를 자동화하고 향상시키는 효과와 잠재력을 평가합니다. 두 모듈, 응답 평가 모듈과 응답 생성 모듈로 구성되며, 응답 평가 모듈에서는 세 가지 프롬프팅 전략을 비교하여 GPT-4를 평가자로 사용하는 것이 가장 일관된 성능을 보임을 확인했습니다. 응답 생성 모듈에서는 LLM 피드백 루프의 다양한 구성을 비교하여 Llama를 생성기, Gemma를 검토자로 사용하는 구성이 단일 모델보다 71.8%와 73.8%의 승률을 달성함을 보였습니다. 최적의 구성을 확인한 후, 해당 파이프라인을 사용하여 PO 데이터셋을 생성했습니다.