PasoDoble는 외부 감독 없이 자체적으로 학습하는 새로운 LLM 듀얼 플레이 프레임워크입니다. Proposer는 ground-truth 답변과 함께 어려운 질문을 생성하고, Solver는 이를 해결하려고 시도합니다. 사전 학습된 데이터셋에서 지식을 활용하여 질문의 품질과 다양성을 높입니다. Proposer는 Solver의 한계를 시험하는 유효한 질문 생성에 대해 보상받고, Solver는 정확한 답변에 대해 보상받으며, 둘 다 공동으로 업데이트됩니다. 훈련 안정성을 위해 Proposer와 Solver 업데이트를 분리하는 오프라인 방식을 도입했습니다. 실험 결과는 PasoDoble가 LLM의 추론 능력을 향상시킬 수 있음을 보여줍니다.