Cet article explore les techniques de post-apprentissage pour les modèles de langage à grande échelle (LLM) afin de faciliter la conception, la simulation et l'exécution de circuits quantiques avec Qiskit. Nous présentons la vérification quantique comme une méthode efficace pour garantir la qualité du code quantique et son exécutabilité sur du matériel quantique. Nous développons un pipeline de données synthétiques qui génère des paires de tests unitaires pour problèmes quantiques, génère des données de préférence pour l'optimisation directe des préférences (DPO) et entraîne des modèles à l'aide de l'optimisation guidée des préférences de récompense (GRPO), en exploitant les récompenses vérifiables quantiquement fournies par le matériel quantique. Le modèle le plus performant, combinant DPO et GRPO, surpasse le modèle de référence open source le plus puissant sur le benchmark Qiskit-HumanEval-hard.