Este artículo explora técnicas de post-entrenamiento para modelos de lenguaje a gran escala (LLM) que facilitan el diseño, la simulación y la ejecución de circuitos cuánticos con Qiskit. Presentamos la verificación cuántica como un método eficaz para garantizar la calidad del código cuántico y su ejecutabilidad en hardware cuántico. Desarrollamos una canalización de datos sintéticos que genera pares de problemas cuánticos y pruebas unitarias, genera datos de preferencia para la Optimización Directa de Preferencias (DPO) y entrena modelos mediante la Optimización Guiada de Preferencias de Recompensas (GRPO), aprovechando las recompensas verificables cuánticamente proporcionadas por el hardware cuántico. El modelo con mejor rendimiento, que combina DPO y GRPO, supera al modelo base de código abierto más potente en el benchmark Qiskit-HumanEval-hard.