Cet article étudie l'optimisation des modèles de langage à grande échelle (LLM) à l'aide de techniques d'apprentissage par renforcement (RL) afin d'améliorer la tolérance aux erreurs des circuits quantiques. Pour résoudre le problème de la génération fréquente de codes Qiskit erronés par les LLM existants, tels que Granite-20B-Code et StarCoder, nous affinons le modèle 32B sur un jeu de données synthétiques richement annoté à l'aide de deux méthodes d'apprentissage par renforcement : l'optimisation des politiques relatives de groupe (GRPO) et l'optimisation des préférences par rapport aux cotes (ORPO). Sur le benchmark Qiskit HumanEval, l'ORPO atteint 56,29 % de réussite à la première tentative (soit une amélioration d'environ 10 % par rapport à Granite-8B-QK), tandis que le GRPO atteint 49 %, surpassant ainsi tous les modèles de référence généraux existants. Dans le HumanEval original, ils obtenaient respectivement 65,90 % et 63,00 %. GRPO est fort dans les tâches de base, tandis qu'ORPO est fort dans les tâches intermédiaires, mais il ne parvient pas à résoudre les tâches avancées, démontrant à la fois le potentiel et les limites de la programmation quantique basée sur l'IA.