Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Récompenses vérifiables quantiques pour l'assistant de code Qiskit post-formation

Created by
  • Haebom

Auteur

Nicolas Dupuis, Adarsh ​​​​Tiwari, Youssef Mroueh, David Kremer, Ismael Faro, Juan Cruz-Benito

Contour

Cet article explore les techniques de post-apprentissage pour les modèles de langage à grande échelle (LLM) afin de faciliter la conception, la simulation et l'exécution de circuits quantiques avec Qiskit. Nous présentons la vérification quantique comme une méthode efficace pour garantir la qualité du code quantique et son exécutabilité sur du matériel quantique. Nous développons un pipeline de données synthétiques qui génère des paires de tests unitaires pour problèmes quantiques, génère des données de préférence pour l'optimisation directe des préférences (DPO) et entraîne des modèles à l'aide de l'optimisation guidée des préférences de récompense (GRPO), en exploitant les récompenses vérifiables quantiquement fournies par le matériel quantique. Le modèle le plus performant, combinant DPO et GRPO, surpasse le modèle de référence open source le plus puissant sur le benchmark Qiskit-HumanEval-hard.

Takeaways, Limitations_

Takeaways:
Démontrer le potentiel du support de la programmation quantique à l'aide du LLM.
Améliorer la qualité du code et garantir les performances exécutables grâce à la vérification quantique.
Amélioration des performances grâce à la combinaison de DPO et GRPO.
Excellentes performances obtenues sur le benchmark Qiskit-HumanEval-hard.
Limitations:
Limitations des méthodes de génération de données qui reposent sur des pipelines de données synthétiques.
Contraintes et problèmes d'accessibilité du matériel quantique actuel.
Dépendance à un cadre de programmation quantique spécifique (Qiskit).
Manque de validation des performances de généralisation au-delà du benchmark Qiskit-HumanEval-hard.
👍