[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

QSpark : Vers une génération de code Qiskit fiable

Created by
  • Haebom

Auteur

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy, Chen Ding

Contour

Cet article étudie l'optimisation des modèles de langage à grande échelle (LLM) à l'aide de techniques d'apprentissage par renforcement (RL) afin d'améliorer la tolérance aux erreurs des circuits quantiques. Pour résoudre le problème de la génération fréquente de codes Qiskit erronés par les LLM existants, tels que Granite-20B-Code et StarCoder, nous affinons le modèle 32B sur un jeu de données synthétiques richement annoté à l'aide de deux méthodes d'apprentissage par renforcement : l'optimisation des politiques relatives de groupe (GRPO) et l'optimisation des préférences par rapport aux cotes (ORPO). Sur le benchmark Qiskit HumanEval, l'ORPO atteint 56,29 % de réussite à la première tentative (soit une amélioration d'environ 10 % par rapport à Granite-8B-QK), tandis que le GRPO atteint 49 %, surpassant ainsi tous les modèles de référence généraux existants. Dans le HumanEval original, ils obtenaient respectivement 65,90 % et 63,00 %. GRPO est fort dans les tâches de base, tandis qu'ORPO est fort dans les tâches intermédiaires, mais il ne parvient pas à résoudre les tâches avancées, démontrant à la fois le potentiel et les limites de la programmation quantique basée sur l'IA.

Takeaways, Limitations_

Takeaways:
Nous démontrons que les techniques RL peuvent être utilisées pour améliorer les performances de programmation quantique du LLM.
Les deux méthodes RL, GRPO et ORPO, permettent d’améliorer les performances par rapport aux modèles de base à usage général existants.
Présentation de l’état actuel et de l’orientation future de la programmation quantique basée sur l’IA à travers l’analyse des performances de tâches de différents niveaux de difficulté.
Limitations:
Il a encore du mal à résoudre les problèmes complexes de programmation quantique.
ÉTant donné qu’il a été formé à l’aide d’un ensemble de données synthétiques, ses performances dans un environnement de programmation quantique réel nécessitent une vérification supplémentaire.
Les deux méthodes RL présentent des points forts dans des types spécifiques de tâches, et il est nécessaire d’améliorer les performances de généralisation pour tous les types de tâches.
👍