Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Quantum Verifiable Rewards for Post-Training Qiskit Code Assistant

Created by
  • Haebom

作者

Nicolas Dupuis, Adarsh Tiwari, Youssef Mroueh, David Kremer, Ismael Faro, Juan Cruz-Benito

概要

本論文は、Qiskitを使用した量子回路の設計、シミュレーション、および実行を支援するために、大規模言語モデル(LLM)の学習後技術を探ります。量子コードの品質と量子ハードウェアでの実行可能性を確保するための効果的な方法で量子検証を提示します。量子問題 - 単位テストペアを生成する合成データパイプラインを開発し、DPO(Direct Preference Optimization)のための好みデータを生成し、量子ハードウェアが提供する量子検証可能な補償を活用してGRPO(Guided Reward Preference Optimization)を使用してモデルを学習した。 DPOとGRPOを組み合わせた最高性能モデルは、Qiskit-HumanEval-hardベンチマークで最も強力なオープンソース基準モデルを上回る。

Takeaways、Limitations

Takeaways:
LLMを用いた量子プログラミングのサポートの可能性を示した。
量子検証によるコード品質の向上と実行可能性の保証
DPOとGRPOの結合による性能向上
Qiskit-HumanEval-hardベンチマークで優れた性能を達成。
Limitations:
合成データパイプラインに依存するデータ生成方式の制限。
実際の量子ハードウェアの制約とアクセシビリティの問題
特定の量子プログラミングフレームワーク(Qiskit)への依存性。
Qiskit-HumanEval-hard ベンチマークを超えた一般化性能の検証不足。
👍