Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recompensas verificables cuánticas para el Asistente de código Qiskit posterior a la capacitación

Created by
  • Haebom

Autor

Nicolas Dupuis, Adarsh ​​​​Tiwari, Youssef Mroueh, David Kremer, Ismael Faro, Juan Cruz-Benito

Describir

Este artículo explora técnicas de post-entrenamiento para modelos de lenguaje a gran escala (LLM) que facilitan el diseño, la simulación y la ejecución de circuitos cuánticos con Qiskit. Presentamos la verificación cuántica como un método eficaz para garantizar la calidad del código cuántico y su ejecutabilidad en hardware cuántico. Desarrollamos una canalización de datos sintéticos que genera pares de problemas cuánticos y pruebas unitarias, genera datos de preferencia para la Optimización Directa de Preferencias (DPO) y entrena modelos mediante la Optimización Guiada de Preferencias de Recompensas (GRPO), aprovechando las recompensas verificables cuánticamente proporcionadas por el hardware cuántico. El modelo con mejor rendimiento, que combina DPO y GRPO, supera al modelo base de código abierto más potente en el benchmark Qiskit-HumanEval-hard.

Takeaways, Limitations

Takeaways:
Demostrando el potencial del soporte de programación cuántica utilizando LLM.
Mejorar la calidad del código y garantizar el rendimiento ejecutable mediante la verificación cuántica.
Mejora del rendimiento mediante la combinación de DPO y GRPO.
Se logró un rendimiento excelente en el benchmark Qiskit-HumanEval-hard.
Limitations:
Limitaciones de los métodos de generación de datos que se basan en canalizaciones de datos sintéticos.
Limitaciones y problemas de accesibilidad del hardware cuántico actual.
Dependencia de un marco de programación cuántica específico (Qiskit).
Falta de validación del rendimiento de generalización más allá del punto de referencia Qiskit-HumanEval-hard.
👍