[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

QSpark: Hacia una generación de código Qiskit confiable

Created by
  • Haebom

Autor

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy, Chen Ding

Describir

Este artículo estudia el ajuste fino de modelos de lenguaje a gran escala (LLM) mediante técnicas de aprendizaje por refuerzo (RL) para mejorar la tolerancia a errores de los circuitos cuánticos. Para abordar el problema de que los LLM existentes, como Granite-20B-Code y StarCoder, suelen generar códigos Qiskit erróneos, ajustamos el modelo 32B en un conjunto de datos sintéticos con anotaciones enriquecidas mediante dos métodos de RL: Optimización de Políticas Relativa de Grupo (GRPO) y Optimización de Preferencias por Odds-Ratio (ORPO). En el benchmark Qiskit HumanEval, ORPO alcanza un 56,29% de aprobación a 1 (una mejora de aproximadamente el 10% respecto a Granite-8B-QK), mientras que GRPO alcanza un 49%, superando a todos los modelos de referencia de propósito general existentes. En el HumanEval original, obtuvieron una puntuación del 65,90% y el 63,00%, respectivamente. GRPO es fuerte en tareas básicas, mientras que ORPO es fuerte en tareas intermedias, pero no logra resolver tareas avanzadas, lo que demuestra tanto el potencial como las limitaciones de la programación cuántica basada en IA.

Takeaways, Limitations

Takeaways:
Demostramos que las técnicas RL se pueden utilizar para mejorar el rendimiento de la programación cuántica de LLM.
Ambos métodos RL, GRPO y ORPO, logran mejoras de rendimiento con respecto a los modelos de referencia de propósito general existentes.
Presentar el estado actual y la dirección futura de la programación cuántica basada en IA a través del análisis del rendimiento de tareas de varios niveles de dificultad.
Limitations:
Todavía tiene dificultades para resolver problemas difíciles de programación cuántica.
Dado que se entrenó utilizando un conjunto de datos sintéticos, su desempeño en un entorno de programación cuántica real requiere mayor verificación.
Ambos métodos de RL muestran fortalezas en tipos específicos de tareas y existe la necesidad de mejorar el desempeño de generalización para todos los tipos de tareas.
👍