Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

QHackBench: Evaluación comparativa de modelos de lenguajes grandes para la generación de código cuántico mediante desafíos del hackathon PennyLane

Created by
  • Haebom

Autor

Abdul Basit, Minghao Shao, Muhammad Haider Asif, Nouhaila Innan, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique

Describir

Este artículo evalúa las capacidades de generación de código de computación cuántica de los modelos de lenguaje a gran escala (LLM). Basándonos en problemas reales del Quantum Hackathon (QHack), presentamos QHackBench, un nuevo conjunto de datos de referencia, para comparar el rendimiento de los LLM con la generación de código cuántico basada en PennyLane. Comparamos y evaluamos los métodos de incitación básica y generación aumentada por búsqueda (RAG), utilizando un marco de evaluación estructurado que evalúa la corrección funcional, la validez sintáctica y las tasas de éxito de ejecución en problemas de diversa dificultad. Demostramos que el modelo basado en RAG, utilizando el conjunto de datos extendido de PennyLane, produce resultados comparables al método de incitación básica, incluso en algoritmos cuánticos complejos. Además, proponemos una secuencia de evaluación multiagente que corrige iterativamente las soluciones incorrectas, mejorando aún más la tasa de éxito de ejecución. Al hacer públicos el conjunto de datos QHackBench, el marco de evaluación y los resultados experimentales, buscamos estimular la investigación en programación cuántica basada en IA.

Takeaways, Limitations

Takeaways:
Proporcionamos una base para evaluar sistemáticamente las capacidades de generación de código cuántico de LLM a través de un nuevo conjunto de datos de referencia llamado QHackBench.
Demostramos que el rendimiento de generación de código cuántico de LLM se puede mejorar utilizando la técnica RAG.
Sugerimos la posibilidad de mejorar la precisión de la generación de código a través de una canalización de evaluación de múltiples agentes.
Se espera que la investigación en programación cuántica basada en IA se active a través de conjuntos de datos y marcos públicos.
Limitations:
Debido a que el conjunto de datos de referencia está limitado a problemas QHack, la generalización a otros entornos de programación cuántica o tipos de problemas puede ser limitada.
Debido a que las métricas de evaluación se limitan a la corrección funcional, la validez sintáctica y la tasa de éxito de ejecución, es posible que no se tengan en cuenta otros aspectos importantes como la eficiencia del código o el grado de optimización.
Faltan análisis concretos sobre la mejora del rendimiento de los procesos de evaluación de múltiples agentes.
👍