Este artículo evalúa las capacidades de generación de código de computación cuántica de los modelos de lenguaje a gran escala (LLM). Basándonos en problemas reales del Quantum Hackathon (QHack), presentamos QHackBench, un nuevo conjunto de datos de referencia, para comparar el rendimiento de los LLM con la generación de código cuántico basada en PennyLane. Comparamos y evaluamos los métodos de incitación básica y generación aumentada por búsqueda (RAG), utilizando un marco de evaluación estructurado que evalúa la corrección funcional, la validez sintáctica y las tasas de éxito de ejecución en problemas de diversa dificultad. Demostramos que el modelo basado en RAG, utilizando el conjunto de datos extendido de PennyLane, produce resultados comparables al método de incitación básica, incluso en algoritmos cuánticos complejos. Además, proponemos una secuencia de evaluación multiagente que corrige iterativamente las soluciones incorrectas, mejorando aún más la tasa de éxito de ejecución. Al hacer públicos el conjunto de datos QHackBench, el marco de evaluación y los resultados experimentales, buscamos estimular la investigación en programación cuántica basada en IA.