본 논문은 대규모 언어 모델(LLM)의 양자 컴퓨팅 코드 생성 능력을 평가한 연구이다. Quantum Hackathon(QHack)의 실제 문제를 바탕으로 PennyLane 기반 양자 코드 생성에 대한 LLM의 성능을 벤치마크하기 위해 새로운 벤치마크 데이터셋인 QHackBench를 제시한다. 기본 프롬프팅과 검색 증강 생성(RAG) 방식을 비교 평가하고, 기능적 정확성, 구문 유효성, 실행 성공률을 다양한 난이도의 문제에 대해 평가하는 구조화된 평가 프레임워크를 사용하였다. 결과적으로, 확장된 PennyLane 데이터셋을 사용한 RAG 기반 모델이 복잡한 양자 알고리즘에서도 기본 프롬프팅 방식과 유사한 결과를 생성함을 보였다. 또한, 잘못된 솔루션을 반복적으로 수정하는 다중 에이전트 평가 파이프라인을 제시하여 실행 성공률을 더욱 높였다. QHackBench 데이터셋, 평가 프레임워크, 실험 결과를 공개하여 AI 기반 양자 프로그래밍 연구를 촉진하고자 한다.