Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

QHackBench: Đánh giá chuẩn các mô hình ngôn ngữ lớn để tạo mã lượng tử bằng cách sử dụng thử thách Hackathon PennyLane

Created by
  • Haebom

Tác giả

Abdul Basit, Minghao Shao, Muhammad Haider Asif, Nouhaila Innan, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique

Phác thảo

Bài báo này đánh giá khả năng tạo mã máy tính lượng tử của các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên các vấn đề thực tế từ Quantum Hackathon (QHack), chúng tôi trình bày QHackBench, một bộ dữ liệu chuẩn mới, để đánh giá hiệu suất của LLM so với việc tạo mã lượng tử dựa trên PennyLane. Chúng tôi so sánh và đánh giá các phương pháp gợi ý cơ bản và phương pháp tạo mã tăng cường tìm kiếm (RAG), sử dụng một khuôn khổ đánh giá có cấu trúc để đánh giá tính chính xác về mặt chức năng, tính hợp lệ cú pháp và tỷ lệ thành công thực thi trên các vấn đề có độ khó khác nhau. Chúng tôi chứng minh rằng mô hình dựa trên RAG, sử dụng bộ dữ liệu PennyLane mở rộng, tạo ra kết quả tương đương với phương pháp gợi ý cơ bản ngay cả trên các thuật toán lượng tử phức tạp. Hơn nữa, chúng tôi đề xuất một quy trình đánh giá đa tác nhân để sửa các giải pháp không chính xác theo chu kỳ, từ đó nâng cao hơn nữa tỷ lệ thành công thực thi. Bằng cách công khai bộ dữ liệu QHackBench, khuôn khổ đánh giá và kết quả thử nghiệm, chúng tôi mong muốn thúc đẩy nghiên cứu về lập trình lượng tử dựa trên AI.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp nền tảng để đánh giá một cách có hệ thống khả năng tạo mã lượng tử của LLM thông qua bộ dữ liệu chuẩn mới có tên là QHackBench.
Chúng tôi chứng minh rằng hiệu suất tạo mã lượng tử của LLM có thể được cải thiện bằng cách sử dụng kỹ thuật RAG.
Chúng tôi đề xuất khả năng cải thiện độ chính xác của quá trình tạo mã thông qua quy trình đánh giá đa tác nhân.
Người ta kỳ vọng rằng nghiên cứu lập trình lượng tử dựa trên AI sẽ được kích hoạt thông qua các tập dữ liệu và khuôn khổ công khai.
Limitations:
Vì tập dữ liệu chuẩn bị giới hạn ở các bài toán QHack nên khả năng khái quát hóa sang các môi trường lập trình lượng tử hoặc các loại bài toán khác có thể bị hạn chế.
Vì các số liệu đánh giá bị giới hạn ở tính chính xác về mặt chức năng, tính hợp lệ cú pháp và tỷ lệ thực thi thành công nên các khía cạnh quan trọng khác như hiệu quả mã hoặc mức độ tối ưu hóa có thể không được tính đến.
Thiếu phân tích cụ thể về việc cải thiện hiệu suất của quy trình đánh giá đa tác nhân.
👍