Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CRED-SQL: Nâng cao khả năng phân tích cú pháp văn bản sang SQL của cơ sở dữ liệu quy mô lớn trong thế giới thực thông qua mô tả thực thi và truy xuất cụm

Created by
  • Haebom

Tác giả

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Peng

Phác thảo

Bài báo này đề xuất khuôn khổ CRED-SQL để cải thiện độ chính xác của các hệ thống Text-to-SQL, chuyển đổi các truy vấn ngôn ngữ tự nhiên (NLQ) thành các truy vấn SQL trong các cơ sở dữ liệu quy mô lớn. Các hệ thống Text-to-SQL hiện tại gặp phải tình trạng kém chính xác do lỗi khớp lược đồ và trôi dạt ngữ nghĩa do các thuộc tính ngữ nghĩa tương tự trong các cơ sở dữ liệu lớn. CRED-SQL giải quyết vấn đề không khớp lược đồ này bằng cách xác định chính xác các bảng và cột liên quan đến NLQ thông qua tìm kiếm lược đồ quy mô lớn dựa trên cụm. Hơn nữa, bằng cách giới thiệu Ngôn ngữ mô tả thực thi (EDL), một ngôn ngữ biểu diễn trung gian giữa NLQ và SQL, CRED-SQL phân tách nhiệm vụ thành hai bước: Text-to-EDL và EDL-to-SQL. Sự phân tách này tận dụng khả năng suy luận mạnh mẽ của LLM đồng thời giảm trôi dạt ngữ nghĩa. Kết quả thử nghiệm trên hai điểm chuẩn liên miền quy mô lớn, SpiderUnion và BirdUnion, chứng minh tính hiệu quả và khả năng mở rộng của CRED-SQL bằng cách đạt được hiệu suất tiên tiến.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất một khuôn khổ mới, CRED-SQL, giúp cải thiện đáng kể độ chính xác của các hệ thống Text-to-SQL trong cơ sở dữ liệu quy mô lớn.
Giải quyết các vấn đề không khớp lược đồ và trôi dạt ngữ nghĩa thông qua khám phá lược đồ dựa trên cụm và ngôn ngữ biểu diễn trung gian EDL.
ĐạT được hiệu suất tiên tiến nhất trong hai chuẩn mực quy mô lớn.
ĐảM bảo khả năng tái tạo và mở rộng thông qua mã mở.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát hóa của phương pháp đề xuất. Cũng cần xác minh sự phụ thuộc của nó vào các cấu trúc cơ sở dữ liệu hoặc loại truy vấn cụ thể.
Cần nghiên cứu thêm để tối ưu hóa thiết kế EDL và cải thiện hiệu quả của quá trình chuyển đổi EDL sang SQL.
Cần đánh giá hiệu suất sâu hơn cho các cơ sở dữ liệu có kích thước và độ phức tạp khác nhau.
👍