Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Từ Mã đến Tính chính xác: Hoàn thiện Giai đoạn Cuối cùng của Việc Tạo Mã bằng Gỡ lỗi Phân cấp

Created by
  • Haebom

Tác giả

Yuling Shi, Songsong Wang, Cheng Cheng Wan, Min Wang, Xiaodong Gu

Phác thảo

Bài báo này đề xuất một trình gỡ lỗi đa độ phân giải (MGDebugger) để khắc phục những hạn chế của việc tạo mã dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). MGDebugger cô lập, xác định và giải quyết các lỗi trong mã được tạo ra ở nhiều mức độ chi tiết khác nhau, từ lỗi cú pháp cấp thấp đến lỗi thuật toán cấp cao. Nó phân tích mã có vấn đề thành một cây phân cấp các hàm con, mỗi cấp biểu thị một lỗi ở một mức độ chi tiết cụ thể. Sử dụng trình thực thi Python dựa trên LLM, nó theo dõi quá trình thực thi của các hàm con và giám sát trạng thái biến để xác định chính xác các lỗi. Độ chính xác và hiệu quả được cải thiện thông qua thử nghiệm cấp độ hàm con và giải quyết lỗi lặp lại từ dưới lên. Kết quả thử nghiệm sử dụng các tập dữ liệu HumanEval và HumanEvalFix chứng minh hiệu suất vượt trội của nó so với các hệ thống gỡ lỗi hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp gỡ lỗi mới có thể góp phần cải thiện độ chính xác của quá trình tạo mã dựa trên LLM.
Đã đượC chứng minh là có hiệu quả trong việc giải quyết các vấn đề phức tạp bằng cách giải quyết các lỗi ở nhiều cấp độ chi tiết khác nhau.
Có thể xác định và sửa lỗi chính xác thông qua trình mô phỏng dựa trên LLM.
Hiệu suất được cải thiện đã được xác minh bằng thực nghiệm trên các hệ thống hiện có trên các tập dữ liệu HumanEval và HumanEvalFix.
_____T21557____-:
Hiện tại, hệ thống này chuyên dành cho Python và khả năng áp dụng cho các ngôn ngữ lập trình khác cần được nghiên cứu thêm.
Cần phải xác nhận thêm về hiệu suất và độ tin cậy của trình mô phỏng dựa trên LLM.
Hiệu suất xử lý các loại lỗi rất phức tạp hoặc đặc biệt cần phải được thử nghiệm thêm.
Do những hạn chế của LLM, có thể một số loại lỗi nhất định sẽ không được phát hiện.
👍