[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ReCode: Cập nhật kiến thức API mã bằng học tăng cường

Created by
  • Haebom

Tác giả

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Phác thảo

Bài báo này đề cập đến vấn đề khả năng tạo mã của các mô hình ngôn ngữ quy mô lớn (LLM) gặp khó khăn trong việc thích ứng với các bản cập nhật thường xuyên của các API thư viện bên ngoài. Điều này là do LLM dựa vào thông tin API đã lỗi thời trong dữ liệu đào tạo của chúng. Để giải quyết vấn đề này, chúng tôi đề xuất ReCode (học tăng cường dựa trên quy tắc để cập nhật mã), một khuôn khổ mới mô phỏng cách các lập trình viên con người thích ứng với các thay đổi API. ReCode đào tạo LLM để thực hiện di chuyển phiên bản dựa trên thông tin cập nhật bằng cách sử dụng một tập dữ liệu gồm khoảng 2.000 mục dữ liệu. Chúng tôi cũng giới thiệu một số liệu tương tự chuỗi đã sửa đổi như một phần thưởng cho học tăng cường. Kết quả thử nghiệm cho thấy ReCode cải thiện đáng kể hiệu suất tạo mã của LLM trong các tình huống API động, đặc biệt là trong tác vụ CodeUpdateArena chưa được biết đến. Đặc biệt, so với việc tinh chỉnh học có giám sát, ReCode ít tác động hơn đến khả năng tạo mã chung của LLM. Chúng tôi áp dụng ReCode cho nhiều LLM và các thuật toán học tăng cường khác nhau (GRPO và DAPO) và đạt được những cải tiến hiệu suất nhất quán. Cụ thể, sau khi huấn luyện, Qwen2.5-Coder-7B đã vượt trội hơn mô hình tinh chỉnh chỉ thị mã tham số 32B và mô hình suy luận có cùng kiến trúc. Mã có thể được tìm thấy trong https://github.com/zjunlp/ReCode .

Takeaways, Limitations

Takeaways:
Trình bày một phương pháp hiệu quả để cải thiện hiệu suất tạo mã trong môi trường API động của LLM
Khung ReCode dựa trên học tăng cường có tác động tiêu cực ít hơn đến khả năng tạo mã chung của LLM so với học có giám sát
Khả năng áp dụng cho nhiều thuật toán LLM và học tăng cường và xác minh hiệu suất tuyệt vời (hiệu suất vượt trội của Qwen2.5-Coder-7B)
Cải thiện khả năng thích ứng với các bản cập nhật API trong thế giới thực
Limitations:
Cần mở rộng kích thước tập dữ liệu vì hiện tại tập dữ liệu đang được đào tạo với 2.000 mục dữ liệu.
Cần nghiên cứu thêm về hiệu suất tổng quát trên các API và ngôn ngữ lập trình khác nhau.
Cần xem xét lại tính ổn định và khả năng bảo trì lâu dài của ReCode trong môi trường thực tế
Những hạn chế và tiềm năng cải thiện số liệu về độ tương đồng của chuỗi được sử dụng
👍