Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này đề cập đến vấn đề khả năng tạo mã của các mô hình ngôn ngữ quy mô lớn (LLM) gặp khó khăn trong việc thích ứng với các bản cập nhật thường xuyên của các API thư viện bên ngoài. Điều này là do LLM dựa vào thông tin API đã lỗi thời trong dữ liệu đào tạo của chúng. Để giải quyết vấn đề này, chúng tôi đề xuất ReCode (học tăng cường dựa trên quy tắc để cập nhật mã), một khuôn khổ mới mô phỏng cách các lập trình viên con người thích ứng với các thay đổi API. ReCode đào tạo LLM để thực hiện di chuyển phiên bản dựa trên thông tin cập nhật bằng cách sử dụng một tập dữ liệu gồm khoảng 2.000 mục dữ liệu. Chúng tôi cũng giới thiệu một số liệu tương tự chuỗi đã sửa đổi như một phần thưởng cho học tăng cường. Kết quả thử nghiệm cho thấy ReCode cải thiện đáng kể hiệu suất tạo mã của LLM trong các tình huống API động, đặc biệt là trong tác vụ CodeUpdateArena chưa được biết đến. Đặc biệt, so với việc tinh chỉnh học có giám sát, ReCode ít tác động hơn đến khả năng tạo mã chung của LLM. Chúng tôi áp dụng ReCode cho nhiều LLM và các thuật toán học tăng cường khác nhau (GRPO và DAPO) và đạt được những cải tiến hiệu suất nhất quán. Cụ thể, sau khi huấn luyện, Qwen2.5-Coder-7B đã vượt trội hơn mô hình tinh chỉnh chỉ thị mã tham số 32B và mô hình suy luận có cùng kiến trúc. Mã có thể được tìm thấy trong https://github.com/zjunlp/ReCode .