Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này trình bày một phương pháp cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) hiện có cho các ngôn ngữ lập trình đa ngôn ngữ (MultiPL) trong phạm vi tài nguyên tính toán hạn chế để giải quyết thách thức của việc tạo mã đa ngôn ngữ. Chúng tôi coi MultiPL là một trường hợp đặc biệt của các mô hình ngôn ngữ tự nhiên đa ngôn ngữ và đề xuất MultiPL-MoE, một kiến trúc lai của các mô hình hỗn hợp chuyên gia (MoE). MultiPL-MoE kết hợp hai MoE để tối ưu hóa việc lựa chọn chuyên gia ở cấp độ mã thông báo và phân đoạn. MoE cấp mã thông báo sử dụng các chuyên gia được chia sẻ và các kỹ thuật chính quy hóa trọng số có cổng, trong khi MoE cấp phân đoạn sử dụng chiến lược lựa chọn cửa sổ trượt và top-k phân đoạn để nắm bắt tốt hơn cấu trúc cú pháp và các mẫu ngữ cảnh của ngôn ngữ lập trình. Kết quả thực nghiệm chứng minh hiệu quả của MultiPL-MoE.
Takeaways, Limitations
•
Takeaways:
◦
Đề Xuất khả năng cải thiện hiệu suất ngôn ngữ lập trình đa năng (MultiPL) trong điều kiện nguồn lực hạn chế.
◦
Đề Xuất một cơ cấu MoE hiệu quả thông qua việc tối ưu hóa lựa chọn chuyên gia ở cấp độ mã thông báo và phân khúc.
◦
Cải thiện sự hiểu biết về cấu trúc và ngữ cảnh của ngôn ngữ lập trình thông qua chiến lược lựa chọn phân đoạn top-k và cửa sổ trượt.
◦
Kiểm chứng thực nghiệm về hiệu quả của MultiPL-MoE
•
Limitations:
◦
Bài báo thiếu thông tin chi tiết về thiết lập thử nghiệm cụ thể, tập dữ liệu và mô hình so sánh.
◦
Cần nghiên cứu thêm về hiệu suất tổng quát của MultiPL-MoE được đề xuất và khả năng áp dụng của nó cho nhiều ngôn ngữ lập trình khác nhau.
◦
Thiếu giải thích chi tiết về kỹ thuật chuẩn hóa trọng số cổng và nguyên lý hoạt động của chiến lược lựa chọn chuyên gia.
◦
Thiếu thông tin đầy đủ để đảm bảo khả năng tái tạo kết quả thực nghiệm