Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học những gì quan trọng: Lựa chọn nhiệm vụ xác suất thông qua thông tin tương hỗ để tinh chỉnh mô hình

Created by
  • Haebom

Tác giả

Prateek Chanda, Saral Sureka, Parth Pratim Chatterjee, Krishnateja Killamsetty, Nikhil Shivakumar Nayak, Ganesh Ramakrishnan

Phác thảo

Bài báo này nhấn mạnh rằng hiệu suất tinh chỉnh của các mô hình ngôn ngữ quy mô lớn (LLM) phụ thuộc rất nhiều vào thành phần hỗn hợp dữ liệu huấn luyện, tuy nhiên, quá trình lựa chọn hỗn hợp dữ liệu tối ưu lại thủ công và phụ thuộc vào phương pháp heuristic. Do đó, chúng tôi đề xuất TASKPGM, một khuôn khổ tối ưu hóa hỗn hợp có nguyên tắc và có khả năng mở rộng, lựa chọn tỷ lệ tác vụ liên tục bằng cách tối thiểu hóa hàm năng lượng sử dụng Trường Ngẫu nhiên Markov (MRF). TASKPGM mô hình hóa mối quan hệ giữa các tác vụ bằng cách sử dụng các khác biệt về hành vi, chẳng hạn như Phân kỳ Jensen-Shannon và Thông tin Tương hỗ Từng Điểm, được tính toán từ phân phối dự đoán của các mô hình tinh chỉnh tác vụ đơn lẻ. Nó cung cấp một giải pháp dạng đóng trong các ràng buộc nhóm và cân bằng một cách có thể chứng minh được tính đại diện và tính đa dạng giữa các tác vụ. Nó chứng minh hiệu suất thực nghiệm nhất quán trên các công cụ đánh giá như MMLU và BIGBench trên Llama 2 và Mistral, cùng với các đảm bảo lý thuyết (bao gồm cả tính mô-đun phụ yếu cho các biến thể bị ràng buộc ngân sách). Ngoài hiệu suất, TASKPGM cung cấp những hiểu biết có thể diễn giải được về ảnh hưởng của tác vụ và thành phần hỗn hợp, khiến nó trở thành một công cụ mạnh mẽ cho việc tinh chỉnh LLM hiệu quả và mạnh mẽ.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày TASKPGM, một khuôn khổ có nguyên tắc và có khả năng mở rộng để tối ưu hóa kết hợp dữ liệu nhằm tinh chỉnh LLM.
Mô hình hóa mối quan hệ giữa các nhiệm vụ bằng cách sử dụng phân phối dự đoán của mô hình tinh chỉnh nhiệm vụ đơn lẻ, cân bằng tính đại diện và tính đa dạng.
Thể hiện sự cải thiện hiệu suất nhất quán trên nhiều công cụ đánh giá khác nhau như MMLU và BIGBench trên Llama 2 và Mistral.
Cung cấp những hiểu biết sâu sắc có thể diễn giải được về ảnh hưởng của tác phẩm và thành phần hỗn hợp.
Cung cấp các đảm bảo lý thuyết (bao gồm cả tính mô-đun phụ yếu).
_____T28473____-:
Cần có thêm nghiên cứu về khả năng ứng dụng thực tế và hiệu suất tổng quát của TASKPGM.
ĐáNh giá hiệu suất của TASKPGM là cần thiết cho nhiều kiến trúc LLM và loại nhiệm vụ khác nhau.
Cần phải phân tích sâu hơn về chi phí tính toán và hiệu quả của quá trình tối thiểu hóa hàm năng lượng.
Cần phải xem xét lại tính phù hợp của các chỉ số khác biệt về hành vi được sử dụng trong mô hình MRF.
👍