Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
InfiAlign: Một khuôn khổ có khả năng mở rộng và hiệu quả về mẫu để sắp xếp các LLM nhằm nâng cao khả năng lập luận
Created by
Haebom
Tác giả
Shuo Cai, Su Lu, Qi Chu, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang
Phác thảo
Bài báo này trình bày InfiAlign, một khuôn khổ hậu huấn luyện hiệu quả để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). InfiAlign căn chỉnh các LLM bằng cách kết hợp tinh chỉnh có giám sát (SFT) và tối ưu hóa ái lực trực tiếp (DPO). Cốt lõi của nó là một quy trình lựa chọn dữ liệu mạnh mẽ, tự động lựa chọn dữ liệu căn chỉnh chất lượng cao từ các tập dữ liệu suy luận nguồn mở bằng các số liệu chất lượng đa chiều. Áp dụng nó vào mô hình Qwen2.5-Math-7B-Base, chúng tôi chứng minh rằng nó đạt được hiệu suất tương đương với các mô hình hiện có chỉ sử dụng khoảng 12% dữ liệu gốc, thể hiện khả năng khái quát hóa mạnh mẽ trên nhiều tác vụ suy luận. Cụ thể, việc áp dụng DPO mang lại hiệu suất cải thiện trung bình 3,89% trên các tác vụ suy luận toán học. Bằng cách kết hợp lựa chọn dữ liệu có nguyên tắc với tiền huấn luyện, InfiAlign cung cấp một giải pháp thiết thực để căn chỉnh các mô hình suy luận quy mô lớn theo cách có thể mở rộng và hiệu quả về dữ liệu. Các điểm kiểm tra mô hình có sẵn tại https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT .
Chúng tôi giới thiệu InfiAlign, một khuôn khổ mới có thể giải quyết hiệu quả các vấn đề về dữ liệu và chi phí tính toán của chương trình đào tạo sau đại học LLM hiện tại.
◦
Tối đa hóa hiệu quả dữ liệu và đảm bảo khả năng mở rộng với quy trình lựa chọn dữ liệu tự động.
◦
ĐạT được cải tiến hiệu suất tuyệt vời trong nhiều tác vụ suy luận khác nhau thông qua sự kết hợp giữa SFT và DPO.
◦
Trình bày phương pháp căn chỉnh mô hình suy luận thực tế, hiệu quả về dữ liệu và quy mô lớn.
◦
Tăng khả năng tái tạo và khả năng sử dụng của nghiên cứu thông qua việc công bố công khai các mô hình đã học.
•
Limitations:
◦
Những cải tiến về hiệu suất của InfiAlign có thể bị giới hạn ở các mô hình và tập dữ liệu cụ thể (Qwen2.5-Math-7B-Base).
◦
Thiếu giải thích chi tiết về định nghĩa và cách thiết lập các chỉ số chất lượng đa chiều.
◦
Cần phải xác nhận thêm hiệu suất tổng quát cho các LLM khác và nhiều nhiệm vụ suy luận khác nhau.
◦
Thiếu phân tích về sự thiên vị và hạn chế của quy trình lựa chọn dữ liệu.