[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tỷ lệ dự đoán: Phần II, Farseer: Một luật tỷ lệ tinh chỉnh trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Hậu Nghệ Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Chu, Xiangyu Zhang, Daxin Jiang

Phác thảo

Trong bài báo này, chúng tôi trình bày Farseer, một định luật về khả năng mở rộng, nhằm giải quyết vấn đề chi phí cao khi đào tạo các mô hình ngôn ngữ quy mô lớn (LLM). Farseer xây dựng một cách có hệ thống một bề mặt mất mát mô hình L(N,D) đạt được độ chính xác cao hơn nhiều trên dữ liệu thực nghiệm so với các định luật về khả năng mở rộng hiện có (ví dụ: định luật Chinchilla). Định luật này đã được kiểm chứng thông qua các thí nghiệm mở rộng trên khoảng 1.000 LLM với nhiều kích thước và cấu hình khác nhau, và cho thấy khả năng ngoại suy vượt trội, giảm sai số ngoại suy tới 433% so với định luật Chinchilla. Định luật này cho phép ngoại suy đáng tin cậy các kết quả thực nghiệm quy mô nhỏ thành các dự đoán hiệu suất quy mô lớn, đồng thời cung cấp những hiểu biết mới về việc phân bổ tối ưu tài nguyên tính toán. Tất cả các mô hình, dữ liệu, kết quả và nhật ký đều được chia sẻ công khai.

Takeaways, Limitations

Takeaways:
Farseer trình bày một luật khả năng mở rộng mới có độ chính xác cao hơn các luật khả năng mở rộng hiện có
Kết quả thử nghiệm quy mô nhỏ có thể được sử dụng để dự đoán hiệu suất quy mô lớn.
Cung cấp những hiểu biết mới về việc phân bổ tối ưu các nguồn tài nguyên máy tính
Cho phép nghiên cứu thông qua quyền truy cập mở vào các mô hình, dữ liệu, kết quả và nhật ký
Limitations:
Cần xác nhận thêm về hiệu suất tổng quát của Farseer
Cần đánh giá khả năng áp dụng của Farseer vào các kiến trúc và phương pháp đào tạo khác nhau
Quy mô tài nguyên tính toán được sử dụng trong thử nghiệm rất lớn (tiêu tốn 3 triệu giờ GPU NVIDIA H100).
👍