Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VeOmni: Mở rộng quy mô đào tạo mô hình phương thức bất kỳ với Zoo công thức phân tán tập trung vào mô hình

Created by
  • Haebom

Tác giả

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jia Cheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Phác thảo

Bài báo này nhấn mạnh rằng việc đào tạo các LLM (mô hình ngôn ngữ quy mô lớn) đa phương thức vẫn là một thách thức đáng kể do kiến trúc mô hình không đồng nhất cần thiết để xử lý các phương thức khác nhau, đòi hỏi thiết kế hệ thống phức tạp cho việc đào tạo quy mô lớn. Các khuôn khổ hiện có thường đan xen định nghĩa mô hình và logic song song, hạn chế khả năng mở rộng và phát sinh chi phí kỹ thuật đáng kể cho việc đào tạo đa phương thức đầu cuối. Để giải quyết vấn đề này, chúng tôi giới thiệu VeOmni, một khuôn khổ đào tạo mô-đun và hiệu quả giúp đẩy nhanh quá trình phát triển LLM đa phương thức. VeOmni giới thiệu các công thức phân tán lấy mô hình làm trung tâm, tách biệt giao tiếp khỏi tính toán, cho phép xử lý song song 3D hiệu quả trong các LLM đa phương thức. Nó cũng có giao diện cấu hình linh hoạt cho phép tích hợp liền mạch các phương thức mới với những thay đổi mã tối thiểu. Sử dụng VeOmni, chúng tôi đào tạo một mô hình hỗn hợp chuyên gia (MoE) đa phương thức với 30B tham số ở thông lượng 2.800 token/giây/GPU và mở rộng lên độ dài ngữ cảnh 160K với tính song song 3D trên 128 GPU, chứng minh hiệu quả và khả năng mở rộng tuyệt vời cho việc đào tạo LLM đa phương thức quy mô lớn.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu khuôn khổ VeOmni, giúp cải thiện đáng kể hiệu quả và khả năng mở rộng của chương trình đào tạo LLM đa phương thức.
Việc tách rời định nghĩa mô hình và giao tiếp cho phép đào tạo hiệu quả trên quy mô lớn thông qua xử lý song song 3D.
Cung cấp giao diện cấu hình linh hoạt để tích hợp các phương thức mới.
Chúng tôi chứng minh bằng thực nghiệm rằng mô hình MoE đa mô hình với 30B tham số có thể được đào tạo hiệu quả trên 128 GPU.
Limitations:
Cần nghiên cứu thêm để xác định khả năng ứng dụng thực tế và hiệu suất tổng quát của khuôn khổ VeOmni.
Cần có thêm các đánh giá hiệu suất cho các LLM đa phương thức ở nhiều quy mô khác nhau và trong nhiều môi trường phần cứng khác nhau.
Có thể có sự phụ thuộc vào một môi trường phần cứng cụ thể (128 GPU). Hiệu suất tổng quát hóa trong các môi trường khác cần được xác minh.
👍