Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
AnyGPT: LLM đa phương thức thống nhất với mô hình trình tự rời rạc
Created by
Haebom
Tác giả
Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Chu, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
Phác thảo
AnyGPT là một mô hình ngôn ngữ đa phương thức bất kỳ-đến-bất kỳ sử dụng các biểu diễn rời rạc để tích hợp nhiều phương thức khác nhau, bao gồm lời nói, văn bản, hình ảnh và âm nhạc. Nó có thể được đào tạo một cách đáng tin cậy mà không cần sửa đổi kiến trúc hoặc phương pháp đào tạo mô hình ngôn ngữ quy mô lớn (LLM) hiện có, và các phương thức mới có thể được tích hợp vào LLM chỉ bằng tiền xử lý ở cấp độ dữ liệu. Chúng tôi đã xây dựng một tập dữ liệu đa phương thức lấy văn bản làm trung tâm để tiền đào tạo căn chỉnh đa phương thức và, sử dụng một mô hình sinh, đã tổng hợp một tập dữ liệu hướng dẫn đa phương thức bất kỳ-đến-bất kỳ quy mô lớn bao gồm 108.000 mẫu đan xen phức tạp nhiều phương thức khác nhau lần đầu tiên. Kết quả thử nghiệm chứng minh rằng AnyGPT cho phép các cuộc hội thoại đa phương thức bất kỳ-đến-bất kỳ trong khi đạt được hiệu suất tương đương với các mô hình chuyên biệt trên tất cả các phương thức, chứng minh rằng các biểu diễn rời rạc có thể tích hợp hiệu quả và thuận tiện nhiều phương thức trong một mô hình ngôn ngữ. Bản demo có thể được tìm thấy tại https://junzhan2000.github.io/AnyGPT.github.io/ .