Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AnyGPT: LLM đa phương thức thống nhất với mô hình trình tự rời rạc

Created by
  • Haebom

Tác giả

Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Chu, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

Phác thảo

AnyGPT là một mô hình ngôn ngữ đa phương thức bất kỳ-đến-bất kỳ sử dụng các biểu diễn rời rạc để tích hợp nhiều phương thức khác nhau, bao gồm lời nói, văn bản, hình ảnh và âm nhạc. Nó có thể được đào tạo một cách đáng tin cậy mà không cần sửa đổi kiến ​​trúc hoặc phương pháp đào tạo mô hình ngôn ngữ quy mô lớn (LLM) hiện có, và các phương thức mới có thể được tích hợp vào LLM chỉ bằng tiền xử lý ở cấp độ dữ liệu. Chúng tôi đã xây dựng một tập dữ liệu đa phương thức lấy văn bản làm trung tâm để tiền đào tạo căn chỉnh đa phương thức và, sử dụng một mô hình sinh, đã tổng hợp một tập dữ liệu hướng dẫn đa phương thức bất kỳ-đến-bất kỳ quy mô lớn bao gồm 108.000 mẫu đan xen phức tạp nhiều phương thức khác nhau lần đầu tiên. Kết quả thử nghiệm chứng minh rằng AnyGPT cho phép các cuộc hội thoại đa phương thức bất kỳ-đến-bất kỳ trong khi đạt được hiệu suất tương đương với các mô hình chuyên biệt trên tất cả các phương thức, chứng minh rằng các biểu diễn rời rạc có thể tích hợp hiệu quả và thuận tiện nhiều phương thức trong một mô hình ngôn ngữ. Bản demo có thể được tìm thấy tại https://junzhan2000.github.io/AnyGPT.github.io/ .

Takeaways, Limitations

Takeaways:
Tích hợp nhiều phương thức khác nhau mà không thay đổi kiến ​​trúc LLM hiện có
Có thể thêm các phương thức mới chỉ bằng cách xử lý sơ bộ dữ liệu.
Tích hợp đa phương thức hiệu quả và thuận tiện bằng cách sử dụng các biểu diễn rời rạc
ĐạT được hiệu suất tương đương với các mô hình chuyên biệt trên tất cả các phương thức
Xây dựng bộ dữ liệu đầu tiên có quy mô lớn, hướng đến bất kỳ đối tượng nào, đa phương thức.
Limitations:
Limitations không được đề cập rõ ràng trong bài báo. Nghiên cứu sâu hơn được đề xuất để cải thiện hiệu suất và khắc phục những hạn chế.
👍