Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Báo cáo kỹ thuật PLaMo 2

Created by
  • Haebom

Tác giả

Mạng ưa thích, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

Phác thảo

PLaMo 2 là một loạt các mô hình ngôn ngữ quy mô lớn chuyên biệt cho tiếng Nhật. Nó sử dụng kiến ​​trúc lai dựa trên Samba và, thông qua quá trình tiền huấn luyện liên tục, chuyển sang trạng thái tập trung hoàn toàn, hỗ trợ 32K ngữ cảnh mã thông báo. Để giải quyết tình trạng khan hiếm dữ liệu, nó đã được huấn luyện bằng một kho ngữ liệu tổng hợp mở rộng, đạt được hiệu quả tính toán thông qua việc tái sử dụng trọng số và cắt tỉa cấu trúc. Phương pháp cắt tỉa hiệu quả này đã tạo ra một mô hình 8B đạt hiệu suất tương đương với mô hình 100B. Sau khi huấn luyện, mô hình tiếp tục được cải thiện bằng cách sử dụng các quy trình tinh chỉnh học có giám sát (SFT) và tối ưu hóa sở thích trực tiếp (DPO), tận dụng dữ liệu hướng dẫn tiếng Nhật tổng hợp và các kỹ thuật hợp nhất mô hình. Suy luận được tối ưu hóa bằng vLLM và lượng tử hóa để giảm thiểu mất độ chính xác. Nó đạt được kết quả tiên tiến trên các chuẩn mực của Nhật Bản, vượt trội hơn các mô hình mở có quy mô tương tự về khả năng tuân theo hướng dẫn, khả năng ngôn ngữ lưu loát và kiến ​​thức chuyên ngành tiếng Nhật.

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện hiệu quả và hiệu suất của các mô hình ngôn ngữ quy mô lớn bằng kiến ​​trúc lai dựa trên Samba và hỗ trợ ngữ cảnh mã thông báo 32K thông qua quá trình đào tạo trước liên tục.
Bằng cách sử dụng dữ liệu tổng hợp và các kỹ thuật cắt tỉa hiệu quả, chúng tôi đã giảm trọng số của mô hình thành công bằng cách đạt được hiệu suất của mô hình 100B với mô hình 8B.
Chúng tôi đã đạt được hiệu suất tiên tiến nhất trên các tiêu chuẩn của Nhật Bản bằng cách sử dụng các kỹ thuật sau đào tạo như SFT, DPO, dữ liệu tổng hợp và hợp nhất mô hình.
Tối ưu hóa suy luận thông qua vLLM và lượng tử hóa cho phép suy luận hiệu quả mà không ảnh hưởng đến độ chính xác.
Limitations:
Do phụ thuộc nhiều vào dữ liệu tổng hợp nên có khả năng hiệu suất sẽ giảm do sự khác biệt so với dữ liệu thực.
Mặc dù kích thước mô hình đã được giảm bớt, nhưng nó vẫn có thể yêu cầu nguồn tài nguyên tính toán đáng kể.
Bài báo này thiếu mô tả chi tiết về phương pháp tạo dữ liệu tổng hợp cụ thể hoặc cài đặt chi tiết của quy trình SFT và DPO.
Chưa có sự xác nhận về khả năng áp dụng và hiệu suất khái quát hóa cho các ngôn ngữ khác.
👍