Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tăng cường tính đa dạng trong các mô hình ngôn ngữ lớn thông qua các quy trình điểm xác định

Created by
  • Haebom

Tác giả

Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Ioannis Ch. Paschalidis, Aldo Pacchiano

Phác thảo

Bài báo này nêu bật vấn đề mà việc tinh chỉnh có giám sát và học tăng cường, với tư cách là các phương pháp sau đào tạo cho các mô hình ngôn ngữ quy mô lớn (LLM), góp phần cải thiện hiệu suất mô hình, nhưng lại làm giảm tính đa dạng đầu ra, dẫn đến các phản hồi hẹp và điển hình. Các phương pháp tăng cường tính đa dạng hiện có có những hạn chế, hoạt động tại thời điểm suy luận hoặc chỉ tập trung vào sự khác biệt về từ vựng. Để giải quyết vấn đề này, bài báo này đề xuất DQO, một phương pháp đào tạo mới dựa trên Quy trình Điểm Quyết định (DPP). DQO lấy mẫu và nhúng nhiều phản hồi cho mỗi lời nhắc, đo lường tính đa dạng bằng cách đo thể tích bị chiếm giữ bởi các nhúng phản hồi này. Các thí nghiệm trên nhiều tác vụ khác nhau (theo hướng, tóm tắt, tạo câu chuyện và suy luận) chứng minh rằng DQO cải thiện đáng kể tính đa dạng ngữ nghĩa mà không ảnh hưởng đến chất lượng mô hình.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp đào tạo mới (DQO) có thể tối ưu hóa đồng thời chất lượng và tính đa dạng ngữ nghĩa của LLM bằng cách sử dụng quy trình điểm quyết định (DPP).
Khắc phục những hạn chế của các phương pháp hiện có, chẳng hạn như tập trung vào hoạt động suy luận theo thời gian hoặc sự khác biệt về từ vựng.
Đã Chứng minh được hiệu quả trong việc duy trì chất lượng mô hình đồng thời cải thiện tính đa dạng về mặt ngữ nghĩa trong nhiều nhiệm vụ khác nhau.
Limitations:
Độ Phức tạp tính toán của các phương pháp đo lường đa dạng dựa trên DPP có thể cao.
Có thể có sự phụ thuộc vào việc sử dụng một loại hạt nhân cụ thể.
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
👍