Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Giải thích đa cấp cho các mô hình ngôn ngữ tạo sinh

Created by
  • Haebom

Tác giả

Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss, Amit Dhurandhar, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Werner Geyer, Soumya Ghosh

Phác thảo

Trong bài báo này, chúng tôi đề xuất Giải thích Đa cấp cho Mô hình Ngôn ngữ Sinh thành (MExGen) để tăng cường hiểu biết của chúng ta về quy trình tạo phản hồi của các mô hình ngôn ngữ quy mô lớn (LLM) được sử dụng cho các tác vụ dựa trên ngữ cảnh (chẳng hạn như tóm tắt và trả lời câu hỏi). MExGen định lượng ảnh hưởng của từng phần ngữ cảnh đến đầu ra của mô hình bằng cách gán điểm cho nó và mở rộng các phương pháp quy kết hiện có như LIME và SHAP cho các LLM được sử dụng trong các tác vụ dựa trên ngữ cảnh, trong đó chi phí suy luận cao, văn bản đầu vào dài và đầu ra là văn bản. Thông qua các đánh giá tự động và thủ công về các tác vụ tóm tắt và trả lời câu hỏi, chúng tôi chứng minh rằng nó cung cấp các giải thích đáng tin cậy hơn so với các phương pháp hiện có và các giải thích tự thân của LLM. Chúng tôi phát hành mã MExGen như một phần của bộ công cụ ICX360.

Takeaways, Limitations

Takeaways:
Cải thiện sự hiểu biết của bạn về quy trình tạo phản hồi LLM
Tăng khả năng giải thích của LLM trong các nhiệm vụ dựa trên ngữ cảnh
Khắc phục những hạn chế của các phương pháp quy kết hiện có và cung cấp những giải thích được cải thiện
Tăng cường tính dễ dàng trong nghiên cứu và sử dụng thông qua việc công bố mã nguồn mở
_____T36456____:
Không có thảo luận cụ thể về Limitations (không được đề cập rõ ràng trong bài báo)
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của phương pháp đề xuất.
Cần có thêm các thí nghiệm trên các LLM và công việc khác nhau
👍