Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cảnh quan năng lượng cho phép loại trừ đáng tin cậy trong các mô hình ngôn ngữ lớn được tăng cường truy xuất cho chăm sóc sức khỏe

Created by
  • Haebom

Tác giả

Ravi Shankar, Sheng Wong, Lin Li, Magdalena Bachmann, Alex Silverthorne, Beth Albert, Gabriel Davis Jones

Phác thảo

Bài báo này nhấn mạnh tầm quan trọng then chốt của việc kiêng khem đáng tin cậy đối với các hệ thống tạo tìm kiếm tăng cường (RAG) trong các lĩnh vực quan trọng đối với an toàn, chẳng hạn như sức khỏe phụ nữ, nơi các câu trả lời không chính xác có thể gây hại. Chúng tôi trình bày một mô hình dựa trên năng lượng (EBM) học một bối cảnh năng lượng mượt mà cho một ngữ liệu ngữ nghĩa dày đặc gồm 2,6 triệu câu hỏi dựa trên hướng dẫn. Mô hình này cho phép hệ thống quyết định tạo ra hay kiêng khem. EBM được đánh giá dựa trên đường cơ sở softmax đã hiệu chuẩn và thuật toán tìm kiếm mật độ k-gần nhất (kNN), với trường hợp khó là các truy vấn gần các phân phối có thách thức về mặt ngữ nghĩa. EBM đạt được hiệu suất kiêng khem vượt trội trong các trường hợp có thách thức về mặt ngữ nghĩa, đạt được diện tích dưới đường cong (AUROC) là 0,961 so với 0,950 đối với đường cơ sở softmax và giảm FPR@95 từ 0,331 xuống 0,235. Mặc dù hiệu suất tương tự trong các trường hợp tiêu cực dễ dàng, nhưng lợi thế của EBM thể hiện rõ nhất trong các phân phối có thách thức, quan trọng đối với an toàn. Các nghiên cứu cắt bỏ toàn diện sử dụng phương pháp lấy mẫu âm tính có kiểm soát và phơi bày dữ liệu công bằng chứng minh rằng tính mạnh mẽ chủ yếu xuất phát từ điểm số năng lượng, và việc bao gồm hoặc loại trừ các loại âm tính cụ thể (khó, dễ hoặc hỗn hợp) làm sắc nét ranh giới quyết định nhưng không cần thiết cho việc khái quát hóa cho các trường hợp khó. Những kết quả này chứng minh rằng tự chấm điểm dựa trên năng lượng cung cấp tín hiệu tin cậy đáng tin cậy hơn so với độ tin cậy softmax dựa trên xác suất, tạo nền tảng có thể mở rộng và diễn giải cho các hệ thống RAG an toàn.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng mô hình dựa trên năng lượng (EBM) có thể cải thiện khả năng tự kiểm soát đáng tin cậy trong các khu vực quan trọng về an toàn của hệ thống RAG.
EBM đạt được AUROC cao hơn và FPR thấp hơn đối với các ví dụ tiêu cực khó hơn so với các phương pháp dựa trên softmax.
ĐIểm năng lượng cung cấp nền tảng có thể mở rộng và diễn giải được cho các hệ thống RAG an toàn.
Limitations:
Nghiên cứu này tập trung vào một lĩnh vực an toàn cụ thể quan trọng (sức khỏe phụ nữ) và cần phải nghiên cứu thêm để có thể áp dụng rộng rãi cho các lĩnh vực khác.
Hiệu suất của EBM có thể phụ thuộc vào chất lượng và quy mô của tập dữ liệu được sử dụng.
Trong các nghiên cứu cắt bỏ, tác động của việc bao gồm/loại trừ các loại tiêu cực cụ thể đối với hiệu suất là hạn chế, nhưng có thể cần phân tích thêm.
👍