Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự thật phai mờ nhanh chóng: Đánh giá khả năng ghi nhớ kiến ​​thức y khoa lỗi thời trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Juraj Vladika, Mahdi Dhaini, Florian Matthes

Phác thảo

Bài báo này đề cập đến tiềm năng của các mô hình ngôn ngữ quy mô lớn (LLM) trong việc cải thiện chăm sóc sức khỏe bằng cách hỗ trợ nghiên cứu y khoa và bác sĩ. Tuy nhiên, việc chúng phụ thuộc vào dữ liệu đào tạo tĩnh đặt ra một rủi ro đáng kể khi các khuyến nghị y khoa phát triển để đáp ứng với các nghiên cứu và phát triển mới. LLM có thể đưa ra lời khuyên có hại hoặc không thực hiện được các nhiệm vụ lập luận lâm sàng nếu chúng vẫn giữ lại kiến ​​thức y khoa lỗi thời. Để nghiên cứu vấn đề này, chúng tôi trình bày hai bộ dữ liệu hỏi đáp (QA) mới được lấy từ các bài tổng quan hệ thống: MedRevQA (16.501 cặp QA bao gồm kiến ​​thức y sinh học tổng quát) và MedChangeQA (một tập hợp con gồm 512 cặp QA trong đó sự đồng thuận y khoa đã thay đổi theo thời gian). Đánh giá bộ dữ liệu trên tám LLM hàng đầu cho thấy sự phụ thuộc nhất quán vào kiến ​​thức lỗi thời trên tất cả các mô hình. Hơn nữa, chúng tôi phân tích tác động của dữ liệu tiền đào tạo lỗi thời và các chiến lược đào tạo để giải thích hiện tượng này và đề xuất các hướng giảm thiểu trong tương lai, đặt nền tảng cho việc phát triển các hệ thống AI y tế đáng tin cậy và cập nhật hơn.

Takeaways, Limitations

Takeaways:
Làm nổi bật rõ vấn đề phụ thuộc vào kiến ​​thức y khoa lỗi thời khi áp dụng LLM vào lĩnh vực y khoa.
Chúng tôi trình bày các tập dữ liệu QA mới (MedRevQA, MedChangeQA) để đánh giá các vấn đề kiến ​​thức lỗi thời.
Thực nghiệm chứng minh sự phụ thuộc nhất quán vào kiến ​​thức lỗi thời trong nhiều chương trình LLM khác nhau.
Phân tích nguyên nhân của vấn đề kiến ​​thức lạc hậu và đề xuất biện pháp giảm thiểu.
ĐặT nền tảng cho việc phát triển các hệ thống AI y tế đáng tin cậy hơn.
Limitations:
Kích thước của tập dữ liệu được trình bày cần được mở rộng để phục vụ cho nghiên cứu sâu hơn.
Các loại LLM được sử dụng trong phân tích bị hạn chế.
Cần phải xác minh thêm về hiệu quả của các biện pháp giảm thiểu được đề xuất.
👍