Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MedHalu: Ảo giác trong phản hồi các câu hỏi về chăm sóc sức khỏe bằng các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Vibhor Agarwal, Yiqiao Jin, Mohit Chandra, Munmun De Choudhury, Srijan Kumar, Nishanth Sastry

Phác thảo

Bài báo này đề cập đến vấn đề ảo giác trong các mô hình ngôn ngữ quy mô lớn (LLM) có liên quan đến y khoa khi trả lời các câu hỏi của bệnh nhân. Khác với các nghiên cứu trước đây tập trung vào việc đánh giá kiến thức y khoa của LLM thông qua các câu hỏi thi y khoa chuẩn hóa, nghiên cứu này phân tích ảo giác trong các câu trả lời của LLM cho các câu hỏi y khoa từ bệnh nhân thực tế. Để đạt được điều này, chúng tôi giới thiệu MedHalu, một chuẩn mực mới bao gồm nhiều chủ đề y khoa và phản ứng ảo giác do LLM tạo ra, đồng thời chúng tôi chú thích chi tiết các loại ảo giác và phân đoạn văn bản. Hơn nữa, chúng tôi đề xuất MedHaluDetect, một khuôn khổ toàn diện để đánh giá khả năng phát hiện ảo giác của LLM, và nghiên cứu mức độ dễ bị tổn thương của ba nhóm cá nhân trước ảo giác y khoa: chuyên gia y tế, LLM và người bình thường. Kết quả của chúng tôi cho thấy LLM hoạt động kém hơn đáng kể so với chuyên gia y tế và, trong một số trường hợp, người bình thường trong việc phát hiện ảo giác. Chúng tôi đề xuất một phương pháp tiếp cận có sự tham gia của chuyên gia, tích hợp suy luận của chuyên gia vào dữ liệu đầu vào của LLM, do đó cải thiện hiệu suất phát hiện ảo giác của LLM (ví dụ: cải thiện 6,3% điểm macro-F1 đối với GPT-4).

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày chuẩn mực ảo giác y khoa MedHalu và khuôn khổ đánh giá MedHaluDetect dựa trên các câu hỏi thực tế của bệnh nhân.
Theo kinh nghiệm, chúng tôi chứng minh rằng LLM có khả năng phát hiện ảo giác y khoa thấp hơn đáng kể so với các chuyên gia y tế và công chúng nói chung.
Đề Xuất khả năng cải thiện hiệu suất phát hiện ảo giác của LLM thông qua sự tham gia của chuyên gia.
Cung cấp Takeaways quan trọng để đảm bảo tính an toàn và độ tin cậy của hệ thống cung cấp thông tin y tế dựa trên LLM.
Limitations:
Giới hạn về kích thước dữ liệu và tính đa dạng của chuẩn mực MedHalu.
Những hạn chế về loại mô hình LLM liên quan đến nghiên cứu.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của các phương pháp tham gia của chuyên gia và khả năng áp dụng của chúng vào bối cảnh y tế thực tế.
Cần có một phân tích chi tiết hơn về các loại ảo giác khác nhau và mức độ nghiêm trọng của chúng.
👍