Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khả năng của GPT-5 trong Lý luận Y khoa Đa phương thức

Created by
  • Haebom

Tác giả

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

Phác thảo

Nghiên cứu này đã đánh giá một cách có hệ thống hiệu suất suy luận chuỗi họng không bắn của GPT-5 như một công cụ suy luận đa phương thức để hỗ trợ quyết định y tế trong các nhiệm vụ trả lời câu hỏi dựa trên văn bản và dựa trên hình ảnh. Chúng tôi đã đánh giá GPT-5, GPT-5-mini, GPT-5-nano và GPT-4o-2024-11-20 trên các tập dữ liệu chuẩn hóa bao gồm MedQA, MedXpertQA, tập hợp con y tế MMLU, bài kiểm tra tự đánh giá USMLE và VQA-RAD. Chúng tôi nhận thấy rằng GPT-5 vượt trội hơn tất cả các mô hình cơ sở, đạt được độ chính xác tiên tiến trên tất cả các điểm chuẩn QA và thể hiện những cải tiến hiệu suất đáng kể trong suy luận đa phương thức. Cụ thể, trên MedXpertQA MM, GPT-5 đã cải thiện điểm suy luận thêm +29,26% và điểm hiểu thêm +26,18% so với GPT-4o và vượt trội hơn các chuyên gia được cấp phép lần lượt là +24,23% và +29,40%. GPT-5 đã chứng minh khả năng tích hợp các tín hiệu hình ảnh và văn bản để xây dựng một chuỗi suy luận chẩn đoán mạch lạc và đề xuất các biện pháp can thiệp phù hợp với rủi ro cao. Những kết quả này cho thấy GPT-5 hoạt động vượt trội so với con người và thậm chí cả trình độ chuyên gia trên các chuẩn mực suy luận đa phương thức được kiểm soát, cung cấp thông tin giá trị cho việc thiết kế các hệ thống hỗ trợ quyết định lâm sàng trong tương lai.

Takeaways, Limitations

Takeaways:
Chúng tôi đã chứng minh rằng GPT-5 vượt trội hơn các chuyên gia về lý luận đa phương thức trong lĩnh vực y tế.
Bằng cách đạt được hiệu suất tuyệt vời chỉ với phương pháp học không cần thực hiện, chúng tôi mang đến những khả năng mới cho việc phát triển các hệ thống hỗ trợ quyết định y tế.
Bằng cách liên tục chứng minh hiệu suất cao trên nhiều tập dữ liệu y tế khác nhau, chúng tôi đã xác nhận tính linh hoạt và độ tin cậy của GPT-5.
Cung cấp Takeaways, rất quan trọng cho việc thiết kế và phát triển các hệ thống hỗ trợ quyết định lâm sàng trong tương lai.
Limitations:
Nghiên cứu này sử dụng bộ dữ liệu chuẩn hạn chế và có thể không phản ánh đầy đủ sự phức tạp của bối cảnh lâm sàng thực tế.
Cần nghiên cứu thêm để khám phá tính minh bạch và khả năng giải thích của quá trình ra quyết định của GPT-5.
Cần có một phân tích sâu hơn về độ lệch và tính ổn định của mô hình.
Cần phải có xác nhận hiệu suất bổ sung trong môi trường lâm sàng thực tế.
👍