Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các mô hình ngôn ngữ lớn của Agentic cải thiện việc trả lời câu hỏi về X quang dựa trên truy xuất

Created by
  • Haebom

Tác giả

Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald K ostler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh

Phác thảo

Bài báo này đề xuất một khuôn khổ Tạo tăng cường truy xuất (RAG) dựa trên tác nhân cho việc trả lời câu hỏi (QA) về X quang. Để khắc phục những hạn chế của các phương pháp truy xuất một bước thông thường, chúng tôi xây dựng một hệ thống trong đó các LLM tự động phân tích các câu hỏi về X quang và truy xuất bằng chứng lâm sàng được nhắm mục tiêu theo từng bước từ radiopaedia để tạo ra các phản hồi dựa trên bằng chứng một cách linh hoạt. Chúng tôi đã đánh giá 24 LLM với nhiều kiến trúc, kích thước tham số khác nhau (từ 0,5B đến hơn 670B) và các mô hình học tập (mục đích chung, tối ưu hóa suy luận và tinh chỉnh lâm sàng) trên 104 câu hỏi được các chuyên gia đánh giá từ các tập dữ liệu RSNA-RadioQA và ExtendedQA. Truy xuất tác nhân đã cải thiện đáng kể độ chính xác chẩn đoán trung bình so với nhắc nhở không phát và RAG trực tuyến thông thường (73% so với 64%, P <0,001; 73% so với 68%, P <0,001), đặc biệt là đối với các mô hình cỡ trung bình. Hơn nữa, chúng tôi đã giảm thiểu ảo giác và tăng cường bằng chứng thực tế bằng cách thu thập bối cảnh lâm sàng có liên quan. Những cải thiện đáng kể cũng được quan sát thấy trong các mô hình được tinh chỉnh lâm sàng, cho thấy vai trò bổ sung của tìm kiếm và tinh chỉnh.

Takeaways, Limitations

Takeaways:
Khung RAG dựa trên tác nhân chứng minh tiềm năng cải thiện tính thực tế và độ chính xác của chẩn đoán trong QA X quang.
Nó đặc biệt hiệu quả trong các LLM cỡ trung bình và cũng góp phần cải thiện hiệu suất của các mô hình quy mô nhỏ.
Chúng tôi đã xác định được vai trò bổ sung của tìm kiếm và tinh chỉnh.
Góp phần củng cố cơ sở thực tế thông qua việc giảm ảo giác và thu thập thông tin có liên quan về mặt lâm sàng.
Limitations:
Cần có thêm nhiều nghiên cứu nữa để xác minh tính hữu ích lâm sàng của nó.
ĐốI với các mô hình rất lớn (>200B tham số), hiệu suất cải thiện là rất nhỏ.
Nó dựa vào dữ liệu radiopaedia và phải xem xét đến ảnh hưởng của sai lệch dữ liệu.
👍