Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học cách chẩn đoán riêng tư: LLM do DP hỗ trợ để phân loại báo cáo X quang

Created by
  • Haebom

Tác giả

Payel Bhattacharjee, Fengwei Tian, Geoffrey D. Rubin, Joseph Y. Lo, Nirav Merchant, Heidi Hanson, John Gounley, Ravi Tandon

Phác thảo

Nghiên cứu này đề xuất một khuôn khổ để tinh chỉnh mô hình ngôn ngữ quy mô lớn (LLM) sử dụng quyền riêng tư vi sai (DP) để thực hiện phát hiện nhiều bất thường trong văn bản báo cáo X quang. Bằng cách đưa nhiễu bù vào trong quá trình tinh chỉnh, chúng tôi mong muốn giảm thiểu rủi ro quyền riêng tư liên quan đến dữ liệu bệnh nhân nhạy cảm và ngăn ngừa rò rỉ dữ liệu trong khi vẫn duy trì hiệu suất phân loại. Sử dụng bộ dữ liệu MIMIC-CXR và CT-RATE (50.232 báo cáo được thu thập từ năm 2011 đến năm 2019), chúng tôi đã tinh chỉnh ba kiến trúc mô hình: BERT-trung bình, BERT-nhỏ và ALBERT-cơ sở bằng cách sử dụng phương pháp điều chỉnh thứ hạng thấp quyền riêng tư vi sai (DP-LoRA). Chúng tôi đã đánh giá hiệu suất mô hình trong các mức ngân sách quyền riêng tư khác nhau (0,01, 0,1, 1,0 và 10,0) bằng cách sử dụng điểm F1 có trọng số để phân tích định lượng sự đánh đổi giữa quyền riêng tư và tiện ích.

Takeaways, Limitations

Takeaways:
Việc tinh chỉnh quyền riêng tư khác biệt bằng LoRA giải quyết những thách thức chính trong việc tinh chỉnh LLM trên dữ liệu y tế nhạy cảm, cho phép phân loại đa bất thường hiệu quả và bảo vệ quyền riêng tư từ các báo cáo X quang.
Theo các đảm bảo về quyền riêng tư hợp lý, mô hình tinh chỉnh DP đạt được điểm F1 có trọng số tương tự trên các tập dữ liệu MIMIC-CXR (0,88 so với 0,90) và CT-RATE (0,59 so với 0,78) so với mô hình cơ sở LoRA không bảo vệ quyền riêng tư.
Chúng tôi đã kiểm chứng bằng thực nghiệm sự đánh đổi giữa quyền riêng tư và tiện ích trên nhiều kiến trúc mô hình và mức độ riêng tư khác nhau.
Limitations:
Nghiên cứu này chỉ giới hạn ở các tập dữ liệu cụ thể (MIMIC-CXR, CT-RATE) và kiến trúc mô hình (BERT-trung bình, BERT-nhỏ, ALBERT-cơ sở), đòi hỏi phải nghiên cứu thêm về khả năng khái quát hóa.
Sự đánh đổi giữa quyền riêng tư và tính hữu ích có thể khác nhau tùy theo tập dữ liệu và mô hình, và cần nghiên cứu thêm để xác định mức độ riêng tư tối ưu.
Khả năng áp dụng cho nhiều tập dữ liệu y tế và tình huống lâm sàng đa dạng hơn cần được xác minh.
👍