Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GroundingDINO-US-SAM: Phân đoạn đa cơ quan bằng văn bản trong siêu âm với các mô hình ngôn ngữ thị giác được điều chỉnh theo LoRA

Created by
  • Haebom

Tác giả

Hamza Rasaee, Taha Koleilat, Hassan Rivaz

Phác thảo

Bài báo này nhấn mạnh rằng việc phân đoạn đối tượng chính xác và tổng quát trong hình ảnh siêu âm là một thách thức do sự đa dạng về giải phẫu, các giao thức hình ảnh khác nhau và dữ liệu chú thích hạn chế. Để giải quyết vấn đề này, chúng tôi đề xuất một Mô hình Ngôn ngữ Thị giác (VLM) dựa trên lời nhắc, tích hợp Grounding DINO và SAM2. Chúng tôi sử dụng 18 bộ dữ liệu siêu âm có sẵn công khai (vú, tuyến giáp, gan, tuyến tiền liệt, thận và cơ cạnh sống). Mười lăm bộ dữ liệu được sử dụng để tinh chỉnh và xác thực Grounding DINO bằng phương pháp Thích ứng Hạng Thấp (LoRA), trong khi ba bộ dữ liệu còn lại được sử dụng để thử nghiệm nhằm đánh giá hiệu suất trên các phân phối chưa biết. Kết quả thực nghiệm chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp phân đoạn hiện đại, bao gồm UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse và SAMUS, trên hầu hết các bộ dữ liệu hiện có, duy trì hiệu suất mạnh mẽ ngay cả trên các bộ dữ liệu chưa biết mà không cần tinh chỉnh bổ sung. Điều này chứng tỏ rằng VLM giảm sự phụ thuộc vào dữ liệu chú thích cụ thể cho từng cơ quan quy mô lớn và hứa hẹn mang lại khả năng mở rộng và phân tích hình ảnh siêu âm mạnh mẽ.

Takeaways, Limitations

Takeaways:
Chứng minh tính ưu việt của phân đoạn đối tượng hình ảnh siêu âm bằng VLM dựa trên dấu nhắc.
Hiệu suất tổng quát tuyệt vời cho nhiều cơ quan siêu âm khác nhau (vú, tuyến giáp, gan, tuyến tiền liệt, thận và cơ quanh cột sống).
ĐạT được hiệu suất cải thiện so với các phương pháp hiện đại.
Giảm sự phụ thuộc vào dữ liệu chú thích cụ thể, dài hạn, quy mô lớn.
Trình bày khả năng phân tích hình ảnh siêu âm mạnh mẽ và có thể mở rộng.
Limitations:
Sử dụng số lượng hạn chế các tập dữ liệu công khai.
Cần có thêm nghiên cứu về hiệu suất tổng quát trong các điều kiện lâm sàng thực tế.
Mã sẽ được công bố sau khi bài báo được chấp nhận.
👍