Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nền tảng DINO-US-SAM: Phân đoạn đa cơ quan bằng văn bản trong siêu âm với các mô hình ngôn ngữ thị giác được điều chỉnh theo LoRA

Created by
  • Haebom

Tác giả

Hamza Rasaee, Taha Koleilat, Hassan Rivaz

Phác thảo

Bài báo này nhấn mạnh rằng việc phân đoạn đối tượng chính xác và tổng quát trong hình ảnh siêu âm là một thách thức do các biến thể giải phẫu, các giao thức hình ảnh đa dạng và dữ liệu chú thích hạn chế. Để giải quyết thách thức này, chúng tôi đề xuất một mô hình ngôn ngữ trực quan dựa trên lời nhắc (VLM) tích hợp Grounding DINO và SAM2. Sử dụng 18 bộ dữ liệu siêu âm có sẵn công khai, bao gồm vú, tuyến giáp, gan, tuyến tiền liệt, thận và cơ cạnh sống, Grounding DINO được tinh chỉnh và xác thực trên 15 bộ dữ liệu bằng cách sử dụng Thích ứng hạng thấp (LoRA) trong miền siêu âm. Ba bộ dữ liệu còn lại được sử dụng để thử nghiệm nhằm đánh giá hiệu suất trên các phân phối chưa biết. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp phân đoạn hiện đại, bao gồm UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse và SAMUS, trên hầu hết các bộ dữ liệu hiện có, duy trì hiệu suất mạnh mẽ ngay cả trên các bộ dữ liệu chưa biết mà không cần tinh chỉnh thêm. Những kết quả này nhấn mạnh tiềm năng của VLM trong việc phân tích hình ảnh siêu âm mạnh mẽ và có thể mở rộng, đồng thời cho thấy nó có thể giảm sự phụ thuộc vào dữ liệu chú thích cụ thể cho từng cơ quan trên quy mô lớn. Mã nguồn sẽ được công bố tại code.sonography.ai sau khi được chấp thuận.

Takeaways, Limitations

Takeaways:
Cải thiện hiệu suất phân đoạn đối tượng trong nhiều cơ quan siêu âm bằng cách sử dụng VLM tích hợp Grounding DINO và SAM2.
ĐạT được hiệu suất vượt trội hơn các phương pháp hiện đại.
Duy trì hiệu suất mạnh mẽ ngay cả trên các tập dữ liệu chưa biết (không cần tinh chỉnh thêm).
Giảm sự phụ thuộc vào dữ liệu chú thích cụ thể, dài hạn, quy mô lớn.
Trình bày khả năng phân tích hình ảnh siêu âm có khả năng mở rộng và mạnh mẽ.
Limitations:
Thiếu mô tả chi tiết về loại và phân phối của tập dữ liệu được cung cấp.
Thiếu thông tin chi tiết về quy trình tinh chỉnh và siêu tham số sử dụng LoRA.
Mã này dự kiến ​​sẽ được công bố trên code.sonography.ai, nhưng hiện tại vẫn chưa được công khai.
Cần phải xác minh thêm về khả năng khái quát hóa của kết quả thực nghiệm.
👍