Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Kích hoạt Trợ lý AI Y tế trên Thiết bị thông qua Khả năng Thích ứng Độ nổi bật Dựa trên Đầu vào

Created by
  • Haebom

Tác giả

Uttej Kallakurik, Edward Humes, Rithvik Jonna, Xiaomin Lin, Tinoosh Mohsenin

Phác thảo

Bài báo này trình bày một hệ thống hỗ trợ y tế mới để triển khai các mô hình ngôn ngữ quy mô lớn (LLM) trong các môi trường hạn chế về tài nguyên, chẳng hạn như chăm sóc sức khỏe thời gian thực. Được tối ưu hóa bằng một khuôn khổ nén đa năng, hệ thống này điều chỉnh LLM theo các miền cụ thể. Bằng cách đo lường tầm quan trọng của nơ-ron trên dữ liệu miền cụ thể, hệ thống sẽ loại bỏ mạnh mẽ các nơ-ron không liên quan, giảm kích thước mô hình mà vẫn duy trì hiệu suất. Lượng tử hóa sau khi huấn luyện sau đó được áp dụng để giảm hơn nữa mức sử dụng bộ nhớ, và các mô hình nén được đánh giá trên các tiêu chuẩn chăm sóc sức khỏe bao gồm MedMCQA, MedQA và PubMedQA. Hơn nữa, chúng tôi triển khai mô hình Gemma nén 50% và mô hình LLaMA3 nén 67% trên Jetson Orin Nano và Raspberry Pi 5, đạt được suy luận thời gian thực, tiết kiệm năng lượng trong điều kiện hạn chế về phần cứng.

Takeaways, Limitations

Takeaways:
Trình bày khả năng triển khai hệ thống hỗ trợ y tế thời gian thực bằng LLM ngay cả trong môi trường hạn chế về nguồn lực.
Đề Xuất một kỹ thuật nén mô hình hiệu quả dựa trên phép đo tầm quan trọng của nơ-ron.
Chúng tôi trình bày một nghiên cứu điển hình thành công về suy luận thời gian thực trên phần cứng thực (Jetson Orin Nano, Raspberry Pi 5) bằng cách sử dụng mô hình nén.
Trình bày kế hoạch phân phối LLM y tế tiết kiệm năng lượng.
Limitations:
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của khuôn khổ nén được đề xuất.
Xác thực hiệu suất là cần thiết trong nhiều tập dữ liệu y tế và môi trường lâm sàng khác nhau.
Cần phải phân tích chi tiết hơn về sự suy giảm hiệu suất có thể xảy ra trong quá trình nén.
Các vấn đề về khả năng mở rộng sang các nền tảng phần cứng khác do phải tối ưu hóa cho phần cứng cụ thể.
👍