Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐáNh giá chuẩn LLM nhãn khoa (BELO) về kiến thức và lý luận nhãn khoa

Created by
  • Haebom

Tác giả

Sahana Srinivasan, Chen-Hsin Sun, Mark Chia, Gabriel Dawei Yang, Wendy Meihua Wong, David Ziyou Chen, Dianbo Liu, Maxwell Singer, Fares Antaki, Lucian V Del Priore, Jost Jonas, Ron Adelman, Qingyu Chen, Yih-Chung Tham

Phác thảo

Các chuẩn mực hiện có để đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) trong nhãn khoa có phạm vi hạn chế và quá tập trung vào độ chính xác. Trong bài báo này, chúng tôi trình bày một chuẩn mực đánh giá toàn diện và chuẩn hóa, BEnchmarking LLMs for Ophthalmology (BELO), được phát triển thông qua nhiều lần bình duyệt của 13 bác sĩ nhãn khoa. BELO đánh giá độ chính xác lâm sàng và chất lượng suy luận trong nhãn khoa. Các câu hỏi trắc nghiệm (MCQ) liên quan đến nhãn khoa được chọn từ nhiều tập dữ liệu y tế khác nhau (BCSC, MedMCQA, MedQA, BioASQ và PubMedQA) bằng cách sử dụng phương pháp khớp từ khóa và mô hình PubMedBERT được tinh chỉnh. Các tập dữ liệu đã được bình duyệt nhiều lần và các câu hỏi trùng lặp và chất lượng thấp đã được loại bỏ một cách có hệ thống. 10 bác sĩ nhãn khoa đã cải thiện phần giải thích cho mỗi câu trả lời MCQ và 3 bác sĩ nhãn khoa cao cấp đã xem xét lại. Để chứng minh tính hữu ích của BELO, chúng tôi đã đánh giá sáu LLM (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B và Gemini 1.5 Pro) bằng cách sử dụng độ chính xác, macro-F1 và năm số liệu tạo văn bản (ROUGE-L, BERTScore, BARTScore, METEOR và AlignScore). Ngoài ra, hai bác sĩ nhãn khoa đã thực hiện một đánh giá định tính bổ sung, xem xét 50 đầu ra được chọn ngẫu nhiên về độ chính xác, tính toàn diện và tính đầy đủ. BELO bao gồm 900 câu hỏi chất lượng cao do các chuyên gia đánh giá tổng hợp từ năm nguồn: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40) và PubMedQA (18). Một bảng xếp hạng công khai đã được thiết lập để khuyến khích việc đánh giá và báo cáo minh bạch và tập dữ liệu BELO sẽ vẫn là điểm chuẩn chỉ đánh giá để đảm bảo so sánh công bằng và có thể tái tạo các mô hình trong tương lai.

Takeaways, Limitations

Takeaways: Cung cấp chuẩn mực toàn diện và chuẩn hóa để đánh giá chương trình LLM nhãn khoa, xây dựng bộ dữ liệu chất lượng cao thông qua đánh giá của chuyên gia, so sánh hiệu suất của nhiều chương trình LLM khác nhau và tạo ra môi trường đánh giá minh bạch, đồng thời đề xuất hướng phát triển chương trình LLM trong tương lai.
Limitations: Các loại LLM hiện có trong chuẩn mực có thể bị hạn chế, có thể có tính chủ quan trong đánh giá định tính, khả năng khái quát hóa có thể khó khăn do tính đặc thù của lĩnh vực nhãn khoa và nhu cầu liên tục cập nhật và mở rộng tập dữ liệu.
👍