Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tiêu chuẩn AI NordDRG cho các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Tapio Pitk aranta

Phác thảo

Bài báo này giới thiệu NordDRG-AI-Benchmark, chuẩn mực công khai đầu tiên để đánh giá khả năng lập luận của các nhóm liên quan đến chẩn đoán (DRG), một thành phần quan trọng trong tài trợ bệnh viện. Với hàng nghìn tỷ đô la chi tiêu cho chăm sóc sức khỏe tại các quốc gia OECD được chuyển qua hệ thống DRG, tính minh bạch và khả năng kiểm toán là rất quan trọng. NordDRG-AI-Benchmark bao gồm một bảng định nghĩa NordDRG có thể đọc bằng máy, một hướng dẫn chuyên gia và một mẫu nhật ký thay đổi. Nó cung cấp hai chuẩn mực: chuẩn mực logic (13 nhiệm vụ) và chuẩn mực nhóm (13 nhiệm vụ). Chuẩn mực logic bao gồm tra cứu mã, lập luận bảng chéo, các hàm nhóm, thuật ngữ đa ngôn ngữ và xác thực CC/MCC, trong khi chuẩn mực nhóm yêu cầu mô phỏng hoàn hảo nhóm DRG. Kết quả thực nghiệm cho thấy GPT-5 Thinking và Opus 4.1 đạt điểm cao trong chuẩn mực logic, nhưng ngay cả GPT-5 Thinking cũng không thể mô phỏng hoàn hảo chuẩn mực nhóm. Chuẩn mực này có thể góp phần đánh giá khách quan hiệu suất của các LLM trong lĩnh vực tài chính bệnh viện.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp chuẩn mực hoàn hảo, công khai đầu tiên cho suy luận DRG, cung cấp cơ sở để đánh giá khả năng áp dụng LLM vào chăm sóc sức khỏe.
Tính ứng dụng thực tế của LLM có thể được đánh giá khách quan thông qua các tiêu chuẩn mô phỏng hoàn hảo cá mú DRG.
Cung cấp các đánh giá có thể tái tạo và so sánh được bằng cách sử dụng điểm số phù hợp chính xác.
Nó có thể góp phần tăng cường tính minh bạch và khả năng kiểm toán của nguồn tài chính bệnh viện.
Limitations:
Các LLM hiện tại đang gặp khó khăn trong việc mô phỏng hoàn hảo logic của DRG grouper.
Tiêu chuẩn này dành riêng cho hệ thống NordDRG và có thể không áp dụng trực tiếp cho các hệ thống DRG khác.
Chúng ta cần nhiều chương trình LLM đa dạng hơn và nhiều trường hợp thử nghiệm hơn.
👍