Các chuẩn mực hiện có để đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) trong nhãn khoa có phạm vi hạn chế và quá tập trung vào độ chính xác. Trong bài báo này, chúng tôi trình bày một chuẩn mực đánh giá toàn diện và chuẩn hóa, BEnchmarking LLMs for Ophthalmology (BELO), được phát triển thông qua nhiều lần bình duyệt của 13 bác sĩ nhãn khoa. BELO đánh giá độ chính xác lâm sàng và chất lượng suy luận trong nhãn khoa. Các câu hỏi trắc nghiệm (MCQ) liên quan đến nhãn khoa được chọn từ nhiều tập dữ liệu y tế khác nhau (BCSC, MedMCQA, MedQA, BioASQ và PubMedQA) bằng cách sử dụng phương pháp khớp từ khóa và mô hình PubMedBERT được tinh chỉnh. Các tập dữ liệu đã được bình duyệt nhiều lần và các câu hỏi trùng lặp và chất lượng thấp đã được loại bỏ một cách có hệ thống. 10 bác sĩ nhãn khoa đã cải thiện phần giải thích cho mỗi câu trả lời MCQ và 3 bác sĩ nhãn khoa cao cấp đã xem xét lại. Để chứng minh tính hữu ích của BELO, chúng tôi đã đánh giá sáu LLM (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B và Gemini 1.5 Pro) bằng cách sử dụng độ chính xác, macro-F1 và năm số liệu tạo văn bản (ROUGE-L, BERTScore, BARTScore, METEOR và AlignScore). Ngoài ra, hai bác sĩ nhãn khoa đã thực hiện một đánh giá định tính bổ sung, xem xét 50 đầu ra được chọn ngẫu nhiên về độ chính xác, tính toàn diện và tính đầy đủ. BELO bao gồm 900 câu hỏi chất lượng cao do các chuyên gia đánh giá tổng hợp từ năm nguồn: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40) và PubMedQA (18). Một bảng xếp hạng công khai đã được thiết lập để khuyến khích việc đánh giá và báo cáo minh bạch và tập dữ liệu BELO sẽ vẫn là điểm chuẩn chỉ đánh giá để đảm bảo so sánh công bằng và có thể tái tạo các mô hình trong tương lai.