Los parámetros de referencia existentes para la evaluación de modelos lingüísticos a gran escala (LLM) en oftalmología tienen un alcance limitado y se centran excesivamente en la precisión. En este artículo, presentamos un parámetro de evaluación estandarizado e integral, BEnchmarking LLMs for Ophthalmology (BELO), desarrollado mediante múltiples revisiones por pares por 13 oftalmólogos. BELO evalúa la precisión clínica y la calidad de la inferencia en oftalmología. Se seleccionaron preguntas de opción múltiple (MCQ) relacionadas con la oftalmología de diversos conjuntos de datos médicos (BCSC, MedMCQA, MedQA, BioASQ y PubMedQA) mediante concordancia de palabras clave y un modelo PubMedBERT optimizado. Los conjuntos de datos se sometieron a múltiples revisiones por pares y se eliminaron sistemáticamente las preguntas duplicadas y de baja calidad. Diez oftalmólogos mejoraron las explicaciones de cada respuesta de MCQ y fueron revisadas posteriormente por tres oftalmólogos con experiencia. Para demostrar la utilidad de BELO, evaluamos seis LLM (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B y Gemini 1.5 Pro) utilizando precisión, macro-F1 y cinco métricas de generación de texto (ROUGE-L, BERTScore, BARTScore, METEOR y AlignScore). Además, dos oftalmólogos realizaron una evaluación cualitativa adicional, revisando 50 resultados seleccionados aleatoriamente para verificar su precisión, exhaustividad e integridad. BELO consta de 900 preguntas de alta calidad revisadas por expertos, agregadas de cinco fuentes: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40) y PubMedQA (18). Se ha establecido una tabla de clasificación pública para fomentar la transparencia en la evaluación y la presentación de informes, y el conjunto de datos de BELO se mantendrá como un punto de referencia exclusivo para la evaluación, con el fin de garantizar comparaciones justas y reproducibles de futuros modelos.