Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
LLMEval-Med es un nuevo punto de referencia para la evaluación de modelos lingüísticos a gran escala (LLM) en el ámbito sanitario. Aborda las limitaciones de los puntos de referencia sanitarios existentes en cuanto al diseño de preguntas (principalmente de opción múltiple), las fuentes de datos (que a menudo no se derivan de escenarios clínicos reales) y los métodos de evaluación (falta de evaluación de inferencias complejas). El LLMEval-Med abarca 2996 preguntas generadas a partir de historias clínicas reales y escenarios clínicos diseñados por expertos, que abarcan cinco dominios sanitarios fundamentales. Utiliza un proceso de evaluación automatizado que incorpora listas de verificación desarrolladas por expertos y un marco de LLM como juez. Valida las puntuaciones de las máquinas mediante el análisis de la concordancia entre humanos y máquinas y refina dinámicamente las listas de verificación y las indicaciones en función de la retroalimentación de los expertos para garantizar su fiabilidad. Se evaluaron trece LLM (modelos médicos expertos, modelos de código abierto y modelos de código cerrado) en LLMEval-Med, lo que proporcionó información valiosa sobre la implementación segura y eficaz de los LLM en el ámbito sanitario. El conjunto de datos está disponible públicamente en https://github.com/llmeval/LLMEval-Med .