En este artículo, presentamos el sistema de metaevaluación multilingüe integral RAG (MEMERAG). Los sistemas RAG automatizados existentes presentan limitaciones, ya que se centran en el inglés o utilizan datos traducidos, lo que no refleja adecuadamente las diferencias culturales. MEMERAG se basa en el conjunto de datos MIRACL y utiliza múltiples modelos lingüísticos a gran escala (LLM) para generar respuestas a preguntas en lengua materna en cada idioma, que posteriormente son evaluadas por expertos para garantizar su fiabilidad y relevancia. Este artículo presenta el proceso de anotación, la alta concordancia entre anotadores, el análisis del rendimiento de los LLM en varios idiomas y los resultados de la evaluación comparativa de un evaluador automatizado multilingüe (LLM como juez). Demostramos que es posible identificar con fiabilidad mejoras en las técnicas de incitación y el rendimiento de los LLM, y el conjunto de datos está disponible públicamente en GitHub.