[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MEMERAG: Un punto de referencia de metaevaluación multilingüe de extremo a extremo para la generación aumentada de recuperación

Created by
  • Haebom

Autor

Mar ia Andrea Cruz Bland on, Jayasimha Talur, Bruno Charron, Dong Liu, Saab Mansour, Marcello Federico

Describir

En este artículo, presentamos el sistema de metaevaluación multilingüe integral RAG (MEMERAG). Los sistemas RAG automatizados existentes presentan limitaciones, ya que se centran en el inglés o utilizan datos traducidos, lo que no refleja adecuadamente las diferencias culturales. MEMERAG se basa en el conjunto de datos MIRACL y utiliza múltiples modelos lingüísticos a gran escala (LLM) para generar respuestas a preguntas en lengua materna en cada idioma, que posteriormente son evaluadas por expertos para garantizar su fiabilidad y relevancia. Este artículo presenta el proceso de anotación, la alta concordancia entre anotadores, el análisis del rendimiento de los LLM en varios idiomas y los resultados de la evaluación comparativa de un evaluador automatizado multilingüe (LLM como juez). Demostramos que es posible identificar con fiabilidad mejoras en las técnicas de incitación y el rendimiento de los LLM, y el conjunto de datos está disponible públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo punto de referencia (MEMERAG) para la evaluación automatizada de sistemas RAG multilingües.
Es posible una evaluación más realista del sistema RAG que tenga en cuenta los matices culturales.
Presentamos una técnica de estímulo mejorada y un método para evaluar de manera confiable la mejora del desempeño del LLM.
Análisis comparativo del rendimiento del LLM en varios idiomas.
Contribuir a la investigación futura a través de conjuntos de datos abiertos.
Limitations:
Dado que se basa en el conjunto de datos MIRACL, las limitaciones del conjunto de datos también pueden afectar a MEMERAG.
Debido a que depende de anotaciones de expertos, los costos y el tiempo de anotación pueden ser altos.
Existe la posibilidad de que los resultados de la evaluación se limiten a LLM específicos y técnicas de estímulo.
Existe la posibilidad de que no se hayan considerado otros aspectos importantes además de los criterios de evaluación (confiabilidad y relevancia).
👍