Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

WebWalker: Evaluación comparativa de LLM en navegación web

Created by
  • Haebom

Autor

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang

Describir

La generación aumentada por recuperación (RAG) destaca en tareas de preguntas abiertas, pero los motores de búsqueda existentes solo recuperan información superficial, lo que limita la capacidad de LLM para procesar información compleja y multicapa. En este artículo, presentamos WebWalkerQA, un punto de referencia para evaluar las capacidades de exploración web de LLM. WebWalkerQA evalúa la capacidad de LLM para extraer sistemáticamente datos de alta calidad mediante la exploración de subpáginas de un sitio web. Además, proponemos WebWalker, un marco multiagente que imita la exploración web humana mediante el paradigma de exploración-crítica. Los resultados experimentales demuestran que WebWalkerQA es una tarea compleja, y demostramos la eficacia de RAG combinada con WebWalker mediante la integración horizontal y vertical en escenarios reales.

Takeaways, Limitations

Takeaways:
WebWalkerQA proporciona un nuevo punto de referencia para evaluar las habilidades de navegación web de los LLM.
Demostramos que WebWalker es un marco multiagente eficaz que mejora el rendimiento de RAG.
Demuestra la eficacia de la integración horizontal y vertical de RAG y WebWalker en escenarios del mundo real.
Limitations:
Se necesita un análisis más profundo de la dificultad de WebWalkerQA y las diferencias entre éste y el entorno web real.
Se necesita más investigación sobre la escalabilidad y adaptabilidad de WebWalker a diversas arquitecturas de sitios web.
Se necesita más investigación para mejorar el rendimiento del WebWalker propuesto.
👍