Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
La génération augmentée par récupération (RAG) excelle dans les tâches de questions-réponses ouvertes, mais les moteurs de recherche existants ne récupèrent que des informations superficielles, ce qui limite la capacité de LLM à traiter des informations complexes et multicouches. Dans cet article, nous présentons WebWalkerQA, un benchmark permettant d'évaluer les capacités d'exploration web de LLM. WebWalkerQA évalue la capacité de LLM à extraire systématiquement des données de haute qualité en explorant les sous-pages d'un site web. De plus, nous proposons WebWalker, un framework multi-agents qui imite l'exploration web humaine grâce au paradigme exploration-critique. Les résultats expérimentaux démontrent que WebWalkerQA est une tâche complexe, et nous démontrons l'efficacité de RAG combinée à WebWalker grâce à une intégration horizontale et verticale dans des scénarios réels.
Takeaways, Limitations
•
Takeaways:
◦
WebWalkerQA fournit une nouvelle référence pour évaluer les compétences en navigation Web des LLM.
◦
Nous démontrons que WebWalker est un framework multi-agent efficace qui améliore les performances de RAG.
◦
Démontre l’efficacité de l’intégration horizontale et verticale de RAG et WebWalker dans des scénarios réels.
•
Limitations:
◦
Une analyse plus approfondie est nécessaire sur la difficulté de WebWalkerQA et les différences entre celui-ci et l’environnement Web réel.
◦
Des recherches supplémentaires sont nécessaires sur l’évolutivité et l’adaptabilité de WebWalker à diverses architectures de sites Web.
◦
Des recherches supplémentaires sont nécessaires pour améliorer les performances du WebWalker proposé.