[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ImpliRet : Analyse comparative du défi de la recherche de faits implicites

Created by
  • Haebom

Auteur

Zeinab Sadat Taghavi, Ali Modarressi, Yunpu Ma, Hinrich Schutze

Contour

ImpliRet est un nouveau benchmark conçu pour surmonter les limites des systèmes de recherche existants. Alors que les benchmarks existants se concentrent sur le traitement des requêtes, ImpliRet évalue la précision de la recherche en utilisant les informations implicites (relations temporelles, arithmétiques et de bon sens) des documents. Il est conçu pour trouver la bonne réponse uniquement en comprenant les informations implicites du document, ce qui nécessite des connaissances temporelles, arithmétiques et de bon sens, même pour les requêtes simples. Lors de l'évaluation de divers récupérateurs clairsemés et denses, nous avons constaté que tous les modèles présentaient des difficultés, le meilleur score nDCG@10 n'atteignant que 14,91 %. Le modèle à contexte long incluant GPT-4-mini affiche également une faible performance de 55,54 %, ce qui montre que le raisonnement côté document reste une tâche difficile.

Takeaways, Limitations

Takeaways : ImpliRet, un nouveau benchmark pour évaluer la capacité de traitement implicite de l'information dans les documents, est présenté. Il démontre clairement le manque de capacité d'inférence implicite dans les documents des systèmes de recherche existants. Il montre que même les modèles à contexte long ont des difficultés d'inférence côté document.
Limitations: Les meilleures performances actuelles d'ImpliRet sont faibles (nDCG@10 14,91 %), ce qui suggère la nécessité de recherches plus approfondies sur l'inférence implicite dans les documents. La portée du benchmark peut être limitée (limitée au temps, à l'arithmétique et au bon sens). Même des modèles puissants comme GPT-4-mini affichent des performances relativement faibles, ce qui suggère la nécessité de modèles et d'algorithmes plus sophistiqués.
👍