Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Recherche approfondie à CheckThat! 2025 : identification d'articles scientifiques à partir de mentions implicites sur les réseaux sociaux grâce à la recherche hybride et au reclassement

Created by
  • Haebom

Auteur

Pascal J. Sager, Ashwini Kamaraj, Benjamin F. Grewe, Thilo Stadelmann

Contour

Cet article présente la méthodologie et les résultats utilisés par l'équipe Deep Retrieval dans la sous-tâche 4b (récupération de la littérature scientifique pertinente sur les publications sur les réseaux sociaux) du concours CLEF CheckThat! 2025. Afin de permettre une récupération robuste qui comble le fossé entre langage informel et formel, nous proposons un pipeline de récupération hybride combinant précision lexicale, généralisation sémantique et reclassement contextuel approfondi. Plus précisément, nous combinons le stockage vectoriel FAISS avec un modèle INF-Retriever-v1 optimisé et une correspondance de mots-clés basée sur BM25 pour obtenir les 30 meilleurs candidats par BM25 et les 100 meilleurs candidats par récupération sémantique, qui sont ensuite fusionnés et reclassés par un encodeur croisé basé sur un modèle de langage à grande échelle (LLM). Nous obtenons un MRR de 76,46 % à 5 % sur l'ensemble de développement et de 66,43 % sur l'ensemble de tests cachés, nous classant ainsi premier au classement de développement et troisième au classement de tests (sur 31 équipes). Ces résultats ont été obtenus en exécutant des modèles open source localement, sans données d'entraînement externes, ce qui témoigne de l'efficacité d'un pipeline de récupération soigneusement conçu et optimisé.

Takeaways, Limitations_

Takeaways:
Nous démontrons l’efficacité d’une approche hybride qui combine BM25 avec la récupération sémantique et le reclassement basé sur LLM.
Nous présentons une étude de cas dans laquelle nous avons obtenu d’excellentes performances en utilisant des modèles open source sans données de formation externes.
Nous présentons un moyen efficace de combler le fossé linguistique entre les publications sur les réseaux sociaux et la littérature scientifique.
Limitations:
Il existe un écart de performance (2 %p) avec le numéro 1 au classement des tests. Des recherches supplémentaires sont nécessaires pour améliorer encore les performances.
Une analyse plus approfondie des performances de généralisation des modèles et des pipelines utilisés est nécessaire.
La généralisabilité à d’autres types de données de médias sociaux ou de littérature scientifique doit être examinée.
👍