Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking

Created by
  • Haebom

저자

Pascal J. Sager, Ashwini Kamaraj, Benjamin F. Grewe, Thilo Stadelmann

개요

본 논문은 CLEF CheckThat! 2025 경진대회의 하위 과제 4b (소셜 미디어 게시물에 대한 관련 과학 문헌 검색)에서 Deep Retrieval 팀의 방법론과 결과를 제시합니다. 형식적이지 않은 언어와 형식적인 언어 간의 차이를 해소하는 강력한 검색을 가능하게 하도록 어휘 정밀도, 의미 일반화, 심층 문맥 재순위 지정을 결합한 하이브리드 검색 파이프라인을 제안합니다. BM25 기반 키워드 매칭과 미세 조정된 INF-Retriever-v1 모델을 사용한 FAISS 벡터 저장소를 결합하여 상위 30개 후보를 BM25로, 100개 후보를 의미 검색으로 얻은 후, 대규모 언어 모델(LLM) 기반 교차 인코더를 통해 재순위 지정합니다. 개발 세트에서 76.46%의 MRR@5, 숨겨진 테스트 세트에서 66.43%의 MRR@5를 달성하여 개발 리더보드 1위, 테스트 리더보드 3위(31개 팀 중)를 차지했습니다. 오픈소스 모델을 로컬에서 외부 훈련 데이터 없이 실행하여 높은 성능을 달성했으며, 신중하게 설계되고 미세 조정된 검색 파이프라인의 효과를 강조합니다.

시사점, 한계점

시사점:
하이브리드 검색 파이프라인을 통해 소셜 미디어 게시물과 과학 문헌 간의 언어 차이를 효과적으로 해소할 수 있음을 보여줌.
오픈소스 모델과 로컬 실행을 통해 외부 데이터 의존성 없이 높은 성능을 달성 가능함을 시사.
BM25, 의미 검색, LLM 기반 재순위 지정의 조합이 효과적임을 증명.
한계점:
테스트 리더보드에서 1위와의 성능 차이(2%p)가 존재.
개발 세트와 테스트 세트 간의 성능 차이가 존재 (약 10%p).
사용된 모델 및 파이프라인의 일반화 성능에 대한 추가적인 검증 필요.
👍