Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval

Created by
  • Haebom
Category
Empty

저자

Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yecheng Luo, Yue Shen, Jian Wang, Hualei Zhou, Chunxiao Guo, Peng Wei, Jiahai Wang, Jinjie Gu

개요

DIVER는 추론 집약적 정보 검색을 위해 설계된 검색 파이프라인으로, 다음과 같은 4가지 구성 요소로 이루어져 있다. 1) 문서 전처리 단계: 노이즈 텍스트를 정리하고 긴 문서를 분할하여 가독성을 높이고 내용을 보존한다. 2) 쿼리 확장 단계: 대규모 언어 모델을 활용하여 검색된 문서의 명시적인 추론 및 증거로 사용자 쿼리를 반복적으로 개선한다. 3) 검색 단계: 의학 및 수학 영역에 걸쳐 합성 데이터로 미세 조정된 모델과 하드 네거티브를 활용하여 추론 집약적 쿼리를 효과적으로 처리한다. 4) 재정렬 단계: 점별 및 목록별 전략을 결합하여 세분화되고 전반적으로 일관된 순위를 생성한다. BRIGHT 벤치마크에서 DIVER는 전체 46.8, 원본 쿼리에서 31.9의 최고 nDCG@10 점수를 달성하여 경쟁력 있는 추론 인식 모델보다 일관되게 우수한 성능을 보였다.

시사점, 한계점

추론 집약적 정보 검색에 특화된 파이프라인 제시: 기존 검색기의 한계를 극복하고 복잡한 실제 쿼리 처리에 대한 가능성을 보여줌.
BRIGHT 벤치마크에서 SOTA 달성: 추론 인식 검색 전략의 효과를 입증.
구성 요소별 차별화된 전략: 문서 전처리, 쿼리 확장, 검색, 재정렬 단계를 통해 성능 향상.
한계점: 구체적인 모델 아키텍처나 하이퍼파라미터에 대한 정보는 제한적. 벤치마크 외의 다른 데이터셋에서의 일반화 성능은 추가적인 검증 필요.
👍