DIVER는 추론 집약적 정보 검색을 위해 설계된 검색 파이프라인으로, 다음과 같은 4가지 구성 요소로 이루어져 있다. 1) 문서 전처리 단계: 노이즈 텍스트를 정리하고 긴 문서를 분할하여 가독성을 높이고 내용을 보존한다. 2) 쿼리 확장 단계: 대규모 언어 모델을 활용하여 검색된 문서의 명시적인 추론 및 증거로 사용자 쿼리를 반복적으로 개선한다. 3) 검색 단계: 의학 및 수학 영역에 걸쳐 합성 데이터로 미세 조정된 모델과 하드 네거티브를 활용하여 추론 집약적 쿼리를 효과적으로 처리한다. 4) 재정렬 단계: 점별 및 목록별 전략을 결합하여 세분화되고 전반적으로 일관된 순위를 생성한다. BRIGHT 벤치마크에서 DIVER는 전체 46.8, 원본 쿼리에서 31.9의 최고 nDCG@10 점수를 달성하여 경쟁력 있는 추론 인식 모델보다 일관되게 우수한 성능을 보였다.
시사점, 한계점
•
추론 집약적 정보 검색에 특화된 파이프라인 제시: 기존 검색기의 한계를 극복하고 복잡한 실제 쿼리 처리에 대한 가능성을 보여줌.
•
BRIGHT 벤치마크에서 SOTA 달성: 추론 인식 검색 전략의 효과를 입증.
•
구성 요소별 차별화된 전략: 문서 전처리, 쿼리 확장, 검색, 재정렬 단계를 통해 성능 향상.
•
한계점: 구체적인 모델 아키텍처나 하이퍼파라미터에 대한 정보는 제한적. 벤치마크 외의 다른 데이터셋에서의 일반화 성능은 추가적인 검증 필요.