본 논문은 문서 기반 질의(Query-By-Document, QBD) 문제를 해결하기 위한 새로운 데이터셋 생성 프로세스인 QBD-RankedDatagen을 제안합니다. QBD 문제는 질의가 문서이고 검색 결과가 질의 문서와 일치하는 문서인 정보 검색 문제로, 특허 매칭, 법률 또는 규정 준수 사례 검색, 학술 문헌 검토 등에 중요합니다. 기존의 키워드 검색이나 문서 임베딩 기반 방법들은 도메인 특화 데이터셋으로 성능을 향상시킬 수 있지만, 이러한 데이터셋 생성에는 많은 비용과 시간이 소요됩니다. QBD-RankedDatagen은 대규모 언어 모델(LLM)을 활용하여 도메인 전문가의 의견을 통합하여 문서 점수와 순위, 그리고 설명을 생성함으로써, 데이터셋 생성에 드는 인력을 크게 줄이면서 전문가 지식을 활용하여 검색 모델을 조정할 수 있도록 합니다. Text Retrieval Conference (TREC)의 QBD 데이터셋을 사용하여 제안된 방법들을 비용, 속도, 도메인 전문가와의 상호작용 측면에서 비교 분석하고, 생성된 데이터를 사용하여 OpenSearch와 같은 산업용 검색 엔진에서 많이 사용되는 BM25 모델의 파라미터를 미세 조정합니다.