본 논문은 복잡한 검색 과제에 대한 최첨단 검색 모델의 성능을 평가하기 위해 다양하고 현실적인 복잡한 검색 과제 집합을 구축하고 벤치마킹한 연구입니다. 기존 평가 집합에서 사용되는 단순한 단일 측면 질의에서 벗어나, 다중 부분, 제약 조건 또는 요구 사항을 포함하는 자연어 질의를 처리하는 복잡한 검색 과제에 초점을 맞추고 있습니다. LLM 기반 질의 확장 및 재작성이 검색 품질에 미치는 영향도 함께 조사하며, 최고 성능 모델조차도 nDCG@10 평균 0.346, R@100 0.587에 그치는 등 복잡한 검색 과제에서 높은 품질의 검색 결과를 생성하는 데 어려움을 겪는다는 것을 보여줍니다.