본 논문은 사전 훈련된 언어 임베딩 모델의 성능이 사전 훈련 분포를 벗어나는 전문적인 코퍼스에 적용될 때 저하되는 문제를 해결하기 위해, 합성된 질의-문서 쌍을 사용하여 사전 훈련된 언어 임베딩 모델을 도메인 특화 코퍼스에 맞게 unsupervised하게 적응시키는 프레임워크인 CustomIR을 제안한다. CustomIR은 대규모 언어 모델(LLM)을 활용하여 알려진 타겟 코퍼스에 기반한 다양한 질의를 생성하고, LLM이 검증한 hard negatives와 쌍을 이루도록 하여 비용이 많이 드는 사람의 주석 작업의 필요성을 없앤다. 기업 이메일 및 메시징 데이터셋에 대한 실험을 통해 CustomIR이 검색 효율성을 일관되게 향상시키며, 작은 모델의 경우 Recall@10에서 최대 2.3포인트 향상을 보였다. 이로 인해 이러한 작은 모델이 훨씬 더 큰 모델의 성능에 필적할 수 있게 되어, RAG 배포 비용을 절감할 수 있게 되었다.