본 논문은 자연어 검색의 성공에도 불구하고 코드 검색 분야가 여전히 미개척 분야임을 지적하며, 기존의 텍스트 검색 시스템이 다양한 프로그래밍 언어와 도메인의 코드 특징을 효과적으로 포착하지 못하는 한계를 밝힙니다. 이를 해결하기 위해, 논문에서는 4억에서 70억 매개변수 규모의 대규모 코드 임베딩 모델인 CodeXEmbed를 제시합니다. CodeXEmbed는 다양한 프로그래밍 언어와 코드 관련 작업을 통합하는 새로운 학습 파이프라인을 통해 모델의 일반화 성능과 검색 성능을 향상시킵니다. 70억 매개변수 모델은 CoIR 벤치마크에서 기존 최고 모델인 Voyage-Code를 20% 이상 능가하는 최첨단 성능을 달성했으며, BeIR 텍스트 검색 벤치마크에서도 경쟁력 있는 성능을 보여줍니다. 또한, 검색 성능 향상이 코드 관련 작업의 Retrieval-Augmented Generation (RAG) 성능 향상에 크게 기여함을 실험적으로 증명합니다.