본 논문은 소프트웨어 개발에서 코드 재사용과 디버깅 속도 향상에 필수적인 코드 검색(Code Retrieval)의 품질 인식 능력 평가를 위한 대규모 다국어 벤치마크인 CoQuIR을 제안합니다. 기존 벤치마크가 기능적 관련성에만 초점을 맞춘 것과 달리, CoQuIR은 정확성, 효율성, 보안, 유지보수성의 네 가지 핵심 차원을 고려하여 11개 프로그래밍 언어로 42,725개의 질의와 134,907개의 코드 스니펫에 대한 세분화된 품질 주석을 제공합니다. Pairwise Preference Accuracy와 Margin-based Ranking Score라는 두 가지 품질 중심 평가 지표와 함께, 23개의 검색 모델을 벤치마킹하여 최고 성능 모델조차 버그가 있거나 안전하지 않은 코드를 더 강력한 코드와 구별하는 데 어려움을 겪는다는 것을 발견했습니다. 또한, 코드 품질 인식을 명시적으로 장려하는 훈련 방법에 대한 예비 조사를 통해 합성 데이터셋을 사용하여 다양한 모델에서 품질 인식 지표의 개선을 보여주고, 후속 코드 생성 실험을 통해 접근 방식의 효과를 검증했습니다. 결론적으로, 본 연구는 코드 검색 시스템에 품질 신호를 통합하는 중요성을 강조하며, 더 신뢰할 수 있고 강력한 소프트웨어 개발 도구의 기반을 마련합니다.