Este artículo propone CoQuIR, un benchmark multilingüe a gran escala para evaluar la conciencia de calidad en la recuperación de código, esencial para mejorar la reutilización de código y la velocidad de depuración en el desarrollo de software. A diferencia de los benchmarks existentes que se centran únicamente en la relevancia funcional, CoQuIR proporciona anotaciones de calidad detalladas para 42.725 consultas y 134.907 fragmentos de código en 11 lenguajes de programación, considerando cuatro dimensiones fundamentales: precisión, eficiencia, seguridad y mantenibilidad. Utilizando dos métricas de evaluación centradas en la calidad (Precisión de Preferencia por Pares y Puntuación de Clasificación Basada en Margenes), evaluamos 23 modelos de recuperación y descubrimos que incluso los modelos con mejor rendimiento tienen dificultades para distinguir el código con errores o inseguro del código más robusto. Además, realizamos una investigación preliminar sobre métodos de entrenamiento que fomentan explícitamente la conciencia de calidad del código, demostrando mejoras en las métricas de conciencia de calidad en varios modelos utilizando conjuntos de datos sintéticos. Posteriormente, validamos la eficacia de nuestro enfoque mediante experimentos posteriores de generación de código. En conclusión, este estudio destaca la importancia de integrar señales de calidad en los sistemas de búsqueda de código, sentando las bases para herramientas de desarrollo de software más confiables y robustas.