Cet article propose CoQuIR, un benchmark multilingue à grande échelle pour évaluer la qualité de la récupération de code, essentielle pour améliorer la réutilisation du code et la vitesse de débogage dans le développement logiciel. Contrairement aux benchmarks existants qui se concentrent uniquement sur la pertinence fonctionnelle, CoQuIR fournit des annotations de qualité précises pour 42 725 requêtes et 134 907 extraits de code dans 11 langages de programmation, en prenant en compte quatre dimensions clés : précision, efficacité, sécurité et maintenabilité. À l'aide de deux indicateurs d'évaluation axés sur la qualité – la précision des préférences par paires et le score de classement basé sur la marge – nous avons comparé 23 modèles de récupération et constaté que même les modèles les plus performants peinent à distinguer le code bogué ou dangereux du code plus robuste. De plus, nous menons une étude préliminaire sur les méthodes d'apprentissage qui encouragent explicitement la qualité du code, démontrant des améliorations des indicateurs de qualité sur différents modèles à l'aide d'ensembles de données synthétiques. Nous validons ensuite l'efficacité de notre approche par des expériences ultérieures de génération de code. En conclusion, cette étude souligne l’importance d’intégrer des signaux de qualité dans les systèmes de recherche de code, jetant ainsi les bases d’outils de développement logiciel plus fiables et plus robustes.