Cet article propose l'apprentissage contrastif avec réglage fin renforcé basé sur les CoT annotés (\TheName{}), une nouvelle méthode de réglage fin basée sur l'apprentissage par renforcement pour améliorer la capacité d'inférence des modèles linguistiques à grande échelle (LLM). Pour résoudre les problèmes d'échantillonnage instable des chemins d'inférence et de négligence des processus de pensée annotés (CoT) dans les méthodes existantes basées sur l'apprentissage par renforcement, ainsi que la surimportance accordée aux CoT dans les approches SFT existantes, nous apprenons des représentations pour chaque CoT et concevons de nouveaux signaux contrastifs pour guider le processus de réglage fin. \TheName{} exploite pleinement les CoT annotés tout en intégrant des signaux d'apprentissage non supervisés pour stabiliser le processus de réglage fin. Les résultats expérimentaux utilisant trois méthodes de base, deux modèles de base et deux jeux de données démontrent les avantages significatifs de \TheName{} en termes de robustesse, de performance (jusqu'à 10,15 % d'amélioration) et d'efficacité (jusqu'à 30,62 % d'amélioration).