En este artículo, proponemos el aprendizaje contrastivo con ajuste fino reforzado basado en CoT anotado (\TheName{}), un novedoso método de ajuste fino basado en aprendizaje de refuerzo para mejorar la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM). Para abordar los problemas de muestreo inestable de la trayectoria de inferencia y la omisión de los CoT anotados en los métodos existentes basados en RL, así como el énfasis excesivo en los CoT en los enfoques SFT existentes, aprendemos representaciones para cada CoT y diseñamos nuevas señales contrastivas para guiar el proceso de ajuste fino. \TheName{} utiliza completamente los CoT anotados a la vez que incorpora señales de aprendizaje no supervisado para estabilizar el proceso de ajuste fino. Los resultados experimentales utilizando tres métodos de referencia, dos modelos base y dos conjuntos de datos demuestran ventajas significativas de \TheName{} en términos de robustez, rendimiento (hasta un 10,15 % de mejora) y eficiencia (hasta un 30,62 % de mejora).