En este artículo, proponemos un método de referencia TRACE para mejorar la capacidad de seguimiento de instrucciones complejas de los modelos de lenguaje a gran escala (LLM), así como un método de alineación IOPO que considera tanto las instrucciones como las preferencias de respuesta. TRACE consta de 120 000 datos de entrenamiento y 1000 datos de evaluación, e IOPO utiliza pares de preferencias de entrada y salida para que los LLM se adapten rápidamente a las preferencias de respuesta, a la vez que exploran con precisión las preferencias de instrucción. Los resultados experimentales muestran que IOPO mejora el rendimiento en un 8,15 % y un 2,18 % con datos dentro del dominio, y en un 6,29 % y un 3,13 % con datos fuera del dominio, en comparación con los métodos SFT y DPO existentes.