Dans cet article, nous proposons une méthode de référence TRACE pour améliorer la capacité de suivi d'instructions complexes des modèles de langage à grande échelle (LLM), ainsi qu'une méthode d'alignement IOPO qui prend en compte à la fois les instructions et les préférences de réponse. TRACE se compose de 120 000 données d'apprentissage et de 1 000 données d'évaluation, et IOPO utilise des paires de préférences d'entrée et de sortie pour permettre aux LLM de s'adapter rapidement aux préférences de réponse tout en explorant finement les préférences d'instruction. Les résultats expérimentaux montrent qu'IOPO améliore les performances de 8,15 % et 2,18 % sur les données du domaine, et de 6,29 % et 3,13 % sur les données hors domaine, par rapport aux méthodes SFT et DPO existantes.