इस पत्र में, हम बड़े पैमाने के भाषा मॉडल (LLM) की जटिल अनुदेशन अनुगमन क्षमता में सुधार के लिए एक मानक TRACE और एक संरेखण विधि IOPO प्रस्तावित करते हैं जो अनुदेशन और प्रतिक्रिया वरीयताओं, दोनों पर विचार करती है। TRACE में 120,000 प्रशिक्षण डेटा और 1,000 मूल्यांकन डेटा शामिल हैं, और IOPO इनपुट और आउटपुट वरीयता युग्मों का उपयोग करके LLM को अनुदेशन वरीयताओं का सूक्ष्मता से अन्वेषण करते हुए प्रतिक्रिया वरीयताओं के साथ शीघ्रता से अनुकूलन करने में सक्षम बनाता है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा SFT और DPO विधियों की तुलना में IOPO इन-डोमेन डेटा पर क्रमशः 8.15% और 2.18%, और आउट-ऑफ-डोमेन डेटा पर क्रमशः 6.29% और 3.13% प्रदर्शन में सुधार करता है।