[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आईओपीओ: इनपुट-आउटपुट वरीयता अनुकूलन के माध्यम से जटिल निर्देश के साथ एलएलएम को सशक्त बनाना

Created by
  • Haebom

लेखक

जिंगहुआ झांग, हैयांग यू, चेंग फू, फी हुआंग, योंगबिन ली

रूपरेखा

इस पत्र में, हम बड़े पैमाने के भाषा मॉडल (LLM) की जटिल अनुदेशन अनुगमन क्षमता में सुधार के लिए एक मानक TRACE और एक संरेखण विधि IOPO प्रस्तावित करते हैं जो अनुदेशन और प्रतिक्रिया वरीयताओं, दोनों पर विचार करती है। TRACE में 120,000 प्रशिक्षण डेटा और 1,000 मूल्यांकन डेटा शामिल हैं, और IOPO इनपुट और आउटपुट वरीयता युग्मों का उपयोग करके LLM को अनुदेशन वरीयताओं का सूक्ष्मता से अन्वेषण करते हुए प्रतिक्रिया वरीयताओं के साथ शीघ्रता से अनुकूलन करने में सक्षम बनाता है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा SFT और DPO विधियों की तुलना में IOPO इन-डोमेन डेटा पर क्रमशः 8.15% और 2.18%, और आउट-ऑफ-डोमेन डेटा पर क्रमशः 6.29% और 3.13% प्रदर्शन में सुधार करता है।

Takeaways, Limitations

Takeaways:
ट्रेस, जटिल निर्देशों का पालन करने की क्षमता का आकलन और सुधार करने के लिए एक नया मानक
एक प्रभावी सॉर्टिंग विधि IOPO का प्रस्ताव जो इनपुट और आउटपुट दोनों वरीयताओं पर विचार करता है
IOPO के बेहतर प्रदर्शन का प्रयोगात्मक सत्यापन (डोमेन के भीतर और बाहर डेटा पर प्रदर्शन सुधार की पुष्टि)
Limitations:
TRACE का पैमाना अभी भी सीमित हो सकता है (120K प्रशिक्षण डेटा, 1K मूल्यांकन डेटा)
आईओपीओ के सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है
विभिन्न प्रकार के जटिल निर्देशों के व्यापक मूल्यांकन का संभावित अभाव
👍