दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

थिंकट्यूनिंग: बिना आसवन के संज्ञानात्मक चिंतन को स्थापित करना

Created by
  • Haebom

लेखक

असविन आरआरवी, जैकब डिनेन, दिविज हांडा, एमडी नईम उद्दीन, मिहिर परमार, चित्ता बराल, बेन झोउ

रूपरेखा

पिछले शोध के आधार पर, जिसमें यह दर्शाया गया था कि केवल सुदृढीकरण अधिगम (RL) तर्क क्षमता वाले बड़े पैमाने के भाषा मॉडल (LLM) नहीं बना सकता, यह शोधपत्र ThinkTuning का प्रस्ताव करता है, जो तर्क क्षमता से रहित मॉडलों के प्रशिक्षण के लिए एक नवीन विधि है। ThinkTuning एक GRPO-आधारित इंटरैक्टिव शिक्षण दृष्टिकोण है जो शिक्षक मॉडल द्वारा निर्देशित छात्र मॉडल के कार्यान्वयन को बढ़ाता है। शिक्षक मॉडल समस्याएँ प्रस्तुत करता है और छात्र मॉडल के उत्तरों पर सुधारात्मक प्रतिक्रिया प्रदान करता है, जिससे छात्र मॉडल की तर्क क्षमता में सुधार होता है। प्रायोगिक परिणाम दर्शाते हैं कि ThinkTuning विभिन्न बेंचमार्क पर शून्य-शॉट आधार रेखा की तुलना में औसतन 3.85%, और MATH-500, AIME, और GPQA-Diamond पर क्रमशः 2.08%, 2.23%, और 3.99% प्रदर्शन में सुधार करता है। स्रोत कोड GitHub पर उपलब्ध है।

Takeaways, Limitations

Takeaways:
शिक्षक-छात्र मॉडल अंतःक्रिया पर आधारित इंटरैक्टिव शिक्षण पद्धति के माध्यम से एलएलएम तर्क क्षमता में सुधार की संभावना का सुझाव देना।
जीआरपीओ और शिक्षक मॉडल से प्राप्त फीडबैक को संयोजित करके चिंतन कौशल सीखने का एक प्रभावी तरीका सुझाना।
प्रयोगात्मक रूप से यह प्रदर्शित किया गया कि सीमित चिंतन क्षमता वाले मॉडलों में भी चिंतन क्षमता में सुधार किया जा सकता है।
विभिन्न बेंचमार्कों में प्रदर्शन में सुधार प्रदर्शित किया गया, तथा व्यावहारिक प्रभावशीलता प्रदर्शित की गई।
Limitations:
ऐसी संभावना है कि शिक्षक मॉडल की गुणवत्ता से सीखने का प्रदर्शन बहुत प्रभावित हो सकता है।
ऐसी संभावना है कि प्रस्तावित विधि की प्रभावशीलता कुछ प्रकार की समस्याओं या मॉडलों तक ही सीमित हो सकती है।
अधिक विविध एवं जटिल समस्याओं के लिए निष्पादन मूल्यांकन की आवश्यकता है।
कम्प्यूटेशनल लागत और प्रशिक्षण समय पर विचार किया जाना चाहिए।
👍