[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या मानव-लिखित डेटा पर्याप्त है? बिना RL या आसवन के LLMs को तर्क सिखाने की चुनौती

Created by
  • Haebom

लेखक

वेई डु, ब्रानिस्लाव किसाकैनिन, जॉर्ज आर्मस्ट्रांग, शुभम तोशनीवाल, इवान मोशकोव, एलेक्सन आयरापेटियन, सादेघ महदवी, डैन झाओ, शिज़े डियाओ, ड्रैगन मासुलोविक, मारियस स्टैनियन, अद्वैत अवधनम, मैक्स वांग, अश्मित दत्ता, शितिज गोविल, श्री यानमंदारा, मिहिर टंडन, श्रीराम अनंतकृष्णन, वेदांत राठी, डेविड झांग, जूनसोक कांग, लियोन लुओ, टीटू एंड्रीस्कू, बोरिस गिन्सबर्ग, इगोर गिटमैन

रूपरेखा

यह शोधपत्र एक अनुमानयोग्य भाषा मॉडल का अध्ययन करता है जो विचार प्रक्रियाओं (CoTs) के अंशों का लाभ उठाकर विभिन्न जटिल कार्यों में अत्याधुनिक प्रदर्शन प्राप्त करता है। पिछले अध्ययनों से पता चला है कि आधार मॉडल, सुदृढीकरण अधिगम या ज्ञान आसवन के माध्यम से शक्तिशाली मॉडलों (जैसे, डीपसीक-R1) से तर्क के इन अंशों को प्राप्त कर सकते हैं, लेकिन यह भी दर्शाया है कि लघु CoT संकेत, फ़ाइन-ट्यूनिंग के बिना अनुमान प्रदर्शन को बेहतर बना सकते हैं। यह अध्ययन पूछता है कि क्या केवल संकेतों या न्यूनतम फ़ाइन-ट्यूनिंग का उपयोग करके आधार मॉडल से दीर्घ CoTs प्रेरित करना संभव है। हमने अनुमान मॉडल \texttt{QwQ-32B-Preview} से केवल 20 दीर्घ CoT उदाहरणों का उपयोग करके आधार मॉडल \texttt{Qwen2.5-32B} को हल्का फ़ाइन-ट्यून किया। परिणामी मॉडल, बहुत बड़े \texttt{Qwen2.5-Math-72B-Instruct} से बेहतर प्रदर्शन करता है, यह दर्शाता है कि उच्च-गुणवत्ता वाले उदाहरणों की एक छोटी संख्या शक्तिशाली अनुमान क्षमताओं को सक्षम कर सकती है। हम त्वरित इंजीनियरिंग, मल्टी-पास एडिटिंग और संरचनात्मक मार्गदर्शन द्वारा संवर्धित गैर-अनुमानित मॉडलों के उपयोग के साथ-साथ मानव एनोटेटर्स से प्राप्त CoT डेटा के उपयोग का भी पता लगाते हैं। हालाँकि, यह अनुमान मॉडल ट्रैकिंग के प्रदर्शन से कम है, जिससे पता चलता है कि विशेषज्ञ CoTs की कुछ अंतर्निहित विशेषताओं को दोहराना मुश्किल है। हमने अनुमान डेटा की प्रमुख विशेषताओं, जैसे समस्या की कठिनाई, विविधता और उत्तर की लंबाई, के अनुमान आसवन पर प्रभाव का विश्लेषण किया। हालाँकि चुनौतियाँ बनी हुई हैं, सकारात्मक परिणाम यह है कि सावधानीपूर्वक तैयार किए गए मानव-लिखित CoTs की थोड़ी मात्रा भी आधार मॉडल में अनुमान व्यवहार को सक्षम कर सकती है। शोधकर्ता सुधार चरण के दौरान मानव-लिखित डेटासेट जारी करते हैं और छोटे पैमाने पर अनुमान पर्यवेक्षण की प्रभावशीलता पर आगे के शोध को आमंत्रित करते हैं।

Takeaways, Limitations

Takeaways: हम दर्शाते हैं कि उच्च-गुणवत्ता वाले CoT उदाहरणों की एक छोटी संख्या के साथ फ़ाइन-ट्यूनिंग, बेसलाइन मॉडल की अनुमान क्षमता में उल्लेखनीय सुधार ला सकती है। हमारा सुझाव है कि मानव-लिखित CoT डेटा की थोड़ी मात्रा बेसलाइन मॉडल के अनुमान प्रदर्शन को बेहतर बनाने में प्रभावी है। हम मानव-लिखित CoT डेटासेट को सार्वजनिक करते हैं, जो आगे के शोध के लिए एक आधार प्रदान करता है।
Limitations: गैर-अनुमानित मॉडलों या मानव व्याख्याकारों से प्राप्त CoT डेटा, अनुमानित मॉडलों से प्राप्त CoT डेटा जितना प्रभावी नहीं था। इससे पता चलता है कि विशेषज्ञ CoT की कुछ अंतर्निहित विशेषताओं को दोहराने में कठिनाइयाँ हैं। यह निर्धारित करने के लिए और अधिक शोध की आवश्यकता है कि अनुमानित डेटा की विशेषताएँ, जैसे समस्या की कठिनाई, विविधता और उत्तर की लंबाई, अनुमानित आसवन को कैसे प्रभावित करती हैं।
👍