दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चेन-ऑफ-थॉट कम्प्रेशन के लिए सक्रियण स्टीयरिंग

Created by
  • Haebom

लेखक

सेयडेर्मिन अज़ीज़ी, इरफ़ान बघाई पोट्राघ्लू, मसूद पेड्राम

रूपरेखा

इस शोधपत्र में, हम सक्रियण-संचालित संपीड़न (ASC) प्रस्तुत करते हैं, जो वृहद्-स्तरीय भाषा मॉडलों (LLM) की अनुमान प्रक्रिया में अत्यधिक विचार श्रृंखलाओं (CoTs) की समस्या के समाधान हेतु एक नवीन विधि है। ASC, मॉडल के सक्रियण स्थान में संक्षिप्त गणितीय अनुमान और विस्तृत अंग्रेजी-आधारित अनुमान के बीच के अंतर का उपयोग करके एक "संचालन सदिश" को निकालकर और अंतःक्षेपित करके अनुमान प्रक्रिया को संपीड़ित करता है। यह एक ऐसी तकनीक है जो CoT लंबाई को छोटा करने के लिए पुनःप्रशिक्षण के बिना अनुमान के समय छिपे हुए निरूपण को सीधे संशोधित करती है। KL-विचलन-सीमाबद्ध बाधाओं का उपयोग करते हुए सैद्धांतिक विश्लेषण के माध्यम से, हम दर्शाते हैं कि यह संचालन शक्ति को समायोजित करता है और सटीकता बनाए रखते हुए MATH500 और GSM8K डेटासेट पर CoT लंबाई में 67.43% तक की कमी प्राप्त करता है। विशेष रूप से, यह 8B मॉडल पर 2.73x की औसत गति प्राप्त करता है, जो यह दर्शाता है कि यह विलंबता और लागत-संवेदनशील वातावरण में अनुमान क्षमताओं के साथ LLM परिनियोजन के लिए एक व्यावहारिक और कुशल उपकरण है।

Takeaways, Limitations

Takeaways:
एलएलएम की अनुमान प्रक्रिया में उत्पन्न होने वाली अति-व्याख्या समस्या को प्रभावी ढंग से हल करने के लिए एक नवीन विधि (एएससी) प्रस्तुत की गई है।
यह बिना पुनः प्रशिक्षण के अनुमान की गति में सुधार कर सकता है और ऊर्जा खपत को कम कर सकता है।
एएससी की प्रभावशीलता को केएल-डाइवर्जेन्स-बाउंडेड बाधाओं का उपयोग करके सैद्धांतिक विश्लेषण द्वारा समर्थित किया गया है।
MATH500 और GSM8K डेटासेट पर उच्च दक्षता और सटीकता सत्यापित।
विलंबता या लागत-संवेदनशील वातावरण में एलएलएम परिनियोजन की व्यावहारिकता को बढ़ाता है।
Limitations:
एएससी का प्रदर्शन प्रयुक्त प्रशिक्षण डेटा (विस्तृत एवं संक्षिप्त उदाहरण) की गुणवत्ता पर निर्भर हो सकता है।
विभिन्न एलएलएम आर्किटेक्चर और डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या वर्तमान में प्रस्तुत विधि सभी प्रकार की अनुमान समस्याओं के लिए प्रभावी है।
स्टीयरिंग वेक्टर निष्कर्षण और इंजेक्शन प्रक्रिया की सामान्यता पर आगे अनुसंधान की आवश्यकता है।
👍