दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या आपका LLM आपसे ज़्यादा पैसे ले रहा है? टोकनाइज़ेशन, पारदर्शिता और प्रोत्साहन

Created by
  • Haebom

लेखक

एंडर आर्टोला वेलास्को, स्ट्रैटिस त्सिर्त्सिस, नास्टारन ओकाती, मैनुअल गोमेज़-रोड्रिग्ज़

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) के लिए क्लाउड-आधारित सेवाओं में प्रयुक्त प्रति-टोकन मूल्य निर्धारण तंत्र की कमजोरियों का विश्लेषण करता है। वर्तमान टोकन-आधारित मूल्य निर्धारण, सेवा प्रदाताओं को मॉडल के आउटपुट में प्रयुक्त टोकन की संख्या की गलत रिपोर्टिंग करके अधिकतम लाभ कमाने के लिए प्रोत्साहित करता है, जिससे उपयोगकर्ताओं के पास इसे सत्यापित करने का कोई तरीका नहीं बचता। हम इस कमजोरी को प्रदर्शित करते हैं और एक कुशल अनुमानी एल्गोरिथ्म प्रस्तावित करते हैं जो सेवा प्रदाताओं को बिना किसी संदेह के शुल्क लेने की अनुमति देता है। इसके अलावा, हम यह भी प्रदर्शित करते हैं कि टोकन का मूल्य निर्धारण इस प्रोत्साहन को समाप्त करने के लिए टोकन में वर्णों की संख्या पर रैखिक रूप से निर्भर करता है, और एक ऐसी विधि प्रस्तावित करते हैं जो औसत लाभ बनाए रखती है। हम अपने सैद्धांतिक निष्कर्षों को लामा, जेम्मा और मिनिस्ट्रल परिवारों के कई LLM, साथ ही LMSYS चैटबॉट एरिना प्लेटफ़ॉर्म के संकेतों का उपयोग करके किए गए प्रयोगात्मक परिणामों के साथ पूरक करते हैं।

Takeaways, Limitations

Takeaways:
वर्तमान टोकन-आधारित मूल्य निर्धारण प्रणाली एलएलएम सेवा प्रदाताओं को उनकी बिलिंग प्रथाओं में हेरफेर करने के लिए उजागर करती है।
हमारा सुझाव है कि टोकन में अक्षरों की संख्या के अनुसार टोकन का मूल्य निर्धारण करना, हेरफेर के लिए प्रोत्साहन को हटाने का एक प्रभावी तरीका है।
हम प्रदाताओं के लिए एक ऐसी विधि प्रस्तावित करते हैं, जिसमें वे मौजूदा लाभ मार्जिन को बनाए रखते हुए प्रोत्साहन-अनुरूप मूल्य निर्धारण तंत्र अपना सकें।
Limitations:
प्रस्तावित हेयुरिस्टिक एल्गोरिथम बिलिंग हेरफेर को पूरी तरह से नहीं रोकता है और प्रदाताओं द्वारा रणनीतिक व्यवहार के लिए एक आदर्श समाधान नहीं है।
यह प्रयोग एक विशिष्ट एलएलएम और प्रॉम्प्ट तक सीमित था, तथा इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
इस बात पर और विचार करने की आवश्यकता है कि क्या टोकन में वर्णों की संख्या के आधार पर टोकन का मूल्य निर्धारण सभी स्थितियों में व्यावहारिक है।
👍