API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

ये पेशकश Enterprise कस्टमर्स के लिए उपलब्ध है. और ज़्यादा जानकारी के लिए कृपया हमारी सेल्स टीम से संपर्क करें⁠.

प्रायोरिटी प्रोसेसिंग, पे-एज़-यू-गो की सुविधा के साथ भरोसेमंद, हाई-स्पीड वाली परफ़ॉर्मेंस देता है.

प्रायोरिटी प्रोसेसिंग को चुनने से, आप यह अनलॉक कर सकते हैं:

अनुमान के अनुसार कम लेटेंसी: प्रायोरिटी प्रोसेसिंग, स्टैंडर्ड प्रोसेसिंग सर्विस के मुकाबले ज़्यादा तेज़ी से और ज़्यादा कंसिस्टेंट स्पीड से टोकन जनरेटन करती है, यहां तक कि सबसे ज़्यादा डिमांड के दौरान भी.
इस्तेमाल में आसान फ़्लेक्सिबिलिटी: स्टैंडर्ड प्रोसेसिंग की तरह, प्रायोरिटी प्रोसेसिंग को भी एड्वांस प्रॉवीज़ननिंग की ज़रुरत के बजाय लचीले, पे-एज़-यू-गो आधार पर एक्सेस किया जा सकता है.

	प्रति 1M इनपुट टोकन की क़ीमत	प्रति 1M इनपुट टोकन की क़ीमत (कैश्ड)	प्रति 1M आउटपुट टोकन्स की क़ीमत	अपटाइम SLA³	लेटेंसी SLA³
GPT-5.1 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 mini लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.45	$0.045	$3.60	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-5.1 codex लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 codex लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-4.1 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$3.50	$0.875	$14.00	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-4.1 mini लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.70	$0.175	$2.80	99.9%	99% > 90 टोकन प्रति सेकंड²
GPT-4.1 nano लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.20	$0.050	$0.80	99.9%	99% > 100 टोकन प्रति सेकंड²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	$4.25	$2.125	$17.00	99.9%	99% > 80 टोकन प्रति सेकंड²
gpt-4o-2024-05-13	$8.75	—	$26.25	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-4o mini	$0.25	$0.125	$1.00	99.9%	99% > 90 टोकन प्रति सेकंड²
o3	$3.50	$0.875	$14.00	99.9%	99% > 80 टोकन प्रति सेकंड²
o4-mini	$2.00	$0.500	$8.00	99.9%	99% > 90 टोकन प्रति सेकंड²

1अनुरोधों का अनुमान >128K प्रॉम्प्ट टोकन के हिसाब से किया गया

2प्रति 5 मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट किया जाता है. मौजूदा एंटरप्राइज़ अग्रीमेंट्स वाले कस्टमर्स के लिए, जिनकी लेटेंसी SLAs प्रति मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट की जाती है, पहले के SLAs अभी भी लागू होते हैं.

3ये सिर्फ़ Enterprise कस्टमर्स पर लागू है

ये कैसे काम करता है

कस्टमर्स मौजूदा service_tier पैरामीटर का इस्तेमाल करके, service_tier = “priority” विकल्प के साथ, प्रति अनुरोध के आधार पर ट्रैफ़िक को प्रायोरिटी प्रोसेसिंग के लिए निर्देशित कर सकते हैं.

प्रायोरिटी प्रोसेसिंग द्वारा दिए जाने वाले टोकन को प्रति-टोकन के आधार पर बिल किया जाएगा, जिनके प्रीमियम की कीमत स्टैंडर्ड प्रोसेसिंग की दरों के मुकाबले ज़्यादा होगी.

अनुरोध लेवल पर कॉन्फ़िगर किए जाने के अलावा, हम आगे आने वाले टर्म में प्रोजेक्ट-लेवल पर ऑप्ट-इन करने की क्षमता भी जोड़ने का प्लान कर रहे हैं.

सीमाएं

प्रायोरिटी प्रोसेसिंग की रेट लिमिट्स दूसरे सर्विस टियर के साथ शेयर की जाती हैं.
दुर्लभ मामलों में, आपकी प्रायोरिटी प्रोसेसिंग टोकन प्रति मिनट में तेज़ी से बढ़ोतरी की वजह से रैंप की रेट लिमिट्स हिट हो सकती हैं. अगर आप रैंप की रेट लिमिट्स को पार कर जाते हैं, तो अतिरिक्त ट्रैफ़िक को स्टैंडर्ड प्रोसेसिंग में भेजा जा सकता है.

दाम

स्केल टियर प्रायोरिटी प्रोसेसिंग से अलग रहेगा.

प्रायोरिटी प्रोसेसिंग के लिए भेजे गए अनुरोधों का बिल अलग से लिया जाएगा और उन्हें आपके ख़रीदे गए स्केल टियर TPM बंडलों में नहीं गिना जाएगा.

प्रायोरिटी प्रोसेसिंग द्वारा प्रोसेस किए गए टोकन देखने के लिए, यूसेज डैशबोर्ड पर जाएं, चैट कम्पलीशन्स या जवाब चुनें, और सर्विस टियर के अनुसार ग्रुप करें.

प्रायोरिटी प्रोसेसिंग ख़र्च देखने के लिए, यूसेज डैशबोर्ड पर जाएं, और लाइन आइटम के आधार पर ग्रुप चुनें.

मॉडल्स

फ़िलहाल नहीं. हम भविष्य में इस बात का मूल्यांकन करेंगे कि हमारे लेटेस्ट मॉडल्स के अलावा अतिरिक्त प्रोडक्ट्स पर प्रायोरिटी प्रोसेसिंग की पेशकश की जाए या नहीं.

प्रायोरिटी प्रोसेसिंग, स्टैंडर्ड पर उपलब्ध समान मल्टीमोडल क्षमताओं को सपोर्ट करती है. ख़ास तौर से, इमेज को स्केल टियर में इनपुट्स के तौर पर इस्तेमाल किया जा सकता है और उन्हें समान तेज़ लेटेंसी के साथ प्रोसेस किया जाता है.

रेट लिमिट्स

रेट लिमिट्स के लिए प्रायोरिटी प्रोसेसिंग की खपत को स्टैंडर्ड API ट्रैफ़िक के समान माना जाता है.

प्रायोरिटी प्रोसेसिंग में सभी कस्टमर्स के लिए फ़्लेक्सिबल, ऑन-डिमांड दाम दिए जाने पर भी, लगातार हाई परफ़ॉर्मेंस पक्का करने के लिए रैंप की रेट लिमिट्स हैं. अगर (a) प्रायोरिटी प्रोसेसिंग के परफ़ॉर्मेंस में गिरावट आती है और (b) किसी कस्टमर का ट्रैफ़िक बहुत तेज़ी से बढ़ रहा होता है, तो कुछ प्रायोरिटी अनुरोधों को स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड किया जा सकता है.

मौजूदा प्रायोरिटी प्रोसेसिंग रैंप की रेट लिमिट को कम से कम 100k TPM प्रोसेसिंग और 15 मिनट से कम समय में >50% टोकन प्रति मिनट ट्रैफ़िक बढ़ाने के तौर पर परिभाषित किया गया है.

स्टैंडर्ड सर्विस टियर द्वारा प्रोसेस किए गए अनुरोधों को स्टैंडर्ड रेट्स पर बिल किया जाएगा, और वे प्रायोरिटी प्रोसेसिंग सर्विस लेवल उद्देश्यों के लिए एलिजिबल नहीं होंगे.

स्टैंडर्ड सर्विस टियर द्वारा प्रोसेस किए गए अनुरोधों में रिस्पांस में service_tier=”Default” शामिल होगा.

अपनी रैंप की रेट लिमिट के अंदर रहने के लिए सबसे अच्छी आदतें

मॉडल्स बदलते समय धीरे-धीरे ट्रैफ़िक बढ़ाएं. जैसे कि, अगर आपका ऐप्लिकेशन पिछले स्नैपशॉट से नए स्नैपशॉट में ट्रांज़ीशन कर रहा है, तो ट्रैफ़िक को एक बार में ट्रांज़ीशन करने के बजाय कुछ घंटों के दौरान करने के लिए एक फ़ीचर फ़्लैग का इस्तेमाल करें.
प्रायोरिटी प्रोसेसिंग पर बड़े डेटा प्रोसेसिंग या एसिंक्रोनस जॉब्स रन करने से बचें. ये जॉब्स बहुत तेज़ी से ट्रैफ़िक बढ़ा सकते हैं, और उन्हें अक्सर प्रायोरिटी प्रोसेसिंग के बेहतर परफ़ॉर्मेंस की ज़रुरत नहीं होती.
अगर आपको नियमित तौर पर रैंप की रेट लिमिट्स का सामना करना पड़ता है, तो इसके बजाय या इसके अतिरिक्त स्केल टियर क्षमता ख़रीदने पर विचार करें.

भरोसा

कृपया किसी भी सवाल या चिंता के लिए अपने AD से संपर्क करें.

प्रायोरिटी प्रोसेसिंग SLA को स्केल टियर SLAs के समान ही माना जाएगा; अगर हम किसी निश्चित टाइम विंडो के दौरान एंटरप्राइज़ अग्रीमेंट्स पर कस्टमर्स के लिए उन SLAs को पूरा नहीं कर पाते हैं, तो सर्विस क्रेडिट्स की पेशकश की जाएगी.

नीतियां

हां

API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

ये कैसे काम करता है

सीमाएं

दाम

ये स्केल टियर के साथ किस प्रकार इंटरैक्ट करता है?

क्या मैं अपने स्केल टियर स्पिल-ओवर ट्रैफ़िक को अपने आप प्रायोरिटी प्रोसेसिंग में भेज सकता हूं?

क्या मेरी वार्षिक प्रतिबद्धता किसी ख़ास प्रोसेसिंग मोड से जुड़ी है?

क्या मुझे कैच किये गए इनपुट टोकन पर अभी भी छूट मिलेगी?

मैं अपनी प्रायोरिटी प्रोसेसिंग का इस्तेमाल और ख़र्च कैसे देख सकता हूं?

मॉडल्स

क्या प्रायोरिटी प्रोसेसिंग लंबे कॉन्टेक्स्ट, फ़ाइन-ट्यून किए गए मॉडल्स, एम्बेडिंग्स, आदि के लिए उपलब्ध है?

प्रायोरिटी प्रोसेसिंग के साथ दूसरी मोडालिटीज़ कैसे काम करती हैं?

क्या आने वाले वक़्त के मॉडल्स को सपोर्ट किया जाएगा?

रेट लिमिट्स

रेट लिमिट्स क्या हैं?

रैंप की रेट लिमिट्स क्या हैं?

क्या रैंप की रेट लिमिट्स मेरे सभी प्रोजेक्ट्स या संगठनों में शेयर की जाती हैं?

भरोसा

अगर ये लेटेंसी टार्गेट को पूरा नहीं कर पाता है तो क्या होगा?

नीतियां

क्या प्रायोरिटी प्रोसेसिंग डेटा रेसिडेंसी के साथ कम्पैटिबल है?

क्या प्रायोरिटी प्रोसेसिंग ZDR और BAA के साथ कम्पैटिबल है?