API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

प्रायोरिटी प्रोसेसिंग, पे-एज़-यू-गो की सुविधा के साथ भरोसेमंद, हाई-स्पीड वाली परफ़ॉर्मेंस देता है.

प्रायोरिटी प्रोसेसिंग चुनकर, तुम अनलॉक कर सकते हो:

पूर्वानुमेय कम विलंबता: प्रायोरिटी प्रोसेसिंग टोकन्स को तेज़ी से और स्टैंडर्ड प्रोसेसिंग सर्विस की तुलना में अधिक लगातार स्पीड पर जनरेट करता है, यहाँ तक कि पीक डिमांड के दौरान भी.
आसान-से-इस्तेमाल लचीलेपन: स्टैंडर्ड प्रोसेसिंग की तरह, प्रायोरिटी प्रोसेसिंग को एडवांस प्रोविजनिंग की आवश्यकता के बजाय फ्लेक्सिबल, पे-एज़-यू-गो बेसिस पर एक्सेस किया जा सकता है.

	प्रति 1M इनपुट टोकन की क़ीमत	प्रति 1M इनपुट टोकन की क़ीमत (कैश्ड)	प्रति 1M आउटपुट टोकन्स की क़ीमत	अपटाइम SLA³	लेटेंसी SLA³
GPT-5.2 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$3.50	$0.350	$28.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5.1 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 mini लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.45	$0.045	$3.60	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-5.1 codex लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-5 codex लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$2.50	$0.250	$20.00	99.9%	99% > 50 टोकन प्रति सेकंड²
GPT-4.1 लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$3.50	$0.875	$14.00	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-4.1 mini लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.70	$0.175	$2.80	99.9%	99% > 90 टोकन प्रति सेकंड²
GPT-4.1 nano लंबे कॉन्टेक्स्ट¹ को बाहर कर देता है	$0.20	$0.050	$0.80	99.9%	99% > 100 टोकन प्रति सेकंड²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	$4.25	$2.125	$17.00	99.9%	99% > 80 टोकन प्रति सेकंड²
gpt-4o-2024-05-13	$8.75	—	$26.25	99.9%	99% > 80 टोकन प्रति सेकंड²
GPT-4o mini	$0.25	$0.125	$1.00	99.9%	99% > 90 टोकन प्रति सेकंड²
o3	$3.50	$0.875	$14.00	99.9%	99% > 80 टोकन प्रति सेकंड²
o4-mini	$2.00	$0.500	$8.00	99.9%	99% > 90 टोकन प्रति सेकंड²

1अनुरोधों का अनुमान >128K प्रॉम्प्ट टोकन के हिसाब से किया गया

2प्रति 5 मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट किया जाता है. मौजूदा एंटरप्राइज़ अग्रीमेंट्स वाले कस्टमर्स के लिए, जिनकी लेटेंसी SLAs प्रति मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट की जाती है, पहले के SLAs अभी भी लागू होते हैं.

3ये सिर्फ़ Enterprise कस्टमर्स पर लागू है

ये कैसे काम करता है

ग्राहक मौजूदा service_tier पैरामीटर का उपयोग करके, service_tier = “priority”विकल्प के साथ, प्रति अनुरोध के आधार पर ट्रैफ़िक को प्राथमिकता प्रोसेसिंग के लिए निर्देशित कर सकते हैं.

प्रायोरिटी प्रोसेसिंग द्वारा सर्व किए गए टोकन्स को प्रति-टोकन आधार पर बिल किया जाएगा, जो स्टैंडर्ड प्रोसेसिंग रेट्स की तुलना में प्रीमियम मूल्य पर है.

अनुरोध स्तर पर कॉन्फ़िगर किए जाने के अलावा, आप प्रोजेक्ट सेटिंग्स → डिफ़ॉल्ट सेवा स्तर: प्रायोरिटी में प्रोजेक्ट को भी डिफ़ॉल्ट कर सकते हैं. तुम अब भी हर अनुरोध पर ओवरराइड कर सकते हो.

सीमाऍं

प्राथमिकता प्रोसेसिंग की दर सीमाएँ अन्य सेवा स्तरों के साथ साझा की जाती हैं.
कुछ दुर्लभ मामलों में, आपकी प्रायोरिटी प्रोसेसिंग टोकन प्रति मिनट में तेजी से वृद्धि के कारण रैंप रेट सीमाएं पार हो सकती हैं. यदि आप रैंप रेट सीमा को पार कर जाते हैं, तो अतिरिक्त ट्रैफ़िक को स्टैंडर्ड प्रोसेसिंग में भेजा जा सकता है.

दाम

स्केल टियर प्रायोरिटी प्रोसेसिंग से अलग रहेगा.

प्रायोरिटी प्रोसेसिंग के लिए भेजे गए अनुरोधों का बिल अलग से किया जाएगा और उन्हें आपके खरीदे गए स्केल टियर TPM बंडलों में शामिल नहीं किया जाएगा.

प्रायोरिटी प्रोसेसिंग द्वारा प्रोसेस किए गए token देखने के लिए, यूसेज डैशबोर्ड पर Go करें, चैट कम्पलीशन्स या रिस्पॉन्सेस चुनें, और सर्विस टियर के अनुसार ग्रुप करें.

प्रायोरिटी प्रोसेसिंग लागत देखने के लिए, Usage डैशबोर्ड पर Go, और लाइन आइटम के अनुसार ग्रुप चुनें.

मॉडल्स

इस समय नहीं. हम भविष्य में यह मूल्यांकन करेंगे कि क्या हमारे नवीनतम मॉडलों के अलावा अन्य उत्पादों पर प्राथमिकता प्रसंस्करण की पेशकश की जाए.

प्रायोरिटी प्रोसेसिंग स्टैंडर्ड पर उपलब्ध समान मल्टीमोडल क्षमताओं का सपोर्ट करती है. विशेष रूप से, इमेज को प्रायोरिटी प्रोसेसिंग में इनपुट के रूप में उपयोग किया जा सकता है और उन्हें समान तेज़ लेटेंसी के साथ प्रोसेस किया जाता है.

दर सीमाएँ

रेट लिमिट्स के लिए प्रायोरिटी प्रोसेसिंग की खपत को मानक API ट्रैफ़िक के समान माना जाता है.

प्रायोरिटी प्रोसेसिंग में सभी कस्टमर्स के लिए फ़्लेक्सिबल, ऑन-डिमांड दाम दिए जाने पर भी, लगातार हाई परफ़ॉर्मेंस पक्का करने के लिए रैंप की रेट लिमिट्स हैं. यदि (a) प्रायोरिटी प्रोसेसिंग का प्रदर्शन घट जाता है और (b) किसी ग्राहक का ट्रैफ़िक बहुत तेजी से बढ़ रहा है, तो कुछ प्रायोरिटी अनुरोधों को स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड किया जा सकता है.

वर्तमान प्रायोरिटी प्रोसेसिंग रैंप रेट सीमा को कम से कम 1M TPM की प्रोसेसिंग और 15 मिनट से कम समय में ट्रैफ़िक को >50% token प्रति मिनट बढ़ाने के रूप में परिभाषित किया गया है.

स्टैंडर्ड सेवा स्तर द्वारा प्रोसेस किए गए अनुरोधों को स्टैंडर्ड दरों पर बिल किया जाएगा, और वे प्रायोरिटी प्रोसेसिंग सेवा स्तर उद्देश्यों के लिए पात्र नहीं हैं.

स्टैंडर्ड सेवा स्तर द्वारा संसाधित अनुरोधों में प्रतिक्रिया में service_tier=”डिफ़ॉल्ट” शामिल होगा.

अपनी रैंप रेट सीमा के भीतर रहने के लिए सर्वोत्तम प्रथाएँ

मॉडल बदलते समय ट्रैफ़िक को धीरे-धीरे बढ़ाएं. उदाहरण के लिए, अगर आपका ऐप्लिकेशन पिछले स्नैपशॉट से नए स्नैपशॉट में ट्रांज़ीशन कर रहा है, तो ट्रैफ़िक को एक बार में ट्रांज़ीशन करने के बजाय कुछ घंटों में करने के लिए एक फ़ीचर फ़्लैग का उपयोग करें.
प्रायोरिटी प्रोसेसिंग पर बड़े डेटा प्रोसेसिंग या एसिंक्रोनस जॉब्स चलाने से बचें. ये जॉब्स बहुत तेजी से ट्रैफिक बढ़ा सकते हैं, और अक्सर उन्हें प्रायोरिटी प्रोसेसिंग के बेहतर प्रदर्शन की आवश्यकता नहीं होती है.
अगर तुम नियमित रूप से रैंप रेट लिमिट्स का सामना करते हो, तो इसके बजाय या इसके अतिरिक्त स्केल टियर क्षमता खरीदने पर विचार करो.

भरोसा

Enterprise कस्टमर्स के लिए, कृपया किसी भी सवाल या चिंता के लिए अपने AD से संपर्क करो.

प्रायोरिटी प्रोसेसिंग SLA को स्केल टियर SLA के समान ही माना जाएगा; यदि हम किसी निर्धारित समय सीमा के दौरान एंटरप्राइज़ अग्रीमेंट्स पर ग्राहकों के लिए उन SLA को पूरा करने में विफल रहते हैं, तो सेवा क्रेडिट्स की पेशकश की जाएगी.

नीतियाँ

हाँ

API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

ये कैसे काम करता है

सीमाऍं

दाम

(Enterprise कस्टमर्स के लिए) यह स्केल टियर के साथ कैसे काम करता है?

(Enterprise कस्टमर्स के लिए) क्या आपकी वार्षिक प्रतिबद्धता किसी विशेष प्रोसेसिंग मोड से जुड़ी है?

क्या मुझे कैच किये गए इनपुट टोकन पर अभी भी छूट मिलेगी?

मैं अपनी प्रायोरिटी प्रोसेसिंग का उपयोग और खर्च कैसे देख सकता हूँ?

मॉडल्स

क्या प्रायोरिटी प्रोसेसिंग लंबे कॉन्टेक्स्ट, फाइन-ट्यून किए गए मॉडल्स, एम्बेडिंग्स, आदि के लिए उपलब्ध है?

प्रायोरिटी प्रोसेसिंग के साथ अन्य मोडालिटी कैसे काम करती हैं?

क्या भविष्य के मॉडल को सपोर्ट मिलेगा?

दर सीमाएँ

दर सीमाएँ क्या हैं?

रैंप रेट सीमाएँ क्या हैं?

क्या रैंप रेट सीमाएँ मेरे सभी प्रोजेक्ट या संगठनों में साझा की जाती हैं?

भरोसा

(Enterprise कस्टमर्स के लिए) अगर यह लेटेंसी लक्ष्य को पूरा नहीं करता है तो क्या होगा?

नीतियाँ

क्या प्रायोरिटी प्रोसेसिंग डेटा रेजिडेंसी के साथ संगत है?

क्या प्रायोरिटी प्रोसेसिंग ZDR और BAA के साथ संगत है?