स्किप करके मेन कंटेंट पर जाऍं
OpenAI

API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

ये पेशकश Enterprise कस्टमर्स के लिए उपलब्ध है. और ज़्यादा जानकारी के लिए कृपया हमारी सेल्स टीम से संपर्क करें.

प्रायोरिटी प्रोसेसिंग, पे-एज़-यू-गो की सुविधा के साथ भरोसेमंद, हाई-स्पीड वाली परफ़ॉर्मेंस देता है.

प्रायोरिटी प्रोसेसिंग को चुनने से, आप यह अनलॉक कर सकते हैं:

  • अनुमान के अनुसार कम लेटेंसी: प्रायोरिटी प्रोसेसिंग, स्टैंडर्ड प्रोसेसिंग सर्विस के मुकाबले ज़्यादा तेज़ी से और ज़्यादा कंसिस्टेंट स्पीड से टोकन जनरेटन करती है, यहां तक ​​कि सबसे ज़्यादा डिमांड के दौरान भी.
  • इस्तेमाल में आसान फ़्लेक्सिबिलिटी: स्टैंडर्ड प्रोसेसिंग की तरह, प्रायोरिटी प्रोसेसिंग को भी एड्वांस प्रॉवीज़ननिंग की ज़रुरत के बजाय लचीले, पे-एज़-यू-गो आधार पर एक्सेस किया जा सकता है.
प्रति 1M इनपुट टोकन की क़ीमतप्रति 1M इनपुट टोकन की क़ीमत (कैश्ड)प्रति 1M आउटपुट टोकन्स की क़ीमतअपटाइम SLA3लेटेंसी SLA3
GPT-5.1
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5 mini
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.45$0.045$3.6099.9%99% > 80 टोकन प्रति सेकंड2
GPT-5.1 codex
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5 codex
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-4.1
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$3.50$0.875$14.0099.9%99% > 80 टोकन प्रति सेकंड2
GPT-4.1 mini
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.70$0.175$2.8099.9%99% > 90 टोकन प्रति सेकंड2
GPT-4.1 nano
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.20$0.050$0.8099.9%99% > 100 टोकन प्रति सेकंड2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
$4.25$2.125$17.0099.9%99% > 80 टोकन प्रति सेकंड2
gpt-4o-2024-05-13
$8.75$26.2599.9%99% > 80 टोकन प्रति सेकंड2
GPT-4o mini
$0.25$0.125$1.0099.9%99% > 90 टोकन प्रति सेकंड2
o3
$3.50$0.875$14.0099.9%99% > 80 टोकन प्रति सेकंड2
o4-mini
$2.00$0.500$8.0099.9%99% > 90 टोकन प्रति सेकंड2
1अनुरोधों का अनुमान >128K प्रॉम्प्ट टोकन के हिसाब से किया गया
2प्रति 5 मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट किया जाता है. मौजूदा एंटरप्राइज़ अग्रीमेंट्स वाले कस्टमर्स के लिए, जिनकी लेटेंसी SLAs प्रति मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट की जाती है, पहले के SLAs अभी भी लागू होते हैं.
3ये सिर्फ़ Enterprise कस्टमर्स पर लागू है

ये कैसे काम करता है

कस्टमर्स मौजूदा service_tier पैरामीटर का इस्तेमाल करके, service_tier = “priority” विकल्प के साथ, प्रति अनुरोध के आधार पर ट्रैफ़िक को प्रायोरिटी प्रोसेसिंग के लिए निर्देशित कर सकते हैं.

प्रायोरिटी प्रोसेसिंग द्वारा दिए जाने वाले टोकन को प्रति-टोकन के आधार पर बिल किया जाएगा, जिनके प्रीमियम की कीमत स्टैंडर्ड प्रोसेसिंग की दरों के मुकाबले ज़्यादा होगी. 

अनुरोध लेवल पर कॉन्फ़िगर किए जाने के अलावा, हम आगे आने वाले टर्म में प्रोजेक्ट-लेवल पर ऑप्ट-इन करने की क्षमता भी जोड़ने का प्लान कर रहे हैं.

सीमाएं

  • प्रायोरिटी प्रोसेसिंग की रेट लिमिट्स दूसरे सर्विस टियर के साथ शेयर की जाती हैं. 
  • दुर्लभ मामलों में, आपकी प्रायोरिटी प्रोसेसिंग टोकन प्रति मिनट में तेज़ी से बढ़ोतरी की वजह से रैंप की रेट लिमिट्स हिट हो सकती हैं. अगर आप रैंप की रेट लिमिट्स को पार कर जाते हैं, तो अतिरिक्त ट्रैफ़िक को स्टैंडर्ड प्रोसेसिंग में भेजा जा सकता है.

दाम

स्केल टियर प्रायोरिटी प्रोसेसिंग से अलग रहेगा.

प्रायोरिटी प्रोसेसिंग के लिए भेजे गए अनुरोधों का बिल अलग से लिया जाएगा और उन्हें आपके ख़रीदे गए स्केल टियर TPM बंडलों में नहीं गिना जाएगा.

मॉडल्स

फ़िलहाल नहीं. हम भविष्य में इस बात का मूल्यांकन करेंगे कि हमारे लेटेस्ट मॉडल्स के अलावा अतिरिक्त प्रोडक्ट्स पर प्रायोरिटी प्रोसेसिंग की पेशकश की जाए या नहीं.

रेट लिमिट्स

रेट लिमिट्स के लिए प्रायोरिटी प्रोसेसिंग की खपत को स्टैंडर्ड API ट्रैफ़िक के समान माना जाता है.

भरोसा

कृपया किसी भी सवाल या चिंता के लिए अपने AD से संपर्क करें. 

प्रायोरिटी प्रोसेसिंग SLA को स्केल टियर SLAs के समान ही माना जाएगा; अगर हम किसी निश्चित टाइम विंडो के दौरान एंटरप्राइज़ अग्रीमेंट्स पर कस्टमर्स के लिए उन SLAs को पूरा नहीं कर पाते हैं, तो सर्विस क्रेडिट्स की पेशकश की जाएगी.

नीतियां

हां