स्किप करके मेन कंटेंट पर जाऍं
OpenAI

API कस्टमर्स के लिए प्रायोरिटी प्रोसेसिंग

प्रायोरिटी प्रोसेसिंग, पे-एज़-यू-गो की सुविधा के साथ भरोसेमंद, हाई-स्पीड वाली परफ़ॉर्मेंस देता है.

प्रायोरिटी प्रोसेसिंग चुनकर, तुम अनलॉक कर सकते हो:

  • पूर्वानुमेय कम विलंबता: प्रायोरिटी प्रोसेसिंग टोकन्स को तेज़ी से और स्टैंडर्ड प्रोसेसिंग सर्विस की तुलना में अधिक लगातार स्पीड पर जनरेट करता है, यहाँ तक कि पीक डिमांड के दौरान भी.
  • आसान-से-इस्तेमाल लचीलेपन: स्टैंडर्ड प्रोसेसिंग की तरह, प्रायोरिटी प्रोसेसिंग को एडवांस प्रोविजनिंग की आवश्यकता के बजाय फ्लेक्सिबल, पे-एज़-यू-गो बेसिस पर एक्सेस किया जा सकता है.
प्रति 1M इनपुट टोकन की क़ीमतप्रति 1M इनपुट टोकन की क़ीमत (कैश्ड)प्रति 1M आउटपुट टोकन्स की क़ीमतअपटाइम SLA3लेटेंसी SLA3
GPT-5.2
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$3.50$0.350$28.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5.1
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5 mini
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.45$0.045$3.6099.9%99% > 80 टोकन प्रति सेकंड2
GPT-5.1 codex
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-5 codex
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$2.50$0.250$20.0099.9%99% > 50 टोकन प्रति सेकंड2
GPT-4.1
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$3.50$0.875$14.0099.9%99% > 80 टोकन प्रति सेकंड2
GPT-4.1 mini
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.70$0.175$2.8099.9%99% > 90 टोकन प्रति सेकंड2
GPT-4.1 nano
लंबे कॉन्टेक्स्ट1 को बाहर कर देता है
$0.20$0.050$0.8099.9%99% > 100 टोकन प्रति सेकंड2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
$4.25$2.125$17.0099.9%99% > 80 टोकन प्रति सेकंड2
gpt-4o-2024-05-13
$8.75$26.2599.9%99% > 80 टोकन प्रति सेकंड2
GPT-4o mini
$0.25$0.125$1.0099.9%99% > 90 टोकन प्रति सेकंड2
o3
$3.50$0.875$14.0099.9%99% > 80 टोकन प्रति सेकंड2
o4-mini
$2.00$0.500$8.0099.9%99% > 90 टोकन प्रति सेकंड2
1अनुरोधों का अनुमान >128K प्रॉम्प्ट टोकन के हिसाब से किया गया
2प्रति 5 मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट किया जाता है. मौजूदा एंटरप्राइज़ अग्रीमेंट्स वाले कस्टमर्स के लिए, जिनकी लेटेंसी SLAs प्रति मिनट के आधार पर p50 अनुरोध की लेटेंसी पर कैल्कुलेट की जाती है, पहले के SLAs अभी भी लागू होते हैं.
3ये सिर्फ़ Enterprise कस्टमर्स पर लागू है

ये कैसे काम करता है

ग्राहक मौजूदा service_tier पैरामीटर का उपयोग करके, service_tier = “priority”विकल्प के साथ, प्रति अनुरोध के आधार पर ट्रैफ़िक को प्राथमिकता प्रोसेसिंग के लिए निर्देशित कर सकते हैं.

प्रायोरिटी प्रोसेसिंग द्वारा सर्व किए गए टोकन्स को प्रति-टोकन आधार पर बिल किया जाएगा, जो स्टैंडर्ड प्रोसेसिंग रेट्स की तुलना में प्रीमियम मूल्य पर है. 

अनुरोध स्तर पर कॉन्फ़िगर किए जाने के अलावा, आप प्रोजेक्ट सेटिंग्स → डिफ़ॉल्ट सेवा स्तर: प्रायोरिटी में प्रोजेक्ट को भी डिफ़ॉल्ट कर सकते हैं. तुम अब भी हर अनुरोध पर ओवरराइड कर सकते हो.

सीमाऍं

  • प्राथमिकता प्रोसेसिंग की दर सीमाएँ अन्य सेवा स्तरों के साथ साझा की जाती हैं. 
  • कुछ दुर्लभ मामलों में, आपकी प्रायोरिटी प्रोसेसिंग टोकन प्रति मिनट में तेजी से वृद्धि के कारण रैंप रेट सीमाएं पार हो सकती हैं. यदि आप रैंप रेट सीमा को पार कर जाते हैं, तो अतिरिक्त ट्रैफ़िक को स्टैंडर्ड प्रोसेसिंग में भेजा जा सकता है.

दाम

स्केल टियर प्रायोरिटी प्रोसेसिंग से अलग रहेगा.

प्रायोरिटी प्रोसेसिंग के लिए भेजे गए अनुरोधों का बिल अलग से किया जाएगा और उन्हें आपके खरीदे गए स्केल टियर TPM बंडलों में शामिल नहीं किया जाएगा.

मॉडल्स

इस समय नहीं. हम भविष्य में यह मूल्यांकन करेंगे कि क्या हमारे नवीनतम मॉडलों के अलावा अन्य उत्पादों पर प्राथमिकता प्रसंस्करण की पेशकश की जाए.

दर सीमाएँ

रेट लिमिट्स के लिए प्रायोरिटी प्रोसेसिंग की खपत को मानक API ट्रैफ़िक के समान माना जाता है.

भरोसा

Enterprise कस्टमर्स के लिए, कृपया किसी भी सवाल या चिंता के लिए अपने AD से संपर्क करो. 

प्रायोरिटी प्रोसेसिंग SLA को स्केल टियर SLA के समान ही माना जाएगा; यदि हम किसी निर्धारित समय सीमा के दौरान एंटरप्राइज़ अग्रीमेंट्स पर ग्राहकों के लिए उन SLA को पूरा करने में विफल रहते हैं, तो सेवा क्रेडिट्स की पेशकश की जाएगी.

नीतियाँ

हाँ