跳至主要內容
OpenAI

API 客戶的優先處理服務

此方案僅提供給 Enterprise 客戶使用。請聯絡我們的銷售團隊 ,深入了解詳情。

優先處理服務可提供穩定且高速的效能,同時保有隨用隨付的靈活性。

選擇優先處理服務後,您就可以獲得:

  • 可預期的低延遲:優先處理服務即使在高峰期間,也能比標準處理服務更快速、更穩定地生成 token。
  • 便於利用的靈活性:與標準處理相同,優先處理服務也可以透過彈性的隨用隨付方式使用,無需事先部署。
每一百萬個輸入權杖的費用每一百萬個輸入權杖的費用 (快取)每一百萬個輸出權杖的費用正常運作時間 SLA3延遲 SLA3
GPT-5.1
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5 mini
不支援長段文字記憶力解功能1
US$0.45US$0.045US$3.6099.9%每秒 99% > 80 個權杖2
GPT-5.1 codex
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5 codex
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-4.1
不支援長段文字記憶力解功能1
US$3.50US$0.875US$14.0099.9%每秒 99% > 80 個權杖2
GPT-4.1 mini
不支援長段文字記憶力解功能1
US$0.70US$0.175US$2.8099.9%每秒 99% > 90 個權杖2
GPT-4.1 nano
不支援長段文字記憶力解功能1
US$0.20US$0.050US$0.8099.9%每秒 99% > 100 個權杖2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$4.25US$2.125US$17.0099.9%每秒 99% > 80 個權杖2
gpt-4o-2024-05-13
US$8.75US$26.2599.9%每秒 99% > 80 個權杖2
GPT-4o mini
US$0.25US$0.125US$1.0099.9%每秒 99% > 90 個權杖2
o3
US$3.50US$0.875US$14.0099.9%每秒 99% > 80 個權杖2
o4-mini
US$2.00US$0.500US$8.0099.9%每秒 99% > 90 個權杖2
1預估使用超過 12.8 萬個提示權杖的請求
2以每 5 分鐘為單位,計算第 50 百分位的請求延遲。客戶若已簽訂企業合約,且延遲 SLA 是以每分鐘計算第 50 百分位的請求延遲為準,則原來的 SLA 仍適用。
3僅適用於 Enterprise 方案客戶

如何運作

客戶可透過現有的「service_tier」參數,於每次請求時指定使用優先處理服務,只需設定 service_tier="default" 即可。

優先處理服務所使用的 token 將按其數量計費,價格相較於標準處理服務稍高。 

除了可在單一請求中設定之外,我們也計劃在近期內新增專案層級的選擇權限,讓使用者可整體啟用優先處理服務。

限制

  • 優先處理服務的速率限制是與其他服務層級共用的。 
  • 少數情況下,若您的優先處理服務每分鐘 token 量增加過快,可能會觸發速率提升限制。若超過速率提升限制,額外的流量可能會被轉送至標準處理服務。

定價

擴充層級將會與優先處理服務分開運作。

送往優先處理服務的請求將會另外計費,且不會計入您購買的擴充層級每分鐘 token 配額 (TPM)。

模型

目前尚未提供。我們將在未來評估是否將優先處理服務擴展至最新模型以外的其他產品。

速率限制

優先處理服務的使用量在速率限制上與標準 API 流量同等。

可靠性

若有任何問題或疑慮,請聯絡您的 AD。 

優先處理服務的 SLA 將與擴充層級的 SLA 採相同標準處理;若在特定時間內未達到承諾的 SLA,並且客戶屬於企業合約方案,我們將提供服務額度回饋作為補償。

政策