API 客戶的優先處理服務

此方案僅提供給 Enterprise 客戶使用。請聯絡我們的銷售團隊⁠ ，深入了解詳情。

優先處理服務可提供穩定且高速的效能，同時保有隨用隨付的靈活性。

選擇優先處理服務後，您就可以獲得：

可預期的低延遲：優先處理服務即使在高峰期間，也能比標準處理服務更快速、更穩定地生成 token。
便於利用的靈活性：與標準處理相同，優先處理服務也可以透過彈性的隨用隨付方式使用，無需事先部署。

	每一百萬個輸入權杖的費用	每一百萬個輸入權杖的費用 (快取)	每一百萬個輸出權杖的費用	正常運作時間 SLA³	延遲 SLA³
GPT-5.1 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 mini 不支援長段文字記憶力解功能¹	US$0.45	US$0.045	US$3.60	99.9%	每秒 99% > 80 個權杖²
GPT-5.1 codex 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 codex 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-4.1 不支援長段文字記憶力解功能¹	US$3.50	US$0.875	US$14.00	99.9%	每秒 99% > 80 個權杖²
GPT-4.1 mini 不支援長段文字記憶力解功能¹	US$0.70	US$0.175	US$2.80	99.9%	每秒 99% > 90 個權杖²
GPT-4.1 nano 不支援長段文字記憶力解功能¹	US$0.20	US$0.050	US$0.80	99.9%	每秒 99% > 100 個權杖²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4.25	US$2.125	US$17.00	99.9%	每秒 99% > 80 個權杖²
gpt-4o-2024-05-13	US$8.75	—	US$26.25	99.9%	每秒 99% > 80 個權杖²
GPT-4o mini	US$0.25	US$0.125	US$1.00	99.9%	每秒 99% > 90 個權杖²
o3	US$3.50	US$0.875	US$14.00	99.9%	每秒 99% > 80 個權杖²
o4-mini	US$2.00	US$0.500	US$8.00	99.9%	每秒 99% > 90 個權杖²

1預估使用超過 12.8 萬個提示權杖的請求

2以每 5 分鐘為單位，計算第 50 百分位的請求延遲。客戶若已簽訂企業合約，且延遲 SLA 是以每分鐘計算第 50 百分位的請求延遲為準，則原來的 SLA 仍適用。

3僅適用於 Enterprise 方案客戶

如何運作

客戶可透過現有的「service_tier」參數，於每次請求時指定使用優先處理服務，只需設定 service_tier="default" 即可。

優先處理服務所使用的 token 將按其數量計費，價格相較於標準處理服務稍高。

除了可在單一請求中設定之外，我們也計劃在近期內新增專案層級的選擇權限，讓使用者可整體啟用優先處理服務。

限制

優先處理服務的速率限制是與其他服務層級共用的。
少數情況下，若您的優先處理服務每分鐘 token 量增加過快，可能會觸發速率提升限制。若超過速率提升限制，額外的流量可能會被轉送至標準處理服務。

定價

擴充層級將會與優先處理服務分開運作。

送往優先處理服務的請求將會另外計費，且不會計入您購買的擴充層級每分鐘 token 配額 (TPM)。

模型

目前尚未提供。我們將在未來評估是否將優先處理服務擴展至最新模型以外的其他產品。

速率限制

優先處理服務的使用量在速率限制上與標準 API 流量同等。

優先處理服務設有速率提升限制，以確保所有客戶都能享有穩定且高效的效能，同時維持靈活性及按需付費的價格機制。如果 (a) 優先處理服務的效能下降，且 (b) 客戶的流量提升速度過快，部分優先處理的請求可能會被降級至標準處理服務。

目前優先處理服務的速率提升限制規定為：每分鐘處理至少 10 萬個 token，且在不到 15 分鐘內，流量增加超過 50%。

由標準服務層級處理的請求將依標準費率計費，且不適用於優先處理服務等級目標。

由標準服務層級處理的請求，回應中會包含 service_tier="default"。

遵守速率提升限制的最佳做法

更換模型時，請逐步增加流量。例如，當您的應用程式從舊版本切換到新版本時，建議使用功能標記在數小時內逐步轉換流量，而非一次性全部轉換。
避免在優先處理服務上執行大量資料處理或非同步任務。這些任務會快速增加流量，且通常不需要優先處理服務所帶來的效能提升。
如果您經常遇到速率提升限制，建議考慮購買擴充層級容量，作為替代或補充方案。

可靠性

若有任何問題或疑慮，請聯絡您的 AD。

優先處理服務的 SLA 將與擴充層級的 SLA 採相同標準處理；若在特定時間內未達到承諾的 SLA，並且客戶屬於企業合約方案，我們將提供服務額度回饋作為補償。

政策

是

API 客戶的優先處理服務

如何運作

限制

定價

這項功能與擴充層級之間如何協調運作？

我可以自動將擴充層級超出配額的流量轉到優先處理服務嗎？

我的年度合約是綁定在特定處理模式上的嗎？

我還能享有快取輸入 token 的折扣嗎？

如何檢視我的優先處理服務使用量和花費？

模型

優先處理服務是否適用於長上下文模型、微調模型、向量嵌入等？

其他模態如何與優先處理搭配運作？

是否支援未來其他模型？

速率限制

速率限制是多少？

速率提升限制是多少？

速率提升限制會在我的專案或組織之間共用嗎？

可靠性

如果優先處理服務未達到延遲目標，會如何處理？

政策

優先處理服務是否支援資料落地機制？

優先處理服務是否支援 ZDR (零資料保留) 和 BAA (商業夥伴協議)？